Cours de mathématiques
|
|
|
- Constance Lheureux
- il y a 9 ans
- Total affichages :
Transcription
1 Cours de mathématiques Ó Ø Ó Ö ¾¼½ PSI Aurélien Monteillet
2 ii
3 Ce document contient les notes d un cours de mathématiques pour la classe de PSI. Les démonstrations non exigibles ou hors programme sont explicitement repérées comme telles dans les notes. Bonne lecture! Ce document est mis à disposition selon les termes de la Licence Creative Commons (Attribution Pas d Utilisation Commerciale Partage dans les Mêmes Conditions 3.0 France) iii
4 iv
5 Sommaire 1 Suites numériques 1 I. Définitions et résultats fondamentaux II. Suites définies par récurrence III. Suites récurrentes linéaires d ordre Séries numériques 11 I. Définition et convergence d une série II. Séries de réels positifs III. Convergence absolue IV. La formule de Stirling V. Le théorème des séries alternées VI. Produit de deux séries Espaces vectoriels et applications linéaires 31 I. Espaces vectoriels II. Somme et somme directe de sous-espaces vectoriels III. Applications linéaires IV. Isomorphismes et automorphismes V. Rang et théorème du rang VI. Formes linéaires et hyperplans Matrices 63 I. Calcul matriciel II. Matrices, vecteurs et applications linéaires III. Image, noyau et rang d une matrice IV. La méthode de Gauss-Jordan V. Trace d une matrice et d un endomorphisme VI. Sous-espaces stables VII. Déterminant Espaces vectoriels normés. Convergence et continuité 107 I. Espaces vectoriels normés II. Suites d un espace vectoriel normé de dimension finie III. Vocabulaire de topologie IV. Fonctions entre espaces vectoriels normés : limite et continuité V. Propriétés des fonctions continues à valeurs réelles VI. Le cas des applications linéaires et multilinéaires Suites et séries de fonctions 129 I. Différents modes de convergence II. Limite et continuité des suites et séries de fonctions III. Intégration des suites et séries de fonctions IV. Dérivation des suites et séries de fonctions v
6 7 Dérivation et intégration des fonctions de R dans K 145 I. Théorème de Rolle et accroissements finis II. Dérivées d une bijection réciproque III. Intégration sur un segment des fonctions continues : quelques rappels IV. Intégrale sur un segment des fonctions continues par morceaux V. Méthodes de calculs d intégrales VI. Formules de Taylor Réduction des endomorphismes et des matrices carrées 161 I. Éléments propres d un endomorphisme et d une matrice carrée II. Recherche des éléments propres, polynôme caractéristique III. Diagonalisabilité IV. Réduction et polynômes annulateurs V. Endomorphismes et matrices trigonalisables Espaces probabilisés 183 I. Ensembles dénombrables II. Espaces probabilisés III. Probabilités conditionnelles IV. Événements indépendants Intégrales généralisées 199 I. Convergence des intégrales généralisées II. Intégrales absolument convergentes, fonctions intégrables III. Méthodes de calcul des intégrales généralisées IV. Comparaison entre une série et une intégrale V. Espaces fonctionnels et fonctions intégrables Interversions pour les intégrales généralisées. Intégrales à paramètre 215 I. Les théorèmes d interversion pour les intégrales généralisées II. Intégrales à paramètre Espaces préhilbertiens, espaces euclidiens 225 I. Produit scalaire II. Orthogonalité III. Distance IV. Formes linéaires sur un espace euclidien Séries entières 243 I. Définition et convergence des séries entières II. Opérations sur les séries entières III. Régularité de la somme d une série entière IV. Développements en séries entières Variables aléatoires 257 I. Définitions, premières propriétés II. Loi d une variable aléatoire III. Familles de variables aléatoires IV. Espérance V. Séries génératrices des variables aléatoires à valeurs dans N VI. Variance Endomorphismes remarquables des espaces euclidiens 289 I. Isométries vectorielles II. Endomorphismes symétriques III. Espaces euclidiens orientés de dimension 2 et vi
7 16 Fonctions vectorielles. Arcs paramétrés 307 I. Dérivation des fonctions à valeurs vectorielles II. Dérivées d ordre supérieur III. Arcs paramétrés Équations différentielles 323 I. Résultats théoriques sur les systèmes différentiels II. Systèmes à coefficients constants sans second membre III. Équations scalaires d ordre IV. Équations scalaires d ordre Fonctions de plusieurs variables. Calcul et géométrie différentiels 341 I. Fonctions de classe C II. Problèmes d extrema III. Dérivées partielles d ordre IV. Résolution d équations aux dérivées partielles V. Courbes et surfaces Annexe 1 : Relations de comparaison 367 I. Le cas des suites II. Le cas des fonctions Annexe 2 : Intégrales de Wallis 373 vii
8 viii
9 Chapitre 1 Suites numériques I. Définitions et résultats fondamentaux Dans cette partie, on considère une suite (u n ) n N d éléments de K = R ou C, i.e., une application de N dans K. Toutes les définitions et tous les théorèmes que nous allons donner peuvent être adaptés au cas d une suite (u n ) n p définie à partir d un certain rang p. 1. Convergence d une suite Définition Soit l K. On dit que (u n ) converge vers l (ou que u n tend vers l) si On note ceci u n l. ε > 0, n 0 N; n n 0, u n l ε. On dit que (u n ) est convergente s il existe l K tel que u n l. Dans ce cas, l est unique, il est appelé limite de (u n ) et noté lim u n. Lorsque K = R, on dit que (u n ) a pour limite + (ou diverge vers +, ou que u n tend vers + ) si : A > 0, n 0 N; n n 0, u n A. On définit de façon analogue le fait que (u n ) a pour limite. On note ceci u n + (ou u n ). Sinon, on dit que (u n ) diverge. Démonstration de l unicité de la limite On suppose qu il existe l et l dans K qui sont tous deux limites de (u n ). Soit ε > 0 fixé; il existe n 1 et n 2 dans N tels que Alors, pour tout n n 0 = max{n 1,n 2 }, n n 1, u n l ε et n n 2, u n l ε. l l = l u n + u n l u n l + u n l 2ε. Le nombre positif l l est plus petit que toute constante strictement positive, il est donc nul, ce qui prouve que l = l. Remarque En adaptant cet argument, on montre bien sûr l unicité de la limite y compris dans le cas des limites infinies. 1
10 Théorème de la limite monotone Soit (u n ) une suite croissante majorée de nombres réels. Alors (u n ) converge et lim u n = sup {u n ; n N}. Toute suite croissante non majorée de nombres réels a pour limite +. Démonstration Soit (u n ) n N une suite croissante majorée et soit M = sup {u n ; n N}. Soit ε > 0 fixé. Par définition de la borne supérieure, il existe n 0 N tel que u n0 M ε (en effet, M ε < M, donc M ε n est pas un majorant de {u n ; n N}). Par croissance de (u n ), on a alors, pour tout n n 0, u n u n0 M ε. Sachant de plus que pour tout n, u n M M + ε, on a finalement, pour tout n n 0, u n M ε, donc u n M. Soit (u n ) n N une suite croissante non majorée et soit A > 0 fixé. Il existe n 0 N tel que u n0 A, et par croissance de u n, on a pour tout n n 0, u n u n0 A, ce qui montre que u n +. Remarques On a un résultat analogue pour une suite décroissante, selon qu elle est minorée ou non (avec une limite finie ou égale à ). Bien entendu, ce n est pas la seule possibilité qu a une suite pour converger : par exemple, la suite (( 1) n /n) n 1 converge vers 0 mais n est ni croissante, ni décroissante. Définition Soient (u n ) et (v n ) deux suites de réels. On dit que (u n ) et (v n ) sont adjacentes si (u n ) est croissante et (v n ) décroissante (ou le contraire), u n v n 0. Théorème Deux suites adjacentes sont convergentes et ont la même limite. Démonstration Quitte à échanger les rôles de (u n ) et (v n ), on peut supposer que (u n ) est croissante et (v n ) décroissante. Soit ε > 0 fixé et n 0 N tel que u n v n ε. Pour tout n n 0, on a en particulier u n v n + ε v 0 + ε par décroissance de (v n ). Donc (u n ) est majorée. Sachant de plus qu elle est croissante, elle converge d après le théorème de la limite monotone. Soit l sa limite. On montre de même que (v n ) converge et on note l sa limite. Alors en passant à la limite dans l inégalité u n v n ε valable pour n n 0, on obtient l l ε. Ceci étant vrai pour tout ε > 0, on a l = l, ce qui termine la démonstration. 2
11 2. Suites extraites Définition On appelle suite extraite de la suite (u n ) (ou sous-suite de (u n )) toute suite de la forme (v n ) = (u ϕ(n) ) où ϕ : N N est une application strictement croissante. Remarque Une suite extraite de (u n ) est une suite constituée de certains des termes de (u n ); les valeurs prises par ϕ représentent les indices choisis (qui apparaissent par ordre strictement croissant). Les propriétés de ϕ entraînent immédiatement (par récurrence) que ϕ(n) n pour tout n N. Exemple Les suites (u 2n ), (u 2n+1 ), (u n 2) sont extraites de (u n ). Propriété Si (u n ) converge, alors toute suite extraite de (u n ) converge, et admet la même limite. On a un résultat analogue si (u n ) a pour limite + ou. Démonstration On démontre le résultat dans le cas d une limite l K, les autres cas sont similaires. Soit ε > 0 fixé; il existe n 0 N tel que pour tout n n 0, u n l ε. Soit (u ϕ(n) ) une suite extraite de (u n ). Alors d après la remarque précédente, pour tout n n 0, ϕ(n) n n 0, et donc u ϕ(n) l ε, ce qui prouve le résultat. Remarque On emploie très souvent la contraposée de cette propriété : pour montrer qu une suite n a pas pour limite l, on en construit une suite extraite qui n a pas pour limite l; pour prouver qu une suite diverge, on construit deux suites extraites qui ont des limites différentes. Ainsi les suites (( 1) n ), (cos(nπ/2)) et (2 n( 1)n ) divergent. Inversement, on a le résultat suivant : Propriété Si les suites (u 2n ), (u 2n+1 ) convergent vers la même limite l, alors (u n ) converge vers l. On a un résultat analogue si (u 2n ), (u 2n+1 ) tendent vers +, ou vers. Démonstration À nouveau, on fait la preuve dans le cas d une limite l K. Soit ε > 0 fixé; il existe n 0 N et n 1 N tels que pour tout n n 0, u 2n l ε et pour tout n n 1, u 2n+1 l ε. Alors, pour tout p max{2n 0,2n 1 + 1}, u p l ε; en effet, soit p est pair, de la forme 2n avec n n 0, soit il est impair, de la forme 2n + 1 avec n n 1. On a donc montré que u n l. n Exemple On pose, pour n N ( 1) k, S n =. k k=1 Les suites (S 2n ) et (S 2n+1 ) sont adjacentes car n N, n N, n N, S 2n+2 S 2n = ( 1)2n+2 2n ( 1)2n+1 2n + 1 = 1 2n n + 1 < 0, S 2n+3 S 2n+1 = ( 1)2n+3 2n ( 1)2n+2 2n + 2 = 1 2n n + 3 > 0, S 2n+1 S 2n = ( 1)2n+1 2n + 1 et donc S 2n+1 S 2n 0. On en déduit que (S 2n ) et (S 2n+1 ) convergent vers la même limite l R, et donc, que (S n ) converge vers l. Ceci montre que la série harmonique alternée ( 1) k 1 est convergente. k k 1 3
12 II. Suites définies par récurrence Soit D un sous-ensemble de K, f : D K, a D et n 0 N. On définit la suite (u n ) n n0 par u n0 = a et pour tout entier n n 0, u n+1 = f(u n ). Définition de la suite : pour que l existence de u n entraîne l existence de u n+1, il suffit que u n D. En général, il suffira de vérifier que D est stable par f, c est-à-dire que f(d) D. Si a D, on admettra que cela entraîne que (u n ) n n0 est bien définie, de façon unique, et à termes dans D (l unicité se montre facilement par récurrence, mais l existence est plus délicate, elle est liée à la théorie des ensembles). On supposera dans la suite que (u n ) n n0 est bien définie avec u n D pour tout n n 0. Convergence : le plus souvent, la fonction f est continue sur D. Donc, si (u n ) converge vers l et si l D, alors en passant à la limite dans la relation u n+1 = f(u n ), on obtient f(l) = l. Les solutions de cette équation sont appelés les points fixes de f. Si l équation f(l) = l n a pas de solution dans D, alors, soit la suite (u n ) est divergente, soit u n tend vers un point du «bord» de D (y compris, éventuellement, ± ). On est donc amené à chercher les solutions de cette équation dans D et à vérifier si la suite (u n ) converge ou non vers un tel nombre l. Une fois les points fixes de f déterminés, la vérification de la convergence est facilitée dans les cas suivants : La fonction f est contractante sur D, c est-à-dire k [0,1[, (a,b) D 2, f(b) f(a) k b a. ( ) Lorsque K = R et D est un intervalle, le théorème des accroissements finis peut permettre de trouver une valeur de k s il en existe : si f est dérivable sur D et si f k sur D, alors f est k-contractante. Tout d abord, l inégalité ( ) assure l unicité d un éventuel point fixe de f dans D : si a et b sont deux points fixes de f dans D, alors d après ( ), on a b a = f(b) f(a) k b a. Sachant que k [0,1[, cela entraîne que a = b. Supposons que l soit un point fixe de f dans D. En remplaçant b par u n D et a par l D dans ( ), on en déduit que n n 0, u n+1 l k u n l. Par récurrence sur n, on montre alors que n n 0, u n l k n n 0 u n0 l. Pour n = n 0, la propriété est vraie car u n0 l k 0 u n0 l. Supposons la propriété vraie pour un certain entier naturel n. Alors d après l inégalité ( ), u n+1 l k u n l k k n n 0 u n0 l = k n+1 n 0 u n0 l. La propriété est donc vraie au rang n + 1, et par principe de récurrence, elle est vraie pour tout n n 0. On conclut que (u n ) converge vers l car k n tend vers 0. De plus, pour ǫ > 0 fixé, on peut trouver n tel que u n l < ǫ : il suffit que k n n 0 u n0 l < ǫ (pour être exploitable, cela supose de connaître au moins une majoration de u n0 l ). 4
13 K = R et f(x) x est de signe constant sur D ; dans ce cas la suite (u n ) est monotone. Si f(x) x sur D, la suite (u n ) est croissante. Si f(x) x sur D, la suite (u n ) est décroissante. En effet, si f(x) x sur D, alors pour tout n n 0, u n+1 = f(u n ) u n, donc (u n ) est croissante. On procède de même si f(x) x sur D. K = R et la fonction f est croissante sur D ; dans ce cas la suite (u n ) est monotone. Si f(u n0 ) = u n0 +1 u n0, on montre par récurrence que la suite (u n ) est croissante. En effet la propriété «u n+1 u n» est vraie au rang n 0 et héréditaire car u n+1 u n entraîne, par croissance de f, que f(u n+1 ) f(u n ), c est-à-dire u n+2 u n+1. Si f(u n0 ) = u n0 +1 u n0, on montre de même que la suite (u n ) est décroissante. Dans les cas évoqués dans les deux derniers points, le problème est donc ramené à trouver un majorant ou un minorant (qui pourra être la limite l supposée) afin d appliquer le théorème de la limite monotone. K = R et la fonction f est décroissante sur D ; dans ce cas la fonction f f est croissante. On étudie alors les suites extraites (v n ) = (u 2n ) et (w n ) = (u 2n+1 ). Ce sont des suites récurrentes associées à la fonction croissante f f. Elles sont donc monotones d après le point précédent, et en fait, elles sont de monotonie contraire : par exemple si (u 2n ) est croissante, pour tout n tel que 2n n 0, u 2n+2 u 2n, donc par décroissance de f, u 2n+3 u 2n+1. Ainsi (u 2n+1 ) est décroissante. Pour que (u n ) converge, il faut et il suffit que (v n ) et (w n ) convergent vers la même limite, ce que l on peut essayer de montrer en utilisant le théorème de la limite monotone et en étudiant les points fixes de f f dans D. Si (v n ) et (w n ) convergent vers la même limite l, alors (u n ) converge vers l. Remarques Dans la pratique, pour que certaines des propriétés ci-dessus soient vraies (stabilité de D par f, comportement de f), on est souvent amené à choisir D en restreignant l ensemble de définition de f, quitte à étudier plusieurs cas, chacun correspondant à un choix différent de D. Pour guider ce choix et bien visualiser la situation, il est souvent judicieux de commencer par un graphique, sur lequel on représente les courbes d équation y = x et y = f(x). Mais bien sûr, un dessin ne constitue pas une démonstration. Cas particuliers : Suite arithmétique de raison b : n n 0, u n+1 = u n + b. On a alors, pour tout n n 0, u n = u n0 + (n n 0 )b. Si b = 0, la suite est constante, si b 0, la suite ne converge pas ( u n tend vers + ). Suite géométrique de raison a : n n 0, u n+1 = au n et u n0 0. On a alors, pour tout n n 0, u n = a n n 0 u n0. si a < 1, la suite converge vers 0. si a > 1, la suite ne converge pas ( u n tend vers + ). si a = 1, la suite diverge (u n = u n0 si n n 0 est pair, u n = u n0 sinon). si a = 1, la suite est constante. Suite arithmético-géométrique : n n 0, u n+1 = au n + b avec a 1. L unique point fixe de f : x ax + b est l = b. On se ramène à l étude d une suite 1 a géométrique définie par v n = u n l. En effet, pour tout n n 0, v n+1 = u n+1 l = (au n + b) (al + b) = a(u n l) = av n. On a donc, pour tout n n 0, v n = a n n 0 v n0 = a n n 0 (u n0 l), puis ( u n = l + a n n 0 (u n0 l) = u n0 b 1 a + an n 0 b 1 a ). 5
14 Exemple Étudions la suite définie par u 0 R et pour tout n N, u n+1 = 2u n u 2 n. Posons, pour tout x réel, f(x) = x(2 x); la situation peut être représentée sur le graphique ci-dessous, où l on a représenté le comportement de (u n ) pour deux choix de valeurs initiales u y = x y = f(x) u 3 u 2 u 1 u 0 u 0 u 1 1 u 2 2 La fonction f est définie sur R, en particulier, quel que soit u 0, la relation u n+1 = f(u n ) définit bien (u n ). De plus f est strictement croissante sur ],1] et strictement décroissante sur [1, + [. Premier cas : u 0 = 0, u 0 = 1 ou u 0 = 2. On remarque que f(0) = f(2) = 0. En particulier si u 0 = 0, alors u n = 0 pour tout n par une récurrence immédiate. Si u 0 = 2, alors u 1 = 0 puis u n = 0 pour tout n 1. Enfin on remarque que f(1) = 1 donc, si u 0 = 1, alors u n = 1 pour tout n N. Limites possibles : si (u n ) converge vers un certain réel l, alors d après la relation u n+1 = f(u n ) et par continuité de f, on a l = f(l), donc l l 2 = 0, i.e. l = 0 ou l = 1. Deuxième cas : u 0 I 0 = ],0[. L intervalle I 0 est stable par f car f est strictement croissante sur I 0 avec f(0) = 0. Par récurrence, on montre alors que u n I 0 pour tout n. Pour tout x I 0, f(x) x car x x 2 0. En particulier, pour tout n, u n+1 = f(u n ) u n, donc (u n ) est décroissante. Si elle convergeait, sa limite l devrait vérifier l u 0 < 0, ce qui contredit le fait que l = 0 ou 1. Donc u n d après le théorème de la limite monotone. Troisième cas : u 0 I 1 = ]0,1]. L intervalle I 1 est stable par f car f est strictement croissante sur I 1 avec f(0) = 0 et f(1) = 1. Pour tout x I 1, f(x) x car x x 2 = x(1 x) 0. On en déduit que (u n ) est à valeurs dans I 1 et qu elle est croissante. Elle est donc convergente, et sa limite l vérifie l I 1 par croissance de (u n ). Sachant que l = 0 ou l = 1, on a finalement l = 1 : (u n ) converge vers 1. Cas particulier du précédent : u 0 I 2 = [3/4,1]. La fonction f est continue et croissante sur ],1], donc f(i 2 ) = [f(3/4),f(1)] = [15/16,1] I 2. De plus f est dérivable sur R avec f (x) = 2(1 x) 1 2 pour tout x I 2. La fonction f est donc 1/2-contractante sur I 2. Si u 0 I 2, alors pour tout n N, u n I 2 car I 2 est stable par f, et u n+1 1 = f(u n ) f(1) 1 2 u n 1. 6
15 On montre alors par récurrence sur n que u n n u 0 1 pour tout n N. On retrouve, par encadrement, le fait que dans ce cas, u n 1, car 1/2 n 0. Mais on a de plus une estimation de la vitesse de convergence. D ailleurs, dans le cas où u 0 I 0 = ]0,1], on a montré que (u n ) converge vers 1 en croissant. Il existe donc n 0 N tel que u n0 [3/4,1]. L estimation de la vitesse de convergence s applique à partir de n 0. Autres cas : si u 0 [1,2[, alors u 1 ]0,1] = I 1 et, à un décalage d indice près, on est dans la situation du troisième cas, donc u n 1. Si u 0 > 2, alors u 1 ],0[= I 0 et, à un décalage d indice près, on est dans la situation du deuxième cas, donc u n. III. Suites récurrentes linéaires d ordre 2 Les raisonnements de cette partie utilisent des notions d algèbre linéaire, vues en première année et qui seront rappelées en détails dans le chapitre Espaces vectoriels et applications linéaires. Soit (a,b) K 2. On cherche à déterminer l ensemble noté S a,b des suites d éléments de K, vérifiant la relation de récurrence linéaire d ordre 2 suivante : n N, u n+2 + au n+1 + bu n = 0. Première formulation : soit F : (u n ) n N (u n+2 +au n+1 +bu n ) n N. On vérifie très facilement que F L (K N ), et on cherche à déterminer l ensemble des solutions de l équation linéaire F(u) = 0 K N, i.e. S a,b = Ker(F). En particulier, S a,b est un sous-espace vectoriel de K N. Deuxième formulation : soit φ : { S a,b K 2 u = (u n ) (u 0,u 1 ) En imposant les conditions initiales u 0 = x et u 1 = y, le problème revient à déterminer l ensemble des éléments u de S a,b tels que φ(u) = (x,y). Théorème L application φ est un isomorphisme de S a,b sur K 2. En particulier, dim(s a,b ) = 2. Démonstration Tout d abord, φ est linéaire : soient u = (u n ) et v = (v n ) deux suites et λ un scalaire. Alors φ(λu + v) = (λu 0 + v 0,λu 1 + v 1 ) = λ(u 0,u 1 ) + (v 0,v 1 ) = λφ(u) + φ(v). La bijectivité de φ se traduit ainsi : pour tout (x,y) K 2, il existe une unique suite vérifiant la relation de récurrence d ordre 2, et dont les deux premiers termes sont respectivement x et y. Or, les relations { un+2 + au n+1 + bu n = 0 n N u 0 = x, u 1 = y définissent entièrement et de façon unique la suite (u n ) : φ est donc un isomorphisme. Reste à savoir comment déterminer explicitement une suite (u n ) de S a,b en fonction de ses deux premiers termes. Propriété Pour r K, la suite géométrique (r n ) n N appartient à S a,b si et seulement si r est une solution de l équation caractéristique associée : x 2 + ax + b = 0. (E) 7
16 Démonstration Si (r n ) n N appartient à S a,b, alors pour tout n N, r n+2 + ar n+1 + br n = 0. Avec n = 0, on obtient r 2 + ar + b = 0. Si r 2 + ar + b = 0, en multipliant cette égalité par r n, on obtient r n+2 + ar n+1 + br n = 0 pour tout n N, donc (r n ) n N appartient à S a,b. Théorème On suppose (a,b) (0,0). Si (E) admet deux racines distinctes r 1 et r 2 dans K, alors les suites ((r 1 ) n ) et ((r 2 ) n ) forment une base de S a,b. Pour tout (u n ) S a,b, il existe un unique couple (λ,µ) K 2 tel que, pour tout n N, u n = λ(r 1 ) n + µ(r 2 ) n. Si (E) admet une racine double r dans K, alors les suites (r n ) et (nr n ) forment une base de S a,b. Pour tout (u n ) S a,b, il existe un unique couple (λ,µ) K 2 tel que, pour tout n N, u n = λr n + µ nr n = (λ + µn)r n. Si K = R et si (E) admet deux racines complexes conjuguées distinctes z = ρe iθ et z, alors les suites (ρ n cos(nθ)) et (ρ n sin(nθ)) forment une base de S a,b. Pour tout (u n ) S a,b, il existe un unique couple (λ,µ) R 2 tel que, pour tout n N, u n = λρ n cos(nθ) + µ ρ n sin(nθ) = ρ n (λcos(nθ) + µ sin(nθ)). Démonstration On sait que ((r 1 ) n ) et ((r 2 ) n ) appartiennent à S a,b d après la propriété précédente. De plus, S a,b est de dimension 2. Il suffit donc de montrer que ((r 1 ) n ) et ((r 2 ) n ) sont indépendantes. Supposons qu il existe deux scalaires λ et µ tels que λ(r 1 ) n + µ(r 2 ) n = 0 pour tout n. On en déduit en particulier, pour n = 0 et n = 1, que (λ,µ) est solution du système linéaire { λ + µ = 0 λr 1 + µ r 2 = 0 Or, r 1 et r 2 étant distinctes, ce système est de rang 2, et son unique solution est (0,0). Donc λ = µ = 0. On procède de la même façon lorsque (E) possède une racine double r. Il suffit de remarquer que la suite (nr n ) appartient à S a,b car, pour tout n 0, (n + 2)r n+2 = (n + 2)r n [ (ar + b)] = a(n + 2)r n+1 b(n + 2)r n Or, r étant racine double du polynôme X 2 + ax + b, on a = a(n + 1)r n+1 bnr n (ar + 2b)r n. X 2 + ax + b = (X r) 2 = X 2 2rX + r 2. On en déduit que a = 2r et b = r 2, d où ar+2b = 0. Ainsi (nr n ) vérifie la relation de récurrence d ordre 2. La liberté de la famille se prouve comme dans le point précédent (elle est même plus simple, il suffit de remarquer que r 0 car (a,b) (0,0)). Enfin, lorsque K = R et (E) admet deux racines complexes conjuguées distinctes z = ρe iθ et z = ρe iθ, on sait d après le premier point que (z n ) et ( z n ) forment une base de S a,b vu comme C-espace vectoriel. Il suffit de remarquer que ρ n cos(nθ) = Re(z n ) = 1 2 (zn + z n ), 8
17 et donc (ρ n cos(nθ)) appartient à S a,b comme combinaison linéaire de (z n ) et ( z n ). De même, ρ n sin(nθ) = Im(z n ) = 1 2i (zn z n ), et donc (ρ n sin(nθ)) appartient à S a,b comme combinaison linéaire (dans C, même si cette suite est réelle) de (z n ) et ( z n ). La liberté de la famille se prouve à nouveau comme dans le premier point, en remarquant que ρ 0 et sin(θ) 0 car z est complexe non réel. Méthode Pour déterminer explicitement λ et µ, qui sont les coordonnées de (u n ) sur la base que l on vient d expliciter (selon les cas), on procède en considérant les deux premiers termes. Par exemple, dans le premier cas, pour trouver λ et µ tels que u n = λ(r 1 ) n + µ(r 2 ) n pour tout n N, on résout le système { λ + µ = u0 correspondant à n = 0 et n = 1. λr 1 + µ r 2 = u 1 Dans le second cas, on résout le système { λ = u0 et dans le troisième, { λr + µ r = u 1 λ = u 0 λρcos(θ) + µ ρsin(θ) = u 1. Dans tous les cas, le système à résoudre est de rang 2. Exemple Déterminons explicitement la suite (u n ) définie par u 0 = 0, u 1 = 1 et pour tout n N, u n+2 = u n+1 + u n. L équation caractéristique associée à cette suite suite récurrente linéaire d ordre 2 est qui possède deux racines distinctes, r 1 = X 2 = X + 1 et r 2 = On sait donc qu il existe (λ,µ) R 2 tel que pour tout n N, u n = λ(r 1 ) n + µ(r 2 ) n. Les conditions initiales donnent { { λ + µ = 0 λ + µ = 0 λr 1 + µr 2 = 1 λr 1 λr 2 = 1 λ + µ = 0 1 λ = r 1 r 2 λ = 1 5 µ = 1 5 Finalement, pour tout n N, ( u n = ) n ( ) n 5. 2 La suite (u n ) est appelée suite de Fibonacci. Le réel r 1 = est le nombre d or. 9
18 10
19 Chapitre 2 Séries numériques Dans ce chapitre, K désigne R ou C et (u n ) une suite d éléments de K. I. Définition et convergence d une série 1. Notion de série Définition Soit (u n ) une suite d éléments de K. Notons, pour tout entier naturel p, p S p = u n. On appelle série de terme général u n la suite (S p ) p N. Elle est notée u n, u n ou n. n 0 n Nu Le scalaire S p est appelée somme partielle d ordre p de cette série. n=0 Remarques Bien sûr, on s autorise aussi à considérer des suites (u n ) définies à partir d un certain rang n 0. Dans ce cas, on note n n 0 u n la série correspondante. On peut aussi poser u n = 0 pour n < n 0 afin de définir n 0 u n. Pour simplifier les notations, on écrira la plupart des résultats pour une série n 0 u n. On parle de séries numériques pour les distinguer des séries de fonctions, des séries entières, que nous étudierons également. Définition Somme d une série convergente La série n 0 u n est convergente (i.e., la suite (S p ) possède une limite dans K) si et seulement s il existe S K tel que Dans ce cas, cette limite S est notée p n=0 u n + n=0 S. p + Dans le cas contraire, la série est dite divergente. u n. Elle est appelée somme de la série. Remarque On notera bien la distinction entre les objets n 0u n et Le premier existe toujours et désigne une suite, le second existe si et seulement si la série converge, et désigne alors un élément de K. + n=0 u n. 11
20 Propriété/Définition Soit n 0 u n une série et m un entier naturel. Alors la série n m+1 u n est de même nature (convergente ou divergente) que n 0 u n. Si elle converge, sa somme R m = est appelé reste d ordre m de la série. + n=m+1 u n Démonstration Pour tout p m + 1, p u n n=0 p n=m+1 u n = ne dépend pas de p. La suite n 0 u n n m+1 u n est donc stationnaire. En particulier, les séries n 0 u n et n m+1 u n sont de même nature. Propriété Si n 0 u n converge, la suite (R m ) converge vers 0. m n=0 u n Démonstration En notant S p les sommes partielles de la série, on a en passant à la limite lorsque p + dans l égalité de la démonstration précédente, + n=0 et ce pour tout m N. Or, par définition, S m u n = S m + R m, + u n. Le résultat suit par différence. m + n=0 La propriété suivante montre que si nécessaire, l étude des séries de nombres complexes se ramène à l étude des séries de réels : Propriété Une série n 0 u n de nombres complexes converge si et seulement si les séries Re(u n ) et n 0 Im(u n ) (séries des parties réelles et imaginaires de u n ) convergent. Dans ce cas, + n=0 u n = + n=0 n 0 Re(u n ) + i + n=0 Im(u n ). Démonstration Pour tout p N, p u n = n=0 p (Re(u n ) + i Im(u n )) = n=0 p Re(u n ) + i n=0 p Im(u n ). Or, d après une propriété connue sur les suites, ( p n=0 u n) a une limite dans K si et seulement si sa partie réelle et sa partie imaginaire ont une limite finie (dans R), ce qui équivaut d après l égalité ci-dessus à la convergence des séries n 0 Re(u n) et n 0 Im(u n). En cas de convergence, on a l égalité souhaitée en passant à la limite dans l égalité ci-dessus. n=0 12
21 2. Premiers exemples Série géométrique Soit z un nombre complexe. On appelle série géométrique de raison z la série n 0z n. On sait que pour tout entier naturel p, p 1 z p+1 S p = z n si z 1 = 1 z n=0 p + 1 si z = 1. Ainsi, (S p ) est convergente si et seulement si : z 1 et (z p ) converge. Ceci équivaut à : z < 1. En effet, si z < 1, alors z 1 et (z p ) converge. Réciproquement, si z 1 et si (z p ) converge, alors z 1 (car (z p ) diverge si z > 1). Supposons que z = 1; sachant de plus que (z p ) converge, sa limite l vérifie l 0; en remarquant que z p+1 /z p = z pour tout p N, et en passant à la limite dans cette relation, on obtient z = 1, ce qui est exclu. Donc z < 1. En cas de convergence, on a + z n = 1 1 z. n=0 Si z est un nombre complexe tel que z < 1, alors le reste d ordre m de la série géométrique de raison z est Série harmonique R m = On appelle série harmonique la série k 1 + n=m+1 1 k. La série harmonique est divergente : en notant H n = H 2n H n = 2n k=1 1 n k 1 k = k=1 z n = zm+1 1 z. 2n k=n+1 n k=1 1 k 1 k 1 2n pour tout n 1, on a 2n k=n+1 1 = 1 2. Si la série harmonique convergeait, on aurait H 2n H n 0, ce que contredit l inégalité précédente. Série harmonique alternée On appelle série harmonique alternée la série ( 1) k 1. k k 1 La série harmonique alternée converge et sa somme est ln(2). En effet, on remarque que pour tout n 1, n ( 1) k 1 n 1 ( 1 n ) = ( 1) k 1 t k 1 dt = ( t) k 1 dt. k k=1 k=1 k=1 0 On reconnaît la somme des premiers termes d une série géométrique de raison t 1 : ( 1 n ) 1 ( 1) k 1 t k 1 1 ( t) n dt = dt = t t dt ( t) n t dt. Or, t dt = ln(2) et 1 0 ( t) n 1 + t dt k=1 t n dt = 1 n
22 Séries téléscopiques On appelle série télescopique une série de la forme n+1 u n ). n 0(u L expression des sommes partielles de cette série est très simple, car pour tout entier naturel p, p p p p+1 p (u n+1 u n ) = u n+1 u n = u n u n = u p+1 u 0. n=0 n=0 n=0 n=1 n=0 On en déduit le résultat suivant : Propriété La série n 0(u n+1 u n ) converge si et seulement si la suite (u n ) converge. Exemple Pour p 1, La série n 1 1 n(n + 1) p n=1 1 p ( 1 n(n + 1) = n 1 ) = 1 1 n + 1 p + 1. n=1 est donc convergente, et sa somme est Une condition nécessaire mais non suffisante de convergence Propriété Soit n 0u n une série convergente. Alors u n tend vers 0 lorsque n +. Démonstration En notant S n = n u k, on a, pour tout entier n 1, k=0 u n = S n S n 1. Par hypothèse, (S n ) converge, et donc (S n 1 ) converge également, vers la même limite. Par différence, u n 0. Attention! Il ne faut surtout pas confondre cette proposition avec sa réciproque qui est fausse : ce n est pas parce que le terme général d une série tend vers 0 que cette série converge : l exemple de la série harmonique le montre bien. Remarque On utilise souvent la contraposée de ce résultat : si u n ne tend pas vers 0, alors la série n 0 u n est divergente. On parle alors de divergence grossière. Remarques Par définition, étudier une série n 0 u n revient à étudier la suite (S p ) de ses sommes partielles. On pourrait donc croire que le travail est déjà fait. Pourtant, sauf cas très favorables, on ne peut pas simplifier l expression des sommes partielles S p. Nous allons voir qu en fait, on passe très rarement par l étude directe de la suite des sommes partielles pour étudier une série. On va donc plutôt développer des critères portant sur le terme général u n. Inversement, la démonstration précédente introduit une méthode intéressante pour étudier une suite (u n ) à partir de la série n 0 u n. En effet, on a vu que pour n 1, u n = S n S n 1. L étude de (S n ) donne donc des informations sur (u n ). 14
23 4. Opérations sur les séries Propriété Soient n 0 u n et n 0 v n deux séries convergentes, et λ K. Alors la série (λu n + v n ) n 0 converge et + (λu n + v n ) = λ + u n + + n=0 n=0 n=0 v n. Démonstration Pour p N, on a p (λu n + v n ) = λ n=0 p u n + n=0 p n=0 v n λ + u n + p + n=0 + v n par définition de la convergence des deux séries n 0 u n et n 0 v n et par combinaison linéaire de limites. Ceci signifie exactement que la série n 0 (λu n + v n ) converge ainsi que la formule annoncée. Corollaire L ensemble des séries convergentes d éléments de K est un K-espace vectoriel. n=0 Très souvent, les hypothèses des théorèmes sur les séries seront vérifiées à partir d un certain rang. Cela n empêchera pas leur application, grâce à la propriété suivante : Propriété Soit (u n ) et (v n ) deux suites dont seulement un nombre fini de termes diffèrent. Alors les deux séries n 0 u n et n 0 v n sont de même nature. Attention! En revanche, elles n ont pas nécessairement même somme. II. Séries de réels positifs 1. Critère de convergence, théorèmes de comparaison Propriété Soit n 0 u n une série à termes réels positifs. Alors, pour que cette série converge, il faut et il suffit que la suite de ses sommes partielles soit majorée. Dans ce cas, on a + n=0 u n = sup p 0 p u n. n=0 Démonstration La suite des sommes partielles (S p ) est croissante. Le résultat vient donc du théorème de la limite monotone : si (S p ) est majorée, alors la série converge vers sa borne supérieure, sinon elle diverge vers +. 15
24 Théorème Soient n 0 u n et n 0 v n deux séries à termes réels positifs, et soit n 0 N. Si pour tout n n 0, u n v n et si v n converge, alors u n converge et n 0 n u n v n. n=n 0 n=n 0 Si pour tout n n 0, u n v n et si u n diverge, alors n diverge. n 0 n 0v Si u n v n, alors les séries n 0 u n et n 0 v n sont de même nature. Rappel Pour des suites (u n ) et (v n ) à termes positifs telles que v n 0 à partir d un certain rang N, la condition u n v n signifie que u n v n 1, i.e., ε > 0, n 1 N, n 1 N; n n 1, (1 ε)v n u n (1 + ε)v n. Démonstration du théorème De l hypothèse, on déduit que pour tout p n 0, p p 0 u n v n. n=n 0 n=n 0 Si n 0 v n converge, n n 0 v n converge, donc la suite de ses sommes partielles est majorée d après la propriété précédente. Il en est donc de même pour n n 0 u n. D après la propriété précédente, n n 0 u n converge, et donc n 0 u n converge. De plus, en passant à la limite dans l inégalité précédente, on obtient u n v n. n=n 0 n=n 0 Le deuxième point est tout simplement la contraposée du premier. Si u n v n, alors il existe n 1 N tel que pour tout n n 1, 1 2 v n u n 3 2 v n. Les deux premiers points, et le fait que l on ne modifie pas la nature d une série par multiplication par un scalaire non nul, permettent de conclure. Exemples Montrons que la série n 1 1 converge. Pour tout n 2, n2 0 1 n 2 1 n(n 1). Or, nous avons prouvé plus haut (à un décalage d indices près), que la série n 2 On en déduit le résultat par comparaison de séries à termes positifs. De même, la série n 1 1 n(n 1) converge. 1 n diverge par comparaison avec la série harmonique : pour tout n 1, 0 1 n 1 n. Or on a montré plus haut que la série harmonique diverge. On en déduit le résultat par comparaison de séries à termes positifs. 16
25 La série n 1nsin ( ) 1 n 2 diverge : en effet ( ) 1 n sin n 2 1 n > 0. Par comparaison avec la série harmonique, divergente et à termes positifs, on en déduit le résultat. Remarques On peut bien sûr remplacer l hypothèse «à termes positifs» par l hypothèse «à termes négatifs» (si on le fait, ce doit être pour les deux séries). En revanche, l hypothèse de même signe constant est essentielle. Par exemple, pour n 1, 1 n 1 n 2, et la série n 1 1 n 2 converge. Bien sûr, pourtant, la série 1 n diverge. n 1 Le théorème précédent montre bien l utilité de connaître la nature de quelques séries de référence auxquelles on pourra essayer de comparer les séries que l on étudiera. Nous connaissons déjà la nature de la série géométrique, des séries de termes généraux 1/n, 1/n 2, 1/ n. En fait, ces trois derniers exemples se généralisent : Théorème/Définition : Séries de Riemann Une série de Riemann est une série de la forme 1 où α R. nα n 1 On a le critère suivant de convergence des séries de Riemann : n 1 1 converge si et seulement si α > 1. nα Démonstration Si α 1, alors pour tout n 1, 0 1 n 1 n α, donc la série n 1 1/nα diverge par comparaison avec la série harmonique. Si α > 1, on remarque que pour tout n 2, et pour tout t [n 1,n], 1 n α 1 t α, et donc, après intégration sur [n 1,n], intervalle de longueur 1, on a 1 n α n n 1 1 t α dt. En sommant ces inégalités pour n entre 2 et p 2, et en ajoutant le terme manquant correspondant à n = 1, on obtient, d après la relation de Chasles, p n=1 1 p n α [ 1 t α dt = (1 α)t α 1 ] p 1 = ( 1 1 ) α 1 p α α 1 car α 1 > 0. La suite des sommes partielles de la série n 1 1/nα, qui est à termes positifs, est majorée. On en déduit que la série n 1 1/nα converge lorsque α > 1. 17
26 Exemple La série n 0 n8 e n converge : la suite de terme général n 2 n 8 e n = n 10 e n tend vers 0 par croissances comparées puissance/exponentielle. Donc pour n assez grand, 0 n 8 e n 1 n 2. Par comparaison de séries à termes positifs, on en déduit le résultat, car la série de Riemann 1 n2, d exposant 2 > 1, converge. n 1 On peut souvent montrer par cet argument la convergence de séries dont le terme général converge assez vite vers 0. L idée de la démonstration du théorème précédent (dans le cas où α > 1) est généralisable : considérons une fonction f : [0, + [ R + continue et décroissante. Si n N, on a pour tout t [n 1,n], f(n) f(t), et donc, après intégration sur [n 1,n], De la même façon, pour tout n N, f(n) n+1 n n n 1 f(t)dt. f(t)dt f(n). Ceci est illustré sur le graphique suivant, l aire sous la courbe de f entre les points d abscisses n 1 et n étant minorée par l aire du rectangle de base 1 et de hauteur f(n), et l aire sous la courbe de f entre les points d abscisses n et n+1 étant majorée par l aire de ce même rectangle. C f f(n) n 1 n n + 1 En additionnant la première inégalité pour n entre 1 et p 1 puis en ajoutant f(0), et en additionnant la seconde pour n entre 0 et p, on obtient p+1 0 f(t)dt p f(n) f(0) + n=0 p 0 f(t)dt. On peut donc, grâce à la méthode des rectangles, encadrer les sommes partielles de la série n 0 f(n). Si l on sait calculer les intégrales de f, ou au moins décrire leur comportement, ceci peut permettre de décrire le comportement asymptotique des sommes partielles p n=0 f(n) lorsque p +. Remarque On adapte facilement cet encadrement : Lorsque f est définie sur [n 0, + [, comme dans la démonstration du critère de convergence des séries de Riemann avec n 0 = 1. Lorsque f est croissante. 18
27 Exemples La série harmonique correspond au choix de la fonction inverse qui est continue, décroissante et positive sur [1, + [; en mettant en oeuvre la méthode précédente, on obtient, pour tout p 1, p p t dt 1 p n f(1) t dt, n=1 c est-à-dire, ln(p + 1) p n=1 1 n 1 + ln(p). On retrouve la divergence de la série harmonique, mais bien plus précisément, car par encadrement, on obtient que p n=1 1 n ln(p). p + En effet, 1 + ln(p) ln(p) et p + ( ln(p + 1) = ln(p) + ln ) p = ln(p) + o(1) p + ln(p). p + En sommant différemment les inégalités obtenues par la méthode des rectangles, on peut obtenir d autres résultats intéressants. Par exemple, dans le cas des séries de Riemann convergentes, c està-dire lorsque f : t 1/t α avec α > 1 (f est continue, décroissante et positive sur [1, + [), on a pour tout n 2, n+1 n f(t)dt f(n) n n 1 f(t)dt. En sommant ces inégalités entre m + 1 avec m 1 et p m + 1, on obtient donc c est-à-dire p+1 m+1 f(t)dt p n=m+1 f(n) p m f(t)dt, 1 α 1 ( ) 1 (m + 1) α 1 1 (p + 1) α 1 p n=m+1 1 n α 1 α 1 ( 1 m α 1 1 ) p α 1. Lorsque p tend vers +, tous les termes ont une limite finie et on obtient 1 α (m + 1) α 1 n=m+1 1 n α 1 α 1 1 m α 1, ce qui entraîne que + n=m+1 1 n α m + 1 α 1 1 m α 1. On obtient donc un équivalent des restes d ordre m de la série n 1 1 lorsque m +. nα 19
28 2. La règle de d Alembert Théorème Règle (ou critère) de d Alembert Soit n 0u n une série à termes réels strictement positifs. On suppose que possède une limite l 0 (éventuellement infinie). ( un+1 u n ) Si l [0,1[, alors n 0u n converge. Si l > 1 ou si l = +, alors n 0 u n diverge grossièrement. Si l = 1, on ne peut pas conclure. Démonstration On suppose que ( un+1 u n ) a une limite l [0,1[. En appliquant la définition de la limite avec ε = 1 l 2, on en déduit qu il existe n 0 N tel que pour tout n n 0, 0 u n+1 u n l + ε = 1 + l 2 En notant k = 1 + l 2, on a k [0,1[ et pour n n 0, Montrons alors par récurrence que pour tout n n 0, < 1. 0 u n+1 u n k. (1) 0 u n u n 0 k n 0 kn. Pour n = n 0, le résultat est vrai car il se lit 0 u n0 u n0. Si le résultat est vrai au rang n, alors d après (1), 0 u n+1 ku n k u n 0 k n kn = u n 0 0 k n kn+1 ; 0 le résultat est donc vrai au rang n + 1 et d après le principe de récurrence, il est vrai pour tout n n 0. La série de terme général k n converge car c est la série géométrique de raison k [0,1[, donc la série u n0 k n kn converge. Par comparaison de séries à termes positifs, la série 0 n 0 u n n n 0 converge. On procède de la même façon dans le cas où l > 1. On obtient l existence de k > 1 tel que pour tout n assez grand, u n+1 u n k. On en déduit que k n = O(u n ). Or, sachant que k > 1, k n + lorsque n + et il en est donc de même pour u n. En particulier, n 0 u n diverge grossièrement. Remarques Lorsqu elle s applique, la règle de d Alembert permet de conclure à des convergences, ou des divergences grossières, c est-à-dire, des comportements particuliers. Souvent, la limite du quotient, si elle existe, est égale à 1, et on ne peut pas conclure par cet argument. Par exemple, il ne s applique pas aux séries n, 1/n 2. Souvent aussi, cette limite n existe pas et la règle ne s applique pas. En revanche, la règle de d Alembert est très efficace pour traiter des séries qui «ressemblent» à des séries géométriques. 20
29 Il n existe pas de réciproque à la règle de d Alembert : si une série n 0 u n à termes positifs converge, on ne peut pas en déduire quoi que ce soit sur le comportement du quotient u n+1 /u n, qui peut même ne pas être défini! Il est indispensable de passer à la limite dans la règle de d Alembert : si u n > 0 pour tout n, le fait que le quotient u n+1 /u n appartienne à [0,1[, ou à ]1, + ], pour tout n, ne permet aucune conclusion quant à la convergence ou divergence de la série n 0 u n. Exemple Soit x un réel positif. Montrons que la série n 0nx n converge si et seulement si x [0,1[. Si x = 0 le résultat est évident. Sinon, pour tout n, (n + 1)x n+1 nx n = n + 1 n x x. n + Par conséquent, d après la règle de d Alembert, si x < 1, la série converge, si x > 1, elle diverge. Si x = 1, on ne peut pas conclure par la règle de d Alembert mais on obtient la série n qui diverge grossièrement. 3. Développement décimal d un nombre réel On a l habitude, au point de ne plus y penser, d écrire nos nombres en base 10. Pourtant, notre système de numération est le fruit de plusieurs millénaires de maturation depuis l apparition des premiers systèmes de numérations additifs (égyptien, romain et grec par exemple), qui consistaient à représenter un nombre entier par juxtaposition de symboles représentant chacun une quantité fixée (1, 10, 50,...), la valeur du nombre représenté étant la somme des valeurs des différents symboles. Sont ensuite apparus des systèmes de numération dans lesquels la valeur d un symbole dépend de sa place dans l écriture : ils sont dits systèmes de numération de position. Les sytèmes chinois, babylonien et bien sûr les systèmes de base b en sont des exemples. Et ce n est qu autour du 4 e siècle de notre ère que le zéro, venu d Inde, efface les ambiguïtés dues aux espaces dans l écriture d un nombre, pour prendre, peu à peu, un véritable caractère opératoire. D ailleurs, la base 10 n est pas plus naturelle que d autres qui ont été et sont encore largement utilisées dans de nombreuses civilisations : la base 12 et la base 60 ont l avantage d offrir de plus nombreux diviseurs que la base 10; on se sert encore de la première pour compter les oeufs par exemple, de la seconde pour l heure. La base 2 enfin a pris toute son importance avec le développement de l informatique, évidemment (c est Leibniz qui en avait entrevu l importance). La notion de série permet de définir l écriture en base b des nombres réels ; donnons l exemple de l écriture décimale des réels de [0,1[. Propriété/Définition Soit (a n ) n 1 une suite d entiers naturels compris entre 0 et 9. Alors la série n 1 a n 10 n converge. En notant x sa somme, on a x [0,1], et on dit que cette série est un développement décimal (ou en base 10) de x. Démonstration Les a n étant compris entre 0 et 9 pour tout n 1, on a l encadrement 0 a n 10 n 9 10 n. Par comparaison avec une série géométrique de raison 0,1 et de premier terme 9 (dont la somme est 1, voir la remarque suivante), on en déduit la convergence de la série et le fait que x [0,1]. 21
30 Remarque Contrairement à ce qu on pourrait croire, un tel développement n est pas unique : posons + 9 x = 10 n = 0, Alors x = 9 + n=1 n= n = = 1 = 1, Pour éviter ce phénomène, on définit les développements décimaux propres : Définition Avec les notations précédentes, on dit que n 1 a n/10 n est un développement décimal propre de x si la suite (a n ) ne devient pas constante égale à 9. On a alors le résultat suivant : Théorème Tout réel x [0,1[ possède un unique développement décimal propre. Démonstration de l existence d un développement décimal (démonstration non exigible) Fixons x [0,1[. Dans ce qui suit, la notation a désigne la partie entière d un réel a. Pour tout n N, on pose A n = 10n x 10 n, en remarquant que A 0 = x = 0, et pour tout n 1, on pose a n = 10 n (A n A n 1 ), de sorte que A n soit la troncature de x à n décimales, et a n la n-ième décimale du développement de x. Pour tout n 1, on a 0 a n 9. En effet, d où On en déduit que 1 10 n = 10 n x 1 < 10 n x 10 n x, x 1 10 n < A n x. (2) ( x 1 ) ( 10 n x < A n A n 1 < x x 1 ) 10 n 1 = 1 10 n 1 et finalement l inégalité 0 a n 9 pour tout n 1. D après la propriété précédente, la série n 1 a n/10 n converge. En fait, on remarque que la série n 1 a n/10 n est télescopique, et pour tout p 1, p Or, d après l inégalité (2), A p a n p 10 n = n=1 n=1 (A n A n 1 ) = A p A 0 = A p. x, d où le résultat. p + Remarque On peut montrer qu un réel x [0,1[ est rationnel si et seulement si son développement décimal propre est périodique à partir d un certain rang. 22
31 III. Convergence absolue 1. Définition et lien avec la convergence La partie précédente montre que les séries à termes positifs jouent un rôle particulier et que l on dispose pour ces séries de critères de convergence. Il serait donc intéressant de pouvoir s y ramener. Pour cela, la démarche la plus naturelle est de considérer la série n 0 u n. Définition On dit que la série n 0 u n est absolument convergente si la série n 0 u n converge. Théorème Si n 0 u n est absolument convergente, alors elle est convergente. Dans ce cas, on a l inégalité triangulaire + + u n u n. n=0 n=0 Démonstration Les séries n 0 Re(u n) et n 0 Im(u n) sont absolument convergentes par comparaison, car pour tout n 0, Re(u n ) Re(u n ) 2 + Im(u n ) 2 = u n et de même Im(u n ) u n. Si l on montre que les séries n 0 Re(u n) et n 0 Im(u n) convergent, alors d après une propriété donnée plus haut, on saura que n 0 u n converge. Posons α n = Re(u n ) (ainsi n 0 α n converge) et Pour tout n N, α + n = max{0,α n } = 1 2 ( α n + α n ), α n = max{0, α n } = 1 2 ( α n α n ). 0 α + n α n, 0 α n α n. Par comparaison de séries à termes positifs, n 0 α+ n et n 0 α n convergent. On remarque enfin que l on a α n = α + n α n, et donc, par différence, n 0 α n converge. On procède de même avec la partie imaginaire. On a alors, pour tout p N, p u n n=0 d où, en passant à la limite, l inégalité souhaitée. Exemples p u n, La série géométrique n 0 zn est absolument convergente si et seulement si n 0 z n converge, ce qui équivaut à : z < 1. On remarque que dans ce cas, la convergence équivaut à la convergence absolue, mais c est un cas très particulier. La série ( 1) n est absolument convergente. n(n + 1) n 1 Attention! La réciproque du théorème ci-dessus est fausse, comme le montrent les exemples des séries harmonique et harmonique alternée : ( 1) n 1 converge mais ( 1) n 1 n n = 1 n diverge. n 1 n 1 n 1 Si la série ne converge pas absolument, on ne peut pas en déduire qu elle ne converge pas. n=0 23
32 2. Théorème de comparaison Théorème Soient n 0 u n une série à termes dans K, et n 0 v n une série à termes réels positifs. On suppose que u n = O(v n ) et que n 0 v n est convergente. Alors n 0 u n est absolument convergente, et donc convergente. Rappel Pour des suites (u n ) et (v n ) telles que v n 0 à partir d un certain rang N, la condition u n = O(v n ) signifie que la suite (u n /v n ) n N est bornée. Démonstration D après l hypothèse, il existe M R + et N N tels que pour tout n N, on ait u n Mv n. La série n 0 v n converge, donc n 0 Mv n converge également, et par comparaison de séries à termes positifs, n 0 u n converge, c est-à-dire que n 0 u n converge absolument. La convergence absolue entraîne la convergence, d où le résultat. Remarques L hypothèse u n = O(v n ) est en particulier vérifiée dans chacun des cas suivants, qui sont des cas particuliers fréquents d utilisation du théorème précédent : u n = o(v n ). Pour tout n assez grand, u n v n. u n v n. Si (u n ) est à valeurs dans K, on peut essayer d appliquer la règle de d Alembert à la suite ( ) u n+1. u n Si cette suite possède une limite l < 1, alors la série n 0 u n converge d après la règle de d Alembert, c est-à-dire que n 0 u n converge absolument, et donc elle converge. Si elle possède une limite l > 1 ou une limite infinie, alors la série n 0 u n diverge grossièrement, donc u n ne tend pas vers 0, et la série n 0 u n diverge également grossièrement (l utilisation de la divergence grossière est ici cruciale). Exemple Pour tout nombre complexe z, la série z n est absolument convergente. n! n 0 En effet, si z 0 (sinon la convergence est évidente), alors pour tout n N, z n+1 /(n + 1)! z n /n! = z et donc z n+1 /(n + 1)! n + 1 z n /n! 0. n + La règle de d Alembert s applique. Nous montrerons dans le chapitre Séries entières que la somme de cette série est e z. Cette série est appelée série exponentielle. De la convergence de cette série, on déduit notamment que pour tout nombre complexe z, z n n! 0. n + On retrouve ainsi un théorème de croissances comparées : pour tout z C, z n = o(n!). On peut de même retrouver certaines des autres croissances comparées usuelles : n α = o(a n ) si (α,a) C 2 et a > 1, n! = o(n n ). Cela n a rien d étonnant, en fait, leur démonstration classique repose sur le même principe que celui mis en oeuvre dans la démonstration de la règle de d Alembert : en notant u n le quotient dont on veut prouver qu il tend vers 0 (respectivement, u n = z n /n!, n α /a n ou n!/n n ), on montre que u n = O(k n ) pour un certain k [0,1[ en déterminant la limite du quotient u n+1 /u n. Dans les cas présentés, cette limite existe et vaut respectivement 0, 1/a et 1/e, dont le module est élément de [0,1[ dans les trois cas. 24
33 IV. La formule de Stirling Théorème ( n ) n On a l équivalent suivant : n! 2πn. e Idée de démonstration (non exigible) Notons, pour tout entier naturel n 1, u n = n! ( n e) n 2πn. Alors u n > 0 pour tout n 1; le but est de démontrer que u n 1. Pour cela, définissons ( ) un+1 v n = ln. Première étape : montrons que n 1v n converge. Par définition, pour tout n 1, ( ) un+1 v n = ln = ln u n ( n+1 e (n+1)! ) n+1 2π(n+1) n! ( n e) n 2πn u n = ln ( (n + 1)e Effectuons alors un développement limité de v n à l ordre 2 : ( v n = 1 n + 1 )( 1 2 n 1 ( )) 1 2n 2 + O n ( 3 = ( )) ( 1 1 2n + O n 2 2n + O = O ( 1 n 2 ). n n n ) (n + 1) n+1 n + 1 ( ( ) n n ) n = ln e n + 1 n + 1 ( ( ) n n+ 1) 2 = ln e n + 1 ( = 1 + n + 1 ) ( ) n ln 2 n + 1 ( = 1 n + 1 ) ( ln ). 2 n ( )) 1 n 2 La série de terme général 1/n 2 est une série de Riemann d exposant 2 > 1 donc convergente. Par comparaison, n 1v n converge absolument, et donc converge. Deuxième étape : montrons que (u n ) converge. Pour tout n 1, ln ( un+1 u n ) = ln(u n+1 ) ln(u n ), qui est le terme général d une série télescopique. La série n 1 v n étant convergente, on en déduit que la suite (ln(u n )) est convergente, puis que (u n ) converge vers une limite strictement positive, car la fonction exponentielle est continue et à valeurs strictement positives. Il existe donc l > 0 tel que n! ( n e ) n 2πn l. 25
34 Troisième étape : montrons que l = 1. On peut montrer (voir Annexe 2) que les intégrales de Wallis vérifient, pour tout entier naturel n, I n = π/2 0 sin n (x)dx I 2n = (2n)! 2 2n+1 (n!) 2 π, et que I 2n π 4n. Ainsi Sachant que on a donc Après simplifications, on obtient et donc l = 1. (2n)! 2 2n (n!) 2 1 πn. ( n ) n n! l 2πn, e l ( ) 2n 2n e 4πn l 2 ( n e ) 2n 2πn 2 2n 1 πn. 2 2n l πn 22n 1 πn, V. Le théorème des séries alternées Définition On appelle série alternée une série de la forme n 0 ( 1)n u n où (u n ) est une suite de nombres réels de signe constant. Exemples La série harmonique alternée, les séries n 0 ( 1) n n 2, n 0 ( 1) n 1 +, sont alternées. n Théorème spécial des séries alternées Soit n 0 ( 1)n u n une série alternée dont la valeur absolue du terme général ( u n ) n N est décroissante et converge vers 0. Alors : La série n 0( 1) n u n converge. Pour tout m N, + n=m ( 1) n u n est du signe de ( 1) m u m, et + n=m ( 1) n u n u m. Démonstration Nous allons faire la démonstration dans le cas où u n 0 pour tout n, l autre cas étant similaire (avec des inversions de signes). Notons (S n ) la suite des sommes partielles de la série. Nous allons montrer que les suites (S 2n ) et (S 2n+1 ) sont adjacentes. On sait que cela implique qu elles convergent vers la même limite, ce qui à son tour entraîne que (S n ) converge (vers cette même limite). Cela démontrera le premier point. 26
35 La suite (S 2n+1 ) est croissante; en effet, pour tout n N, S 2n+3 S 2n+1 = u 2n+2 u 2n+3 0, car (u n ) est décroissante. De même, pour tout n N, S 2n+2 S 2n = u 2n+1 + u 2n+2 0, et donc (S 2n ) est décroissante. Enfin, S 2n+1 S 2n = u 2n+1 0. D où le résultat. Démontrons maintenant l estimation de la somme et des restes. On sait d après ce qui précède que pour tout p N, En particulier, pour p = 0, S 2p+1 u 0 u 1 + n=0 + n=0 ( 1) n u n S 2p. ( 1) n u n u 0. Par décroissance de (u n ), on a u 0 u 1 0. On en déduit que + n=0 ( 1)n u n est du signe de u (ici, positif) et ( 1) n u n u 0. Pour l estimation de ( 1) n u n on remarque que la série n=0 n=m n m( 1) n u n = n 0( 1) n+m u n+m = ( 1) m n 0 ( 1) n u n+m est, au facteur ( 1) m près, une série alternée de réels dont la valeur absolue du terme général décroît vers 0. En lui appliquant ce qui précède, on obtient que + n=m ( 1)n u n est du signe de ( 1) m u m, et sa valeur absolue est majorée par u m. Exemple La série ( 1) n ( ) 1 est alternée, et n décroît vers 0. Cette série est donc n n 1 n 1 convergente et pour tout m 1, la somme + n=m ( 1) n n est du signe de ( 1) m, et est majorée en valeur absolue par 1 m. Par exemple, + n=1 + n=2 ( 1) n n 0 et ( 1) n n 0 et + n=1 + n=2 ( 1) n + 1, d où 1 n ( 1) n n 1 2, d où 0 n=1 + n=2 ( 1) n n 0, ( 1) n n 1 2. Remarques Lorsqu une série converge, son reste d ordre m tend vers 0 lorsque m +. Dans le cas d une série alternée qui vérifie les hypothèses du théorème spécial, on peut affiner ce résultat en donnant le signe de ce reste et en précisant la vitesse avec laquelle il tend vers 0. Parfois, les hypothèses du théorème ne sont vérifiées qu à partir d un rang n 0 1. Dans ce cas, la conclusion sur la convergence de la série reste vraie, mais le résultat sur le signe et la majoration des restes ne peut être appliqué que pour m n 0. 27
36 VI. Produit de deux séries Soient n 0 u n et n 0 v n deux séries d éléments de K. Si ces deux séries convergent, on sait que l on peut faire une combinaison linéaire de leur somme. On peut aussi se demander si on peut les multiplier, et si oui, si l on peut exprimer le produit obtenu comme somme d une série. Définition On appelle produit de Cauchy des séries n n 0 u n et n m 0 v n la série n n 0 +m 0 p+q=n u p v q. Lorsque n 0 = m 0 = 0, cette série s écrit de trois façons : n 0 n p v q = p+q=nu u k v n k = n 0 k=0 n 0 n u n k v k. k=0 Théorème (admis : démonstration non exigible) Soit u n et n deux séries absolument convergentes d éléments de K. n 0 n 0v Alors le produit de Cauchy de n 0 u n et n 0 v n est absolument convergent et ( + ) ( + ) u n v n = + n u k v n k = + n=0 n=0 n=0 k=0 n=0 k=0 n u n k v k. Exemple Pour x ] 1,1[, la série n 0 xn converge absolument. Calculons le carré de sa somme; d après le théorème précédent, ( + ) 2 + n + n + x n = x k x n k = x n = (n + 1)x n. n=0 n=0 k=0 n=0 k=0 D après la formule donnant la somme d une série géométrique, ( + ) 2 ( ) 1 2 x n =, 1 x n=0 de sorte que l on a montré que pour tout x ] 1,1[, + n=0 (n + 1)x n = 1 (1 x) 2. Nous verrons dans le chapitre Séries entières que cela n a rien d étonnant : il s agit d une opération de dérivation! Remarque Dans le cas du produit de Cauchy de deux séries n n 0 u n et n m 0 v n avec n 0 1 et/ou m 0 1, pour ne pas se tromper, il ne faut pas hésiter à se ramener au cas général en posant u n = 0 pour 0 n < n 0 et v n = 0 pour 0 n < m 0. On simplifie ensuite l expression obtenue. On pourra aussi faire des changements d indices : par exemple, n n 0 u n = n 0 u n+n 0. Contre-exemple L hypothèse d absolue convergence est importante, comme le montre le contreexemple suivant : considérons la série ( 1) n, n n 1 n=0 28
37 qui est convergente d après le théorème des séries alternées, mais pas absolument convergente d après la caractérisation des séries de Riemann convergentes. Calculons son produit de Cauchy par elle-même : il s agit de la série n 1 n 2 k=1 ( 1) k k ( 1) n k n k = n 2 n 1 ( 1) n k=1 1 k(n k). Une étude de fonction montre facilement que pour tout k [1,n 1], k(n k) n2, et donc 4 1 k(n k) 2 n. Ainsi, en valeur absolue, le terme général de la série produit vérifie n 1 k=1 1 2(n 1) 2, k(n k) n et donc le produit de Cauchy diverge grossièrement. Remarque En revanche, la convergence absolue des deux séries n est pas nécessaire à la convergence de leur produit de Cauchy : on peut montrer que si les deux séries convergent, dont une absolument, alors la série produit de Cauchy converge. Application Pour tout (z,z ) C 2, la série z n est absolument convergente, de même pour n! n 0 z, donc d après le théorème précédent, Or, n k=0 ( + z k k! n=0 z n n! )( + ) (z ) n = n! n=0 (z ) n k n (n k)! = k=0 1 n! + d après la formule du binôme de Newton. Finalement, ( + )( z n + ) (z ) n = n! n! n=0 n=0 n n=0 k=0 z k k! (z ) n k (n k)!. ( ) n z k (z ) n k = 1 k n! (z + z ) n, + n=0 (z + z ) n. n! En admettant le résultat mentionné plus haut (i.e., le fait que + n=0 zn /n! = e z pour tout z C), ceci est aussi une conséquence de la formule e z+z = e z e z. 29
38 30
39 Chapitre 3 Espaces vectoriels et applications linéaires Dans ce chapitre K désigne R ou C. Ses éléments sont appelés scalaires. I. Espaces vectoriels 1. Généralités Définition Espace vectoriel Soit E un ensemble non vide, muni de deux lois : Une loi interne notée +, de E E à valeurs dans E, Une loi externe notée, de K E à valeurs dans E. On dit que (E, +, ) est un K-espace vectoriel si : Il existe un élément de E, noté 0 E, tel que pour tout x E, x + 0 E = x, Pour tout x E, il existe y E tel que x + y = 0 E (le vecteur y est alors appelé opposé de x et noté x), pour tout (x,y,z) E 3, (λ,µ) K 2, x + y = y + x (commutativité de +), (x + y) + z = x + (y + z) (associativité de +), 1 x = x, λ (x + y) = λ x + λ y (distributivité à gauche de sur +), (λ + µ) x = λ x + µ x (distributivité à droite de sur l addition de K), (λµ) x = λ (µ x) (propriété d associativité). On dit aussi que (E, +, ) est un espace vectoriel sur K. S il n y a aucune ambiguïté sur les lois, on mentionne simplement E au lieu de (E, +, ). Les éléments de E sont appelés vecteurs. Remarques On note très souvent λx au lieu de λ x. Il est d usage de noter le scalaire à gauche et le vecteur à droite. Si un vecteur x E apparaît des deux côtés d une égalité de la forme x + y = x + z, alors par ajout de x à gauche et à droite, par commutativité et associativité de +, on peut simplifier l égalité en «enlevant» x des deux côtés. L élément 0 E est unique : si e E vérifie la même propriété que 0 E, on a e = e + 0 E = 0 E. De même, l opposé d un vecteur x E est unique : si y E vérifie x + y = 0 E, alors par simplification, on a y = x. D après les propriétés ci-dessus, pour tout x E, 0 x = (0 + 0) x = 0 x + 0 x, et donc par simplification, on a 0 x = 0 E. 31
40 Alors, 0 E = 0 x = (1 + ( 1)) x = 1 x + ( 1) x = x + ( 1) x, et donc x = ( 1) x. De même, on montre que pour tout λ K, λ 0 E = 0 E. Espaces vectoriels de référence Soient n, p et k trois entiers naturels non nuls. L ensemble K n est un K-espace vectoriel. L ensemble K[X] des polynômes à coefficients dans K est un K-espace vectoriel. L ensemble K n [X] des polynômes à coefficients dans K de degré inférieur ou égal à n est un K-espace vectoriel. L ensemble M n,p (K) des matrices à n lignes et p colonnes à coefficients dans K est un K-espace vectoriel. L ensemble E X = F(X,E) des fonctions de X dans E, où X est un ensemble et E un K-espace vectoriel, est un K-espace vectoriel, avec les opérations usuelles. L ensemble C 0 (I,K) des fonctions continues sur I, intervalle de R, à valeurs dans K, est un K-espace vectoriel. L ensemble C k (I,K) des fonctions de classe C k sur I, intervalle de R, à valeurs dans K, est un K-espace vectoriel. L ensemble K N des suites à valeurs dans K est un K-espace vectoriel. Propriété/Définition Combinaison linéaire Soient E un K-espace vectoriel et (e 1,...,e p ) une famille de vecteurs de E. Pour tout (λ 1,...,λ p ) K p, on définit un vecteur x de E en posant x = p λ i e i = λ 1 e λ p e p. i=1 Les vecteurs de cette forme sont appelés combinaisons linéaires de e 1,...,e p. Remarque Dans l expression précédente, il est inutile de parenthéser car l addition est associative. De même, l ordre des termes est sans importance par commutativité. Définition Sous-espace vectoriel Soit E un K-espace vectoriel. On dit qu un ensemble F est un sous-espace vectoriel de E, si F E et si F est un K-espace vectoriel. Pour montrer qu un ensemble est un espace vectoriel, il suffit souvent de montrer que c est un sous-espace vectoriel d un espace vectoriel de référence. Pour cela, on utilise la propriété suivante : Propriété Caractérisation des sous-espaces vectoriels Soit E un K-espace vectoriel. Alors F est un sous-espace vectoriel de E si et seulement si : F E, 0 E F, λ K, (x,y) F 2, λx + y F. Remarque Pour prouver que F n est pas un sous-espace vectoriel de E, il suffit souvent de prouver que 0 E / F. Par exemple, {A M n (R); A 2 = I n } n est pas un sous-espace vectoriel de M n (R). 32
41 Exemple R n [X] est un sous-espace vectoriel de R[X] et C 1 (R,R) est un sous-espace vectoriel de C 0 (R,R). Exercice Quels sont parmi les ensembles suivants ceux qui sont des espaces vectoriels? L ensemble des suites réelles (u n ) n 0 vérifiant : n N, u n+2 = 2u n+1 + u n. L ensemble des solutions de y + ay = 0 où a est une fonction continue. L ensemble des solutions de y + ay = b où, de plus, b est une fonction continue non nulle. L ensemble des polynômes P C[X] tels que P(1) = 0, puis tels que P(0) = 1. L ensemble K[X]P des multiples d un polynôme P. Propriété Intersection de sous-espaces vectoriels Soient E un K-espace vectoriel, I un ensemble d indices et (E i ) i I une famille de sousespaces vectoriels de E. Alors i I E i est un sous-espace vectoriel de E. Démonstration Bien sûr, i I E i est inclus dans E, et contient 0 E comme chacun des E i. Soient x et y deux éléments de i I E i et λ un scalaire. Alors, pour tout i I, x et y appartiennent au sous-espace vectoriel E i, et donc λx + y E i. Ainsi λx + y i I E i. Propriété/Définition Espace vectoriel engendré par une famille Soit F = (e 1,...,e p ) une famille de vecteurs d un K-espace vectoriel E. L intersection de tous les sous-espaces vectoriels de E auxquels appartiennent e 1,...,e p est un sous-espace vectoriel de E ; c est le plus petit (au sens de l inclusion) sous-espace vectoriel de E auquel appartiennent e 1,...,e p. Il est appelé espace vectoriel engendré par F, et noté Vect(F) ou Vect(e 1,...,e p ). Remarque Vect(F) existe toujours car E est un sous-espace vectoriel de E auquel appartiennent e 1,...,e p. L intersection porte donc sur un ensemble d indices non vide. Démonstration L intersection de tous les sous-espaces vectoriels de E auxquels appartiennent e 1,...,e p est un sous-espace vectoriel de E d après la propriété précédente. De plus, si F est un sous-espace vectoriel de E auquel appartiennent e 1,...,e p, alors F figure parmi l ensemble des sous-espaces vectoriels de E dont on fait l intersection pour définir Vect(F). En particulier, Vect(F) F, ce qui montre que Vect(F) est le plus petit sous-espace vectoriel de E auquel appartiennent e 1,...,e p. Propriété Soit F = (e 1,...,e p ) une famille de vecteurs d un K-espace vectoriel E. Alors Vect(F) est l ensemble des combinaisons linéaires de e 1,...,e p. Démonstration Soit F l ensemble des combinaisons linéaires de e 1,...,e p. Il est immédiat de vérifier que F est un sous-espace vectoriel de E. De plus, e 1,...,e p appartiennent à F. On a donc Vect(F) F. Réciproquement, Vect(F) étant un sous-espace vectoriel de E avec e i Vect(F) pour tout i [1,p], toutes les combinaisons linéaires de e 1,...,e p appartiennent à Vect(F), d où F Vect(F) Exemple Soit M = M 3 (R). Alors a b Vect(I 3,M) = 0 a b 0 0 a b ; (a,b) R 2. 33
42 Dans toute la suite, E désigne un K-espace vectoriel. 2. Familles libres, génératrices, bases et dimension Définition Familles libres, génératrices, bases Soit F = (e 1,...,e p ) une famille d éléments de E. On dit que F est libre si pour toute famille de scalaires (λ 1,...,λ p ), on a p λ i e i = 0 E i [1,p], λ i = 0. i=1 On dit aussi que les vecteurs e 1,...,e p sont linéairement indépendants. Si elle n est pas libre, on dit que la famille est liée, ou que les vecteurs e 1,...,e p sont linéairement dépendants. Ceci équivaut à l existence d une famille (λ 1,...,λ p ) de scalaires non tous nuls telle que p i=1 λ ie i = 0 E. On dit que F est génératrice de E si pour tout x E, il existe une famille de scalaires (λ 1,...,λ p ) telle que p x = λ i e i. i=1 Ceci équivaut à : E = Vect(e 1,...,e p ). On dit également que (e 1,...,e p ) engendre E. On dit que F est une base de E si elle est à la fois libre et génératrice de E. Remarques Une famille où figure le vecteur nul est nécessairement liée. Une famille constituée d un vecteur est liée si et seulement si ce vecteur est nul. Si (e 1,...,e p ) est une famille liée, alors l un des vecteurs e 1,...,e p est combinaison linéaire des autres : en effet, il existe (λ 1,...,λ p ) K p et i [1,p] tels que λ i 0 et λ 1 e λ p e p = 0 E, et alors e i = 1 λ j e j. λ i En revanche, on ne peut pas affirmer que n importe lequel des vecteurs e 1,...,e p est combinaison linéaire des autres. Propriété Famille de polynômes à degrés échelonnés (ou étagés) Soit (P 0,...,P n ) une famille de polynômes tous non nuls et à degrés échelonnés, c està-dire telle que pour tout i [0,n 1], deg(p i ) < deg(p i+1 ). Alors (P 0,...,P n ) est libre. j i Démonstration Soit (λ 0,...,λ n ) K n tel que λ 0 P λ n P n = 0. Tous les coefficients du polynôme λ 0 P λ n P n sont donc nuls. La famille (P 0,...,P n ) étant à degrés échelonnés, le coefficient dominant de ce polynôme est λ n a n, où a n est le coefficient dominant de P n, non nul car P n est non nul. Donc λ n = 0. En réitérant ce raisonnement, on obtient que λ 0 = = λ n = 0, d où le résultat. On peut aussi rédiger ce raisonnement sans l étape d itération : on raisonne par l absurde, en supposant que tous les λ i ne sont pas nuls ; on peut donc définir i 0 = max{i [0,n]; λ i 0} (maximum d une partie non vide majorée de N). On raisonne alors comme ci-dessus : le coefficient dominant de λ 0 P λ n P n est λ i0 a i0, où a i0 est le coefficient dominant de P i0, non nul car P i0 est non nul. On en déduit que λ i0 = 0, ce qui contredit la définition de i 0. Donc tous les λ i sont nuls. 34
43 Propriété/Définition La famille (e 1,...,e p ) est une base de E si et seulement si tout élément de E s écrit de manière unique comme combinaison linéaire de e 1,...,e p. Dans ce cas, si x = p i=1 x ie i, on dit que x 1,...,x p sont les coordonnées de x dans la base (e 1,...,e p ). Démonstration laissée en exercice (elle est très semblable à une démonstration donnée ci-dessous, voir le paragraphe sur les sommes directes). Définition Espace de dimension finie On dit que E est de dimension finie si E admet une famille génératrice (finie). Dans le cas contraire, on dit que E est de dimension infinie. Théorème de la base extraite Si E {0 E }, alors de toute famille génératrice de E, on peut extraire une base de E : si (e 1,...,e p ) est une famille génératrice de E, il existe une partie I de [1,p] telle que (e i ) i I soit une base de E. Démonstration Soit (e 1,...,e p ) une famille génératrice de E. Si (e 1,...,e p ) n est pas libre, on doit avoir p 2 : en effet, si l on avait p = 1, on aurait e 1 = 0 E (car la famille (e 1 ) est liée), et donc E = Vect(e 1 ) = {0 E }, ce qui est exclu. Alors l un des vecteurs de la famille (e 1,...,e p ) est combinaison linéaire des autres, d après une remarque précédente. Quitte à renommer les éléments, on peut supposer que e p Vect(e 1,...,e p 1 ), et alors E = Vect(e 1,...,e p ) = Vect(e 1,...,e p 1 ). On a donc construit une famille génératrice de E à p 1 éléments et on peut recommencer cette procédure. La procédure s arrête nécessairement, car le nombre d éléments de la famille construite décroît strictement à chaque étape. Lorsque la procédure s arrête, la famille obtenue est libre; c est finalement une famille libre et génératrice de E, donc une base de E. Remarque Dans la démonstration précédente apparaît une idée très souvent utilisée en algorithmique pour prouver qu un algorithme se termine : on a utilisé un «variant de boucle», ici le nombre d éléments de la famille. Du théorème précédent, on déduit immédiatement le résultat suivant : Corollaire Si E {0 E } et si E est de dimension finie, alors E possède des bases. Théorème de la base incomplète Si E est de dimension finie, alors toute famille libre d éléments de E peut être complétée en une base de E. De plus, pour compléter une telle famille, on peut choisir les vecteurs parmi ceux d une famille génératrice donnée à l avance. Démonstration Soient (e 1,...,e p ) une famille libre d éléments de E et (u 1,...,u m ) une famille génératrice de E (une telle famille existe car E est de dimension finie). Posons F 0 = Vect(e 1,...,e p ). Si u 1 n appartient pas à Vect(e 1,...,e p ), alors on pose e p+1 = u 1 et F 1 = Vect(e 1,...,e p+1 ). La famille (e 1,...,e p+1 ) ainsi construite est libre : en effet, soit (λ 1,...,λ p+1 ) K p+1 tel que p+1 i=1 λ ie i = 0 E. Si l on avait λ p+1 0, on aurait e p+1 Vect(e 1,...,e p ), ce qui est absurde. Ainsi 35
44 λ p+1 = 0, puis p i=1 λ ie i = 0 E, ce qui par liberté de (e 1,...,e p ) entraîne que λ 1 = = λ p = 0; tous les λ i sont donc nuls. Si u 1 Vect(e 1,...,e p ), on ne complète pas la famille (e 1,...,e p ), on pose F 1 = F 0. On poursuit alors la procédure avec u 2, dont on teste l appartenance à F 1, ce qui permet de définir F 2. On procède ainsi jusqu à u m. À l issue de l étape m, on dispose donc d une famille (e 1,...,e k ) avec k p, qui est libre, et telle que u 1,...,u m sont des éléments de F m = Vect(e 1,...,e k ). Alors E = Vect(u 1,...,u m ) Vect(e 1,...,e k ) E. La famille (e 1,...,e k ) est donc génératrice de E, et étant libre, c est une base de E ; de plus, elle a été construite en complétant la famille (e 1,...,e p ) avec certains des vecteurs u 1,...,u m. Théorème Soit (e 1,...,e p ) une famille de vecteurs de E et (u 1,...,u p+1 ) une famille de vecteurs de Vect(e 1,...,e p ). Alors la famille (u 1,...,u p+1 ) est liée. Remarque En particulier, si E admet une famille génératrice finie (e 1,...,e p ), alors une famille libre d éléments de E est composée d au plus p vecteurs. Démonstration On procède par récurrence sur p. Pour p = 1, le résultat est vrai car deux vecteurs colinéaires à un même vecteur e 1 sont linéairement dépendants. Supposons le résultat vrai pour un certain entier p 1. Soient p + 2 vecteurs u 1,...,u p+2 engendrés par p + 1 vecteurs e 1,...,e p+1. On peut donc écrire u 1 = λ 1,1 e λ 1,p+1 e p+1, u 2 = λ 2,1 e λ 2,p+1 e p+1,.. u p+2 = λ p+2,1 e λ p+2,p+1 e p+1, où les λ i,j sont des scalaires. Si λ i,1 = 0 pour tout i, alors (u 1,...,u p+2 ) est une famille de vecteurs de Vect(e 2,...,e p+1 ), donc est liée par hypothèse de récurrence. Sinon, on peut supposer sans perte de généralité que λ 1,1 0. Alors, grâce à λ 1,1, on élimine e 1 dans l expression des vecteurs u 2,...,u p+2 : On en déduit que les p + 1 vecteurs u 2 λ 2,1 λ 1,1 u 1 Vect(e 2,...,e p+1 ),.. u p+2 λ p+2,1 λ 1,1 u 1 Vect(e 2,...,e p+1 ). u 2 λ 2,1 λ 1,1 u 1,..., u p+2 λ p+2,1 λ 1,1 u 1 sont combinaisons linéaires des p vecteurs e 2,...,e p+1. Par hypothèse de récurrence, ils forment donc une famille liée. En écrivant une combinaison linéaire nulle de ces vecteurs avec des coefficients non tous nuls, on voit alors que la famille (u 1,...,u p+2 ) est liée. Remarque Cette idée est à la base de l algorithme de Gauss-Jordan, dont on rappelera le principe en détails dans le chapitre Matrices. 36
45 Théorème/Définition Dimension Si E {0 E } et si E est de dimension finie, alors il existe n N tel que toutes les bases de E sont constituées de n vecteurs. L entier n est appelé dimension de E, noté dim(e). Si E = {0 E }, on pose dim(e) = 0 (mais dans ce cas, E n admet aucune base). Démonstration Soient B et B deux bases de E constituées respectivement de p et m vecteurs. La famille B est libre et B engendre E, donc d après le théorème précédent, p m. En échangeant les roles de B et B, on obtient m p et finalement p = m. Toutes les bases de E sont donc constituées du même nombre de vecteurs. Remarques Si E est de dimension n 1, il est engendré par une famille de n vecteurs, donc toute famille de n + 1 vecteurs de E est liée. Si E = {0 E }, la convention dim(e) = 0 assure que cette dernière propriété est encore valable. Ainsi, en dimension n, une famille libre est composée d au plus n vecteurs. De même, une famille génératrice est composée d au moins n vecteurs, car d une telle famille, si E {0 E } (sinon le résultat est évident), on peut extraire une base de E, qui comporte n vecteurs. Exemple Les espaces de référence sont-ils de dimension finie? Si oui, donner leur dimension. Théorème Caractérisation des bases On suppose E de dimension finie n 1. Soit F une famille de n vecteurs de E. Alors on a les équivalences : F est une base de E F est libre F est une famille génératrice de E. Démonstration Si F est libre, on peut la compléter en base de E, et cette base comporte n vecteurs, qui est déjà le nombre de vecteurs de F. Il n y a donc pas eu de complétion à faire, c est-à-dire que F est une base de E. De même, si F est génératrice de E, on peut en extraire une base de E (car E {0 E }), mais il n y a en fait pas d extraction à faire, donc F est une base de E. Les implications réciproques sont évidentes. Application Soit (P 0,...,P n ) une famille d éléments de K[X] telle que deg(p i ) = i pour tout i [0,n]. Alors (P 0,...,P n ) est une base de K n [X]. En effet, la famille (P 0,...,P n ) d éléments de K n [X] est à degrés échelonnés et tous ses éléments sont non nuls (le degré du polynôme nul est ), donc elle est libre. De plus, elle comporte n + 1 = dim(k n [X]) éléments, donc d après le théorème ci-dessus, c est une base de K n [X]. Théorème On suppose E de dimension finie n. Soit F un sous-espace vectoriel de E. Alors : F est de dimension finie et dim(f) dim(e). Si dim(f) = n, alors E = F. Démonstration On commence par remarquer que pour les deux points, si F = {0 E }, le résultat est évident. On suppose donc dans la suite que F {0 E }. Si F était de dimension infinie, on pourrait construire, par une procédure proche de la démonstration du théorème de la base incomplète, une famille libre constituée d un nombre arbitrairement grand d éléments de F, et en particulier une famille libre de n+1 vecteurs de E, ce qui est impossible car E est de dimension n ; F est donc de dimension finie. Soit (e 1,...,e p ) une base de F. C est une famille libre d éléments de E, on a donc p n, c est-à-dire dim(f) dim(e). 37
46 De plus, si dim(f) = dim(e) (i.e. p = n), alors (e 1,...,e p ) est une famille libre de n vecteurs de E, c en est donc une base; on en déduit que E = Vect(e 1,...,e p ) = F. Attention! Il est essentiel que F soit un sous-espace vectoriel de E pour appliquer ce théorème. Si F et G sont deux sous-espaces vectoriels de E de même dimension, on ne peut évidemment pas affirmer que F = G. Définition Base adaptée On suppose E dimension finie. Soit F un sous-espace vectoriel de E. Une base de E est dite adaptée à F si on peut en extraire une base de F. Définition Rang Soit (x 1,...,x p ) une famille de vecteurs de E, espace de dimension finie ou non. On appelle rang de cette famille, noté rg(x 1,...,x p ), la dimension du sous-espace vectoriel Vect(x 1,...,x p ). Remarque La famille finie (x 1,...,x p ) est génératrice de Vect(x 1,...,x p ), qui est donc de dimension finie inférieure ou égale à p. On en déduit que rg(x 1,...,x p ) est bien défini, et inférieur ou égal à p. Propriété Caractérisation des familles libres, génératrices par le rang Si E est de dimension finie n, une famille (x 1,...,x p ) de vecteurs de E est génératrice de E si et seulement si rg(x 1,...,x p ) = n. Une famille (x 1,...,x p ) de vecteurs de E (de dimension finie ou non) est libre si et seulement si rg(x 1,...,x p ) = p. Si E est de dimension finie n, une famille (x 1,...,x p ) de vecteurs de E est une base de E si et seulement si p = n et rg(x 1,...,x n ) = n. Démonstration La famille (x 1,...,x p ) est génératrice de E si et seulement si Vect(x 1,...,x p ) = E, ce qui équivaut d après le théorème précédent à dim(vect(x 1,...,x p )) = dim(e), i.e., à l égalité rg(x 1,...,x p ) = n. Pour le second point : La famille (x 1,...,x p ) engendre Vect(x 1,...,x p ) donc, si elle est libre, c est une base de Vect(x 1,...,x p ) et on a dim(vect(x 1,...,x p )) = p, i.e. rg(x 1,...,x p ) = p. La famille (x 1,...,x p ) engendre Vect(x 1,...,x p ); si de plus rg(x 1,...,x p ) = p, alors le nombre de vecteurs de cette famille est dim(vect(x 1,...,x p )), c est donc une famille libre d après le théorème de caractérisation des bases. Si (x 1,...,x p ) est une base de E, on a p = n, et d après le premier point, rg(x 1,...,x n ) = n. Si p = n et rg(x 1,...,x n ) = n, la famille (x 1,...,x n ) est une base de E d après les deux premiers points. 38
47 3. Produit de sous-espaces vectoriels Définition Produit cartésien Soient E 1,...,E p des K-espaces vectoriels. Le produit cartésien est l ensemble p E i = E 1 E p i=1 {(x 1,...,x p ); i [1,p], x i E i }. Si (x 1,...,x p ) et (y 1,...,y p ) sont deux éléments de E 1 E p, et si λ K, on pose (x 1,...,x p ) + (y 1,...,y p ) = (x 1 + y 1,...,x p + y p ), λ(x 1,...,x p ) = (λx 1,...,λx p ) (toutes les additions et multiplications par un scalaire sont notées avec le même symbole, mais à droite du signe d égalité, ce sont celles de chaque espace vectoriel E i ). Attention! Dans un produit cartésien, l ordre des termes est important. La notation p i=1 E i doit être comprise en gardant cela à l esprit. Par exemple, le produit E 1 E 2 n est pas le produit E 2 E 1. Propriété Produit de sous-espaces vectoriels Soient E 1,...,E p des K-espaces vectoriels. Alors E 1 E p est un K-espace vectoriel. Démonstration C est une vérification immédiate, en utilisant le fait que chaque E i est un K- espace vectoriel, le vecteur nul de E 1 E p étant (0 E1,...,0 Ep ), et l opposé d un vecteur (x 1,...,x p ) étant ( x 1,..., x p ). Exemples Le produit cartésien R R 2 est l ensemble des éléments de la forme (x,(y,z)) où x, y et z sont des réels. Il peut être identifié (mais n est pas égal) à R 3. Le produit cartésien M n (K) K[X] est l ensemble des éléments de la forme (A,P) où A M n (K) et P K[X]. Si A et B sont deux éléments de M n (K), P et Q deux éléments de K[X] et λ K, on a, par définition, λ(a,p) + (B,Q) = (λa + B,λP + Q). On voit bien sur cet exemple que les opérations, bien que notées avec le même symbole, ne sont pas les mêmes opérations (elles ne portent pas sur le même espace vectoriel). Propriété Soient E 1,...,E p des K-espaces vectoriels de dimension finie. Alors E 1 E p est de dimension finie et p dim(e 1 E p ) = dim E i. i=1 Démonstration Pour tout i [1,p], on note n i = dim(e i ), et l on choisit une base B i = (e i,1,...,e i,ni ) de E i. Alors on vérifie facilement que la famille ((e 1,1,0 E2,...,0 Ep ),...,(e 1,n1,0 E2,...,0 Ep ),(0 E1,e 2,1,...,0 Ep ),...,(0 E1,e 2,n2,...,0 Ep ),......(0 E1,...,0 Ep 1,e p,1 ),...,(0 E1,...,0 Ep 1,e p,np )) 39
48 d éléments de E 1 E p est une base de E 1 E p. En particulier, E 1 E p est de dimension finie et p p dim(e 1 E p ) = n i = dim(e i ). Les détails de cette démonstration sont très semblables à ceux d une démonstration donnée cidessous pour les sommes directes (voir le théorème sur les bases adaptées à une somme directe). i=1 i=1 II. Somme et somme directe de sous-espaces vectoriels 1. Définitions et caractérisations Définition Somme de sous-espaces vectoriels Soit (E 1,...,E p ) une famille de sous-espaces vectoriels de E. La somme p E i = E E p i=1 est l ensemble des vecteurs x de E de la forme p x = x i = x x p où, pour tout i [1,p], x i E i. i=1 Remarque On vérifie facilement que l opération de sommation de sous-espaces vectoriels de E est associative (il est inutile de parenthéser, même lorsque p 3) et commutative (l ordre des termes n a pas d importance, contrairement aux produits cartésiens), car l addition de vecteurs de E possède ces propriétés. Propriété Avec les notations précédentes, p E i est un sous-espace vectoriel de E. i=1 Démonstration On a bien sûr E 1 + +E p E et 0 E E 1 + +E p (car 0 E = 0 E + +0 E ). Soient x = x x p et y = y y p deux éléments de E E p, et λ K. Alors λx + y = λ(x x p ) + (y y p ) = (λx 1 + y 1 ) + + (λx p + y p ) E E p car chaque E i est un sous-espace vectoriel de E. Ainsi E E p est un sous-espace vectoriel de E. Exemple On a R 2 = Vect(1,0) + Vect(1,1) + Vect(0,1). Définition Somme directe On dit que la somme a l implication Dans ce cas la somme p E i est directe si : pour tout (x 1,...,x p ) E 1 E p, on i=1 p x i = 0 E i [1,p], x i = 0 E. i=1 p E i se note i=1 p E i = E 1 E p. i=1 40
49 Propriété Soit (E 1,...,E p ) une famille de sous-espaces vectoriels de E. La somme p i=1 E i est directe si et seulement si tout élément x de p i=1 E i se décompose de manière unique sous la forme x = x x p avec x i E i pour tout i [1,p]. Démonstration Si la somme est directe, considérons x = p i=1 x i = p i=1 y i deux décompositions de x avec x i E i et y i E i pour tout i [1,p]. On a donc p (x i y i ) = 0 E i=1 avec x i y i E i pour tout i [1,p] car E i est un sous-espace vectoriel de E. Par définition d une somme directe, on a donc x i = y i pour tout i, d où l unicité de la décomposition. Soit (x 1,...,x p ) E 1 E p tel que p i=1 x i = 0 E. En remarquant que p i=1 0 E = 0 E et que 0 E E i pour tout i, on obtient deux décompositions de 0 E. Par unicité, on a donc x i = 0 E pour tout i, et la somme est directe. Exemple La somme Vect(1,0)+Vect(1,1)+Vect(0,1) n est pas directe car (1,1) = (1,0)+(0,1). Propriété Cas de deux sous-espaces vectoriels Soient E 1 et E 2 deux sous-espaces vectoriels de E. La somme E 1 + E 2 est directe si et seulement si E 1 E 2 = {0 E }. Démonstration Si la somme est directe, considérons x E 1 E 2. Alors x + ( x) = 0 E avec x E 1 et x E 2. Par définition, on en déduit que x = 0 E. Soit x 1 E 1 et x 2 E 2 tels que x 1 + x 2 = 0 E. Alors x 1 = x 2 E 1 E 2 = {0 E }, donc x 1 = x 2 = 0 E. La somme E 1 + E 2 est donc directe. Attention! Cette propriété ne se généralise pas à une somme de plus de deux sous-espaces comme le montre l exemple de Vect(1,0) + Vect(1,1) + Vect(0,1), qui n est pas directe alors que l intersection de deux quelconques des sous-espaces parmi les trois est toujours réduite à {(0,0)}. Définition Sous-espaces supplémentaires Soient F, G deux sous-espaces vectoriels de E. On dit que F et G sont supplémentaires (dans E) si F G = E c est-à-dire si la somme de F et de G est directe et égale à E. Exemples R 2 = Vect(1,0) Vect(1,1), R 3 = Vect((1,0,2),(1,1, 1)) Vect(1,2,3). Soit P un polynôme de K[X] de degré n + 1. Alors K[X] = K[X]P K n [X]. En effet, un multiple de P ne peut être de degré inférieur ou égal à n que s il est nul. La somme est donc directe. De plus, pour tout polynôme A K[X], il existe Q K[X] et R K n [X] tels que A = PQ + R, d après le théorème de division euclidienne dans K[X]. Donc A K[X]P + K n [X], et ce pour tout A. La somme est donc égale à K[X]. 41
50 2. Sommes directes, bases et dimensions Propriété Sommes directes et familles libres Soit (x 1,...,x p ) une famille libre d éléments de E (p 2). Pour tout i [1, p 1], Vect(x 1,...,x i ) et Vect(x i+1,...,x p ) sont en somme directe et Vect(x 1,...,x p ) = Vect(x 1,...,x i ) Vect(x i+1,...,x p ). Si (E 1,...,E p ) est une famille de sous-espaces vectoriels de E dont la somme est directe et si (x 1,...,x p ) E 1 E p est une famille de vecteurs tous non nuls, alors cette famille est libre. Démonstration Soit x = λ 1 x 1 + +λ i x i = λ i+1 x i+1 + +λ p x p Vect(x 1,...,x i ) Vect(x i+1,...,x p ). Alors λ 1 x λ i x i λ i+1 x i+1 + λ p x p = 0 E. La famille (x 1,...,x p ) étant libre, on en déduit que λ i = 0 pour tout i, et donc x = 0 E. Ainsi Vect(x 1,...,x i ) Vect(x i+1,...,x p ) = {0 E }, donc la somme de ces deux sous-espaces est directe. Il est de plus immédiat que Vect(x 1,...,x p ) = Vect(x 1,...,x i ) + Vect(x i+1,...,x p ). Si une combinaison linéaire λ 1 x λ p x p est nulle, alors, sachant que λ i x i E i pour tout i, l aspect direct de la somme des E i entraîne que λ i x i = 0 E pour tout i, avec x i 0 E, et donc λ i = 0, d où le résultat. Notation Si F 1,...,F p sont des familles d éléments de E, on appellera juxtaposition (ou concaténation) de ces familles la famille F obtenue en plaçant dans une même famille tous les vecteurs de F 1,...,F p, en gardant les répétitions éventuelles et en respectant l ordre d apparition des termes. On pourra représenter ceci par la notation F = F 1 F p, mais cette notation n est pas universelle. Par exemple, (e 1,e 2 ) (f 1,f 2,f 3 ) = (e 1,e 2,f 1,f 2,f 3 ). En appliquant plusieurs fois le premier point de la propriété précédente, on obtient immédiatement : Corollaire Fractionnement d une base On suppose que E est de dimension finie n 2; soit B = F 1 F p une base de E. Alors E = p Vect(F i ). i=1 Propriété Si E est de dimension finie et si F est un sous-espace vectoriel de E, alors F possède des supplémentaires. Démonstration Si F = {0 E }, le résultat est évident : E est un supplémentaire de F. De même, si F = E, {0 E } est un supplémentaire de F. Sinon, soit F une base de F. En complétant F en base de E, et en appliquant le corollaire précédent avec p = 2, on obtient un supplémentaire de F (et la base de E ainsi construite est adaptée à F). 42
51 Inversement, on peut construire des bases de E à partir d une décomposition de E en somme directe : Propriété/Définition Base adaptée à une somme directe Soit (E 1,...,E p ) une famille de sous-espaces vectoriels de E, tous de dimension finie non nulle, telle que E = p i=1 E i. Pour tout i, on se donne une base B i de E i. Alors la juxtaposition B = B 1 B p de ces bases est une base de E (qui en particulier est de dimension finie). On appelle base de E adaptée à la décomposition en somme directe E = p i=1 E i une base de E de la forme de B. Démonstration Pour tout i, on note n i = dim(e i ), B i = (e i,1,...,e i,ni ) et on pose n = p i=1 n i. Caractère générateur : tout d abord, chaque vecteur e k,j appartient à E k et donc à la somme des E i. Soit x E. Il existe (x i ) 1 i p E 1 E p tel que x = p i=1 x i. De plus pour tout i [1,p], il existe (λ i,j ) 1 j ni K n i tel que Alors x = n i x i = λ i,j e i,j. j=1 p n i λ i,j e i,j Vect(B). i=1 Ceci étant valable pour tout x appartenant à E, on en déduit que E = Vect(B). j=1 Liberté : soit (λ i,j ) K n un n-uplet de scalaires (avec 1 i p et pour tout i, 1 j n i ) tel que n n i λ i,j e i,j = 0 E. i=1 j=1 Pour tout i [1,n], le vecteur v i = n i j=1 λ i,je i,j appartient à E i, et la somme des E i étant directe, l égalité n i=1 v i = 0 E entraîne que v i = 0 E pour tout i [1,p]. Mais alors, pour tout i [1,p], on a n i λ i,j e i,j = 0 E, j=1 or B i est une base de E i donc est une famille libre. On en déduit que λ i,j = 0 pour tout j [1,n i ]. Finalement, pour tout 1 i p, 1 j n i, on a λ i,j = 0, donc B est libre. Propriété Dimension d une somme Soit (E 1,...,E p ) une famille de sous-espaces vectoriels de dimension finie de E. Alors : ( p p ) p E i est de dimension finie et dim E i dim(e i ), i=1 Il y a égalité dans l inégalité précédente si et seulement si la somme Si E est de dimension finie et si la somme il faut et il suffit que i=1 i=1 p E i est directe. i=1 p E i est directe, alors pour que E = i=1 p dim(e i ) = dim(e). i=1 p E i, i=1 43
52 Démonstration Tout d abord, on se ramène facilement au cas où les E i sont de dimension non nulle, ce que l on suppose dans la suite de la démonstration. Pour tout i [1,p], soit B i une base de E i, et n i = dim(e i ). En reprenant la démonstration précédente, on obtient que la juxtaposition F de ces bases est une famille génératrice de p i=1 E i. On a donc ( p ) p p dim E i n i = dim(e i ). i=1 i=1 Si la somme p i=1 E i est directe, la famille F est une base de p i=1 E i (d après la démonstration précédente), donc l inégalité précédente est une égalité. Réciproquement, si l inégalité précédente est une égalité, alors F est une famille génératrice de p i=1 E i de dim( p i=1 E i) vecteurs, donc F est une base de p i=1 E i. D après la propriété de fractionnement d une base, on en déduit que p i=1 E i = p i=1 Vect(F i) = p i=1 E i, donc la somme est directe. Dans ce cas, pour que E = p i=1 E i, il faut et il suffit que dim( p i=1 E i) = dim(e), c est-à-dire, d après le deuxième point, que p i=1 dim(e i) = dim(e). Exemple La somme de deux plans vectoriels de R 3 n est jamais directe, car la somme de leurs dimensions est 4. Corollaire On suppose E de dimension finie. Soient F et G deux sous-espaces vectoriels de E. Pour que E = F G, il faut et il suffit que i=1 F G = {0 E } et dim(e) = dim(f) + dim(g). Démonstration C est un cas particulier de la propriété précédente dans le cas de deux sousespaces vectoriels F et G, puisqu alors, le fait que la somme F + G soit directe équivaut au fait que F G = {0 E }. Remarque En particulier, tous les supplémentaires de F ont la même dimension. Lorsque la somme de deux sous-espaces vectoriels de E n est pas directe, on a le résultat suivant : Théorème Formule de Grassmann Si E est de dimension finie et F et G sont deux sous-espaces vectoriels de E, alors dim(f + G) = dim(f) + dim(g) dim(f G). Démonstration Soit F un supplémentaire de F G dans F et G un supplémentaire de F G dans G. Montrons que F +G = F G (F G). Tout d abord, si x +y +z = 0 E avec x F, y G et z F G, alors x = y z F G F (F G) = {0 E }. On en déduit que y = z G (F G) = {0 E } et finalement x = y = z = 0 E. Donc la somme est directe. De plus, on constate que F + G = [(F G) + F ] + [(F G) + G ] = F + G + (F G). Alors, d après la propriété sur la dimension d une somme, dim(f + G) = dim(f ) + dim(g ) + dim(f G) = dim(f) dim(f G) + dim(g) dim(f G) + dim(f G) = dim(f) + dim(g) dim(f G). 44
53 Exemple Soit E = M n (R) (n 2), F = S n (R) (ensemble des matrices symétriques de M n (R)) et G l ensemble des matrices triangulaires supérieures de M n (R). Alors F et G sont des sousespaces vectoriels de E, dont l intersection est l ensemble des matrices diagonales de M n (R). On a, d après la formule de Grassmann, dim(f + G) = dim(f) + dim(g) dim(f G) = n(n + 1) 2 + n(n + 1) 2 n = n 2. Sachant que dim(m n (R)) = n 2, on en déduit que F + G = M n (R). On peut d ailleurs prouver ce résultat directement en décomposant toute matrice A de M n (R) sous la forme de la somme d une matrice symétrique S et d une matrice triangulaire supérieure T : on choisit pour S la matrice de diagonale nulle dont la partie «strictement inférieure» est la même que celle de A, et dont la partie «strictement supérieure» est obtenue par symétrie de la partie strictement inférieure. On pose alors T = A S ; T est triangulaire supérieure car A et S ont la même partie triangulaire strictement inférieure. On a donc la décomposition souhaitée. Cette décomposition n est pas unique car la somme F + G n est pas directe (F G {0 E }), l absence d unicité provient en fait, lorsque l on effectue la décomposition, d un choix des diagonales qui n est pas unique : on peut choisir pour S, au lieu d une diagonale nulle, une diagonale quelconque. III. Applications linéaires Dans toute la suite, E et F désignent deux K-espaces vectoriels. 1. Définition et exemples Définition Application linéaire On appelle application linéaire de E dans F toute application u de E dans F vérifiant les deux conditions suivantes : (x,y) E 2, u(x + y) = u(x) + u(y), λ K, x E, u(λx) = λu(x). L ensemble des applications linéaires de E dans F est noté L (E,F). Si u est une application linéaire de E dans E, on dit que u est un endomorphisme de E. L ensemble des endomorphismes de E est noté L (E). Remarque Si u est linéaire, on a nécessairement u(0 E ) = 0 F. En effet, u(0 E ) = u(0 E + 0 E ) = u(0 E ) + u(0 E ), d où le résultat par soustraction de u(0 E ). En particulier, si u(0 E ) 0 F, alors u n est pas linéaire. { R Par exemple, u : 3 R 2 n est pas linéaire. (x,y,z) (2x + y,1) Propriété L application u de E dans F est linéaire si et seulement si (x,y) E 2, λ K, u(λx + y) = λu(x) + u(y). 45
54 Exemples { E F L application nulle de E dans F, u : est une application linéaire. On la x 0 F notera 0 L (E,F) ou 0 L (E) si E = F. { E E L application identité de E dans E, Id E : est une application linéaire. x x { E E Plus généralement, si λ K, l application de E dans E, f : est une application x λx linéaire. Elle est appelée homothétie de rapport λ. { R L application f : 3 R 2 est linéaire. (x,y,z) (2x + y z,x y + z) { C L application φ : 1 (R,R) C 0 (R,R) f f est linéaire. Définition Application linéaire canoniquement associée à une matrice Soit M M n,p (K). On définit une application u M par u M : { Mp,1 (K) M n,1 (K) X MX L application u M est linéaire, elle est appelée application linéaire canoniquement associée à la matrice M. 2. Opérations sur les applications linéaires Définition Soient u et v deux éléments de L (E,F) et λ K. Sachant que F est un K-espace vectoriel, on définit des applications u + v et λ u (ou simplement λu) en posant, pour tout x E, (u + v)(x) = u(x) + v(x) et (λu)(x) = λ u(x). Propriété L espace (L(E,F), +, ) est un K-espace vectoriel. En particulier, (u,v) L (E,F) 2, λ K, u + v L (E,F) et λu L (E,F). Propriété Composition d applications linéaires Soient E, F et G trois K-espaces vectoriels. Si u L (E,F) et v L (F,G) alors v u L (E,G). La démonstration de ces deux propriétés est laissée en exercice. Cas particuliers des endomorphismes Les deux propriétés ci-dessus montrent que L (E) est un ensemble dont les éléments peuvent être additionnés, multipliés par un scalaire, et composés. En général, la loi de composition n est pas commutative : il existe des endomorphismes u et v de E tels que u v v u. 46
55 Définition Soit u un endomorphisme de E. Pour tout k N, on note u k l endomorphisme obtenu en effectuant la composition u u (k fois). Par convention, u 0 = Id E. Propriété Formule du binôme de Newton Soient u et v deux endomorphismes de E qui commutent (c est-à-dire tels que u v = v u). Alors n N, (u + v) n = n k=0 ( ) n u k v n k = k n k=0 ( ) n u n k v k. k Démonstration Il suffit de démontrer la première des deux formules, l autre en étant une réécriture obtenue par changement d indice. On remarque tout d abord que pour tout k N, u k et v commutent (cela se prouve par récurrence immédiate sur k). On prouve alors la formule par récurrence sur n. Pour n = 0, le résultat est évident car (u + v) 0 = Id E par convention, et 0 k=0 Supposons le résultat vrai au rang n. Alors ( ) 0 u k v 0 k = u 0 v 0 = Id k E Id E = Id E. (u + v) n+1 = (u + v) (u + n) n = (u + v) n k=0 ( ) n u k v n k k par hypothèse de récurrence. Par linéarité de u et v et le fait que v commute avec toutes les puissances de u, on a donc (u + v) n+1 = n k=0 ( ) n u k+1 v n k + k n k=0 ( ) n u k v n k+1. k Par le changement d indice m = k + 1 dans la première somme, on obtient (u + v) n+1 = n+1 m=1 ( ) n u m v n m+1 + m 1 n k=0 ( ) n u k v n k+1. k En regroupant les termes communs dans ces deux sommes (on rappelle que k et m sont des indices muets), on a (u + v) n+1 = u n+1 + = u n+1 + n (( ) n + k 1 n ( n + 1 k k=1 k=1 ( )) n u k v n k+1 + v n+1 k ) u k v n+1 k + v n+1 d après la formule de Pascal. On remarque alors que les termes u n+1 et v n+1 correspondent au terme général de la somme, pour k = n + 1 et k = 0 respectivement. On a donc la formule au rang n + 1 et finalement pour tout n par principe de récurrence. Remarque On utilise souvent cette formule dans le cas où l un des deux endomorphismes est l identité, ou une homothétie, qui commute avec tous les endomorphismes. 47
56 Polynômes d endomorphismes Définition Polynômes d un endomorphisme Soit u L (E) et P(X) = d k=0 a kx k K[X]. On peut alors définir P(u), nouvel élément de L (E) par P(u) = d a k u k = a d u d + + a 1 u + a 0 Id E. k=0 On dit que P(u) est un polynôme de u. L ensemble des polynômes de u est noté K[u]. Attention! Ne pas se tromper dans le terme a 0 Id E correspondant au terme constant de P! Par exemple, lorsque P(X) = X 2 + 2X + 3, on a P(u) = u 2 + 2u + 3Id E, c est-à-dire, pour tout x E, P(u)(x) = u 2 (x) + 2u(x) + 3x. Propriété Soit u L (E). Soient P et Q deux éléments de K[X] et λ K. Alors : 1(u) = Id E (λp + Q)(u) = λp(u) + Q(u). (P Q)(u) = P(u) Q(u). En particulier, P(u) et Q(u) commutent. Définition Soit u L (E). On dit qu un polynôme P K[X] est annulateur de u (ou que que u annule P) si P(u) = 0 L (E). 3. Applications linéaires et sommes directes Théorème Soit (E i ) 1 i p une famille de sous-espaces vectoriels de E telle que E = p i=1 E i. Pour tout i [1,p], soit u i une application linéaire de E i dans F. Alors il existe une unique application linéaire u de E dans F dont la restriction à E i soit u i pour tout i [1,p]. Démonstration Analyse : si u vérifie les conditions ci-dessus et si x = x x p E avec x i E i pour tout i, on a nécessairement u(x) = u(x x p ) = u(x 1 ) + + u(x p ) = u 1 (x 1 ) + + u p (x p ). L application u est donc entièrement déterminée, et ceci prouve en particulier son unicité. Synthèse : pour tout x = x x p avec x i E i pour tout i, on pose u(x) = u 1 (x 1 ) + + u p (x p ). 48
57 L application u est bien définie car la décomposition de x existe et est unique, la somme étant directe et égale à E. Elle est linéaire : si x = x 1 + +x p et y = y 1 + +y p sont deux éléments de E décomposés sur la somme E 1 E p, et si λ K, alors λx + y = p (λx i + y i ), avec λx i + y i E i pour tout i [1,p], donc par définition, u(λx + y) = par linéarité des u i. Finalement u(λx + y) = λ i=1 p u i (λx i + y i ) = i=1 p u i (x i ) + i=1 p (λu i (x i ) + u i (y i )) i=1 p u i (y i ) = λu(x) + u(y). Enfin, u coïncide avec u i sur E i, car pour tout x E i, u(x) = u i (x), les autres composantes de x dans la décomposition étant nulles. Ceci prouve l existence de u. Corollaire On suppose E de dimension finie. Soient B = (e 1,...,e n ) une base de E et (f 1,...,f n ) une famille de vecteurs de F. Alors il existe une unique application linéaire u L (E,F) telle que pour tout i [1,n], u(e i ) = f i. i=1 Démonstration On a E = n i=1 Vect(e i); il suffit d appliquer le résultat précédent avec, pour tout i, { Vect(ei ) F u i : λe i λf i 4. Image et noyau d une application linéaire Image et surjectivité Propriété L image par une application linéaire u L (E,F) d un sous-espace vectoriel de E est un sous-espace vectoriel de F. Démonstration Soit G un sous-espace vectoriel de E. Tout d abord, on a évidemment u(g) F. De plus, 0 F u(g) car 0 F = u(0 E ) et 0 E E. Enfin, soient u(x) et u(y) deux éléments de u(g) avec x G et y G, et soit λ K. Alors, par linéarité de u, λu(x) + u(y) = u(λx + y). Or G est un sous-espace vectoriel de E et x et y sont deux éléments de G, donc λx + y G, et ainsi u(λx + y) u(g). On a donc montré que u(g) est stable par combinaison linéaire, d où le résultat. Propriété/Définition Image d une application linéaire L image de u, notée Im(u), est l image de E par u, i.e. l ensemble des images des éléments de E par u : Im(u) = u(e) = {y F; x E, u(x) = y}. L ensemble Im(u) est un sous-espace vectoriel de F d après la propriété précédente. 49
58 Propriété Détermination de Im(u) Soit u L (E,F) et (e 1,...,e n ) une famille génératrice de E (par exemple, une base). Alors Im(u) est le sous-espace vectoriel de F engendré par les vecteurs u(e 1 ),...,u(e n ) : Im(u) = Vect (u(e 1 ),...,u(e n )). Démonstration Si y = u(x) Im(u) avec x E, on peut décomposer x sur la famille génératrice (e 1,...,e n ) de E : il existe (λ 1,...,λ n ) K n tel que x = λ 1 e λ n e n. Par linéarité de u, on a donc y = u(x) = λ 1 u(e 1 ) + + λ n u(e n ) Vect (u(e 1 ),...,u(e n )). Ainsi Im(u) Vect (u(e 1 ),...,u(e n )). Réciproquement, Im(u) est un sous-espace vectoriel de F auquel appartiennent u(e 1 ),...,u(e n ), donc On a donc l égalité souhaitée. Vect (u(e 1 ),...,u(e n )) Im(u). Remarque Soit u L (E,F); u est surjective si et seulement si pour tout y F, il existe x E tel que u(x) = y, c est-à-dire si et seulement si Im(u) = F. { C Exemple Soit φ : 1 (R,R) C 0 (R,R) f f L application linéaire φ est surjective, car toute fonction continue sur R possède des primitives, qui sont de classe C 1. Noyau et injectivité Propriété/Définition Noyau d une application linéaire Soit u L (E,F). Le noyau de u est l ensemble des vecteurs de E qui ont pour image le vecteur nul de F. On le note Ker(u). On a donc : Ker(u) est un sous-espace vectoriel de E. Ker(u) = {x E; u(x) = 0 F } = u 1 ({0 F }). Démonstration Tout d abord, Ker(u) E par définition. De plus, 0 E Ker(u) car u(0 E ) = 0 F. Enfin, soient x et y deux éléments de E, et λ K. Alors par linéarité de u, u(λx + y) = λu(x) + u(y) = λ 0 F + 0 F = 0 F, et donc λx + y Ker(u). Ceci montre que Ker(u) est un sous-espace vectoriel de E. { R Exemple Soit u : 3 R 3 (x,y,z) (x 2y,x + 2z,x y + z) Pour déterminer Ker(u), on résout l équation u(x,y,z) = 0, ce qui nous conduit à la résolution du système : x 2y = 0 { x = 2z x +2z = 0 qui équivaut à y = z x y +z = 0 D où Ker(u) = {( 2z, z,z), z R} = Vect( 2, 1,1). Propriété Soit u L (E,F). Pour que u soit injective, il faut et il suffit que Ker(u) = {0 E }. 50
59 Démonstration Soit x Ker(u). Alors u(x) = 0 F = u(0 E ), donc par injectivité de u, x = 0 E, ce qui montre que Ker(u) {0 E }, l inclusion réciproque étant toujours vraie. Soient x et y deux éléments de E tels que u(x) = u(y). Par linéarité de u, on a u(x y) = 0 F, et donc x y Ker(u) = {0 E }. Ainsi x = y, ce qui prouve que u est injective. { C Exemple Soit φ : 1 (R,R) C 0 (R,R) f f L application linéaire φ n est pas injective, car toute fonction constante appartient à son noyau (et il existe des fonctions constantes non nulles). En fait, Ker(φ) est égal à l ensemble des fonctions constantes sur R. Équations linéaires Définition Une équation linéaire est une équation de la forme u(x) = b où u L (E,F) et b F, d inconnue x E. Bien sûr, l équation u(x) = b possède des solutions si et seulement si b Im(u). Si l équation est sans second membre, c est-à-dire si b = 0, alors elle s écrit u(x) = 0, équation dont l ensemble des solutions est Ker(u). En particulier, l ensemble des solutions d une équation linéaire sans second membre est un K-espace vectoriel. Dans le cas général (b quelconque), on peut décrire la forme de l ensemble des solutions : Propriété Structure de l ensemble des solutions Avec les notations précédentes, si x 0 E est une solution particulière de u(x) = b, alors l ensemble S des solutions de cette équation est S = {x 0 + y; y Ker(u)}. Démonstration On a u(x 0 ) = b et donc pour x E, on a les équivalences : u(x) = b u(x) = u(x 0 ) u(x x 0 ) = 0 F x x 0 Ker(u), d où le résultat. Exemples On considère le système linéaire de n équations à p inconnues suivant : a 1,1 x a 1,p x p = b 1 a 2,1 x a 2,p x p = b 2 (S) :.. a n,1 x a n,p x p = b n En notant A = (a i,j ) 1 i n,1 j p M n,p (K), X M p,1 (K) la matrice colonne de coefficients x 1,...,x p et B M n,1 (K) la matrice colonne de coefficients b 1,...,b n, ce système se met sous la forme matricielle (E) : AX = B, c est-à-dire que (x 1,...,x p ) est solution de (S) si et seulement si X est solution de (E). Le système (S) et l équation (E) sont des équations linéaires. Dans le cas de l équation (E) : AX = B, on a u = u A, application linéaire canoniquement associée à A. On dit que A est la matrice du système linéaire (S). On reviendra en détails sur l étude des systèmes linéaires dans le chapitre suivant. 51
60 Les équations différentielles linéaires d ordre 1 et 2 (avec ou sans second membre) sont des équations linéaires : l équation y + a(x)y = b(x) (où a et b sont deux fonctions continues sur un intervalle I à valeurs dans K) peut s écrire u(y) = b où u : { C 1 (I,K) C 0 (I,K) y y + ay De même, l équation y +ay +by = f(x) (où a et b sont deux scalaires et f une fonction continue sur I à valeurs dans K) peut s écrire u(y) = f où u : { C 2 (I,K) C 0 (I,K) y y + ay + by 5. Projecteurs et symétries Propriété/Définition Projecteur, symétrie Soit p L (E). On dit que p est un projecteur s il existe deux sous-espaces vectoriels F et G de E tels que E = F G et, pour tout x = y + z E avec y F et z G, on ait p(x) = y. Dans ce cas, on a F = Im(p) = Ker(p Id E ) et G = Ker(p). On dit que p est le projecteur (ou la projection) sur F parallèlement à G. Soit s L (E). On dit que s est une symétrie s il existe deux sous-espaces vectoriels F et G de E tels que E = F G et, pour tout x = y + z E avec y F et z G, on ait s(x) = y z. Dans ce cas, on a F = Ker(s Id E ) et G = Ker(s + Id E ). On dit que p est la symétrie par rapport à F parallèlement à G. Démonstration des égalités sur les images et noyaux Si p est la projection sur F parallèlement à G, alors pour tout x = y + z E avec y F et z G, p(x) = y. Or x Ker(p Id E ) si et seulement si p(x) = x, ce qui équivaut au fait que y = y + z, et donc que z soit nul, c est-à-dire que x F. Donc F = Ker(p Id E ). De même, x Ker(p) si et seulement si p(x) = 0, ce qui équivaut au fait que y soit nul, et donc au fait que x G. Donc G = Ker(p). Enfin, par définition, Im(p) F, et si y F, p(y) = y (la décomposition de y sur la somme directe E = F G est y = y + 0 E ), d où : Im(p) Ker(p Id E ). Réciproquement, si x Ker(p Id E ), alors x = p(x) Im(p). On a donc Im(p) = Ker(p Id E ). On procède de façon analogue pour les symétries. Propriété Soit p L (E). Pour que p soit un projecteur, il faut et il suffit que p 2 = p. Soit s L (E). Pour que s soit une symétrie, il faut et il suffit que s 2 = Id E. Démonstration D après ce qui précède, si p est un projecteur, alors Im(p) = Ker(p Id E ). On en déduit que (p Id E ) p = 0, et donc p 2 = p. Réciproquement, si p L (E) vérifie p 2 = p, montrons que E = Ker(p Id E ) Ker(p) : tout d abord, l intersection de ces deux sous-espaces vectoriels de E est réduite au vecteur nul, car si p(x) = x et p(x) = 0 E, alors x = 0 E. De plus, pour tout x E, x = (x p(x)) + p(x) avec p(x) Ker(p Id E ) et x p(x) Ker(p) car p 2 = p. 52
61 On a donc bien E = Ker(p Id E ) Ker(p). Il s ensuit que p est le projecteur sur Ker(p Id E ) parallèlement à Ker(p), car si x = y + z E avec y Ker(p Id E ) et z Ker(p), on a p(x) = p(y) = y. On a donc l équivalence souhaitée. Pour les symétries on procède de la même façon en remplaçant Ker(p) par Ker(s + Id E ). Remarque Cette propriété se reformule ainsi : p L (E) est un projecteur si et seulement si X 2 X est annulateur de p ; s L (E) est une symétrie si et seulement si X 2 1 est annulateur de s. IV. Isomorphismes et automorphismes 1. Définitions et premières propriétés Définition Isomorphismes, espaces isomorphes Soit u une application de E dans F. On dit que u est un isomorphisme de E sur F si u est linéaire et bijective de E sur F. On dit que E et F sont des espaces isomorphes s il existe un isomorphisme de E sur F. Exemple Les espaces M n,1 (K), M 1,n (K) et K n sont isomorphes. Propriété Si u est un isomorphisme de E sur F, alors u 1 est un isomorphisme de F sur E. Démonstration Il suffit de montrer que u 1 est linéaire. Soit (x,y) F 2 et λ K. Alors u 1 (λx + y) = u 1 (λ(u u 1 )(x) + (u u 1 )(y)) = u 1 (u(λu 1 (x) + u 1 (y)) par linéarité de u. En simplifiant u 1 u, on obtient u 1 (λx + y) = λu 1 (x) + u 1 (y). Propriété Soit u L (E,F). Pour que u soit un isomorphisme de E sur F, il faut et il suffit qu il existe une application v L (F,E) telle que u v = Id F et v u = Id E. Dans ce cas, u 1 = v. Démonstration Bien sûr, il suffit de montrer l implication réciproque. Si un tel v existe, u est injective car, si x E vérifie u(x) = 0 F, alors v(u(x)) = 0 E et donc x = 0 E. De plus, u est surjective, car pour tout y F, y = u(v(y)) est l image par u du vecteur v(y) E. Finalement u est un isomorphisme et la relation u v = Id F entraîne que u 1 = v. Méthode Pour prouver que u est un isomorphisme de E sur F, on peut donc : Montrer que u est linéaire, injective et surjective. Montrer que u est linéaire et déterminer v L (F,E) tel que u v = Id F et v u = Id E. Cette dernière méthode est très utile lorsque l on a l intuition de l expression de u 1. 53
62 Exemples Soient u : { Rn [X] R n [X] P(X) P(X + 2) et v : { Rn [X] R n [X] Q(X) Q(X 2) Alors u est un isomorphisme de R n [X] sur R n [X], de bijection réciproque v. Soit u L (E) et soit P(X) = a d X d + + a 0 K[X] (d 1) tel que P(u) = 0 L (E), c est-à-dire 0 L (E) = a d u d + + a 0 Id E. Si le coefficient constant a 0 de P est différent de 0, alors on peut écrire a d a 0 u d a 1 a 0 u = Id E, et donc ( u a d u d 1 + a ) ( 1 Id E = a d u d 1 + a ) 1 Id E u = Id E. a 0 a 0 a 0 a 0 Ainsi, u est un isomorphisme de E sur E, de bijection réciproque a d a 0 u d 1 a 1 a 0 Id E. Cette expression de u 1 est d autant plus simple que P est de bas degré. On voit donc que l obtention de polynômes annulateurs de u peut donner des informations importantes sur u. On développera largement ce thème dans le chapitre Réduction des endomorphismes et des matrices carrées. Par exemple, soit u L (E) tel que u 3 + 2u Id = 0. Alors u (u 2 + 2Id) = (u 2 + 2Id) u = Id. On sait donc que u est un isomorphisme de E sur E avec u 1 = u 2 + 2Id. Définition Automorphismes Si u est un isomorphisme de E sur E (c est-à-dire si u : E E est linéaire et bijective) on dit que u est un automorphisme de E. L ensemble des automorphismes de E est noté Gl(E). Propriété/Définition L ensemble Gl(E), muni de l opération de composition des applications, est appelé groupe linéaire de E. On a notamment : Si u Gl(E), alors u 1 Gl(E). Si u Gl(E) et v Gl(E) alors u v Gl(E). En fait, on a : (u v) 1 = v 1 u 1. Si u Gl(E), on dit également que u est inversible, et u 1 est appelé inverse de u. Démonstration Le premier point a été démontré plus haut. Quant au second, soient u et v deux éléments de Gl(E), alors on sait déjà que u v est linéaire; de plus, (u v) (v 1 u 1 ) = u (v v 1 ) u 1 = u Id E u 1 = u u 1 = Id E et de même, (v 1 u 1 ) (u v) = Id E. Ceci prouve que u v Gl(E) avec (u v) 1 = v 1 u 1. 54
63 2. Isomorphismes en dimension finie Caractérisation Théorème Caractérisation des isomorphismes par les bases On suppose que E est de dimension finie n 1. Soit B = (e 1,...,e n ) une base de E et u L (E,F). L application u est un isomorphisme si et seulement si u(b) = (u(e 1 ),...,u(e n )) est une base de F. Démonstration Supposons que u est un isomorphisme, et montrons que u(b) est une famille libre et génératrice de F. Liberté : si λ 1 u(e 1 ) + + λ n u(e n ) = 0 F pour des scalaires λ 1,...,λ n, alors par linéarité de u, u(λ 1 e λ n e n ) = 0 F. L application u étant injective, on a donc λ 1 e λ n e n = 0 E. La famille B étant libre, on en déduit que λ i = 0 pour tout i. Aspect générateur : soit y F et x E tel que u(x) = y (un tel x existe car u est surjective). On peut alors écrire x = λ 1 e λ n e n pour des scalaires λ 1,...,λ n, car B est une famille génératrice de E. Finalement y = u(x) = u(λ 1 e λ n e n ) = λ 1 u(e 1 ) + + λ n u(e n ). On a donc montré que y Vect(u(e 1 ),...,u(e n )), et ce pour tout y F, d où le résultat. Si u(b) = (u(e 1 ),...,u(e n )) est une base de F, montrons que u est bijective. Injectivité : soit x = λ 1 e λ n e n E tel que u(x) = 0 F. Alors 0 F = u(λ 1 e λ n e n ) = λ 1 u(e 1 ) + + λ n u(e n ). La famille (u(e 1 ),...,u(e n )) étant libre, on a λ i = 0 pour tout i, et donc x = 0 E : u est injective. Surjectivité : (u(e 1 ),...,u(e n )) engendre F, donc pour tout y F, il existe des scalaires λ 1,...,λ n tels que y = λ 1 u(e 1 ) + + λ n u(e n ), et ainsi y = u(λ 1 e λ n e n ) avec λ 1 e λ n e n E. Finalement, y Im(u), pour tout y F : u est surjective. Remarque Pour le sens direct, on a en fait montré les résultats suivants : Si u est injective, alors l image par u d une famille libre d éléments de E est une famille libre d éléments de F. Si E est de dimension finie, et si u est surjective, alors l image par u d une famille génératrice de E est une famille génératrice de F. Théorème Caractérisation des isomorphismes en dimension finie Soient E et F deux K-espaces vectoriels de même dimension finie n et u une application linéaire de E dans F. On a les équivalences : u est injective u est surjective u est bijective. 55
64 Démonstration Le résultat est évident si n = 0 (les trois propriétés sont vraies). Sinon, soit B une base de E. Si u est injective, u(b) est une famille libre d éléments de F de n = dim(f) vecteurs ; c est donc une base de F. Donc u est bijective d après le théorème précédent. Si u est surjective, u(b) est une famille génératrice de F de n vecteurs ; c est donc une base de F. Dans ce cas aussi, u est bijective. Les implications réciproques sont évidentes. Bilan Sous les hypothèses précédentes, les propriétés suivantes sont équivalentes : u est bijective, u est injective, u est surjective, u est un isomorphisme de E sur F, Ker(u) = {0 E }, Im(u) = F, u transforme toute base de E en une base de F. Attention! L hypothèse dim(e) = dim(f) est cruciale. En effet : f : x (x,x), de R dans R 2, est injective mais non surjective. g : (x,y) x, de R 2 dans R, est surjective mais non injective. De même, l hypothèse de dimension finie est essentielle même si E = F, comme le montre l exemple suivant : soit φ : C 0 ([0,1],R) C 0 ([0,1],R) l application linéaire définie par : f C 0 ([0,1],R), φ(f) : x x 0 f(t)dt. Alors φ est un endomorphisme, φ est injective mais non surjective. Autre contre-exemple : si D : K[X] K[X] désigne l opérateur de dérivation P P, alors D est un endomorphisme, D est surjective mais non injective. Espaces isomorphes Propriété Soit u L (E,F) un isomorphisme. Alors E est de dimension finie si et seulement si F est de dimension finie, et dans ce cas dim(e) = dim(f). On mentionne souvent ce résultat en disant : «les isomorphismes préservent la dimension». Démonstration Supposons E de dimension finie n. Si n = 0, le résultat est évident car alors F = {0 F }. Si n 1, l image d une base de E par u est une base de F, qui par conséquent est de dimension finie. De plus, ces deux bases ont le même nombre de vecteurs, donc on a dim(e) = dim(f). Si F est de dimension finie, on raisonne de la même façon avec la bijection réciproque u 1 : F E. Propriété Caractérisation des espaces isomorphes par la dimension Soit E un K-espace vectoriel de dimension finie n. Un K-espace vectoriel F est isomorphe à E si et seulement si F est de dimension finie avec dim(f) = n. Démonstration Si E et F sont isomorphes, la propriété précédente montre que F est de dimension finie n. Réciproquement, supposons que F est de dimension finie n. Si n = 0, le résultat est évident, l application nulle étant un isomorphisme de E sur F. Si n 1, soit (e 1,...,e n ) une base de E et (f 1,...,f n ) une base de F. L unique application linéaire de E dans F vérifiant u(e i ) = f i pour tout i est un isomorphisme de E sur F, car elle transforme une base de E en une base de F. Les espaces E et F sont donc isomorphes. Exemple Si dim(e) = n 1 et si (e 1,...,e n ) est une base de E, alors l application linéaire φ : { L (E,F) F n u (u(e 1 ),...,u(e n )) 56
65 est un isomorphisme : en effet, pour toute famille (f 1,...,f n ) d éléments de F, il existe une unique application linéaire u L (E,F) telle que u(e i ) = f i pour tout i [1,n], c est-à-dire, telle que φ(u) = (f 1,...,f n ). Ainsi, si F est de dimension finie, L(E,F) est un espace vectoriel de dimension finie et de même dimension que F n, i.e. de dimension n dim(f) = dim(e) dim(f). Corollaire Tout K-espace vectoriel E de dimension n 1 est isomorphe à K n. Remarque Dans ce cas, pour faire le lien avec la démonstration de la propriéte précédente, on choisit F = K n, (f 1,...,f n ) la base canonique de K n, et u : E K n l application qui à tout vecteur de E associe le n-uplet de ses coordonnées dans une base fixée (e 1,...,e n ) de E. L application u est parfois appelée isomorphisme des coordonnées. Le corollaire précédent montre que K n est le «modèle» du K-espace vectoriel de dimension n. V. Rang et théorème du rang 1. Rang d une application linéaire Définition Rang d une application linéaire Soit u une application linéaire de E dans F. Si Im(u) est de dimension finie, on dit que u est de rang fini et on appelle rang de u la dimension de Im(u), notée rg(u). Remarques Si F est de dimension finie, alors sachant que Im(u) F, on en déduit que u est de rang fini avec rg(u) dim(f). On a égalité si et seulement si Im(u) = F, i.e., si et seulement si u est surjectif. Si E est dimension finie n et si (e 1,...,e n ) est une famille génératrice de E, on sait que Im(u) = Vect(u(e 1 ),...,u(e n )), donc u est de rang fini avec rg(u) = rg(u(e 1 ),...,u(e n )) n = dim(e). En particulier, si, de plus, u est surjective, alors F est de dimension finie et dim(f) dim(e). Propriété Rang et composition Soient E, F et G trois K-espaces vectoriels et u : E F, v : F G deux applications linéaires. Si u ou v est de rang fini, alors v u est de rang fini; dans le premier cas on a rg(v u) rg(u), dans le second, rg(v u) rg(v). En particulier, si u et v sont tous deux de rang fini, rg(v u) min{rg(u),rg(v)}. Démonstration Tout d abord, Im(v u) Im(v), donc si v est de rang fini, v u est de rang fini avec rg(v u) = dim(im(v u)) dim(im(v)) = rg(v). Cela prouve l inégalité dans le second cas évoqué ci-dessus. Dans le premier cas, notons r le rang de u. Si r = 0, u et v u sont nulles, donc le résultat est vrai. Si r 1, il existe une base (u(e 1 ),...,u(e r )) de Im(u) où e 1,...,e r sont des vecteurs de E. 57
66 Montrons alors que ((v u)(e 1 ),...,(v u)(e r )) engendre Im(v u) : soit z = (v u)(x) Im(v u) avec x E. Alors u(x) Im(u), on peut donc le décomposer sous la forme u(x) = λ 1 u(e 1 ) + + λ r u(e r ) où (λ 1,...,λ r ) K r. Par linéarité de v, on a alors z = λ 1 (v u)(e 1 ) + + λ r (v u)(e r ), ce qui prouve que ((v u)(e 1 ),...,(v u)(e r )) engendre Im(v u). On en déduit que v u est de rang fini avec rg(v u) r = rg(u), d où le résultat dans ce cas. Propriété Invariance du rang par composition par des isomorphismes Soit f Gl(E) et g Gl(F) deux automorphismes et u L(E,F). Si u est de rang fini, alors g u f est de rang fini et rg(u) = rg(g u f). Démonstration D après l inégalité de la propriété précédente, on sait que g u est de rang fini avec rg(g u) rg(u). On en déduit de la même façon que g u f est de rang fini avec En remarquant que rg(g u f) rg(g u) rg(u). u = g 1 (g u f) f 1 et en raisonnant de même, on obtient l inégalité opposée rg(u) rg(g u f) et finalement le résultat. 2. Théorème du rang Théorème du rang Si E est de dimension finie et u L (E,F), alors u est de rang fini et dim(e) = dim(ker(u)) + rg(u). Démonstration L espace E est de dimension finie, on sait déjà d après une remarque précédente que u est de rang fini; de plus, Ker(u) admet un supplémentaire V (dans E) : E = Ker(u) V. Soit { V Im(u) ũ : x u(x) Alors ũ est injective : soit x V tel que ũ(x) = 0 Im(u) = 0 F. Alors x V Ker(u) = {0 E }, donc x = 0 E = 0 V. De plus, ũ est surjective : fixons y Im(u) et soit x E tel que u(x) = y. On écrit x = x 1 + x 2 avec x 1 V et x 2 Ker(u). On a donc y = u(x 1 + x 2 ) = u(x 1 ) + u(x 2 ) = u(x 1 ) = ũ(x 1 ), et donc y ũ(v ). Finalement, ũ est un isomorphisme de V sur Im(u) avec E = Ker(u) V, donc dim(e) = dim(ker(u)) + dim(v ) = dim(ker(u)) + dim(im(u)), 58
67 car les isomorphismes préservent la dimension. On a donc le résultat car dim(im(u)) = rg(u). Remarque On retrouve la caractérisation des isomorphismes en dimension finie : si E et F sont de même dimension finie n, on sait que u est injective si et seulement si dim(ker(u)) = 0, ce qui équivaut d après le théorème du rang à rg(u) = dim(e) = dim(f), c est-à-dire à la surjectivité de u. En particulier, u est un isomorphisme si et seulement si rg(u) = n. VI. Formes linéaires et hyperplans Nous allons maintenant expliciter un lien particulier entre un certain type de sous-espaces vectoriels de E et un certain type d applications linéaires. Dans cette partie, E est de dimension finie n Formes linéaires Définition Forme linéaire On appelle forme linéaire sur E toute application linéaire de E dans K, i.e., tout élément de L (E,K). Remarques Il s agit d un cas particulier d application linéaire avec F = K ; en particulier, les scalaires sont également les vecteurs de l espace d arrivée. L espace vectoriel K est un K-espace vectoriel de dimension 1, et donc L (E,K) est de dimension n, comme E. Exemples Pour tout i [1,n], l application φ i : { K n K (x 1,...,x n ) x i est une forme linéaire sur K n, appelée i-ième forme coordonnée (associée à la base canonique de K n ). Elle est aussi notée dx i. L application est une forme linéaire sur K n [X]. Pour tout α K, l application ψ : K n [X] f K 1 0 f(x)dx ϕ : { Kn [X] K P P(α) est une forme linéaire sur K n [X]. Remarque Soit ϕ L (E,K). Si ϕ est non nulle, alors ϕ est surjective. En effet Im(ϕ) est un sous-espace vectoriel de K, c est donc {0} ou K. Sachant que ϕ 0, on a Im(ϕ) = K, ce qui prouve que ϕ est surjective. On peut aussi donner une démonstration plus constructive : il existe x E tel que ϕ(x) 0. Soit λ K ; alors ( ϕ λ x ) = λ ϕ(x) ϕ(x) ϕ(x) = λ. On a donc construit, pour tout λ K, un vecteur y de E tel que ϕ(y) = λ : ϕ est surjective. 59
68 2. Hyperplans Théorème/Définition Soit H un sous-espace vectoriel de E. Les propriétés suivantes sont équivalentes : 1. dim(h) = dim(e) Il existe x 0 E non nul tel que E = H K x Il existe une forme linéaire ϕ sur E, non nulle, telle que H = Ker(ϕ). Si H vérifie l une de ces propriétés équivalentes, on dit que H est un hyperplan de E. Démonstration 2 1 : Si E = H K x 0 pour un certain vecteur x 0 non nul de E, alors d où le résultat. dim(e) = dim(h) + dim(k x 0 ) = dim(h) + 1, 1 3 : Si n = 1, H = {0 E }, et toute forme linéaire non nulle convient. Sinon, soit (e 1,...,e n 1 ) une base de H, que l on complète en base B = (e 1,...,e n ) de E. On définit alors entièrement une forme linéaire ϕ sur E en posant ϕ(e 1 ) = 0,..., ϕ(e n 1 ) = 0, ϕ(e n ) = 1. Alors ϕ est non nulle (car ϕ(e n ) = 1) et, si x = x 1 e 1 + +x n e n est un vecteur de E décomposé sur la base B, on a x Ker(ϕ) si et seulement si x 1 ϕ(e 1 ) + + x n ϕ(e n ) = 0 ce qui équivaut à x n = 0, et donc au fait que x Vect(e 1,...,e n 1 ) = H. On a donc H = Ker(ϕ). 3 2 : Soit x 0 E tel que ϕ(x 0 ) 0; en particulier x 0 0 E. Il suffit de montrer que E = Ker(ϕ) K x 0. Pour tout x E, on a De plus, x = x ϕ(x) ϕ(x 0 ) x 0 + ϕ(x) ϕ(x 0 ) x 0. ( ϕ x ϕ(x) ) ϕ(x 0 ) x 0 = ϕ(x) ϕ(x) ϕ(x 0 ) ϕ(x 0) = 0, donc x ϕ(x) ϕ(x 0 ) x 0 Ker(ϕ), et bien sûr ϕ(x) ϕ(x 0 ) x 0 K x 0. On a donc E = Ker(ϕ) + K x 0. Enfin, si x Ker(ϕ) K x 0, alors il existe λ K tel que x = λx 0, et 0 = ϕ(x) = λϕ(x 0 ). Sachant que ϕ(x 0 ) 0, on a nécessairement λ = 0, d où x = 0 E. Ainsi Ker ϕ K x 0 = {0 E }, ce qui achève de prouver que E = Ker(ϕ) K x 0. Remarque Les raisonnements précédents montrent même que si H = Ker(ϕ) est un hyperplan de E et x 0 E, alors E = H K x 0 si et seulement si x 0 / H, ce qui équivaut à : ϕ(x 0 ) 0. Définition Équation d un hyperplan Si H est un hyperplan de E et ϕ L (E,K) une forme linéaire telle que H = Ker(ϕ), on dit que l équation ϕ(x) = 0 est une équation de H. Propriété Soient ϕ et ψ deux formes linéaires sur E. Alors Ker(ϕ) = Ker(ψ) si et seulement si il existe λ K tel que ψ = λϕ. 60
69 Démonstration C est évident : sachant que λ 0, pour x E, on a ϕ(x) = 0 si et seulement si ψ(x) = 0. Si ϕ = 0, alors ψ = 0 (car dans ce cas Ker(ϕ) = Ker(ψ) = E) et on a ψ = ϕ. Sinon, soit H = Ker(ϕ), c est un hyperplan de E en tant que noyau d une forme linéaire non nulle. Si n 2, soit (e 1,...,e n 1 ) une base de H, que l on complète en base B = (e 1,...,e n ) de E. Alors ϕ(e 1 ) = 0 = ψ(e 1 ),..., ϕ(e n 1 ) = 0 = ψ(e n 1 ), et ϕ(e n ) 0, ψ(e n ) 0. En posant λ = ψ(e n) ϕ(e n ) K, on a ψ = λϕ, car ces deux applications linéaires coïncident sur la base B. Si n = 1, on reprend le raisonnement avec uniquement e n. Remarque On sait que tout hyperplan possède une équation. D après la propriété précédente, une telle équation est unique à multiplication par un scalaire non nul près. Soient B = (e 1,...,e n ) une base de E et H un hyperplan de E, noyau d une forme linéaire non nulle ϕ. Alors, un vecteur x = x 1 e x n e n appartient à H si et seulement si ϕ(x) = 0, ce qui équivaut par linéarité de ϕ à x 1 ϕ(e 1 ) + + x n ϕ(e n ) = 0. En notant, pour tout i [1,n], a i = ϕ(e i ) (qui est un élément de K), on a finalement l équivalence : x H a 1 x a n x n = 0. Définition Équation d un hyperplan dans une base Avec les notations précédentes, on dit que l équation est une équation de H dans la base B. a 1 x a n x n = 0 On retrouve les équations «classiques» des hyperplans, par exemple en dimension 2 (droites vectorielles) et 3 (plans vectoriels). Les formes linéaires sur E définissant l hyperplan H sont exactement celles dont l expression en coordonnées dans la base B est de la forme x λ(a 1 x a n x n ) où λ K. Autrement dit, deux équations d hyperplans dans une même base définissent le même hyperplan si et seulement si elles sont proportionnelles. Exemples L équation x + 2y + 3z = 0 définit un hyperplan de R 3, c est-à-dire un plan vectoriel de R 3. C est le noyau de la forme linéaire non nulle (x,y,z) x + 2y + 3z. Soit H = {P K n [X]; P(1) = 0}. Alors H est un hyperplan de K n [X], c est le noyau de la forme linéaire non nulle { Kn [X] K ϕ : P P(1) Il a pour équation P(1) = 0. Dans la base (X n,...,1) de K n [X] (et en notant P = n k=0 x kx k ), H a pour équation x n + + x 0 = 0. 61
70 62
71 Chapitre 4 Matrices Dans ce chapitre, p et n désignent deux entiers naturels non nuls et K = R ou C. I. Calcul matriciel 1. Opérations Soient m et q des entiers naturels non nuls. Soient A = (a i,j ) 1 i n M n,p (K), 1 j p B = (b i,j ) 1 i m 1 j q M m,q (K) et λ K. On définit la matrice λ A M n,p (K) (ou simplement λa) par : (i,j) [1,n] [1,p], (λa) i,j = λa i,j. Si n = m et p = q, on définit la matrice A + B M n,p (K) par : (i,j) [1,n] [1,p], (A + B) i,j = a i,j + b i,j. Si p = m, on définit la matrice AB M n,q (K) par : (i,j) [1,n] [1,q], (AB) i,j = p a i,k b k,j. Enfin, on définit la matrice transposée de A, notée t A ou A T, par : k=1 t A = (a j,i ) 1 i p M p,n (K). 1 j n On vérifie sans difficulté que, si A M n,p (K) et B M p,q (K), alors Notation Si A M n,p (K), les notations A = L 1. L n t (AB) = t B t A. et A = ( ) C 1 C p signifient que L 1,...,L n sont les lignes de A, et que C 1,...,C p sont les colonnes de A (dans cet ordre). Remarques Si A = ( C 1 C p ) Mn,p (K) et X = t( x 1 x p ) Mp,1 (K), alors AX est une combinaison linéaire des colonnes de A : AX = x 1 C x p C p. 63
72 L 1 Si A =. L n M n,p (K) et B = ( C 1 C q ) Mp,q (K), alors : La j-ième colonne de AB est le produit AC j de A par la j-ième colonne de B. La i-ième ligne de AB est le produit L i B de la i-ième ligne de A par B. Attention! Le produit matriciel est associatif, mais non commutatif en général : si A et B sont deux éléments de M n (K), on a en général AB BA. Si n 2, il existe des éléments tous deux non nuls A et B de M n (K) tels que AB = 0. Le résultat suivant est immédiat : Propriété (M n,p (K), +, ) est un K-espace vectoriel. Pour tout (i,j) [1,n] [1,p], on note E i,j la matrice de M n,p (K) dont tous les coefficients sont nuls sauf celui en position (i,j) qui vaut 1. Alors la famille (E i,j ) 1 i n,1 j p est une base de M n,p (K), appelée base canonique de M n,p (K). (M n,p (K), +, ) est de dimension finie égale à n p. On montre également que la formule du binôme de Newton est valable pour deux matrices carrées de même taille qui commutent. 2. Polynômes de matrices Si A M n (K) est une matrice carrée, on définit, de même qu on l a fait pour les endomorphismes, les polynômes de A, et les polynômes annulateurs de A. Présentons une méthode très utile pour calculer les puissances d une matrice A M n (K). Soit P un polynôme annulateur non nul de A. Pour k N, effectuons la division euclidienne de X k par P : il existe Q k K[X] et R k K[X] vérifiant deg(r k ) < deg(p), tels que En évaluant cette relation en A, on obtient X k = P(X)Q k (X) + R k (X). A k = P(A)Q k (A) + R k (A) = R k (A), car P(A) = 0 par définition. Le calcul de A k se ramène donc à celui de R k : il est d autant plus simple que le degré de P est petit. Par exemple, soit A = M 3 (R) On vérifie facilement que A 2 = A + 2I 3, de sorte que le polynôme P(X) = X 2 X 2 = (X + 1)(X 2) est annulateur de A. Pour k N, la division euclidienne de X k par P peut s écrire sous la forme X k = (X + 1)(X 2)Q k (X) + a k X + b k, le reste R k étant de degré au plus 1. On détermine a k et b k en évaluant la relation précédente en 1 et 2 (racines de P) : { ( 1) k = a k + b k 2 k = 2a k + b k, 64
73 ce qui donne immédiatement a k = 2k + ( 1) k+1 3 Finalement, on a montré que pour tout k N, 3. Matrices inversibles Propriété/Définition A k = 2k + ( 1) k+1 3, b k = 2k + 2( 1) k. 3 A + 2k + 2( 1) k I 3. 3 Soit A M n (K). On dit que A est inversible s il existe une matrice B M n (K) telle que AB = BA = I n. Une telle matrice est alors unique, elle est notée A 1 et appelée inverse de A. L ensemble des matrices inversibles de M n (K) est noté Gl n (K), il est appelé groupe linéaire d ordre n. Démonstration de l unicité Si B et C vérifient les propriétés de la définition, alors B = BI n = B(AC) = (BA)C = I n C = C. Propriété Si A et B sont deux éléments de Gl n (K), alors AB Gl n (K) et (AB) 1 = B 1 A 1 Démonstration On a (AB)(B 1 A 1 ) = A(BB 1 )A 1 = AI n A 1 = AA 1 = I n, et de même pour le produit (B 1 A 1 )(AB). D où le résultat. Remarque Dans le chapitre précédent, on a donné, pour un endomorphisme u, une méthode pour prouver l existence de u 1 à partir d un polynôme annulateur de u de coefficient constant non nul. Cette méthode peut bien sûr être adaptée pour les matrices carrées. II. Matrices, vecteurs et applications linéaires Dans cette partie, sauf indication contraire, E et F désignent deux K-espaces vectoriels de dimension finie non nulle. On note p = dim(e), n = dim(f), B = (e 1,...,e p ) une base de E et C = (f 1,...,f n ) une base de F. Enfin, u désigne une application linéaire entre E et F : u L (E,F). 1. Matrices d une famille de vecteurs Si x est un vecteur de F par exemple (ce qui suit s adapte pour tout espace vectoriel de dimension finie), on peut décomposer x dans la base C de F : on peut écrire x = n i=1 a i f i, où les a i, éléments de K, sont les coordonnées de x dans la base C. Le vecteur a 1.. a n 65
74 est appelé vecteur (ou matrice) colonne des coordonnées de x dans la base C. Plus généralement, si (x 1,...,x k ) est une famille de vecteurs de F, pour tout j [1,k], on peut écrire n x j = a i,j f i, où les a i,j sont des éléments de K. Soit A la matrice a 1,1... a 1,j... a 1,k... a i,1... a i,j... a i,k M n,k (K)... a n,1... a n,j... a n,k i=1 dont la j-ième colonne est, pour tout j [1,k], le vecteur des coordonnées de x j dans la base C. La matrice A est appelée matrice de la famille (x 1,...,x k ) dans la base C, notée Mat C (x 1,...,x k ). Exemple Si C = (1,X,X 2 ) est la base canonique de R 2 [X], la matrice de la famille dans la base C est (2X 2 X + 1,3X 2 1) Matrices d une application linéaire On sait que l application linéaire u est entièrement déterminée par les p vecteurs u(e 1 ),...,u(e p ), et donc, par leurs coordonnées dans la base C. L information concernant u est donc entièrement contenue dans la donnée de n p scalaires. Définition La matrice de la famille u(b) = (u(e 1 ),...,u(e p )) dans la base C, i.e. Mat C (u(e 1 ),...,u(e p )) M n,p (K) est appelée matrice de u dans les bases B et C, et notée Mat C B(u). Si E = F et B = C, on note simplement Mat B (u). On retiendra notamment que pour tout j [1,p], la j-ième colonne de Mat C B (u) est le vecteur des coordonnées de u(e j ) dans la base C : le fait que est équivalent au fait que pour tout j [1,p], Exemple Soit φ : Mat C B (u) = (a i,j) 1 i n 1 j p u(e j ) = n a i,j f i. i=1 { R3 [X] R 2 [X] P P La matrice de φ dans les bases canoniques de R 3 [X] et R 2 [X] est
75 3. Isomorphisme entre L (E,F) et M n,p (K) Ainsi, des bases B de E et C de F étant fixées, on peut associer à toute application linéaire u L (E,F) sa matrice dans les bases B et C, qui est un élément de M n,p (K). On peut en fait en dire plus : Théorème L application { L (E,F) Mat C B : u est un isomorphisme d espaces vectoriels : Si u,v L (E,F) et λ K, Mn,p (K) Mat C B (u) Mat C B (λu + v) = λmatc B (u) + MatC B (v). Pour tout A M n,p (K), il existe une unique application linéaire u L (E,F) dont la matrice dans les bases B et C soit A. Démonstration Linéarité : c est immédiat par définition des opérations + et sur les matrices. Bijectivité : Soit A = (a i,j ) M n,p (K). On pose, pour tout j [1,p], y j = n i=1 a i,jf i. Une application linéaire u L (E,F) a pour matrice A dans les bases B et C si et seulement si pour tout j [1,p], u(e j ) = y j. Or, il existe une unique application linéaire u de E dans F satisfaisant ces conditions. Donc l application Mat C B est bijective. Remarques Attention, on ne peut pas parler de «la» matrice de l application linéaire u. Il est indispensable de préciser les bases au départ et à l arrivée. Par exemple, l identité de R n, dans les bases 2B et B (B est la base canonique de R n ) a pour matrice 2I n. L unique endomorphisme u de E tel que Mat B (u) = I n est l identité : u = Id E (remarquer la différence avec l exemple précédent : ici on considère la même base au départ et à l arrivée). L unique endomorphisme u de E tel que Mat C B (u) = 0 est l application nulle. Cas particulier de E = M p,1 (K) et F = M n,1 (K). Pour k entier naturel non nul, l espace M k,1 (K) admet pour base canonique la famille B k = (V 1,..., V k ), où V i est un vecteur-colonne à k composantes, toutes nulles sauf la i-ième qui vaut 1. D après le théorème précédent, Mat Bn B p est un isomorphisme entre L (M p,1 (K),M n,1 (K)) et M n,p (K). Soit A M n,p (K). L unique application linéaire de M p,1 (K) dans M n,1 (K) dont la matrice dans les bases B p et B n est A, est l application linéaire canoniquement associée à A, i.e. u A : { Mp,1 (K) M n,1 (K) X AX On fait souvent l identification entre M n,1 (K) et K n (et de même, entre M p,1 (K) et K p ) pour simplifier l écriture. Il ne faut pas oublier ce que représente réellement chacun de ces espaces : M n,1 (K) est l espace des vecteurs-colonnes à n coefficients, K n est l espace des n-uplets d éléments de K (et donc, écrits en ligne, en séparant les composantes par des virgules). Les isomorphismes préservent la dimension, donc on retrouve le fait que dim(l (E,F)) = p n = dim(e) dim(f). 67
76 4. Calcul de l image d un vecteur Propriété Soit x E et y = u(x). On note X = x 1.. et Y = y 1.. x p y n les vecteurs colonne des coordonnées de x et y dans les bases B et C, respectivement. Soit A = Mat C B (u). Alors Y = AX. Démonstration Notons A = (a i,j ) 1 i n. On a x = 1 j p u(x) = p x j u(e j ) = j=1 p x j e j et donc, par linéarité de u, j=1 [ ( p n )] x j a i,j f i = i=1 j=1 Par unicité des coordonnées dans la base C, on en déduit i [1,n], y i = p a i,j x j. j=1 n p a i,j x j f i. i=1 j=1 Par définition du produit matriciel, ces égalités signifient exactement que Y = AX. Remarque Le produit matriciel a été défini pour que la propriété précédente soit vraie. 5. Lien entre produit de matrices et composition d applications Propriété Soient E, E, E trois K-espaces vectoriels de dimension finie. Soit B une base de E, B une base de E et B une base de E. Soit u L(E,E ) et v L(E,E ). On sait que { u E E v E v u : x u(x) v(u(x)) appartient à L (E,E ). Alors Mat B B (v u) = MatB B (v)matb B (u). Démonstration Notons M = Mat B B (v u), A = MatB B (u) et B = MatB B (v). Soit x E et X le vecteur colonne des coordonnées de x dans la base B. On sait que MX est le vecteur colonne des coordonnées de (v u)(x) dans la base B. Or le vecteur colonne des coordonnées de u(x) dans la base B est Y = AX et le vecteur colonne des coordonnées de v(u(x)) dans la base B est BY = BAX. Donc X M p,1 (K), MX = BAX, où p = dim(e). On en déduit que M = BA en choisissant pour X les vecteurs de la base canonique de M p,1 (K). 68
77 Corollaire Soient E et F deux K-espaces vectoriels de dimension n. Soit B une base de E et C une base de F. Soit u L (E,F). Alors on a l équivalence : Dans ce cas, u est un isomorphisme Mat C B (u) Gl n(k). (Mat C B (u)) 1 = Mat B C (u 1 ). Cas particulier : si E = F et u L (E), on a l équivalence u est un automorphisme Mat B (u) Gl n (K). Dans ce cas, (Mat B (u)) 1 = Mat B (u 1 ). Démonstration Si u est un isomorphisme, alors il existe une application linéaire v = u 1 telle que u v = Id F et v u = Id E. Alors d après la propriété précédente, Mat C B (u)matb C (v) = MatB C (v)matc B (u) = I n, donc Mat C B (u) est inversible, d inverse MatB C (v). Soit A = Mat C B (u). Si A est inversible, alors il existe une matrice B = A 1 telle que AB = BA = I n. Soit v l unique application linéaire de F dans E telle que Mat B C (v) = B. Alors d après la propriété précédente, Mat C (u v) = Mat B (v u) = I n, donc u v = Id F et v u = Id E. 6. Changements de bases Définition Matrice de passage Soient B = (e 1,...,e p ) et B = (e 1,...,e p) deux bases de E. Pour tout j [1,p], on peut écrire e j = p i=1 p i,je i, c est-à-dire exprimer e j dans la base B. La matrice P = (p i,j ) M p (K) est appelée matrice de passage de la base B à la base B. Les colonnes de P sont les coordonnées des vecteurs de la «nouvelle» base dans «l ancienne». Remarque On a P = Mat B (e 1,...,e p) = Mat B B (Id). En particulier, P est inversible et P 1 est la matrice de passage de B à B. Exemple Les familles B = (1,X,X 2 ) et B = (1 X +X 2,X +2X 2,2 X +2X 2 ) sont des bases de R 2 [X] : la première est la base canonique, la seconde comporte 3 = dim(r 2 [X]) vecteurs et on vérifie très facilement qu elle est libre. La matrice de passage de B à B est P = Propriété Formule de changement de bases pour les vecteurs Soient x un vecteur de E, X la matrice colonne des coordonnées de x dans la base B, X la matrice colonne des coordonnées de x dans la base B et P la matrice de passage de B à B. Alors on a la relation X = PX, c est-à-dire que l on obtient les anciennes coordonnées en fonction des nouvelles. 69
78 Démonstration D après la propriété sur le calcul matriciel de l image d un vecteur par une application linéaire, et d après la remarque ci-dessus, X = Mat B B (Id)X = PX. Exemple Dans le cas de l exemple ci-dessus, un polynôme a + bx + cx 2 se décompose dans la base B sous la forme où α(1 X + X 2 ) + β(x + 2X 2 ) + γ(2 X + 2X 2 ) a α b = P β, soit c γ α a β = P 1 b. γ c À titre d illustration, en identifiant le coefficient constant dans les deux décompositions, on obtient a = α + 2γ, où l on reconnaît le premier coefficient du produit a α b = P β. c γ Propriété Formule de changement de bases pour les applications linéaires Soient B et B deux bases de E, C et C deux bases de F. Soient P la matrice de passage de B à B dans E, Q la matrice de passage de C à C dans F. Soient u L (E,F), A = Mat C B (u) et B = MatC B (u). Alors B = Q 1 AP. Démonstration Avec les notations précédentes pour x E et des notations analogues pour y = u(x), on a X = PX, Y = QY, Y = AX et Y = BX, et donc BX = Y = Q 1 Y = Q 1 AX = Q 1 APX. Ceci est vrai pour tout X M p,1 (K) avec p = dim(e). On en déduit le résultat en choisissant pour X les vecteurs de la base canonique de M p,1 (K). Exemple Soit u : { R 2 [X] R 2 [X] a + bx + cx 2 ( a 2b + c) + (3a + 3b 2c)X 2bX 2 Il est immédiat que u L (R 2 [X]). Écrivons la matrice de u dans la base canonique B de R 2 [X]; on a u(1) = 1 + 3X, u(x) = 2 + 3X 2X 2, u(x 2 ) = 1 2X, donc A = Mat B (u) = De même, écrivons la matrice de u dans la base B de R 2 [X] des deux exemples précédents ; on a u(1 X + X 2 ) = 2 2X + 2X 2 = 2(1 X + X 2 ), donc u(x + 2X 2 ) = X 2X 2 = (X + 2X 2 ), u(2 X + 2X 2 ) = 2 X + 2X 2, B = Mat B (u) = Les matrices A et B sont reliées par la formule de changement de base B = P 1 AP, soit A = PBP 1. Du fait de la simplicité de la matrice B, cette relation facilite, par exemple, le calcul des puissances de A : pour tout k N, A k = PB k P 1 où B k = diag(2 k,( 1) k,1). 70
79 Définition Matrices semblables Si (A,B) (M n (K)) 2, on dit que A et B sont semblables si P Gl n (K); B = P 1 AP. Propriété Deux matrices de M n (K) sont semblables si et seulement si elles représentent le même endomorphisme d un espace de dimension n, quitte à faire le même changement de base au départ et à l arrivée. Remarque La relation de similitude entre matrices définit une relation d équivalence sur M n (K). III. Image, noyau et rang d une matrice 1. Définitions, propriétés du rang Toutes les définitions et propriétés des applications linéaires se transposent aux matrices A M n,p (K) par l intermédiaire de l application linéaire canoniquement associée u A : { Mp,1 (K) M n,1 (K) X AX En particulier, pour A M n,p (K), on définit : le noyau de A comme le noyau de u A, i.e. l image de A comme l image de u A, i.e. le rang de A comme le rang de u A. Remarques Ker(A) = {X M p,1 (K); AX = 0}. Im(A) = {Y M n,1 (K); X M p,1 (K); Y = AX}. Déterminer Ker(A) revient à résoudre le système linéaire sans second membre de matrice A. Si A = (C 1 C p ) et X = t( x 1 x p ), alors AX = x1 C x p C p. En particulier, les colonnes de A forment une famille liée si et seulement s il existe un vecteur non nul dans Ker(A), et un tel vecteur donne explicitement une relation de dépendance linéaire entre les colonnes de A. Im(A) est engendré par les images par l application u A des vecteurs de la base canonique de M p,1 (K), c est-à-dire par les colonnes de A. En particulier, rg(a) est le rang de la famille des vecteurs colonnes de A. On sait que le rang d une application linéaire n est pas modifié par composition (à droite ou à gauche) par un isomorphisme. Matriciellement, ce résultat se traduit ainsi : Propriété Le rang d une matrice A M n,p (K) n est pas modifié par multiplication (à droite ou à gauche) par une matrice inversible : si P Gl n (K) et Q Gl p (K), alors rg(paq) = rg(a). 71
80 Propriété Soient u L (E,F) et A = Mat C B (u). Alors rg(u) = rg(a), i.e., pour calculer le rang de u, il suffit de calculer le rang d une de ses matrices. Démonstration Par définition, en notant A = (a i,j ), on a ( ( n )) n rg(u) = dim(vect(u(e 1 ),... u(e p ))) = dim Vect a i,1 f i,..., a i,p f i. i=1 i=1 Notons (V i ) 1 i n la base canonique de M n,1 (K) et φ l isomorphisme de F sur M n,1 (K) tel que i [1,n], φ(f i ) = V i. Ainsi, φ est l application qui à tout vecteur de F associe la matrice colonne de ses coordonnées dans la base C. Les isomorphismes préservant la dimension, on a ( ( ( n ) ( n ))) rg(u) = dim Vect φ a i,1 f i,...,φ a i,p f i. i=1 i=1 Ainsi ( rg(u) = dim Vect ( n a i,1 V i,..., i=1 i=1 )) n a i,p V i, où l on reconnaît le rang de la famille des colonnes de A, et donc rg(a). Corollaire Soit (x 1,...,x m ) une famille de vecteurs de E et A = Mat B (x 1,...,x m ). Alors rg(x 1,...,x m ) = rg(a), i.e., pour calculer le rang d une famille de vecteurs, il suffit de calculer le rang d une de ses matrices. Démonstration Soit C = (e j ) 1 j m la base canonique de K m et u l unique application linéaire de K m dans E telle que pour tout j [1,m], u(e j ) = x j. Alors Mat B C (u) = Mat B(x 1,...,x m ) = A et Im(u) = Vect(x 1,...,x m ) donc rg(x 1,...,x m ) = rg(u) = rg(a), la dernière égalité provenant de la propriété précédente. 2. Caractérisation des matrices inversibles, théorème du rang Théorème Caractérisation des matrices inversibles Soit A M n (K). On a les équivalences : A est inversible Im(A) = M n,1 (K) rg(a) = n Ker(A) = {0 Mn,1 (K)}. Ceci permet de montrer que A est inversible sans calculer son inverse. Démonstration La matrice A est inversible si et seulement si u A est un isomorphisme. La caractérisation des isomorphismes en dimension finie donne alors le résultat. 72
81 Corollaire Soient (x 1,...,x p ) une famille de vecteurs de E (on rappelle que p = dim(e)) et A = Mat B (x 1,...,x p ). Alors, pour que (x 1,...,x p ) soit une base de E, il faut et il suffit que A soit inversible. Démonstration La famille (x 1,...,x p ) est une famille de p vecteurs de E avec p = dim(e), donc c est une base de E si et seulement si elle est génératrice de E, ce qui équivaut à rg(x 1,...,x p ) = p, i.e., à rg(a) = p. D après le théorème précédent, ceci équivaut à l inversibilité de A. En appliquant le théorème du rang à u A avec A M n,p (K) (l espace de départ étant alors de dimension p), on obtient : Théorème du rang pour les matrices Soit A M n,p (K). Alors dim(ker(a)) + rg(a) = p. Propriété Soient A et B deux matrices de M n (K). Si AB = I n alors A et B sont inversibles et inverses l une de l autre. Démonstration Si AB = I n alors u A u B = Id donc u A est surjective et u B est injective. D après la caractérisation des isomorphismes en dimension finie, on en déduit que u A et u B sont des isomorphismes, donc A et B sont inversibles. De plus, (u A ) 1 = u B et donc A 1 = B. Remarque Lorsque AB = I n pour deux matrices A et B de M n (K), il est donc inutile de vérifier que BA = I n, on peut directement conclure que A et B sont inversibles et inverses l une de l autre. IV. La méthode de Gauss-Jordan 1. Opérations élémentaires Soit A M n,p (K). On appelle opérations élémentaires les manipulations suivantes (où λ désigne un scalaire) : Opérations élémentaires sur les colonnes de A : Multiplier la i-ième colonne de A par un scalaire λ non nul : C i λc i. Permuter les colonnes i et j de A : C i C j, Ajouter à la i-ième colonne de A, λ fois la j-ième (j i) : C i C i + λc j, Opérations élémentaires sur les lignes de A : Multiplier la i-ième ligne de A par un scalaire λ non nul : L i λl i. Permuter les lignes i et j de A : L i L j, Ajouter à la i-ième ligne de A, λ fois la j-ième (j i) : L i L i + λl j, 73
82 Définition Matrices élémentaires Dans les matrices qui suivent, les coefficients non précisés sont égaux à 0. Soit m N. Pour tout i [1,m] et λ K, on définit la matrice de dilatation D m i (λ) = λe i,i + k [[1,m]] k i 1 E k,k =... 1 C i λ L i M m (K) 1 Pour tout (i,j) [1,m] 2 tel que i j, on définit la matrice de transposition τ m i,j = E i,j +E j,i + k [[1,m]] k i,k j 1 E k,k = C i C j Li L j M m (K) Dans la matrice précédente, on a choisi i < j, ce qui n est pas restrictif car pour tout (i,j) [1,m] 2 tel que i j, τ m i,j = τm j,i. Pour tout (i,j) [1,m] 2 tel que i j, pour tout λ K, on définit la matrice de transvection 1 i,j (λ) = I m + λe i,j = T m C j C i... 1 Lj.... λ 1 L i M m (K) Dans la matrice précédente, on a choisi i > j, ce qui est restrictif : il est bien sûr possible de choisir i < j, auquel cas le coefficient λ sera placé au-dessus de la diagonale. 74
83 Propriété Traduction matricielle des opérations élémentaires Soit A M n,p (K). Alors : 1. Opérations élémentaires sur les colonnes de A : La matrice obtenue à partir de A par l opération C i λc i est AD p i (λ). La matrice obtenue à partir de A par l opération C i C j est Aτ p i,j. La matrice obtenue à partir de A par l opération C i C i + λc j est AT p j,i (λ). 2. Opérations élémentaires sur les lignes de A : La matrice obtenue à partir de A par l opération L i λl i est D n i (λ)a. La matrice obtenue à partir de A par l opération L i L j est τ n i,j A. La matrice obtenue à partir de A par l opération L i L i + λl j est T n i,j (λ)a. Démonstration 1. On rappelle qu en général, la k-ième colonne d un produit AB est le produit de A par la k-ième colonne de B. On notera C 1,...,C p les colonnes de A. En notant T 1,...,T p les colonnes de D p i (λ), on a AT i = λc i et AT k = C k si k i. D où le résultat du premier point. De même, en notant T 1,...,T p les colonnes de τ p i,j, on a AT i = C j, AT j = C i et AT k = C k si k i et k j. D où le résultat du deuxième point. Enfin, en notant T 1,...,T p les colonnes de T p j,i (λ), on a AT i = C i + λc j et AT k = C k si k i. D où le résultat du troisième point. 2. De même, la k-ième ligne d un produit BA est le produit de la k-ième ligne de B par A. On notera L 1,...,L n les lignes de A. En notant T 1,...,T n les lignes de D n i (λ), on a T ia = λl i et T k A = L k si k i. D où le résultat du premier point. De même, en notant T 1,...,T n les lignes de τ n i,j, on a T ia = L j, T j A = L i et T k A = L k si k i et k j. D où le résultat du deuxième point. Enfin, en notant T 1,...,T n les lignes de Ti,j n (λ), on a T ia = L i + λl j et T k A = L k si k i. D où le résultat du troisième point. Propriété Toutes les matrices élémentaires sont inversibles ; plus précisément : pour tout m N, pour tout i [1,m], tout j [1,m] tel que i j, pour tout λ K, (D m i (λ)) 1 = D m i (1/λ) si λ 0, ( τ m i,j ) 1 = τ m i,j, ( T m i,j (λ) ) 1 = T m i,j ( λ). Démonstration On raisonne à l aide d opérations sur les lignes : si λ 0, Di m(1/λ)dm i (λ) est, d après la propriété précédente, la matrice obtenue à partir de Di m(λ) par l opération L i L i /λ, c est-à-dire la matrice identité I m. Donc Di m(λ) est inversible d inverse Dm i (1/λ). De même, τi,j m τm i,j est la matrice obtenue à partir de τm i,j par l opération L i L j, c est-à-dire, la matrice I m. Donc τi,j m est inversible et égale à sa propre matrice inverse. Enfin, Ti,j m( λ)t i,j m (λ) est la matrice obtenue à partir de T m i,j (λ) par l opération L i L i λl j, c est-à-dire, ici encore, la matrice I m. Donc Ti,j m (λ) est inversible d inverse Ti,j m( λ). Remarque On comprend bien cette propriété et sa démonstration en voyant les choses ainsi : les opérations élémentaires sont «reversibles», l opération L i λl i pour λ 0 est compensée par l opération L i L i /λ, l opération L i L j est compensée par elle-même, et l opération L i L i + λl j est compensée par l opération L i L i λl j (de même pour les colonnes). 75
84 Définition Matrices équivalentes par lignes ou par colonnes Deux matrices A et A de M n,p (K) sont dites équivalentes par lignes (resp., par colonnes) si elles se déduisent l une de l autre par une suite finie d opérations élémentaires sur les lignes (resp., les colonnes). Ceci se note : A L A (resp. A C A ). Les opérations élémentaires étant réversibles, il est équivalent d écrire A L A et A L A (de même pour les colonnes). De plus, grâce aux résultats précédents, A L A si et seulement s il existe une matrice E Gl n (K), qui est un produit de matrices élémentaires, telle que A = EA. De même, A C A si et seulement s il existe une matrice E Gl p (K) produit de matrices élémentaires, telle que A = A E. 2. Algorithme du pivot de Gauss-Jordan On a montré plus haut que le rang n est pas modifié par multiplication à gauche ou à droite par une matrice inversible. En fait, il y a d autres invariants de ce type : soit A M n,p (K). Si P Gl n (K), alors pour tout vecteur X M p,1 (K), on a l équivalence : AX = 0 PAX = 0, car P est inversible. Ceci montre que Ker(A) = Ker(PA) : le noyau d une matrice n est donc pas modifié par multiplication à gauche par une matrice inversible. Si P Gl p (K), alors pour tout vecteur Y M n,1 (K), on a l équivalence X M p,1 (K); Y = AX X M p,1 (K); Y = (AP)(P 1 X). Sachant que P 1 X décrit M p,1 (K) lorsque X décrit M p,1 (K) (car P est inversible), on en déduit que Im(A) = Im(AP) : l image d une matrice n est donc pas modifiée par multiplication à droite par une matrice inversible. Reprenons ces considérations dans le cas où P est une matrice élémentaire : le rang d une matrice A n est pas modifié par les opérations élémentaires, son noyau n est pas modifié par les opérations élémentaires sur ses lignes, son image n est pas modifiée par les opérations élémentaires sur ses colonnes. En d autres termes : Propriété Deux matrices équivalentes par lignes ou par colonnes ont le même rang. Deux matrices équivalentes par lignes ont le même noyau. Deux matrices équivalentes par colonnes ont la même image. Il est donc naturel d essayer, au moyen d opérations élémentaires bien choisies, d obtenir à partir de A une matrice A sur laquelle il sera plus facile de lire les informations telles que son rang, son noyau ou son image, qui seront les mêmes que ceux de A. C est l objectif de l algorithme de Gauss-Jordan. Commençons par décrire la forme équivalente la plus simple à laquelle on souhaite aboutir : 76
85 Définition Matrices échelonnées, échelonnées réduites Soit B M n,p (K). On dit que B est échelonnée par lignes si elle vérifie les propriétés suivantes : (i) Si une ligne de B est nulle, alors toutes les lignes suivantes de B sont nulles. (ii) Le cas échéant, dans chaque ligne non nulle à partir de la deuxième ligne, le premier coefficient non nul (à partir de la gauche) et situé strictement à droite du premier coefficient non nul de la ligne précédente. Le premier coefficient non nul d une ligne non nulle est appelé pivot. On dit que B est échelonnée réduite par lignes si elle est échelonnée par lignes et si tous ses pivots sont égaux à 1 et sont les seuls éléments non nuls de leur colonne. On dit que B est échelonnée par colonnes (resp. échelonnée réduite par colonnes) si t B est échelonnée par lignes (resp. échelonnée réduite par lignes). Remarque Une matrice échelonnée réduite par lignes non nulle a la forme suivante (les pivots sont notés en gras, le symbole désigne un coefficient éventuellement non nul. ) : Le trait de séparation représenté en partie dans la matrice ci-dessus permet de mettre en valeur sa structure de matrice échelonnée et ses pivots. On parle de schéma en escalier. Chaque ligne et chaque colonne possédant au plus un pivot, le nombre r de pivots d une matrice échelonnée B M n,p (K) vérifie r n et r p. Exemple La matrice est échelonnée par lignes, mais pas échelonnée réduite par lignes. La matrice est échelonnée réduite par lignes. Une telle matrice peut donc tout à fait posséder, en dehors des pivots, des coefficients non nuls. La matrice précédente n est pas échelonnée par colonnes. La matrice est échelonnée réduite par colonnes
86 Théorème Algorithme de Gauss-Jordan et traduction matricielle Soit A M n,p (K). Alors : A est équivalente par lignes à une unique matrice échelonnée réduite par lignes. De façon équivalente : il existe une matrice E Gl n (K), qui est un produit de matrices élémentaires, et une unique matrice R M n,p (K) échelonnée réduite par lignes, telles que A = ER. A est équivalente par colonnes à une unique matrice échelonnée réduite par colonnes. De façon équivalente : il existe une matrice E Gl p (K), qui est un produit de matrices élémentaires, et une unique matrice R M n,p (K) échelonnée réduite par colonnes, telles que A = R E. Démonstration de l existence (la démonstration de l unicité, non exigible, est admise) Montrons tout d abord que le premier point entraîne le second; pour cela on applique le résultat du premier point à t A : il existe E, produit de matrices élémentaires, et R échelonnée réduite par lignes, telles que t A = ER. Alors A = t R t E. Par définition, R = t R est échelonnée par colonnes ; la transposée de toute matrice élémentaire étant une matrice élémentaire, E = t E est un produit de matrices élémentaires. D où l existence dans le cas des opérations sur les colonnes. Dans le cas des opérations sur les lignes, on procède par récurrence sur le nombre p de colonnes de A = (a i,j ). Initialisation : si p = 1, A est une matrice colonne. Si A = 0, le résultat est vrai, sinon, il existe i 0 [1,n] tel que a i0,1 0. L opération L i0 L 1 (ce qui revient à multiplier A à gauche par τ n 1,i 0 ) fournit une matrice A équivalente par lignes à A dont le coefficient en position (1,1) vaut a i0,1 (et dont le coefficient en position (i 0,1) vaut a 1,1 ). Après l opération L 1 L 1 /a i0,1 (multiplication de A à gauche par D n 1 (1/a i 0,1)) le coefficient en position (1,1) vaut 1. On fait alors, si n 2, les n 1 opérations suivantes : L i L i a i,1 L 1, pour i [2,n] (multiplication à gauche par T n i,1 ( a i,1)), ce qui prouve que A est équivalente par lignes à 1 0 R =. 0 et prouve le résultat dans ce cas, car R est évidemment échelonnée réduite par lignes. Hérédité : supposons le résultat vrai au rang p, et soit A M n,p+1 (K). Premier cas : la première colonne de A est nulle. On applique alors l hypothèse de récurrence à la matrice B obtenue en extrayant les p dernières colonnes de A. Les opérations faites sur B peuvent alors être faites sur A; elles ne modifient pas la première colonne de A car cette colonne est nulle. La matrice obtenue à partir de B est échelonnée réduite par lignes, il en est de même pour celle obtenue à partir de A. Deuxième cas : la première colonne de A est non nulle. On fait tout d abord, pour cette première colonne, exactement le même raisonnement que pour l initialisation. On note A 1 la matrice équivalente par lignes à A à laquelle on aboutit alors, puis on applique, si n 2, l hypothèse de récurrence à la matrice B 1 obtenue en extrayant les n 1 dernières lignes et les p dernières colonnes de A 1. Les opérations faites sur B 1 peuvent alors être traduites en des opérations sur les n 1 dernières lignes de A 1 ; on obtient ainsi une matrice notée A 2. Ces opérations ne modifient pas la première colonne de A 1 car les coefficients de A 1 en position (i,1) avec i 2 sont nuls. 78
87 Pour résumer les notations, on a donc l enchaînement suivant dans ce cas : a 1, A =. a... i0, a n,1 la matrice B 2 étant échelonnée réduite par lignes. 1 0 traitement de la première colonne A 1 =. B échelonnement de B 1 A2 =.. B En particulier, il est clair que A 2 est échelonnée par lignes. En revanche, elle peut ne pas être échelonnée réduite car un pivot de B 2 peut ne pas être le seul coefficient non nul de sa colonne dans la matrice A 2. Ceci n est possible que si B 2 0. Dans ce cas, notons (i 1,j 1 ),...,(i r,j r ) les positions dans la matrice A 2 des pivots de B 2, avec i 1 < < i r. Pour k de r à 1, on effectue sur A 2 l opération L 1 L 1 a 1,jk L ik. Pour chacune de ces opérations, la première colonne de A 2 n est pas modifiée, les coefficients a 1,jm tels que m > k ne sont pas modifiés ; à l issue de ces opérations, les pivots de la matrice obtenue, notée R, sont donc les seuls coefficients non nuls de leur colonne. La matrice R est échelonnée réduite par lignes, ce qui prouve le résultat du point de vue «opérations élémentaires». Du point de vue matriciel, chaque opération revient à multiplier à gauche par une matrice élémentaire (comme indiqué dans l étape d initialisation). On en déduit qu il existe une matrice D, produit de matrices élémentaires, telle que DA = R. Une matrice élémentaire étant inversible et son inverse étant une matrice élémentaire, D est inversible et D 1 est un produit de matrices élémentaires. En posant E = D 1, on a bien A = ER avec la forme voulue. Remarques La démonstration ci-dessus décrit entièrement une méthode effective d échelonnement par lignes ou colonnes. Elle est en particulier programmable pour un traitement par ordinateur. Dans le cas d opérations sur les lignes, la première étape de l algorithme est dite étape de descente, elle aboutit à une forme échelonnée par lignes. La deuxième étape, qui aboutit à la forme échelonnée réduite par lignes, est dite étape de remontée. Le théorème affirme l unicité de R mais pas celle de E. Cela est lié au fait qu il n y a pas une unique suite d opérations élémentaires qui permet de passer de A à R. En revanche, quelle que soit la suite d opérations convenable, on aboutira à la même matrice échelonnée réduite R. Toute suite d opérations élémentaires sur les lignes qui permet de déduire de A une matrice échelonnée réduite par lignes est donc acceptée (de même pour les colonnes). Notamment, même si la démonstration précédente présente l annulation des coefficients situés au-dessus d un pivot seulement en fin de procédure, de la droite vers la gauche, on vérifie facilement qu il est possible de le faire au fur et à mesure, c est-à-dire de traiter entièrement une colonne avant de passer à la suivante. On remarquera cependant que cela entraîne des calculs moins simples (report de coefficients non nuls) lors des opérations du type L i L i + λl j. Il faut être vigilant lorsque l on fait plusieurs opérations à la suite, par exemple sur les lignes : si après la première opération, la ligne i est modifiée, et si l opération suivante utilise L i, il s agit de la ligne modifiée. C est ce qui se passe par exemple lors de la suite d opérations L 2 L 2 L 1, L 3 L 3 L 2 : la ligne L 2 utilisée pour la deuxième opération est celle qui est issue de la première opération!, 79
88 Exemples Échelonnons par lignes la matrice M suivante. À gauche, on indique les différentes matrices équivalentes par lignes obtenues, jusqu à la forme échelonnée réduite par lignes, et à droite, on indique l opération qui permet de passer à l étape suivante, et sa traduction matricielle (m. à g. signifie «multiplication à gauche») M = L 1 L 2, m. à g. par / L 1 L 1 /2, m. à g. par L L 3 L 3 3L 1, m. à g. par L L On a alors traité la première colonne, on poursuit l algorithme en raisonnant sur la matrice extraite d ordre 2 3 en bas à droite. La première colonne de cette matrice étant nulle, on poursuit en raisonnant sur la matrice extraite d ordre 2 2 en bas à droite : L L L L 2 L 2, m. à g. par L 3 L 3 + 4L 2, m. à g. par L 3 L 3 /( 2), m. à g. par / À ce stade, on a une matrice échelonnée par lignes mais pas échelonnée réduite. On annule donc, en partant de la droite, les coefficients situés au-dessus des pivots : L L L L 2 + 2L 3, m. à g. par 0 1 2, puis L L 1 + L L 1 L 1 3L 2, m. à g. par La matrice ci-dessus, notée R, est la matrice échelonnée réduite par lignes associée à M. On peut donner directement à partir des calculs précédents, une décomposition ER pour la matrice M. 80
89 L exemple suivant illustre, sur une même matrice A, les deux méthodes. On remarquera que l échelonnement en ligne ou en colonne n aboutit pas à la même matrice. Échelonnement par lignes : A = L 3 L 3 + L 2 L L 2 + L L 2 L 3 L L 3 L 3 2L 2 L L 1 L 1 2L 2 L L Échelonnement par colonnes : A = C 2 C 2 2C 1 C C 3 8C C 3 C 3 3C 2 C C 2 C 2 /2 C C 1 C 1 + C 2 C 1 1/ C 1/2 1/2 0 Rappelons que l image de A n est pas modifiée par l algorithme de Gauss-Jordan sur les colonnes. On en déduit que 1 Im(A) = Vect 0, 1/ /2, et en particulier rg(a) = 2. Plus généralement, cette méthode permet de déterminer l espace vectoriel engendré par une famille finie de vecteurs d un espace de dimension finie. De même, le noyau n est pas modifié par l algorithme de Gauss-Jordan sur les lignes, et donc : x x { x + 2z = 0 y Ker(A) y Ker 0 1 3, z z y + 3z = 0 On en déduit que 2z 2 Ker(A) = 3z ; z K = Vect 3, z 1 de dimension 1, en accord avec le théorème du rang. 3. Échelonnement, rang et matrices inversibles Propriété Soit A M n,p (K). Alors le rang de A est égal au nombre de pivots de sa matrice échelonnée réduite par lignes, et égal au nombre de pivots de sa matrice échelonnée réduite par colonnes. Démonstration Soit R la matrice échelonnée réduite par lignes associée à A. La matrice R peut avoir des coefficients non nuls : en position de pivot, à droite dans la ligne de chaque pivot (mais pas au-dessus d autres pivots), et seulement à ces positions. À l aide d opérations sur les colonnes de R, on obtient une matrice équivalente par colonnes à R, où les coefficients autres que les pivots ont été remplacés par des 0. Cette matrice est encore 81
90 échelonnée réduite par lignes et a les mêmes pivots que R (attention cependant, elle n est en général pas équivalente par lignes à A). Finalement, il existe une suite finie d opérations élémentaires sur les lignes et les colonnes, qui permet de déduire de A une matrice échelonnée réduite par ligne, dont les seuls coefficients non nuls sont les pivots de R, un tel pivot étant le seul coefficient non nul de sa ligne et de sa colonne. Le rang d une telle matrice est égal au nombre r des pivots, car la famille de ses colonnes non nulles est clairement libre, et constituée de r vecteurs. Les opérations élémentaires ne modifient pas le rang, donc le rang de A est égal au nombre de pivots de sa matrice échelonnée réduite par lignes. En raisonnant de la même façon, mais en échelonnant d abord par colonnes, on obtient que le rang de A est égal au nombre de pivots de sa matrice échelonnée réduite par colonnes. Remarques Dans le cas des exemples ci-dessus, les transformations du raisonnement précédent sont les suivantes : M , A L C L C Lorsque l on passe, par opérations élémentaires, d une matrice échelonnée à une matrice échelonnée réduite (par lignes ou colonnes), le nombre et la position des pivots ne sont pas modifiés. On en déduit que le rang d une matrice échelonnée (même si elle n est pas échelonnée réduite) est égal au nombre de ses pivots. En particulier, le rang de A M n,p (K) est égal au nombre de pivots de toute matrice échelonnée équivalente par lignes ou par colonnes à A. Propriété Rang de la transposée Soit A M n,p (K). Alors rg( t A) = rg(a). En particulier, le rang de A (qui est le rang de la famille des colonnes de A) est aussi égal au rang de la famille de ses lignes. Démonstration Le rang de t A est égal au nombre de pivots de sa matrice échelonnée réduite par lignes. Or, échelonner t A par lignes revient à échelonner A par colonnes, et à transposer le résultat obtenu. Le nombre de pivots de la matrice échelonnée réduite par lignes de t A est donc égal au nombre de pivots de la matrice échelonnée réduite par colonnes de A, qui est le rang de A. On a donc rg( t A) = rg(a). On en déduit que le rang de A est le rang de la famille des colonnes de t A, c est-à-dire le rang de la famille des lignes de A. Propriété Soit A M n (K). La matrice A est inversible si et seulement si elle est équivalente (par lignes ou par colonnes) à la matrice I n. Démonstration On raisonne dans le cas des lignes, celui des colonnes est analogue. Notons R la matrice échelonnée réduite par lignes de A. La matrice A est carrée, on sait qu elle est inversible si et seulement si rg(a) = n, c est-à-dire, si et seulement si R possède n pivots. D après la définition d une matrice échelonnée réduite, c est le cas si et seulement si R = I n. Or, on remarque que la matrice I n est échelonnée réduite par lignes, donc si A L I n, alors par unicité, R = I n. La réciproque est évidente car A L R par définition de R. Finalement, A est inversible si et seulement si A L I n. Or, on sait exactement comment déterminer la matrice échelonnée réduite par lignes de A : c est l algorithme de Gauss-Jordan. Il en découle un moyen effectif de déterminer A 1 lorsque A est inversible : 82
91 Propriété Calcul de l inverse par l algorithme de Gauss-Jordan Soit A Gl n (K). On note (L) une suite finie d opérations élémentaires sur les lignes de A à partir de laquelle on obtient sa matrice échelonnée réduite par lignes, I n. Alors la matrice déduite de I n par la suite d opérations (L) est A 1. On peut donner le même résultat sur les colonnes. Démonstration La suite (L) correspond à une matrice E Gl n (K), produit de matrices élémentaires, telle que EA = I n. On en déduit que E = A 1, c est-à-dire, EI n = A 1. En effectuant sur I n la suite (L) d opérations élémentaires, on obtient donc A 1. Remarque L algorithme de Gauss-Jordan permet aussi de prouver que A est inversible : l algorithme aboutit à I n si et seulement si A est inversible Exemple Soit C = On fait en parallèle les mêmes opérations sur les lignes de C et de I 3 : L 2 L 2 2L L L 3 + L L 3 L 3 2L L 1 L 1 L L L 2 L On en déduit que C est inversible et que C 1 = Soit (x 1,...,x p ) une famille d un K-espace vectoriel E de dimension n. On rappelle que : (x 1,...,x p ) est libre si et seulement si rg(x 1,...,x p ) = p. (x 1,...,x p ) engendre E si et seulement si rg(x 1,...,x p ) = n. (x 1,...,x p ) est une base de E si et seulement si p = n et rg(x 1,...,x p ) = n. Soit A M n,p (K) la matrice de (x 1,...,x p ) dans une base quelconque de E. Le rang de (x 1,...,x p ) est égal au rang de la matrice A, qui lui-même, est égal au nombre r de pivots de toute matrice échelonnée équivalente par lignes ou colonnes à la matrice A. On en déduit que : (x 1,...,x p ) est libre si et seulement si r = p. (x 1,...,x p ) engendre E si et seulement si r = n. (x 1,...,x p ) est une base de E si et seulement si r = p = n. Exemples Avec la matrice A des exemples précédents, montrons que M 3,1 (R) = Ker(A) Im(A) : pour cela on montre que la famille 2 1 3, 0, /2 1/2 83
92 est une base de M 3,1 (R) grâce à l algorithme de Gauss-Jordan sur sa matrice D dans la base canonique : D = C 1 C 2 1 1/2 1/ C 2 C 2 + 2C 1 C 1/2 1 1/ C 2 C 3 C 1/2 2 1/ C 3 C 3 + 3C 2 C 1/2 1/ C 1/2 1/2 1/2 La matrice précédente est échelonnée par colonnes. Avec les notations précédentes, on a dans ce cas r = p = n = 3, d où le résultat. D après un résultat du chapitre précédent (fractionnement d une base), on a donc M 3,1 (R) = Vect 3 Vect 0, 1 = Ker(A) Im(A). 1 1/2 1/2 Dans E = R 1 [X], on considère la famille F = (X + 1,X + 2,X + 3). On sait que cette famille est liée car elle est constituée de 3 vecteurs en dimension 2; on cherche une relation de dépendance linéaire entre ses éléments. On met en oeuvre l algorithme de Gauss- Jordan sur les lignes de N, matrice de la famille F dans la base (X,1) de R 1 [X] : ( ) N = L L 2 L 1 ( ) L L L 1 L 2 ( ) L On a r = n = 2 et p = 3. On retrouve le fait que la famille F est liée, mais on sait aussi qu elle engendre R 1 [X]. De plus, déterminer les relations de dépendance linéaire entre les éléments de F revient à déterminer les éléments non nuls de Ker(N), qui d après le calcul précédent, est caractérisé par le système { x z = 0 y + 2z = 0 On en déduit que Ker(N) = Vect( t( ) ) et notamment, (X + 1) 2(X + 2) + (X + 3) = 0. 84
93 4. Résolution de systèmes linéaires On s intéresse dans ce paragraphe à la résolution des systèmes linéaires par l algorithme de Gauss-Jordan. On rappelle que la forme générale d un tel système est a 1,1 x a 1,p x p = b 1 a 2,1 x a 2,p x p = b 2 (S) :. a n,1 x a n,p x p = b n et qu en notant A = (a i,j ) 1 i n,1 j p M n,p (K), X M p,1 (K) la matrice colonne de coefficients x 1,...,x p et B M n,1 (K) la matrice colonne de coefficients b 1,...,b n, ce système se met sous la forme matricielle (E) : AX = B, c est-à-dire que (x 1,...,x p ) est solution de (S) si et seulement si X est solution de (E). Définition Avec les notations précédentes : On dit que A est la matrice du système linéaire (S). On appelle seconds membres du système (S) les scalaires b 1,...,b n ; on appelle colonne des seconds membres de (S) la matrice colonne B. On appelle système homogène (ou sans second membre) associé à (S) le système obtenu à partir de (S) en remplaçant tous les b i par 0. Ce système s écrit matriciellement AX = 0. On appelle matrice augmentée associée à (S) la matrice (A B) obtenue en mettant côte à côte A et B (dans cet ordre) dans une même matrice, i.e. { a i,j si j p (i,j) [1,n] [1,p + 1], (A B) i,j = b i si j = p + 1. Comme on l a expliqué dans le chapitre précédent, le système (S) possède au moins une solution si et seulement si l équation AX = B possède au moins une solution, ce qui équivaut au fait que B Im(A). Dans ce cas, l ensemble des solutions de l équation AX = B est {X 0 + Y ; Y Ker(A)}, où X 0 désigne une solution particulière de l équation. En d autres termes, l ensemble des solutions de (S) est {x 0 + y; y S h }, où x 0 est une solution particulière de (S) et S h désigne l ensemble des solutions du système homogène (S h ) associé à (S). Définition Système compatible/incompatible On dit que le système (S) est compatible s il possède au moins une solution (c està-dire, avec les notations précédentes, si B Im(A)). On dit que (S) est incompatible dans le cas contraire. Remarque Un vecteur (x 1,...,x p ) K p est solution de (S) si et seulement si a 1,1 x a 1,p x p b 1 = 0 x 1 a 2,1 x a 2,p x p b 2 = 0., ce qui équivaut à :.. x p Ker((A B)). a n,1 x a n,p x p b n = 0, 1 Nous allons maintenant expliquer comment résoudre en pratique les systèmes linéaires. 85
94 Définition Opérations sur les lignes d un système linéaire On définit les mêmes opérations élémentaires sur les lignes d un système linéaire que sur les matrices (en tenant compte des seconds membres). On dit que deux systèmes linéaires sont équivalents si on peut passer de l un à l autre par une suite finie d opérations élémentaires sur les lignes. Remarques Les opérations élémentaires étant réversibles, il n est pas ambigu de dire que deux systèmes sont équivalents. Soient (S) et (S ) deux systèmes linéaires de matrices respectives A et A de même taille, et de colonnes des seconds membres respectives B et B. Alors, pour que (S) et (S ) soient équivalents, il faut et il suffit que (A B) et (A B ) soient équivalentes par lignes. Plus précisément, si (L) désigne une suite finie d opérations sur les lignes, alors on peut passer de (S) à (S ) par la suite (L) si et seulement si on peut passer de (A B) à (A B ) par la suite (L). Ceci justifie la présentation matricielle des systèmes linéaires : pour passer d un système linéaire (S) à un système (S ) qui lui soit équivalent, on peut former la matrice augmentée (A B) associée à (S), effectuer des opérations élémentaires sur les lignes de (A B), ce qui fournit une matrice de la forme (A B ) à partir de laquelle on obtient (S ). L intérêt des opérations élémentaires sur les lignes d un système linéaire vient notamment de la propriété suivante : Propriété Deux systèmes linéaires équivalents ont le même ensemble de solutions. Démonstration Avec les notations précédentes, si (S) et (S ) sont équivalents, (A B) et (A B ) sont équivalentes par lignes. Comme on l a déjà montré, elles ont donc le même noyau. Ainsi, pour (x 1,...,x p ) K p, on a l équivalence x 1. x p Ker((A B)) 1 x 1. x p 1 Ker((A B )), et donc, d après une remarque faite plus haut, (x 1,...,x p ) est solution de (S) si et seulement si (x 1,...,x p ) est solution de (S ). Résolution pratique d un système linéaire Un système linéaire (S) de forme matricielle AX = B, dont la matrice A est échelonnée réduite par lignes, est particulièrement facile à résoudre : en gardant à l esprit la forme générale d une matrice échelonnée réduite par lignes donnée page 77, notons (i 1,j 1 ),...,(i r,j r ) les positions des pivots de A (on suppose A non nulle); en particulier, on a : j 1 < < j r, les r premières lignes de A sont non nulles et, le cas échéant, les n r dernières sont nulles, pour tout k [1,r], a ik,j k = 1, et a ik,j = 0 si j < j k, a i,jk = 0 si i i k. Commençons par examiner, le cas échéant, les n r dernières lignes de A. Elles correspondent aux équations 0 = b i, pour i [r + 1,n]. Si l un des b i, pour i [r + 1,n], est non nul, alors (S) ne possède aucune solution : il est incompatible. Sinon, la r-ième équation s écrit x jr + a r,jr+1 x jr a r,p x p = b r, 86
95 elle donne directement x jr en fonction de b r et x jr+1,...,x p. On remonte alors dans le système, jusqu à la première équation, x j1 + a 1,j1 +1 x j a 1,p x p = b 1, ce qui donne directement x j1 en fonction de b 1 et x j1 +1,...,x p, mais l expression ne fait pas intervenir x j2,...,x jr car la matrice A est échelonnée réduite. Finalement, dans ce cas, (S) possède des solutions, et tout choix de valeurs pour les x j tels que j / {j 1,...,j r } donne explicitement une solution de (S). Dans le cas général, (A quelconque), il existe une matrice E, produit de matrices élémentaires, et R, échelonnée réduite par lignes, telles que EA = R. L équation AX = B équivaut à l équation RX = EB : on retrouve la situation précédente. On remarque que EB est la matrice colonne obtenue en effectuant sur B les opérations faites pour passer de A à sa forme échelonnée réduite par lignes R. En pratique, pour résoudre l équation AX = B, on forme la matrice augmentée (A B), sur laquelle on met en oeuvre l algorithme de Gauss-Jordan sur les lignes : À l issue de la phase de descente, on peut déjà déterminer si le système est compatible ou incompatible : il est compatible si et seulement si la dernière colonne (correspondant au second membre) ne contient aucun pivot. Les opérations élémentaires que l on aurait faites en traitant uniquement A suffisent à faire cette vérification. Si le système est compatible, la phase de remontée fera intervenir les mêmes opérations élémentaires que si l on échelonnait uniquement A, car le dernier pivot ne se situe pas dans la dernière colonne correspondant au second membre. On obtient donc bien la forme équivalente RX = EB. Exemple Résolvons le système linéaire x +2y +8z = 7 x 2z = 3 x +y +5z = 5 La matrice de ce système est la matrice A d un exemple traité page 81. La colonne des seconds membres est B = t( ). On met en oeuvre l algorithme de Gauss-Jordan sur les lignes de la matrice augmentée (A B) : (A B) = L 3 L 3 + L 2 L L 2 + L L 2 L 3 L L 3 L 3 2L 2 L L Le système est compatible. L opération L 1 L 1 2L 2 montre finalement que (A B) L Le système (S) est donc équivalent à { x + 2z = 3 y + 3z = 2 i.e., à { x = 3 2z y = 2 3z 87
96 L inconnue z n est liée par aucune équation, on la choisit comme paramètre, que l on peut renommer λ, c est-à-dire que l ensemble des solutions de (S) est {(3 2λ,2 3λ,λ); λ K} = {(3,2,0) + λ( 2, 3,1); λ K}. On obtient une représentation paramétrique de l ensemble des solutions, et on retrouve bien, pour les solutions, la forme générale x 0 +y où x 0 = (3,2,0) est une solution particulière (obtenue pour λ = 0), et y Vect( 2, 3,1) avec 2 Vect 3 = Ker(A). 1 Définition Soit (S) un système linéaire de matrice A non nulle. Les inconnues x j1,...,x jr dont les indices sont ceux des colonnes des pivots de la matrice échelonnée réduite par lignes associée à A, sont appelées inconnues principales de (S). Les autres inconnues sont appelées inconnues secondaires, ou paramètres. On appelle rang du système (S) le nombre r, c est-à-dire le nombre de pivots de la matrice échelonnée réduite par lignes associée à A. Le nombre de paramètres est donc égal à p r, c est-à-dire, à la différence du nombre d inconnues et du rang de (S). Remarques Comme on l a montré dans le paragraphe 3, r est aussi le rang de la matrice A, ce qui montre la cohérence de l appellation. Un système sans second membre est toujours compatible, car le p-uplet (0,...,0) en est solution. Dans l exemple traité ci-dessus, les inconnues principales sont x et y, le paramètre est z. Le rang du système est 2. De l étude précédente, on déduit que trois cas se présentent quant à l ensemble S des solutions d un système linéaire (S) de rang r et de matrice A M n,p (K) : Si le système est incompatible, alors S =. Si le système est compatible et si r = p, alors le système n a que des inconnues principales, et donc, possède une unique solution : S est réduit à un point. Si le système est compatible et si r < p, alors le système a p r paramètres et S est infini. Le théorème du rang montre aussi que p = dim(ker(a)) + rg(a), c est-à-dire que p r = dim(ker(a)). Le nombre de paramètres d un système compatible de matrice A est donc égal à dim(ker(a)). Ceci est bien sûr cohérent avec la description de l ensemble des solutions de (S). De plus, on rappelle que le système est compatible si et seulement si B Im(A). Par exemple, si r = n, alors rg(a) = dim(m n,1 (R)), et donc Im(A) = M n,1 (R) : le système est donc compatible quel que soit le choix de B. Si r < n, il existe des choix de B pour lesquels le système est incompatible. C est par exemple le cas si p < n, car dans ce cas r p < n. La situation suivante est également intéressante : si r = n = p, alors quel que soit le choix de B, le système (S) est compatible et possède une unique solution (on dit dans ce cas que (S) est un système de Cramer). On retrouve ce résultat en remarquant que dans ce cas, A est une matrice carrée inversible; pour tout B, on a l équivalence AX = B X = A 1 B. 88
97 On a en fait la caractérisation suivante : Propriété Matrices inversibles et résolution de systèmes Soit A M n (K). Les propriétés suivantes sont équivalentes : 1. A est inversible. 2. Le système AX = 0 admet pour unique solution le vecteur nul. 3. Pour tout B M n,1 (K), le système AX = B possède une unique solution. 4. Pour tout B M n,1 (K), le système AX = B possède au moins une solution. Démonstration La matrice A est inversible si et seulement si l application u A canoniquement associée à A est un isomorphisme, ce qui équivaut au point 3. D après la caractérisation des isomorphismes en dimension finie, ceci équivaut au fait que Ker(A) = {0 Mn,1 (K)}, i.e. au point 2, et également au fait que Im(A) = M n,1 (K) (i.e. au point 4). Dans ce cas, la résolution du système AX = B où B est un second membre quelconque permet même d expliciter A 1 : si l on résout le système AX = B, c est-à-dire si l on détermine M M n (K) telle que AX = B équivaut à X = MB, alors quel que soit le choix de B, on a A 1 B = MB, d où l on déduit que A 1 = M en choisissant pour B les vecteurs de la base canonique de M n,1 (K). Par exemple, on vérifie par opérations sur les lignes que pour (x 1,x 2,x 3 ) K 3 et (b 1,b 2,b 3 ) K 3, d où l on déduit que 2x 1 + x 2 + x 3 = b 1 x 1 + 2x 2 + x 3 = b 2 x 1 + x 2 + 2x 3 = b 3 x 1 = 1 4 (3b 1 b 2 b 3 ) x 2 = 1 4 ( b 1 + 3b 2 b 3 ) x 3 = 1 4 ( b 1 b 2 + 3b 3 ) A = est inversible avec A 1 = V. Trace d une matrice et d un endomorphisme 1. Trace d une matrice carrée Définition Trace d une matrice Soit A = (a i,j ) 1 i,j n M n (K) une matrice carrée. On appelle trace de A le scalaire Tr(A) = n a i,i, i=1 c est-à-dire la somme des coefficients diagonaux de A. Propriété L application Tr est une forme linéaire sur M n (K). Démonstration C est immédiat, Tr est une somme de formes linéaires sur M n (K). 89
98 Propriété Soient A et B deux matrices carrées d ordre n. Alors Tr(AB) = Tr(BA). Démonstration Notons a i,j et b i,j les coefficients de A et B. Alors pour tout (i,j) [1,n] 2, n (AB) i,j = a i,k b k,j, n n n de sorte que Tr(AB) = (AB) i,i = a i,k b k,i. En changeant d indice, on peut écrire i=1 i=1 k=1 k=1 n Tr(AB) = a i,j b j,i. i,j=1 En échangeant les rôles de A et B, on a de même n Tr(BA) = b i,j a j,i. i,j=1 Le changement d indice i j montre alors que Tr(BA) = Tr(AB). Propriété Deux matrices semblables ont la même trace. Démonstration Si A et B sont semblables, il existe P Gl n (K) tel que B = P 1 AP. Alors d après la propriété précédente, Tr(B) = Tr(P 1 AP) = Tr(APP 1 ) = Tr(A). 2. Trace d un endomorphisme Propriété Soient E un K-espace vectoriel de dimension finie et u L (E). Toutes les matrices représentant l endomorphisme u ont la même trace : si B et B sont deux bases de E, si A = Mat B (u) et B = Mat B (u), alors Tr(A) = Tr(B). Démonstration Si A = Mat B (u) et B = Mat B (u), alors A et B sont semblables d après les formules de changement de bases. Le résultat provient alors de la propriété précédente. Définition Trace d un endomorphisme Soient E un K-espace vectoriel de dimension finie et u L (E). On définit la trace de u comme la trace d une quelconque de ses matrices. Exemple Soit u : { M2 (R) M 2 (R) M t M + 2M Pour calculer Tr(u), écrivons la matrice de u dans la base de M 2 (R) (( ) ( ) ( ) ( )) B = (e 1,e 2,e 3,e 4 ) =,,, ;
99 ( ) ( ) on a u(e 1 ) = + 2 = 3e ( ) ( ) u(e 2 ) = + 2 = 2e e 3 ( ) ( ) u(e 3 ) = + 2 = e e 3 ( ) ( ) u(e 4 ) = + 2 = 3e , et donc d où : Tr(u) = Tr(Mat B (u)) = Mat B (u) = , VI. Sous-espaces stables 1. Matrices définies par blocs Soient m et q deux entiers naturels non nuls et (A i,j ) 1 i m,1 j q une famille de matrices à coefficients dans K. On suppose que pour tout j [1,q], toutes les matrices A i,j pour i [1,m] ont le même nombre p j de colonnes. De même, on suppose que pour tout i [1,m], toutes les matrices A i,j pour j [1,q] ont le même nombre n i de lignes. On définit alors la matrice A 1,1... A 1,j... A 1,q... B = A i,1... A i,j... A i,q... A m,1... A m,j... A m,q obtenue en écrivant «côte à côte» le contenu des matrices A i,j. La matrice B possède m i=1 n i lignes et q j=1 p j colonnes. Propriété Calculs par blocs Sous réserve de compatibilité des tailles des blocs, on a : ( ) ( A B A B + ) ( A + A B + B C D C D = ) C + C D + D, ( )( A B A B ) ( AA C D C D = + BC AB + BD ) CA + DC CB + DD. Remarque On généralisera sans difficulté cette propriété au cas d un nombre quelconque de blocs. Attention! Le sens des opérations est important. En effet par exemple, en général, AB B A. Il est nécessaire que les dimensions des blocs soient compatibles. Pour le premier point, les matrices A et A doivent être de même taille, de même pour B et B, etc... Pour le second point, le nombre de colonnes de A doit être égal au nombre de lignes de A, etc... 91
100 2. Sous-espaces stables Dans ce paragraphe uniquement, E est un K-espace vectoriel qui n est pas supposé de dimension finie. Si E = V W, un endomorphisme u L (E) est entièrement défini par ses restrictions à V et W, qui peuvent être plus simples si V et W sont bien choisis. Définition Sous-espace stable par un endomorphisme Soit V un sous-espace vectoriel de E, et u L (E). On dit que V est stable par u si u(v ) V, c est-à-dire : x V, u(x) V. Exemple Soit E = K[X], V = {P E; P(1) = 0} et u l application linéaire qui à P E associe le polynôme XP(X). Alors V est stable par u : si P(1) = 0, on a aussi (u(p))(1) = 0. Propriété/Définition Endomorphisme induit Si V est un sous-espace vectoriel de E stable par u, alors l application u V : { V V x u(x) est un endomorphisme de V, appelé endomorphisme de V induit par u. Attention! Il ne s agit pas d une simple restriction de u : l espace d arrivée est aussi restreint. Propriété Soient u et v deux endomorphismes de E qui commutent (i.e. u v = v u). Alors Ker(u) et Im(u) sont stables par v. Démonstration Soit x Ker(u). Montrons que v(x) Ker(u) : sachant que u et v commutent, on a u(v(x)) = v(u(x)) = v(0) = 0, i.e. v(x) Ker(u), d où le résultat. De même si y = u(x) Im(u), avec x E, alors v(y) = v(u(x)) = u(v(x)) Im(u), donc Im(u) est stable par v. Remarque En particulier, si u L (E), Ker(u) et Im(u) sont stables par u (en effet, u commute avec lui-même). 3. Traduction matricielle Dans ce paragraphe, E est un K-espace vectoriel de dimension finie n 2. Propriété Soit V un sous-espace vectoriel de E de dimension r [1,n 1]. Soit B = B V F une base de E adaptée à V (avec B V une base de V ) et soit u L (E). Alors V est stable par u si et seulement si Mat B (u) est de la forme ( ) A B 0 C où A est d ordre r et 0 désigne un bloc nul. Dans ce cas, A = Mat BV (u V ). 92
101 Démonstration Notons B = (e 1,...,e n ), de sorte que B V = (e 1,...,e r ). Le sous-espace V est stable par u si et seulement si pour tout vecteur x de V, u(x) Vect(e 1,...,e r ). En raisonnant avec des combinaisons linéaires, il est immédiat que ceci équivaut à : pour tout i [1,r], u(e i ) Vect(e 1,...,e r ). Ainsi, V est stable par u si et seulement si les coordonnées de u(e 1 ),...,u(e r ) selon e r+1,...,e n sont nulles. Or les r premières colonnes de Mat B (u) sont les matrices colonnes des coordonnées de u(e 1 ),...,u(e r ) dans la base B. On a donc l équivalence souhaitée. Lorsque V est stable par u, les colonnes de la matrice A sont les matrices colonnes des coordonnées de u(e 1 ),...,u(e r ) dans la base (e 1,...,e r ) de V, donc A = Mat BV (u V ). En raisonnant de façon analogue, on obtient : Propriété Soient m 2, u L (E) et B = B 1 B m une base de E, où, pour tout i [1,m], B i est composée de n i vecteurs. Les propriétés suivantes sont équivalentes : Mat B (u) est de la forme A A m avec, pour tout i [1,m], A i d ordre n i. Pour tout i [1,m], E i = Vect(B i ) est stable par u. Dans ce cas, on a A i = Mat Bi (u Ei ) pour tout i [1,m]. On a alors une décomposition E = E 1 E m en somme directe de sous-espaces stables par u. Définition On appelle matrice diagonale par blocs une matrice carrée de la forme précédente. Cas particulier Une matrice diagonale est une matrice diagonale par blocs telle que, avec les notations précédentes, pour tout i [1,m], A i n a qu un coefficient (on a alors m = n). D après la propriété précédente, si B = (e 1,...,e n ), ceci équivaut au fait que pour tout i [1,n], u(e i ) Vect(e i ). c est-à-dire, au fait que u(e i ) soit un multiple de e i. Définition On appelle matrice triangulaire supérieure par blocs une matrice carrée, définie par blocs, de la forme A 1,1 A 1,2 A 1,m A m 1,m, 0 0 A m,m où m 2 et pour tout i [1,m], A i,i est une matrice carrée. 93
102 Propriété Soient m 2, u L (E) et B = B 1 B m une base de E, où, pour tout i [1,m], B i est composée de n i vecteurs. On note, pour tout i [1,m], E i = Vect(B i ). Les propriétés suivantes sont équivalentes : Mat B (u) est de la forme précédente avec, pour tout i [1,m], A i,i d ordre n i, Pour tout i [1,m], u(e i ) E 1 E i. Remarque Dans ce cas, E 1 est stable par u, mais en général, pas E 2,...,E m. Cas particulier Une matrice triangulaire supérieure est une matrice triangulaire par blocs telle que, avec les notations précédentes, pour tout i [1,m], A i,i n a qu un coefficient (on a alors m = n). D après la propriété précédente, si B = (e 1,...,e n ), ceci équivaut au fait que pour tout i [1,n], u(e i ) Vect(e 1,...,e i ). Exemple Les matrices A = et B = sont respectivement triangulaire par blocs et diagonale par blocs. Si A et B sont les matrices respectives de deux endomorphismes u et v de E dans une base (e 1,e 2,e 3,e 4,e 5 ), alors en notant E 1 = Vect(e 1,e 2 ), E 2 = Vect(e 3 ), E 3 = Vect(e 4,e 5 ), on a E = E 1 E 2 E 3, avec E 1 stable par u et v, E 2 et E 3 stables par v, et u(e 2 ) E 1 E 2. Remarque Un objectif fondamental de l algèbre linéaire consiste à construire des sous-espaces stables par u ou à en prouver l existence, voire à construire des décompositions de l espace en somme directe de sous-espaces stables par u. Dans le cas idéal, l endomorphisme induit par u sur chacun de ces sous-espaces est une homothétie; la matrice de u dans une base adaptée est alors diagonale, ce qui simplifie tous les calculs. C est l objectif de la réduction des endomorphismes, voir les chapitres Réduction et Endomorphismes remarquables des espaces euclidiens. Exemple Le cas particulier des projecteurs et des symétries Si p est un projecteur (c est-à-dire, si p p = p), alors E = Ker(p Id) Ker(p) avec Ker(p Id) = Im(p). De plus Ker(p Id) et Ker(p) sont stables par p (car p commute avec lui-même) et p Ker(p Id) = Id, p Kerp = 0. On a donc, dans une base adaptée B : ( ) Ir 0 Mat B (p) = 0 0 où r = dim(im(p)) = rg(p). On remarque en particulier que Tr(p) = rg(p) : le rang d un projecteur est égal à sa trace. De même, si s est une symétrie (c est-à-dire, si s s = Id), alors E = Ker(s Id) Ker(s + Id). De plus Ker(s Id) et Ker(s + Id) sont stables par s, avec s Ker(s Id) = Id et s Ker(s+Id) = Id. On a donc dans une base adaptée B : ( ) Im 0 Mat B (s) = 0 I q avec m = dim(ker(s Id)) et q = dim(ker(s + Id)). 94
103 VII. Déterminant Notation Si f est une application de M n (K) dans K, si A = (C 1 C n ) M n (K) et U M n,1 (K), on sera amené à utiliser la notation f(c 1 C i 1 U C i+1 C n ) ou simplement f(c 1 U C n ) pour i [1,n]. Bien sûr, cette notation n a pas toujours de sens, par exemple pour i = 1, ou i = n. Dans ces cas, on sous-entend respectivement f(u C n ) et f(c 1 U) c est-à-dire que dans tous les cas, on remplace la colonne C i par U dans l expression f(c 1 C n ). De plus, pour favoriser la lisibilité dans certains cas, on utilisera un trait de séparation vertical entre les colonnes, c est-à-dire que la matrice (C 1 C n ) sera parfois notée (C 1 C n ). 1. Déterminant d une matrice carrée Théorème/Définition : Déterminant d une matrice carrée Il existe une unique application f : M n (K) K vérifiant les propriétés suivantes : (i) f est linéaire par rapport à chacune des colonnes de sa variable : i [1,n], (C 1 C n ) M n (K), (U,V ) (M n,1 (K)) 2, λ K : f(c 1 C i 1 λu + V C i+1 C n ) = λf(c 1 C i 1 U C i+1 C n ) + f(c 1 C i 1 V C i+1 C n ). (ii) f est antisymétrique par rapport aux colonnes de sa variable : (i,j) [1,n] 2 ; i j, (C 1 C n ) M n (K), f(c 1 (iii) f(i n ) = 1. C i }{{} position i C j }{{} position j C n ) = f(c 1 C j }{{} position i Cette application est appelée déterminant et notée det. C i }{{} position j C n ). Propriété Une application f : M n (K) K qui vérifie la propriété (ii) vérifie aussi la propriété suivante : si A M n (K) a deux colonnes égales, alors f(a) = 0. Démonstration En effet, si les colonnes d indices i et j de A sont égales, avec i j, on a par antisymétrie f(a) = f(c 1 C i C i C n ) = f(c 1 C i C i C n ) = f(a) et donc f(a) = 0. Démonstration de l existence et de l unicité du déterminant Démontrons cette propriété dans le cas où n = 3; la démonstration est plus facile dans les cas n = 1 et n = 2, elle est hors programme pour n 4. Unicité : Soit f une application vérifiant les trois propriétés ci-dessus et A = (a i,j ) M 3 (K). En notant (e 1,e 2,e 3 ) la base canonique de M 3,1 (K), on a donc f(a) = f (a 1,1 e 1 + a 2,1 e 2 + a 3,1 e 3 a 1,2 e 1 + a 2,2 e 2 + a 3,2 e 3 a 1,3 e 1 + a 2,3 e 2 + a 3,3 e 3 ). 95
104 Par linéarité de f par rapport à chacune des colonnes de sa variable, on peut développer l expression ci-dessus. De plus, d après la propriété précédente, tous les termes correspondant à des matrices ayant deux colonnes égales sont nuls. Ainsi f(a) = a 1,1 a 2,2 a 3,3 f(e 1 e 2 e 3 ) + a 1,1 a 3,2 a 2,3 f(e 1 e 3 e 2 ) + a 2,1 a 1,2 a 3,3 f(e 2 e 1 e 3 ) + a 2,1 a 3,2 a 1,3 f(e 2 e 3 e 1 ) + a 3,1 a 1,2 a 2,3 f(e 3 e 1 e 2 ) + a 3,1 a 2,2 a 1,3 f(e 3 e 2 e 1 ) De plus, d après la propriété (iii), f(i 3 ) = 1, et par antisymétrie, f(e 1 e 3 e 2 ) = f(e 3 e 2 e 1 ) = f(e 2 e 1 e 3 ) = f(e 1 e 2 e 3 ) = 1 f(e 2 e 3 e 1 ) = f(e 1 e 3 e 2 ) = f(e 1 e 2 e 3 ) = 1 f(e 3 e 1 e 2 ) = f(e 1 e 3 e 2 ) = f(e 1 e 2 e 3 ) = 1. Finalement, f(a) =a 1,1 a 2,2 a 3,3 + a 2,1 a 3,2 a 1,3 + a 3,1 a 1,2 a 2,3 a 3,1 a 2,2 a 1,3 a 2,1 a 1,2 a 3,3 a 1,1 a 3,2 a 2,3. Pour tout A M n (K), le scalaire f(a) est donc entièrement déterminé par une même formule sur les coefficients de A. En particulier, il existe au plus une application f vérifiant les trois propriétés du théorème. Existence : On définit f par la formule obtenue ci-dessus. Il est alors immédiat que f(i 3 ) = 1 car dans ce cas, seul le terme a 1,1 a 2,2 a 3,3 est non nul, et il vaut 1. Donc f vérifie la propriété (iii). De plus, échanger deux colonnes de A a pour effet d échanger les indices de colonnes correspondants sur les a i,j, à l intérieur de chacun des termes de la somme. On remarque alors que chaque terme affecté d un signe positif est échangé avec un terme affecté d un signe négatif. L image par f de la matrice obtenue est donc f(a), ce qui prouve que f vérifie la propriété (ii). Enfin, si la colonne j de la matrice A est de la forme λu +V avec (U,V ) M 3,1 (K) 2 (de coefficients respectifs notés u 1,u 2,u 3 et v 1,v 2,v 3 ), alors pour tout i [1,3], a i,j = λu i + v i. En reportant cette expression dans la somme donnant f(a), en développant le résultat et en regroupant les termes, on obtient la linéarité de f par rapport à la j-ième colonne de sa variable, et ce pour tout j [1,n]. Remarques Pour n = 1, si A = (a) avec a K, on a det(a) = a. Pour n = 2, on obtient, pour tout (a,b,c,d) K 4, det ( ) a c = ad bc. b d Pour n = 2 et n = 3, les formules démontrées sont appelées règle de Sarrus. Elle n ont pas d équivalent lorsque n 4. On remarquera que pour chacun des termes de la somme donnant det(a), on choisit un coefficient dans la première colonne, puis un dans la seconde, jusqu à la n-ième, en choisissant des indices de lignes deux à deux distincts. On fait ensuite la somme pour toutes les façons possibles de faire un tel choix, en affectant à chaque terme un signe (dépendant en fait de l ordre dans lequel on a choisi les lignes). Cette structure apparaît nettement dans la démonstration d existence ci-dessus. 96
105 Propriété Effet des opérations élémentaires Soit A = (C 1 C n ) M n (K). Si B est obtenue à partir de A par l opération C i C j (i j), alors det(b) = det(a). Si B est obtenue à partir de A par l opération C i C i + λc j (i j), alors on a : det(b) = det(a). Si B est obtenue à partir de A par l opération C i λc i (λ K), alors on a : det(b) = λ det(a). Pour tout λ K, det(λa) = λ n det(a). Démonstration C est une réécriture de la propriété d antisymétrie par rapport aux colonnes. Par linéarité du déterminant par rapport à la i-ième colonne de sa variable, det(b) = det(c 1 C i 1 C i C i+1 C n ) + λf(c 1 C i 1 C j C i+1 C n ). Dans le dernier terme, la colonne C j apparaît deux fois, car i j. Ce terme est donc nul d après une propriété du déterminant. On en déduit que det(b) = det(c 1 C i 1 C i C i+1 C n ) = det(a). Il suffit d utiliser la linéarité du déterminant par rapport à la i-ème colonne de sa variable. On applique successivement le point précédent à chacune des n colonnes de A. Remarques En particulier, on remarquera que les opérations élémentaires sur les colonnes conservent le déterminant ou le multiplient par un scalaire non nul. D après le troisième point, le déterminant d une matrice de dilatation Di n (λ) vérifie det(d n i (λ)) = λdet(i n ) = λ. Une matrice de transposition τ n i,j est obtenue à partir de I n par l opération C i C j, donc par antisymétrie, det(τ n i,j) = 1. Une matrice de transvection T n i,j (λ) est obtenue à partir de I n par l opération C j C j + λc i qui ne modifie pas le déterminant, donc det(t n i,j ) = 1. Corollaire Matrices inversibles et déterminant Soit A M n (K). Pour que A soit inversible, il faut et il suffit que det(a) 0. Démonstration Si A est inversible, alors A I n, donc on peut passer de I n à A par une suite finie C d opérations élémentaires sur les colonnes ; d après ce qui précède, il existe α K tel que det(a) = αdet(i n ) = α. En particulier, det(a) 0. 97
106 On raisonne par contraposition : si A n est pas inversible, l une de ses colonnes, disons C i, est combinaison linéaire des autres : on peut écrire C i = j i λ j C j où les λ j sont des scalaires. Alors, par linéarité du déterminant par rapport à la i-ième colonne de sa variable, det(a) = det(c 1 C j C n ) = 0 }{{} j i position i car dans chacun des termes de cette somme, deux des colonnes sont égales. Propriété Soient A et B deux éléments de M n (K). Alors det(ab) = det(a)det(b). Démonstration Si AB est inversible, B l est également : en effet, si X M n,1 (K) vérifie BX = 0, alors ABX = 0 et, AB étant inversible, X = 0, ce qui prouve que B est inversible. Par contraposition, si B n est pas inversible, AB ne l est pas non plus. Dans ce cas, la formule est vraie car det(b) = det(ab) = 0. Si B est inversible, elle est équivalente par colonnes à I n et en particulier, B est un produit de matrices élémentaires. Notons m le nombre de matrices de transpositions, et p le nombre de matrices de dilatations, figurant dans ce produit. Notons enfin λ 1,...,λ p les coefficients de ces matrices de dilatations (on peut toujours supposer que p 1, quitte à ajouter la dilatation I n dans le produit). D après la propriété sur l effet des opérations élémentaires sur le déterminant, Mais on a également B = I n B, et donc det(ab) = det(a) ( 1) m det(b) = det(i n ) ( 1) m On en déduit que det(ab) = det(a) det(b). p λ i. i=1 p λ i = ( 1) m i=1 p λ i. Attention! Il n y a pas de propriété analogue pour la somme si n 2 : det(i n + I n ) = 2 n 4 tandis que det(i n ) + det(i n ) = 2. Propriété Si A est inversible, det(a 1 ) = 1 det(a). i=1 Démonstration En effet, det(a)det(a 1 ) = det(aa 1 ) = det(i n ) = 1. Propriété Deux matrices semblables ont le même déterminant. Démonstration Si A et B sont semblables, il existe P Gl n (K) tel que B = P 1 AP. Alors d après ce qui précède, det(b) = det(p 1 AP) = det(p 1 )det(ap) = det(ap)det(p 1 ) = det(app 1 ) = det(a). 98
107 Propriété Si A est une matrice carrée, on a det(a) = det( t A). Démonstration Si A n est pas inversible, t A ne l est pas non plus car rg( t A) = rg(a). Dans ce cas, la formule est vraie car det(a) = det( t A) = 0. Si A est inversible, on raisonne comme dans la démonstration de la formule du produit : A est un produit de matrices élémentaires. On peut alors écrire t A comme un produit de matrices élémentaires, avec les mêmes matrices de dilatations et de transpositions que A (car de telles matrices sont symétriques). Les déterminant de A et t A étant entièrement calculable à partir du nombre de matrices de transpositions, et des coefficients des matrices de dilatations apparaissant dans ces produits, on en déduit le résultat. Corollaire Toutes les propriétés du déterminant par rapport aux colonnes sont également vraies par rapport aux lignes. 2. Déterminant d une famille de vecteurs Soient E un K-espace vectoriel de dimension finie n et B une base de E. Définition Déterminant d une famille de vecteurs dans une base Soit F = (u 1,...,u n ) une famille de n vecteurs de E. On appelle déterminant de F dans la base B, le déterminant de la matrice de F dans la base B. Il est noté det B (u 1,...,u n ). Théorème Caractérisation des bases Une famille (u 1,...,u n ) de vecteurs de E est une base de E si et seulement si det B (u 1,...,u n ) 0. Démonstration La famille (u 1,...,u n ) est une base de E si et seulement si sa matrice dans la base B est inversible, i.e., si et seulement si det B (u 1,...,u n ) Déterminant d un endomorphisme Soit E un K-espace vectoriel de dimension finie n. Propriété Soit u L (E). Toutes les matrices représentant l endomorphisme u ont le même déterminant : si B et B sont deux bases de E, si A = Mat B (u) et B = Mat B (u), alors det(a) = det(b). Démonstration Si A = Mat B (u) et B = Mat B (u), alors A et B sont semblables d après les formules de changement de bases. Le résultat provient alors d une propriété donnée ci-dessus. Définition Déterminant d une application linéaire On définit le déterminant de u L (E) comme le déterminant d une quelconque de ses matrices. 99
108 Remarque Si A M n (K), l application linéaire u A canoniquement associée à A a pour matrice A dans la base canonique de M n,1 (K), donc det(u A ) = det(a). Propriété Soient u et v deux endomorphismes de E. Pour tout λ K, det(λu) = λ n det(u). det(u v) = det(u) det(v). u est un isomorphisme si et seulement si det(u) 0. Dans ce cas det(u 1 ) = 1 det(u). Démonstration C est une conséquence immédiate de la définition et des propriétés analogues sur les matrices. 4. Matrices triangulaires Propriété Déterminant d une matrice triangulaire Soit (a i,j ) 1 i j n une famille de scalaires. Alors a 1,1 a 1,n = a n,n (de même pour une matrice triangulaire inférieure). n i=1 a i,i Démonstration Notons A la matrice dont on cherche à calculer le déterminant. Si a 1,1 = 0, le résultat est vrai car A a une colonne nulle, elle n est donc pas inversible, et det(a) = 0 = n i=1 a i,i. Sinon, on effectue successivement les opérations C 2 C 2 a 1,2 a 1,1 C 1,..., C n C n a 1,n a 1,1 C 1 ce qui ne modifie pas la valeur de det(a). On a donc a 1, a 2,2 a 2,n det(a) = a n,n On reproduit le raisonnement jusqu à aboutir à a 1, det(a) = a n,n Par linéarité du déterminant par rapport à chaque colonne, on a donc ( n ) n det(a) = a i,i det(i n ) = a i,i. i=1 i=1 100
109 5. Calculs de déterminants par blocs Lemme On suppose n 2. Soit B M n 1 (K), L M 1,n 1 (K) et C M n 1,1 (K). Alors les matrices définies par blocs ( ) ( ) 1 L A = et A B C = 0 B 0 1 ont pour déterminant det(b). Démonstration On fait la démonstration dans le cas de A, l autre cas est similaire. Si B n est pas inversible, ses lignes forment une famille liée, donc celles de A également, et A n est pas inversible. La formule est donc vraie dans ce cas. Sinon, lorsque l on effectue l algorithme de Gauss-Jordan sur les colonnes de A, il est évident que l on aboutit à la matrice ( ) R où R est la matrice échelonnée réduite par colonnes associée à B. De plus, les opérations effectuées sur A pour aboutir à ce résultat sont du type C i C i λc 1 pour i 2 (remplacement de L par une ligne de 0), elles ne changent pas le déterminant, puis ce sont les mêmes que celles effectuées sur B. Le déterminant étant entièrement calculable à partir du nombre d échanges de colonnes, et des coefficients des dilatations effectuées, on en déduit que det(a) = det(b). On procède de même pour A. Propriété Soit A une matrice carrée de la forme A = Alors det(a) = det(b) det(d). ( ) B C, avec B et D des matrices carrées. 0 D Démonstration Soit r l ordre de la matrice B. On remarque que ( ) B C = 0 D ( )( ) Ir C B 0. 0 D 0 I n r De plus, en utilisant plusieurs fois le lemme précédent, on a det ( ) Ir C = det(d) 0 D et ( ) B 0 det = det(b). 0 I n r Le résultat suit car le déterminant d un produit de matrices est le produit des déterminants. 101
110 Propriété Matrice triangulaire par blocs ou diagonale par blocs Soit A 1 A 1,2 A 1,m A A = A m 1,m ou A = A m 0 0 A m une matrice triangulaire par blocs ou diagonale par blocs. Alors det(a) = det(a 1 ) det(a m ) = m det(a i ). Soient E un K-espace vectoriel de dimension finie, u L (E) et E 1,...,E m des sous-espaces vectoriels de E stables par u tels que E = E 1 E m. Alors det(u) = det(u E1 ) det(u Em ) = i=1 m det(u Ei ). i=1 Démonstration Elle se fait par une récurrence immédiate à partir de la propriété précédente. Soit B = B 1 B m une base de E adaptée à cette décomposition en somme directe. On sait que Mat B (u) est de la forme A A = A m où, pour tout i [1,m], A i est d ordre dim(e i ), et A i = Mat Bi (u Ei ). Le résultat vient alors du point précédent, et du fait que det(u) = det(a) et det(u Ei ) = det(a i ) pour tout i. 6. Développement d un déterminant par rapport aux lignes et colonnes Théorème Développement par rapport à une ligne ou une colonne Soit A M n (K). Pour tout (i,j) [1,n] 2, soit A i,j M n 1 (K) la matrice obtenue en supprimant la i-ème ligne et la j-ème colonne de A. Alors : Développement par rapport à la j-ième colonne : det(a) = n a i,j ( 1) i+j det(a i,j ). i=1 Développement par rapport à la i-ième ligne : n det(a) = a i,j ( 1) i+j det(a i,j ). j=1 Démonstration (non exigible) On fait la démonstration de la formule de développement par rapport aux colonnes, celle sur les lignes est analogue. Pour i [1,n], on note E i le i-ème vecteur de la base canonique 102
111 de M n,1 (K). Notons A = (a i,j ) 1 i,j n = (C 1 C n ). On a donc, pour tout j [1,n], C j = n i=1 a i,j E i. Alors, par linéarité du déterminant par rapport à la j-ième colonne de sa variable, ( ) n det(a) = det C 1 C j 1 a i,j E i C j+1 C n = i=1 n a i,j det(c 1 C j 1 E i C j+1 C n ). i=1 Notons M i,j = (C 1 C j 1 E i C j+1 C n ). En échangeant la ligne i 1 et la ligne i, puis la ligne i 2 et la ligne i 1, jusqu à échanger la ligne 1 et la ligne 2, on se ramène à une matrice obtenue en plaçant la i-ème ligne de M i,j à la place de la première ligne. Au cours de chacune de ces i 1 opérations, le déterminant de A est multiplié par 1. On procède de même avec les colonnes, ce qui amène à multiplier le déterminant par 1, pour chacune des j 1 opérations. On obtient ainsi une matrice ( ) 1 B = 0 A i,j avec det(m i,j ) = ( 1) i+j 2 det(b) = ( 1) i+j det(b). Or, le lemme ci-dessus montre que l on a det(b) = det(a i,j ). On en déduit que et le résultat. Remarques det(c 1 C j 1 E i C j+1 C n ) = ( 1) i+j det(a i,j ) Ces formules sont très utiles, par exemple : Lorsqu une ligne ou colonne de A a un nombre important de coefficients nuls. Pour calculer des déterminants par récurrence, lorsque la structure du déterminant s y prête (par exemple, les déterminants tridiagonaux). En dimension 3, on retrouve des formules déjà connues, par exemple a 1,1 a 1,2 a 1,3 a 2,1 a 2,2 a 2,3 a 3,1 a 3,2 a 3,3 = a 1,1 (a 2,2 a 3,3 a 3,2 a 2,3 ) a 2,1 (a 1,2 a 3,3 a 3,2 a 1,3 ) + a 3,1 (a 1,2 a 2,3 a 2,2 a 1,3 ). En développant le membre de gauche, on retrouve bien sûr la formule du déterminant et la règle de Sarrus. 7. Déterminant de Vandermonde Définition Soit (a 1,...,a n ) K n. On pose 1 a 1 a a n a 2 a a n 1 2 M n (a 1,...,a n ) = 1 a 3 a a3 n a n a 2 n... an n 1 = (a j 1 i ) 1 i,j n M n (K) et V n (a 1,...,a n ) = det(m n (a 1,...,a n )). Ce déterminant (ou celui de sa transposée) est appelé déterminant de Vandermonde associé aux scalaires a 1,...,a n. 103
112 Il est non nul si et seulement si les a i sont deux à deux distincts, ce que l on peut prouver sans calculer le déterminant : si deux des a i sont égaux, alors M n (a 1,...,a n ) a deux lignes égales, donc son déterminant est nul. Si les a i sont deux à deux distincts, et si t( λ 0 λ n 1 ) K n appartient au noyau de M n (a 1,...,a n ), alors pour tout i [1,n], n 1 λ j a j i = 0. j=0 Le polynôme P(X) = n 1 j=0 λ jx j, de degré au plus n 1, a donc n racines deux à deux distinctes, ce qui montre qu il est nul, et donc que tous les λ j sont nuls. Donc la matrice carrée M n (a 1,...,a n ) est inversible et son déterminant est non nul. Ce déterminant et la matrice associée ont d importantes applications. Par exemple, soient (a 0,...,a n ) et (b 0,...,b n ) dans K n+1. On cherche une fonction polyomiale P telle que P(a 0 ) = b 0,...,P(a n ) = b n ; autrement dit, connaissant les valeurs prises par une fonction polynomiale en certains points, on recherche les coefficients du polynôme associé. Cherchons P sous la forme x 0 + x 1 X + + x n X n. Les conditions ci-dessus s écrivent 1 a 0 a a n 0 1 a 1 a a n a n a 2 n... a n n x 0.. x n b 0 =.. b n c est-à-dire comme un système linéaire dont la matrice est la matrice de Vandermonde M n+1 (a 0,...,a n ). Si les a i sont deux à deux distincts, cette matrice est inversible, et il existe un unique polynôme de K n [X] qui est solution du problème. Ces problématiques interviennent notamment en théorie du signal. On peut en fait calculer explicitement V n (a 1,...,a n ) : Propriété Déterminant de Van der Monde Avec les notations précédentes, V n (a 1,...,a n ) = i<j(a j a i ). Démonstration Première méthode : si n 2, alors, pour tout j de n à 2, on fait l opération élémentaire C j C j a 1 C j 1, ce qui ne change pas la valeur du déterminant. On obtient a 2 a 1 a 2 2 a 1a 2... a2 n 1 a 1 a n 2 2 V n (a 1,...,a n ) = 1 a 3 a 1 a 2 3 a 1a 3... a3 n 1 a 1 a3 n a n a 1 a 2 n a 1 a n... a n 1 a 1 a n 2 c est-à-dire a 2 a 1 (a 2 a 1 )a 2... (a 2 a 1 )a n 2 2 V n (a 1,...,a n ) = 1 a 3 a 1 (a 3 a 1 )a 3... (a 3 a 1 )a3 n a n a 1 (a n a 1 )a n... (a n a 1 )a n n n n
113 En développant par rapport à la première ligne, on a donc a 2 a 1 (a 2 a 1 )a 2... (a 2 a 1 )a n 2 2 a 3 a 1 (a 3 a 1 )a 3... (a 3 a 1 )a n 2 3 V n (a 1,...,a n ) = a n a 1 (a n a 1 )a n... (a n a 1 )a n 2 (déterminant d ordre n 1). Chaque ligne L i étant multiple de a i+1 a 1, on obtient 1 a 2 a a n a 3 a a n 2 3 V n (a 1,...,a n ) = (a 2 a 1 )(a 3 a 1 ) (a n a 1 ) a n a 2 n... a n 2 n n = (a 2 a 1 )(a 3 a 1 ) (a n a 1 ) V n 1 (a 2,...,a n ). Une récurrence immédiate, avec le fait que V 1 (a n ) = 1, montre alors le résultat. n 1 n 2 Deuxième méthode : si n 2, soit P(X) = (X a i ) = X n 1 + λ k X k où les λ k sont des scalaires. i=1 n 2 L opération C n C n + λ k C k+1 montre que k=0 1 a 1 a P(a 1 ) 1 a 2 a 2 1 a 1 a P(a 2 ) 1 a 2 a V n (a 1,...,a n ) = = , 1 a n 1 a 2 n 1... P(a n 1 ) 1 a n 1 a 2 1 a n a 2 n n... P(a n ) 1 a n a 2 n... P(a n ) et donc, en développant par rapport à la dernière colonne, n 1 V n (a 1,...,a n ) = P(a n )V n 1 (a 1,...,a n 1 ) = (a n a i ) V n 1 (a 1,...,a n 1 ), i=1 k=0 ce qui permet de conclure par récurrence comme ci-dessus (on a V 1 (a 1 ) = 1). 105
114 106
115 Chapitre 5 Espaces vectoriels normés Convergence et continuité Dans ce chapitre, E désigne un K-espace vectoriel avec K = R ou C, et désigne la valeur absolue (si K = R) ou le module (si K = C). Le mot topologie signifie en grec, «discours sur le lieu». Il s agit de donner des définitions rigoureuses des notions de proximité, de distance, et en corollaire, de limite et de continuité, dans des espaces abstraits. Nous nous placerons dans le cadre déjà très riche des espaces vectoriels : intuitivement, mesurer la distance entre deux éléments x et y de E peut se faire en mesurant la différence x y (la notion de différence ayant un sens dans un espace vectoriel). Il reste à définir ce que l on entend par cette idée de mesurer des vecteurs. I. Espaces vectoriels normés 1. Normes Définition Norme On appelle norme sur E toute application N : E R + telle que : Pour tout λ K, pour tout x E, N(λx) = λ N(x) (homogénéité), Pour tout x E, N(x) = 0 si et seulement si x = 0 (séparation), Pour tout x E, pour tout y E, N(x + y) N(x) + N(y) (inégalité triangulaire). Le couple (E,N) est alors appelé espace vectoriel normé. S il n y a pas d ambiguïté sur la norme, on dira simplement que E est un espace vectoriel normé. Remarque Cette définition est donnée par analogie avec la valeur absolue ou le module. Une norme est d ailleurs très souvent notée, non pas comme une application N, mais suivant cette analogie, avec des doubles barres : la norme de x est notée x. Exemples Sur K Sur K, x x est une norme. En fait c est presque la seule : soit N une norme sur K, alors pour tout λ K, N(λ) = N(λ 1) = λ N(1). Toute norme sur K est proportionnelle à. Norme associée à un produit scalaire (voir le chapitre Espaces préhilbertiens, espaces euclidiens). Soit E un R-espace vectoriel muni d un produit scalaire ( ). Alors l application : { E R+ x (x x) 107
116 est une norme sur E, appelée norme euclidienne. L inégalité triangulaire est une conséquence de l inégalité de Cauchy-Schwarz (x y) x y. En effet, pour tout (x,y) E 2, Sur K n Pour tout x = (x 1,...,x n ) K n, on définit x + y 2 = (x + y x + y) = x 2 + 2(x y) + y 2 N 1 (x) = x 1 = x x y + y 2 = ( x + y ) 2. n x i, i=1 N 2 (x) = x 2 = n x i 2 i=1 N (x) = x = sup x i = max x i. i [[1,n]] i [[1,n]] Elles sont appelées respectivement «norme 1», «norme 2», et «norme infini». Toutes les propriétés sont évidentes sauf l inégalité triangulaire : si x = (x 1,...,x n ) K n et y = (y 1,...,y n ) K n, alors x + y 1 = n x i + y i i=1 n n ( x i + y i ) x i + i=1 i=1 i=1 n y i = x 1 + y 1. Cela prouve l inégalité triangulaire pour la norme 1. La norme 2 sur R n est la norme euclidienne associée au produit scalaire défini par Pour la norme 2 sur C n, on remarque que (x y) = n x i y i. ( n ) 1/2 ( n ) 1/2 x + y 2 = x i + y i 2 ( x i + y i ) 2 = X + Y 2 i=1 où X et Y désignent les vecteurs ( x 1,..., x n ) et ( y 1,..., y n ). Ces vecteurs étant à coefficients réels, on a X + Y 2 X 2 + Y 2 = x 2 + y 2. i=1 On a donc aussi l inégalité triangulaire dans ce cas. i=1 Quant à la norme infini, pour tout i [1,n], on a x i + y i x i + y i max j [[1,n]] x j + max j [[1,n]] y j = x + y. Le majorant étant indépendant de i, en passant au maximum gauche, on en déduit x + y = max i [[1,n]] x i + y i x + y. 108
117 Sur B(I,K) Soit I un intervalle (non vide) de R. L ensemble B(I,K) des fonctions bornées de I dans K, muni de l addition des fonctions et du produit d une fonction par un scalaire, est un K-espace vectoriel. Pour f B(I,K), on définit N (f) = f = sup f(x). x I L application N est appelée «norme infini» ou norme de la convergence uniforme (cette dernière appellation sera expliquée dans le chapitre Suites et séries de fonctions). Elle est bien définie, car si f B(I,K), l ensemble { f(x) ; x I} est une partie non vide majorée de R, elle a donc une borne supérieure. Prouvons simplement l inégalité triangulaire, les autres propriétés étant évidentes. Soient f et g deux éléments de B(I,K). Par définition, pour tout x I, f(x) + g(x) f(x) + g(x) sup y I f(y) + sup g(y). y I Le majorant étant indépendant de x, en passant à la borne supérieure à gauche, on en déduit sup x I f(x) + g(x) sup y I f(y) + sup g(y), y I c est-à-dire f + g f + g. Remarque Si [a,b] est un segment de R, on a C 0 ([a,b],k) B([a,b],K) car la fonction f est continue sur un segment, à valeurs réelles, donc elle est bornée et atteint ses bornes. Ceci montre aussi que pour f C 0 ([a,b],k), f = max x [a,b] f(x). Propriété Soit (E, ) un espace vectoriel normé. Alors, pour tout (x,y) E 2, x y x y. Démonstration On remarque que x = (x y) + y et donc, d après l inégalité triangulaire, x x y + y, ce qui implique que x y x y. De même, en écrivant y = (y x) + x, on montre que De ces deux inégalités, on déduit le résultat. y x x y. Remarque Cette deuxième forme de l inégalité triangulaire est très utile pour obtenir des informations sur la norme d un vecteur, à partir d informations sur sa distance à d autres vecteurs. 109
118 2. Distance associée, boules et sphères Propriété/Définition : Distance associée à une norme Soit (E, ) un espace vectoriel normé. L application d : { E E R+ (x,y) x y est appelée distance associée à la norme. Elle possède les propriétés suivantes : Pour tout (x,y) E 2, d(x,y) = d(y,x) (symétrie), Pour tout (x,y) E 2, d(x,y) = 0 si et seulement si x = y (séparation), Pour tout (x,y,z) E 3, d(x,y) d(x,z) + d(z,y) (inégalité triangulaire). Définition Boules ouvertes, boules fermées, sphères Soit (E, ) un espace vectoriel normé. Soient a E et r R +. On appelle boule ouverte de centre a et de rayon r l ensemble, noté B(a,r), défini par : B(a,r) = {x E; d(a,x) < r} = {x E; x a < r}. On appelle boule fermée de centre a et de rayon r l ensemble, noté B f (a,r), défini par : B f (a,r) = {x E; d(a,x) r} = {x E; x a r}. On appelle sphère de centre a et de rayon r l ensemble, noté S(a,r), défini par : S(a,r) = {x E; d(a,x) = r} = {x E; x a = r}. On remarquera que S(a,r) = B f (a,r) \ B(a,r). Exemples B(a,0) =, B f (a,0) = S(a,0) = {a}. B(a,1) = {x E; x a < 1}, B f (a,1) = {x E ; x a 1}. B(0,1) et B f (0,1) sont appelées respectivement boules unité ouverte et fermée de E. Exercice Dessiner les boules unités de R 2 muni des normes 1, 2 et infini. 3. Suites d éléments d un espace vectoriel L un des objectifs majeurs de ce chapitre est l étude des suites d éléments de E ; commençons par définir cette notion, par généralisation évidente de la notion de suite réelle ou complexe : Définition On appelle suite d éléments de E toute application u : N E. Pour tout n N, on note alors u n = u(n) le terme de rang n de cette suite. La suite est notée (u n ) n N ou (u n ). On considère également des suites définies à partir d un certain rang n 0, c est-à-dire définies sur l ensemble des entiers supérieurs ou égaux à n 0. On note (u n ) n n0 une telle suite. Remarque L ensemble des suites d éléments de E est alors muni d une structure de K-espace vectoriel en définissant, pour deux suites (u n ) et (v n ) et pour λ K, (u n ) + (v n ) = (u n + v n ), λ(u n ) = (λu n ). 110
119 Exemple Soit A M p (K). Alors (A n ) n N est une suite d éléments de M p (K) : c est la suite des puissances de A. On définit alors les suites extraites d une suite d éléments de E de la même façon que cela a été fait pour les suites réelles ou complexes. 4. Parties, suites et fonctions bornées Définition Soit (E, ) un espace vectoriel normé. Soit A une partie de E. On dit que A est bornée s il existe M 0 tel que A B f (0,M), c est-à-dire, s il existe M 0 tel que pour tout x A, x M. Soit (u n ) une suite d éléments de E. On dit que (u n ) est bornée s il existe M 0 tel que pour tout n N, u n M. Soit (F,N) un espace vectoriel normé, A une partie de E et f : A F une fonction. On dit que f est bornée si f(a) est une partie bornée de F, c est-à-dire, s il existe M 0 tel que pour tout x A, N(f(x)) M. Exemples Une boule fermée B f (a,r) de E est une partie bornée. En effet, pour tout x B f (a,r), x = (x a) + a x a + a r + a. La définition est donc vérifiée avec M = r + a. On raisonne de même avec les boules ouvertes, ou les sphères. On munit C 0 ([0,1],R) de la norme infini. Soit, pour tout n N, f n : x n x n. La suite (f n ) n N n est pas bornée car pour tout n N, f n = n, donc f n + ; la définition ne peut être vérifiée pour aucune valeur de M. On munit R 3 et R 2 de la norme infini. La fonction { [0,1] 3 R 2 f : (x,y,z) (x y + 2z,x 2 + y 2 + z 2 ) est bornée car pour tout (x,y,z) [0,1] 3, f(x,y,z) = max{ x y + 2z, x 2 + y 2 + z 2 } max{ x + y + 2 z,x 2 + y 2 + z 2 } Parties convexes Définition Partie convexe Soit A une partie de E. On dit que A est convexe si (a,b) A 2, λ [0,1], λa + (1 λ)b A. Autrement dit, A est convexe si A contient tout segment dont il contient les deux extrémités. Propriété Une boule (ouverte ou fermée) est convexe. 111
120 Démonstration Soit B f (c,r) une boule fermée (on raisonne de même avec une boule ouverte). Soient a et b deux éléments de B f (c,r) et λ [0,1]; alors λa + (1 λ)b c = (λa + (1 λ)b) (λc + (1 λ)c) = λ(a c) + (1 λ)(b c). D après l inégalité triangulaire et la propriété d homogénéité, sachant que λ 0 et 1 λ 0, on a λa + (1 λ)b c λ a c + (1 λ) b c λr + (1 λ)r = r. Donc λa + (1 λ)b B f (c,r). Remarque En revanche, une sphère de E de rayon non nul, R 2 \ {(x,0); x 0} ou une couronne de R 2 ne sont pas convexes. 6. Effet d un changement de norme Certaines des notions que nous avons définies jusqu à présent dépendent de la norme considérée. Pour illustrer ceci, posons, pour tout n N, f n : x n x n et considérons la suite (f n ) n N d éléments de E = C 0 ([0,1],R). On sait que l on peut munir E de la norme infini, on peut aussi le munir de la norme 2 associée au produit scalaire usuel sur E. La suite (f n ) est bornée dans (E, 2 ), car pour tout n N, ( 1 f n 2 = ( 1/2 nx n ) dx) 2 = 0 ( ) n 1/2 1. 2n + 1 Elle n est pourtant pas bornée dans (E, ) comme on l a montré dans un exemple précédent. Nous admettrons que lorsque E est de dimension finie, toutes les notions que nous allons définir dans la suite sont indépendantes du choix de norme. C est aussi le cas des notions précédentes de partie, suite ou fonction bornée, de partie convexe (la définition de cette dernière notion ne fait en fait pas intervenir de norme) mais ce n est pas le cas des notions de distance associée à une norme, de boules et de sphère. À partir de maintenant, E désigne un K-espace vectoriel de dimension finie. Soit une norme sur K n et B = (e 1,...,e n ) une base de E. Pour tout x de E de coordonnées (x 1,...,x n ) dans la base B, on peut définir x E = (x 1,...,x n ). Alors E est une norme sur E (vérification immédiate). Un choix très utile est souvent celui donné par x E, x = max i [[1,n]] x i, correspondant à la norme infini sur K n. On fera parfois référence à cette norme sur E comme norme infini associée à la base B. Un espace vectoriel E de dimension finie peut donc toujours être muni d une norme, et par le moyen précédent, l étude «topologique» de E se ramène à celle de K n muni d une norme quelconque. 112
121 II. Suites d un espace vectoriel normé de dimension finie Définition Convergence d une suite Soit (E, ) un espace vectoriel normé et (u n ) une suite d éléments de E. Soit l E. On dit que (u n ) converge vers l (ou que u n tend vers l) si ε > 0, n 0 N; n n 0, u n l ε. On note ceci u n l. On dit que (u n ) est convergente s il existe l E tel que (u n ) converge vers l. Le vecteur l est alors unique; il est appelé limite de la suite (u n ), noté lim u n. Dans le cas contraire, on dit que (u n ) est divergente. Remarque En d autres termes, (u n ) converge vers l si pour toute boule fermée B centrée en l de rayon strictement positif, tous les termes de la suite sauf un nombre fini appartiennent à B. Démonstration de l unicité de l Supposons l existence de deux vecteurs l et l vérifiant la définition. Soient ε > 0 et deux entiers n 0 et n 1 vérifiant la condition ci-dessus pour l et l respectivement. Alors pour tout n max(n 0,n 1 ), l l l u n + u n l u n l + u n l 2ε. Ceci étant valable pour tout ε, on a l l = 0, donc l = l. Remarques Une suite (u n ) d éléments d un espace vectoriel normé (E, ) converge vers l si et seulement si la suite réelle ( u n l ) converge vers 0. Cette caractérisation est très utile pour prouver une convergence (lorsque l on a l intuition de la limite), par des majorations de u n l. Comme nous l avons indiqué ci-dessus, la convergence ou divergence d une suite, et en cas de convergence, la valeur de sa limite, ne dépendent pas de la norme choisie, du fait de la dimension finie. Exemples Illustrons la remarque précédente dans K n muni des normes 1 et infini. On remarque que pour tout x K n, x x 1 et x 1 n x. Si (u k ) converge vers l dans (K n, 1 ), alors pour tout k N, u k l u k l 1 avec u k l 1 0, et donc (u k ) converge vers l dans (K n, ). De même, si (u k ) converge vers l dans (K n, ), alors pour tout k N, u k l 1 n u k l avec u k l 0, et donc (u k ) converge vers l dans (K n, 1 ). (( )) e 1/n 2/n La suite d éléments de M 3/n 4/n 2 (R) converge vers n 1 ( ) En effet, en notant la norme sur M 2 (R) associée à la norme sur R 4 (maximum des valeurs absolues des coefficients de la matrice), on a ( ) ( ( e 1/n 2/n 1 0 = e 3/n 4/n 0 0) 1/n 1 2/n 0 3/n 4/n) car chacun des termes apparaissant dans le maximum tend vers 0. Même si la convergence d une suite ne dépend pas de la norme, il semble quand même qu il faille considérer une norme pour vérifier la définition. En fait, ce n est pas le cas, car l étude de la convergence d une suite se ramène à celle de ses coordonnées dans une base : 113
122 Théorème Convergence composante par composante Soit (u k ) k N une suite d éléments de E muni d une base B = (e 1,...,e n ). Notons, pour tout k, n u k = u k,i e i i=1 la décomposition de u k dans la base B. Alors, pour que la suite (u k ) k N soit convergente, il faut et il suffit que pour tout i [1,n], (u k,i ) k N soit convergente. Dans ce cas, on a lim u k = k + n ( ) lim u k,i e i, k + i=1 c est-à-dire que les coordonnées de la limite sont les limites des suites-coordonnées. Démonstration Notons la norme infini sur E associée à la base B. n Fixons un entier i [1,n]. Supposons que (u k ) converge vers l = l i e i. Alors pour tout k N, On en déduit que (u k,i ) k N converge vers l i. u k,i l i u k l avec u k l 0. Soit ε > 0 fixé. Si u k,i l i pour tout i [1,n], alors il existe des entiers k 1,...,k n tels k + que pour tout i [1,n] et pour tout k k i, Alors pour tout k max(k 1,...,k n ), Ainsi (u k ) converge vers l = Remarques u k,i l i ε. u k l = max i [[1,n]] u k,i l i ε. n l i e i. i=1 Une démonstration semblable montre qu une suite d éléments de E est bornée si et seulement si chacune de ses suites-coordonnées dans la base B est bornée. De même, si C est une base d un espace vectoriel de dimension finie F, alors une fonction f : A E F est bornée si et seulement si chacune de ses fonctions-coordonnées dans la base C est bornée. On parle de convergence (ou de suite ou fonction bornée) «composante par composante». L intérêt principal de ces résultats est de pouvoir se ramener à des suites ou à des fonctions à valeurs dans K (les coordonnées). Par exemple, une suite de matrices converge si et seulement si chacune de ses suites-coefficients converge. De même pour une suite de polynômes de K n [X]. En revanche, cela n a pas de sens pour nous dans K[X], qui n est pas de dimension finie. En application de ceci, on obtient le résultat suivant : soient E et F deux espaces vectoriels de dimension finie. Alors une suite (x k,y k ) d éléments de E F converge vers (x,y) si et seulement si (x k ) converge vers x et (y k ) converge vers y. En effet, si (e 1,...,e p ) est une base de E, et (f 1,...,f n ) une base de F, alors ((e 1,0)... (e p,0),(0,f 1 )... (0,f n )) est une base de E F. Il suffit alors d appliquer le résultat précédent. i=1 114
123 Propriété Toute suite convergente d éléments d un espace vectoriel normé est bornée. La réciproque est fausse. Démonstration On utilise les notations précédentes. Appliquons la définition de la limite avec ε = 1 : il existe n 0 N tel que pour tout n n 0, u n l 1. D après la seconde forme de l inégalité triangulaire, on en déduit u n l 1, et donc, u n l + 1 pour tout n n 0. Alors, pour tout n N, u n max( u 0,..., u n0 1, l + 1). L exemple de (( 1) n ) n N montre que la réciproque est fausse. Propriété Opérations sur les limites Soient (u n ) et (v n ) deux suites convergentes d éléments de E, et (α n ) une suite convergente d éléments de K. Soit n 0 N. Alors : La suite (u n + v n ) est convergente et lim(u n + v n ) = lim u n + lim v n. La suite (α n u n ) est convergente et lim(α n u n ) = lim α n lim u n. ( ) un Si α n 0 pour tout n n 0 et si lim α n 0, alors la suite est convergente α n n n 0 et ( ) un lim = lim u n. lim α n α n Démonstration Il suffit de raisonner composante par composante, et d appliquer les résultats correspondants pour les suites à valeurs scalaires. De la même façon, on obtient le résultat suivant : Propriété Soit (u n ) une suite d éléments de E qui converge vers l E. Alors toute suite extraite de (u n ) converge vers l. III. Vocabulaire de topologie Définition Points intérieurs à une partie Soient A une partie de E, et a un point de A. On dit que a est un point intérieur à A si : r > 0; B(a,r) A. En d autres termes, a est intérieur à A si on peut trouver une boule ouverte centrée en a, de rayon strictement positif, et incluse dans A. Exemple 2 est intérieur à [0,3] car 2 ]1.5,2.5[ [0,3]. En revanche, 0 et 3 ne sont pas intérieurs à [0,3]. Remarque Soit A une partie de E. Soit (x n ) une suite d éléments de E qui converge vers un point a intérieur à A. Alors, pour n assez grand, x n A. En effet, soit r > 0 tel que B(a,r) A. En appliquant la définition de la limite avec ε = r/2, on obtient l existence de n 0 N tel que pour tout n n 0, x n a < r, et donc, x n B(a,r) A. 115
124 Définition Intérieur d une partie Soit A une partie de E. On appelle intérieur de A l ensemble, noté Å, des points intérieurs à A. Remarque On a toujours Å A. Définition Partie ouverte Une partie A de E est dite ouverte (on dit aussi que A est un ouvert de E) si chacun de ses points est un point intérieur à A : a A, r > 0; B(a,r) A. Ceci équivaut à chacune des propriétés suivantes : Å = A. Pour chaque point a de A, on peut trouver une boule ouverte centrée en a, de rayon strictement positif, et incluse dans A. Exemple E et sont des ouverts. Propriété Une boule ouverte est un ouvert. Démonstration Le cas d une boule ouverte de rayon 0 est trivial. Soient x E et R > 0. Montrons que B(x,R) est un ouvert de E. On fixe donc a B(x,R), et on définit d = d(a,x) = x a. Alors d < R car a B(x,R), et pour tout y appartenant à B(a,R d), on a x y x a + a y = d + y a < d + R d = R, donc y B(x,R). Ainsi, en posant r = R d > 0, on a : B(a,r) B(x,R). Cette construction étant possible pour tout a B(x,R) (avec r dépendant de a, ce qui est tout à fait possible au vu de la définition précédente), on a le résultat. r = R d d a x R 116
125 Exemples Les intervalles ouverts de R sont des ouverts. Le demi-plan P = {(x,y) R 2, y > 0} est un ouvert de R 2. On vérifie la définition avec la norme euclidienne usuelle 2. Soit a = (x,y) P. Notons r = y > 0. Pour tout p = (u,v) dans B(a,r), on a y v (x u) 2 + (y v) 2 = p a 2 < r = y, donc y v y v < y. On en déduit que v > 0, donc p P. Ainsi, B(a,r) P. De même que l on a défini les points situés «à l intérieur» de A, on peut définir les points «qui touchent» A (sans nécessairement appartenir à A) : il s agit, intuitivement, des points situés arbitrairement près de points de A : Définition Points adhérents à une partie Soient A une partie de E et a E. On dit que a est un point adhérent à A si r > 0, B(a,r) A. Exemples Tout point de A est adhérent à A. 4 est adhérent à [ 2,4[. Propriété Caractérisation séquentielle des points adhérents Soient A une partie de E et a E. Le point a est adhérent à A si et seulement si il existe une suite d éléments de A qui converge vers a. Démonstration Si a est adhérent à A, pour tout entier n 1, il existe x n B(a,1/n) A. Alors x n a car pour tout n 1, De plus (x n ) est une suite d éléments de A. x n a < 1 n. Soient r > 0 et (x n ) une suite d éléments de A qui converge vers a. Comme x n a, pour n assez grand, x n B(a,r) et même x n B(a,r) A. Cet ensemble est donc non vide, et ce pour tout r > 0, donc a est adhérent à A. Exemple La matrice ( ) est adhérente à l ensemble des matrices inversibles, car elle est limite de la suite des matrices lorsque n tend vers +. ( ) /n 117
126 Définition Adhérence d une partie Soit A une partie de E. On appelle adhérence de A l ensemble, noté A, des points adhérents à A. Remarque On a toujours A A. Définition Partie fermée Une partie A de E est dite fermée (on dit aussi que A est un fermé de E) si tous les points adhérents à A appartiennent à A (ce qui équivaut au fait que A = A). Exemples E et sont des fermés. ], 1] [1, + [ est un fermé de R. Toute boule fermée est un fermé. Toute sphère est un fermé. On déduit en particulier de la propriété précédente une caractérisation des parties fermés : Propriété Caractérisation séquentielle des fermés Soit A une partie de E. Les propriétés suivantes sont équivalentes : A est une partie fermée. Pour toute suite convergente (x n ) d éléments de A, on a lim x n A. Exemple Le cercle unité de R 2 est l ensemble U = {(x,y) R 2 ; x 2 + y 2 = 1}. Soit (x n,y n ) une suite d éléments de U convergeant vers (x,y) R 2. On a, pour tout n N, x 2 n + y 2 n = 1, de sorte qu à la limite, on obtient x 2 + y 2 = 1. Le point (x,y) appartient donc à U. On a donc montré que U est fermé. Attention! Les notions d ouverts et de fermés ne sont pas contraires l une de l autre : E et l ensemble vide sont par exemple à la fois ouverts et fermés. Le lien est en fait le suivant : Propriété Une partie A de E est fermée si et seulement si son complémentaire dans E est ouvert. On rappelle que le complémentaire de A est défini par A = E \ A = {x E; x / A}. Démonstration Si A est fermé, soit a A. On veut montrer qu il existe r > 0 tel que B(a,r) A. Si tel n était pas le cas, pour tout n N, il existerait x n B(a,1/n) tel que x n A. Le point a serait donc limite d une suite d éléments de A, et A étant fermé, on devrait avoir a A, ce qui n est pas le cas. On en déduit l existence de r, et on a donc montré que A est ouvert. Si A est ouvert, soit a un point de E qui est limite d une suite (x n ) d éléments de A. Si a / A, alors a appartient au complémentaire de A qui est ouvert. Il existe donc r > 0 tel que B(a,r) A. Sachant que x n a, on en déduit que pour n assez grand, x n B(a,r) A, ce qui est absurde car (x n ) est une suite d éléments de A. Donc a A, ce qui montre que A est fermé. 118
127 Propriété Une réunion d ouverts est un ouvert. Une intersection d un nombre fini d ouverts est un ouvert. Une intersection de fermés est un fermé. Une réunion d un nombre fini de fermés est un fermé. Démonstration Soit U = i I U i une réunion d ouverts, I désignant un ensemble d indices. Soit a U. Il existe i I tel que a U i. Comme U i est un ouvert, il existe r > 0 tel que B(a,r) U i. Alors B(a,r) j I U j = U. Soient p N, et U = p i=1 U i une intersection finie d ouverts. Soit a U. Pour tout i [1,p], il existe r i > 0 tel que B(a,r i ) U i. Posons r = min{r i ; i [1,p]}. On a alors r > 0 et B(a,r) B(a,r i ) pour tout i, donc p B(a,r) U i = U. i=1 Pour les deux points concernant les fermés, il suffit de passer au complémentaire et d utiliser les deux premiers points ; en effet, si les F i sont des fermés, ( ) F i = ( ( ) p ) p ( ) F i et F i = F i. i I i=1 i=1 i I Définition Frontière d une partie Soit A une partie de E. On appelle frontière de A l ensemble Fr(A) = A\Å, constitué des points de E qui sont adhérents à A mais pas intérieurs à A. Bien sûr, cette notion coincide avec l intuition que suggère son nom : la frontière correspond au «bord» de l ensemble. Par exemple, la frontière d une boule B f (a,r) ou B(a,r) de rayon non nul est la sphère S(a,r). IV. Fonctions entre espaces vectoriels normés : limite et continuité Dans toute la suite, E et F désignent deux espaces vectoriels normés de dimension finie, A une partie de E et f une fonction définie sur A et à valeurs dans F. On peut munir E d une norme E et F d une norme F. 1. Définitions Définition Limite en un point Soit a un point adhérent à A (a A) et b F. On dit que f a pour limite b en a (ou que f(x) tend vers b lorsque x tend vers a) si ε > 0, η > 0; x A, [ x a E η] [ f(x) b F ε]. On note ceci f(x) x a b. On dit que f a une limite en a s il existe b F tel que f(x) x a b. Le vecteur b est alors unique; il est appelé limite de f en a et noté lim x a f(x) ou lim a f. 119
128 Démonstration de l unicité de b Soient b et b deux vecteurs de F vérifiant la définition; soient ε > 0 et deux réels η > 0 et η > 0 vérifiant la condition ci-dessus pour b et b respectivement. Alors pour tout x A tel que x a E min(η,η ), b b F = b f(x) + f(x) b F f(x) b F + f(x) b F 2ε. Ceci étant vrai pour tout ε > 0, on en déduit b = b. Remarque Pourquoi définir la limite de f en un point a adhérent à A? Dans la définition de point adhérent, on peut clairement remplacer B(a,r) par B f (a,r) : les points adhérents à A sont exactement les points de E pour lesquels, pour tout η > 0, B f (a,η) A n est pas vide, et donc ceux pour lesquels l éventualité «x A et x a E η» se présente. Définition Limite en ± Soient m R, f une fonction définie sur ]m, + [ à valeurs dans F et b F. On dit que f a pour limite b en + si ε > 0, M > 0; x M, f(x) b F ε. Soient m R, f une fonction définie sur ],m[ à valeurs dans F et b F. On dit que f a pour limite b en si ε > 0, M > 0; x M, f(x) b F ε. Définition Limite infinie Soient f une fonction définie sur A à valeurs réelles et a un point adhérent à A. On dit que f a pour limite + en a si K > 0, η > 0; x A, [ x a E η] [f(x) K]. Soient f une fonction définie sur A à valeurs réelles et a un point adhérent à A. On dit que f a pour limite en a si K > 0, η > 0; x A, [ x a E η] [f(x) K]. On vérifie aisément que l unicité de la limite est toujours vérifiée. Propriété/Définition Continuité en un point Lorsque a A et f admet une limite en a, on a nécessairement lim x a f(x) = f(a). Dans ce cas, on dit que f est continue en a. Démonstration Soit ε > 0 fixé et b = lim a f. Il existe η > 0 tel que pour tout x de A vérifiant x a E η, on ait f(x) b F ε. En appliquant ceci à x = a (ce qui est possible car a A), on a donc f(a) b F ε, et ce pour tout ε > 0. Ainsi b = f(a), c est-à-dire limf(x) = f(a). x a Définition Continuité sur une partie On dit que f est continue sur A si f est continue en tout point de A. Ceci équivaut à : a A, ε > 0, η > 0; x A, [ x a E η] [ f(x) f(a) F ε]. 120
129 2. Caractérisation séquentielle de la limite Propriété Caractérisation séquentielle de la limite Soit a un point adhérent à A; les propriétés suivantes sont équivalentes : La fonction f possède une limite en a. Pour toute suite (a n ) d éléments de A qui converge vers a, la suite (f(a n )) n N a une limite. Dans ce cas, pour toute suite (a n ) d éléments de A qui converge vers a, limf(x) = lim f(a n). x a n + Démonstration Notons b = lim x a f(x). Soit (a n ) une suite d éléments de A convergeant vers a. Soit ε > 0 fixé. Il existe η > 0 tel que pour tout x de A vérifiant x a E η, on ait f(x) b F ε. Or a n a, donc il existe n 0 N tel que pour tout n n 0, a n a E η. Alors, pour un tel n, f(a n ) b F ε, d où le résultat. Commençons par montrer que, avec les notations de l énoncé, la limite de (f(a n )) ne dépend pas de la suite (a n ). Soient donc (a n ) et (α n ) deux suites d éléments de A qui convergent vers a. On construit une suite (c n ) en posant, pour tout p N, c 2p = a p et c 2p+1 = α p : (c n ) est construite en écrivant alternativement les termes de (a n ) et (α n ). En particulier, la suite (c n ) converge vers a, et donc la suite (f(c n )) est convergente. Or les suites (f(a n )) et (f(α n )) sont extraites de (f(c n )), donc qui est le résultat annoncé. lim f(a n ) = lim f(c n ) = lim f(α n ), Notons alors b la valeur commune de la limite de toutes les suites (f(a n )) où (a n ) est une suite d éléments de A qui converge vers a. Pour montrer que f a une limite en a égale à b, on raisonne par l absurde : supposons au contraire qu il existe ε > 0 tel que pour tout η > 0, il existe x A tel que x a E η mais f(x) b F > ε. En appliquant cela avec η = 1/n (n N ) on construit une suite (a n ) d éléments de A telle que pour tout n 1, a n a E 1 n et f(a n) b F > ε. Alors a n a mais (f(a n )) ne converge pas vers b; c est absurde, et on en déduit le résultat. Remarques L implication directe est très souvent employée sous la forme suivante : { an a f est continue en a f(a n ) f(a). Cette caractérisation permet de ramener de nombreuses questions de limites de fonctions à des questions de limites de suites, pour lesquelles on a déjà de nombreuses propriétés. On a une propriété analogue pour les limites en ± lorsque E = R. 121
130 3. Limite et continuité composante par composante, opérations Propriété Limite ou continuité composante par composante Soient C = (ε 1,...,ε n ) une base de F et f : A F une fonction. Notons f = n f i ε i i=1 la décomposition de f dans la base C, c est-à-dire que les fonctions f i : A K sont les fonctions-coordonnées de f dans la base C. Alors : 1. Soit a un point adhérent à A. Pour que f ait une limite en a, il faut et il suffit que pour tout i [1,n], f i ait une limite en a. Dans ce cas, on a lim a f = n (lim a f i )ε i, i=1 c est-à-dire que les coordonnées de la limite sont les limites des fonctions-coordonnées. 2. Soit a A. Pour que f soit continue en a, il faut et il suffit que pour tout i [1,n], f i soit continue en a. 3. Pour que f soit continue sur A, il faut et il suffit que pour tout i [1,n], f i soit continue sur A. Démonstration Il suffit d utiliser la caractérisation séquentielle de la limite et la propriété de convergence composante par composante pour les suites. Propriété Opérations algébriques Soient f et g deux fonctions définies sur A à valeurs dans F, et α une fonction définie sur A à valeurs dans K. 1. Soit a un point adhérent à A. On suppose que f, g et α ont une limite en a. Alors : La fonction f + g a une limite en a et lim a (f + g) = lim a f + lim a g. La fonction αf a une limite en a et lim a (αf) = (lim a α)(lim a f). Si α(x) 0 pour tout x A et si lim a α 0, alors la fonction f a une limite en α a et ( ) f lim = lim a f a α lim a α. Toutes ces propriétés sont vraies si E = R et a = ±, ainsi que les cas déjà connus pour des limites infinies ; attention cependant aux formes indéterminées. 2. Lorsque a appartient à A, on peut traduire ces propriétés en termes de continuité en a. 3. On peut traduire ces propriétés en termes de continuité sur A. En particulier, l ensemble C 0 (A,F) des fonctions continues sur A à valeurs dans F est un K-espace vectoriel (pour les lois usuelles). Démonstration Il suffit de démontrer le point 1. On se ramène aux propriétés analogues sur les suites grâce à la caractérisation séquentielle de la limite. 122
131 Propriété Composition Soient E, F et G trois espaces vectoriels normés de dimension finie, A une partie de E et B une partie de F. Soient f : A F et g : B G deux fonctions. On suppose que f(a) B, de sorte que la fonction g f : A G est bien définie. 1. Soit a un point adhérent à A. On suppose que f a une limite b en a. Alors : b est adhérent à B. Si de plus g a une limite c en b, on a : g f a une limite en a et (g f)(x) x a c. 2. Soit a A. Si f est continue en a et si g est continue en f(a), alors g f est continue en a. 3. Si f est continue sur A et si g est continue sur B, alors g f est continue sur A. Démonstration Il suffit de démontrer le point 1. Le point a est adhérent à A, donc il existe une suite (a n ) d éléments de A qui converge vers a. Sachant que f a pour limite b en a, on a donc f(a n ) b. Or, pour tout n N, f(a n ) f(a) B. On a donc construit une suite d éléments de B qui converge vers b : b est adhérent à B. Soit (a n ) une suite d éléments de A qui converge vers a. Alors sachant que f a pour limite b en a et que g a pour limite c en b, on a f(a n ) b et g(f(a n )) c. D après la caractérisation séquentielle de la limite (sens réciproque, appliqué à g f), on obtient que g f a pour limite c en a. Propriété Continuité des applications polynomiales Toute application polynomiale f définie sur K n est continue (par application polynomiale, on entend que chaque fonction-coordonnée de f dans une base de l espace d arrivée est un polynôme en les composantes x 1,...,x n de la variable x). Démonstration D après les deux premières propriétés de ce paragraphe, il suffit de prouver que pour tout i [1,n], l application x = (x 1,...,x n ) x i est continue, ce qui est immédiat. Exemple L application (x,y,z) (x 2 + 3xy + 4xz 2,xz y 3 ) est continue de R 3 dans R 2. Remarque On montre de la même façon que toute application f définie sur E, polynomiale en les coordonnées (x 1,...,x n ) de sa variable x dans une base de E, est continue. 4. Fonctions Lipschitziennes Définition Fonction Lipschitzienne Soit k R +. On dit que f est k-lipschitzienne si (x,y) A 2, f(x) f(y) F k x y E. On dit que f est Lipschitzienne s il existe k tel que f est k-lipschitzienne. Remarque Le fait pour une fonction d être Lipschitzienne ne dépend pas des normes choisies, mais le fait d être k-lipschitzienne en dépend! Exemples La fonction racine carrée f : x x est Lipschitzienne sur [1, + [ : en effet, f est dérivable sur [1, + [ avec, pour tout x 1, f (x) = 1 2 x
132 D après le théorème des accroissements finis, on a donc, pour tout (x,y) [1, + [ 2, f(x) f(y) 1 x y. 2 Le théorème des accroissements finis est un outil très utile pour prouver qu une fonction est Lipschitzienne. Si est une norme sur E, l application x x de E dans R est 1-Lipschitzienne : en effet, d après la seconde forme de l inégalité triangulaire, pour tout (x,y) E 2, on a x y x y. Remarques Il est très facile de prouver que l ensemble des fonctions Lipschitziennes de A E dans F est un K-espace vectoriel. On a également une propriété de stabilité vis-à-vis de la composition : soient (E, E ), (F, F ) et (G, G ) trois espaces vectoriels normés, A une partie de E et B une partie de F. Soient f : A F et g : B G deux fonctions. On suppose que f(a) B, de sorte que la fonction g f est bien définie. Si f est k 1 -Lipschitzienne et g est k 2 -Lipschitzienne, alors g f est k 1 k 2 -Lipschitzienne. En effet, pour tout (x,y) A 2, (g f)(x) (g f)(y) G k 2 f(x) f(y) F k 2 k 1 x y E. Propriété Toute fonction Lipschitzienne est continue. La réciproque est fausse. Démonstration Avec les notations précédentes, soit f une fonction k-lipschitzienne. Si k = 0, f est constante et le résultat est évident. Sinon, soient a A et ε > 0. Pour tout (x,y) A 2, En particulier, si x a E ε/k, alors f(x) f(y) F k x y E. f(x) f(a) F k ε k = ε. Donc f est continue en a, et ce pour tout a A. On voit même que le nombre η = ε/k permettant de vérifier la définition de la continuité est indépendant de x : le caractère Lipschitzien est donc beaucoup plus fort que la continuité en chaque point. Pour montrer que la réciproque est fausse : la fonction x x 2 définie sur R n est pas Lipschitzienne, bien qu elle soit continue. En effet, supposons au contraire qu il existe k tel que pour tout (x,y) R 2, x 2 y 2 k x y. Alors, pour tout x et y distincts, on a x + y x y k x y d où x + y k, ce qui est absurde lorsque par exemple y = 0 et x tend vers
133 V. Propriétés des fonctions continues à valeurs réelles 1. Ensembles de niveaux d une fonction continue Propriété Soit f une application continue sur E à valeurs dans R. Alors : L ensemble {x E; f(x) > 0} est une partie ouverte de E. L ensemble {x E; f(x) 0} est une partie fermée de E. L ensemble {x E; f(x) = 0} est une partie fermée de E. Démonstration Soit a E tel que f(a) > 0; par continuité de f, il existe η > 0 tel que pour tout x de E vérifiant x a E η, on ait f(x) f(a) f(a)/2, et donc f(x) f(a) f(a) 2 = f(a) 2 > 0. En particulier, B(a,η) {x E; f(x) > 0}. Il en résulte que {x E; f(x) > 0} est ouvert. On utilise la caractérisation séquentielle des fermés : soit (a n ) une suite d éléments de {x E; f(x) 0} qui converge vers a E. Pour tout n, f(a n ) 0, et f étant continue, on sait que f(a n ) f(a). On en déduit que f(a) 0, c est-à-dire, a {x E; f(x) 0}. Cet ensemble est donc fermé. On raisonne de même en passant à la limite dans la relation f(a n ) = 0. Remarque Bien sûr, en changeant f en f, on prouve des résultats analogues pour f(x) < 0 et f(x) 0. Cette dernière propriété est très utile pour prouver que des parties de E sont ouvertes, ou fermées : on peut parfois voir ces parties comme ensembles de niveau f(x) > 0, f(x) 0 ou f(x) = 0 d une application continue à valeurs réelles f bien choisie. Exemples L exemple du cercle unité U traité plus haut entre dans ce cadre : on a U = {(x,y) R 2 ; x 2 + y 2 1 = 0}, la fonction f : (x,y) x 2 + y 2 1 étant continue car polynomiale. Revenons sur l exemple du demi-plan P = {(x,y) R 2, y > 0} Montrons par cette méthode qu il s agit d un ouvert de R 2 : l application f : { R 2 R (x,y) y est continue sur R 2. De plus, P = {(x,y) R 2 ; f(x,y) > 0}. D après la propriété précédente, P est donc un ouvert. L ensemble Gl n (R) des matrices inversibles d ordre n est un ouvert de M n (R) : en effet, une matrice carrée A est inversible si et seulement si det(a) 0. On en déduit donc que Gl n (R) = {A M n (R); det(a) < 0} {A M n (R); det(a) > 0}. Nous montrerons bientôt que la fonction déterminant est continue sur M n (R). On en déduit que Gl n (R) est la réunion de deux ouverts de M n (R), c est donc une partie ouverte. 125
134 L ensemble O des trinômes à coefficients réels qui ont deux racines réelles distinctes est une partie ouverte de R 2 [X]. Soit en effet l application discriminant { R φ : 2 [X] R ax 2 + bx + c b 2 4ac et ψ : ax 2 + bx + c a. Alors O = ({P R 2 [X]; ψ(p) < 0} {P R 2 [X]; ψ(p) > 0}) {P R 2 [X]; φ(p) > 0}. Or, φ et ψ sont continues sur R 2 [X] (c est immédiat pour ψ, et φ est polynomiale en les coordonnées de sa variable). Donc O est une partie ouverte comme intersection de deux ouverts, le premier étant lui-même la réunion de deux ouverts. De la même façon, on montre que l ensemble des polynômes de R 2 [X] ayant deux racines complexes conjuguées distinctes est un ouvert, et que l ensemble des polynômes de R 2 [X] ayant au plus une racine (éventuellement double) est un fermé. 2. Extrema de fonctions continues Théorème des bornes atteintes (admis : démonstration non exigible) Si K est une partie fermée, bornée et non vide de E et f : K R est continue, alors f est bornée et atteint ses bornes. Remarque Ce théorème est bien sûr une généralisation du théorème selon lequel une fonction continue sur un segment, à valeurs dans R, est bornée et atteint ses bornes. Exemple La boule unité B de M n (R) pour la norme infini est fermée, bornée et non vide. La fonction déterminant, qui est continue sur B, est donc bornée sur B et atteint ses bornes. Ainsi, parmi les matrices de M n (R) dont tous les coefficients sont compris entre 1 et 1, il en existe au moins une dont le déterminant est maximal. VI. Le cas des applications linéaires et multilinéaires Théorème Caractère Lipschitzien des applications linéaires Soient E et F deux espaces vectoriels de dimension finie et u L (E,F). Alors u est Lipschitzienne. Démonstration Munissons E d une base B = (e 1,...,e n ) et de la norme infini associée à cette base, et F d une norme F. Soit x E dont la décomposition dans la base B est x = x 1 e x n e n. Alors par linéarité de u, u(x) F = x 1 u(e 1 ) + + x n u(e n ) F x 1 u(e 1 ) F + + x n u(e n ) F, d après l inégalité triangulaire. Alors u(x) F [ u(e 1 ) F + + u(e n ) F ] x. Posons k = u(e 1 ) F + + u(e n ) F. Soit (x,y) E 2 ; alors par linéarité de u et d après l inégalité précédente, u(x) u(y) F = u(x y) F k x y, d où le résultat, car la notion de fonction Lipschitzienne ne dépend pas des normes choisies sur E et F. Attention! La linéarité de u est essentielle pour que l inégalité u(x) F k x, valable pour x E, entraîne que u est Lipschitzienne. 126
135 On sait que le caractère Lipschitzien entraîne la continuité, on a donc le résultat suivant : Corollaire Une application linéaire entre espaces vectoriels de dimension finie est continue. Exemple L application Trace, de M n (K) dans K, est linéaire entre deux espaces de dimension finie, donc Tr est Lipschitzienne. Si M n (K) est muni de la norme infini (et K de la valeur absolue ou du module), elle est en fait n-lipschitzienne car pour tout M = (m i,j ) 1 i,j n M n (K), n Tr(M) = m i,i i=1 n i=1 m i,i n max m i,j = n M. i,j Si M n (K) est muni de la norme 1, définie par M 1 = n i,j=1 m i,j, elle est 1-Lipschitzienne car Tr(M) n m i,i i=1 n m i,j = M 1. Soit p un entier avec p 2 et f : (K n ) p F une application multilinéaire, c est-à-dire, linéaire par rapport à chacune de ses p variables. Alors f est continue. i,j=1 Propriété Continuité des applications multilinéaires Démonstration On notera (e 1,...,e n ) la base canonique de K n. Pour j x j = (x j 1,...,xj n) = x j 1 e x j ne n K n. Par multilinéarité de f, on a f(x 1,...,x p ) = x 1 i 1 x p i p f(e i1,...,e ip ). (i 1,...,i p) [[1,n]] p [1,p], soit En décomposant tous les vecteurs f(e i1,...,e ip ) dans une base de F, on voit que chaque coordonnée de f(x 1,...,x p ) dans cette base définit une fonction polynomiale en les x j i pour (i,j) [1,n] [1,p], et donc, définit une fonction continue. On en déduit que f est continue. Remarque Si E et F sont de dimension finie, on généralisera sans difficulté la propriété précédente pour montrer qu une application f : E p F multilinéaire est continue. Exemples L application déterminant, de M n (K) dans K, est continue car multilinéaire par rapport aux colonnes de sa variable. Si (E,( )) est un espace euclidien, alors le produit scalaire ( ) est une application continue. Si de plus E est orienté de dimension 3, alors le produit vectoriel est une application continue. En effet, dans ces deux cas, l application considérée est bilinéaire. Le produit matriciel { Mn (K) M n (K) M n (K) (A,B) AB est continu car bilinéaire. On peut donc passer à la limite dans un déterminant, un produit scalaire en dimension finie, un produit vectoriel, un produit de matrices. 127
136 128
137 Chapitre 6 Suites et séries de fonctions Dans ce chapitre, K désigne R ou C, et I un intervalle de R. Soit (f n ) n N une suite de fonctions définies sur un intervalle J et à valeurs dans K. Pour tout x J, (f n (x)) n N est une suite d éléments de K. Si elle converge, on peut noter sa limite f(x). Quelles sont alors les propriétés de la fonction f : Si f n est continue ou même dérivable pour tout n, f est-elle continue, dérivable? Peut-on exprimer l intégrale de f sur un segment comme limite des intégrales des f n? On remarque tout de suite que la question n est pas anodine, en considérant la suite de fonctions (f n ) où f n (x) = x n pour tout n N et tout x réel. Alors bien sûr, toutes les fonctions f n sont de classe C sur R. Pourtant, f n (x) n + 0 si x ] 1,1[ 1 si x = 1 + si x > 1 et (f n (x)) n N n a pas de limite si x 1. La fonction limite f est définie sur ] 1,1], et elle n est pas continue. On a représenté ci-dessous f 1, f 2, f 5 et f 20 (en noir), et la fonction f (en rouge), sur [0,1]. 1 C f1 C f2 Cf5 C f20 0 C f 1 De, même, pour chaque x on peut s intéresser à la série n 0 f n(x). Quelle sont les propriétés de la fonction-somme ainsi définie? Toutes les fonctions considérées dans ce chapitre sont à valeurs dans K. 129
138 I. Différents modes de convergence 1. Convergence simple, convergence uniforme Commençons par définir la convergence envisagée dans l introduction : Définition Convergence simple Pour tout n N (ou n n 0 avec n 0 N ), on se donne une fonction f n : I K. On se donne également une fonction f : I K. On dit que la suite de fonctions (f n ) n N converge simplement vers f sur I si : x I, f n (x) n + f(x). Exemple Comme nous l avons montré dans l introduction, la suite (f n ) n N f n : x x n converge vers la fonction { 0 si x ] 1,1[ f : x 1 si x = 1 des fonctions sur ] 1,1]. La convergence simple est donc une notion qui s applique «x par x». Pour la montrer, on commence par fixer x et on étudie la suite (f n (x)) n N d éléments de K. Or, le comportement de cette suite pour un certain x peut être indépendant du comportement pour un autre x, même proche. C est ce qui arrive dans notre exemple entre x ] 1,1[ et x = 1. Pour pallier cette difficulté, on va définir un autre mode de convergence en imposant une certaine uniformité entre les différentes valeurs de x : Définition Convergence uniforme Avec les notations ci-dessus, on dit que (f n ) converge uniformément vers f sur I si pour n N assez grand, f n f est bornée sur I ; sup x I f n (x) f(x) n + 0. Regardons de plus près cette définition, et traduisons-la avec des quantificateurs ; elle signifie : ε > 0, n 0 N; n n 0, x I, f n (x) f(x) ε. Comparons-la à la convergence simple; cette dernière signifie : ε > 0, x I, n 0 N; n n 0, f n (x) f(x) ε. Toute la différence réside dans cet échange de quantificateurs : dans la convergence simple, le rang n 0 dépend de x; dans la convergence uniforme, le même n 0 doit convenir pour tout x I. La convergence uniforme est donc beaucoup plus exigeante que la convergence simple. Si K = R, l inégalité f n (x) f(x) ε est équivalente à f(x) ε f n (x) f(x) + ε. Ainsi, pour que la suite de fonctions (f n ) converge uniformément vers f sur I, il faut et il suffit que pour tout ε > 0, il existe un entier n 0 tel que pour tout n n 0, pour tout x I, f(x) ε f n (x) f(x) + ε, ce qui signifie que pour n n 0, le graphe de f n est inclus dans le «tube» d épaisseur 2ε autour du graphe de f. 130
139 Ce phénomène est illustré sur le graphique suivant : y y = f(x) + ε y = f(x) y = f n (x) avec n n 0 y = f(x) ε ε ε x Propriété Soit (f n ) une suite de fonctions définies sur I, à valeurs dans K, et f : I K une fonction. Pour que (f n ) converge uniformément vers f sur I, il faut et il suffit qu il existe une suite (a n ) de réels positifs telle que pour n assez grand, pour tout x I, f n (x) f(x) a n ; a n 0. n + Démonstration Il suffit de choisir a n = sup x I f n (x) f(x) si f n f est bornée (ce qui est le cas pour n assez grand), a n = 0 sinon. Si une telle suite (a n ) existe, alors pour n N assez grand, f n f est bornée et donc (f n ) converge uniformément vers f sur I. sup f n (x) f(x) a n avec a n 0, x I n + L intérêt de cette propriété est de montrer que pour prouver la convergence uniforme de (f n ) vers f sur I, il n est pas nécessaire de calculer sup x I f n (x) f(x), mais il suffit de le majorer par un terme a n convenable. En revanche, si les majorations ne sont pas assez fines, il se peut que l on ne puisse pas conclure. Il faut alors améliorer les majorations, sachant que la majoration la plus fine possible sera toujours celle donnée par le calcul de sup x I f n (x) f(x), qui peut se faire par des études de fonctions. Pour prouver que (f n ) ne converge pas uniformément vers f sur I, on peut essayer de calculer sup x I f n (x) f(x), ou le minorer par une quantité positive qui ne tend pas vers 0 lorsque n +. Remarque Supposons que toutes les fonctions avec lesquelles on travaille soient bornées, c està-dire, appartiennent à B(I,K). Sur cet espace, on a défini dans le chapitre Espaces vectoriels normés la norme. Alors, par définition même, (f n ) converge uniformément vers f sur I si et seulement si f n f 0. n + C est pourquoi la norme infini sur B(I,K) est appelée norme de la convergence uniforme. 131
140 Revenons à nouveau sur l exemple de la suite des fonctions f n : x x n. Il y a convergence simple vers la fonction f notamment sur [0,1[ (sur lequel f coincide avec la fonction nulle). Il n y a pas convergence uniforme sur cet intervalle car pour tout n N, sup f n (x) f(x) = sup x n = 1. x [0,1[ x [0,1[ Cela dit, on a l impression que l absence de convergence uniforme sur [0,1[ provient du voisinage de 1. Soit [a,b] un segment inclus dans [0,1[. Alors il y a donc convergence uniforme sur [a,b]. sup f n (x) f(x) = sup x n = b n 0 ; x [a,b] x [a,b] n + En généralisant cette idée, on est amené à définir un troisième mode de convergence : Définition Convergence uniforme sur tout segment Avec les notations précédentes, on dit que (f n ) converge uniformément sur tout segment de I vers f si pour tout segment [a,b] inclus dans I, (f n ) converge uniformément vers f sur le segment [a,b]. Remarque Ce mode de convergence permet parfois d effacer les difficultés provenant des extrémités de l intervalle I, lorsque celui-ci est ouvert ou semi-ouvert, comme c est le cas dans l exemple précédent. Propriété Lien entre les différentes convergences On a les implications suivantes : (f n ) converge uniformément vers f sur I (f n ) converge uniformément vers f sur tout segment de I (f n ) converge simplement vers f sur I. Les deux réciproques sont fausses. Démonstration Si (f n ) converge uniformément vers f sur I, et si J est un segment inclus dans I, on a, pour n assez grand, sup x J f n (x) f(x) sup x I f n (x) f(x) avec sup f n (x) f(x) 0, x I n + donc (f n ) converge uniformément vers f sur J, et ce quel que soit J. Ainsi (f n ) converge uniformément vers f sur tout segment de I. Si (f n ) converge uniformément vers f sur tout segment de I, alors pour tout x I, il existe un segment J inclus dans I qui contient x, et alors, pour n assez grand, f n (x) f(x) sup y J Ainsi (f n ) converge simplement vers f sur I. f n (y) f(y) avec sup f n (y) f(y) 0. y J n + L exemple des fonctions x x n sur [0,1[ montre que la première réciproque est fausse. Le même exemple sur [0,1] montre que la deuxième réciproque est fausse. Autre contre-exemple : considérons la suite des fonctions f n : x arctan(nx) définies sur R ; elle converge simplement 132
141 sur R vers la fonction f définie par f(0) = 0, f(x) = π/2 si x < 0 et f(x) = π/2 si x > 0. Cette convergence n est pas uniforme sur tout segment de R car, par exemple, sup f n (x) f(x) = π x [ 1,1] 2, comme le montre une étude de fonctions sans difficulté. Cet exemple montre aussi que la seconde réciproque est fausse. Remarque Dans certains cas, prouver la convergence uniforme de (f n ) vers f sur tout segment de I revient à la prouver pour des segments d une forme particulière, plus simple : Si I est de la forme [α,β[, on peut se limiter aux segments de la forme [α,b] où b I (de même si I = ]α,β] avec les segments de la forme [a,β] où a I). Si I est symétrique par rapport à 0, de la forme ] α,α[, on peut se limiter aux segments de la forme [ a,a] où a [0,α[. En effet, dans chaque cas, tout segment de I est inclus dans un segment de la forme particulière indiquée. Méthode Pour étudier la convergence d une suite de fonctions (f n ) n N, on procède souvent comme suit : On fixe x et on étudie la convergence de la suite de scalaires (f n (x)) n N. On note f(x) sa limite, où x appartient à un certain intervalle I (qui n est pas nécessairement l ensemble de définition des f n ) : la suite de fonctions (f n ) converge simplement vers f sur I. On se demande alors si la convergence est meilleure. Si elle est uniforme, ou au moins uniforme sur tout segment de I, on sait que la limite ne peut être que f. On essaie donc de majorer f n (x) f(x), et plus précisément, de prouver, pour x I et n assez grand, une inégalité du type f n (x) f(x) a n où a n est indépendant de x, et a n 0. n + Si l on y parvient sur I tout entier, alors la convergence est uniforme sur I. Sinon, on essaie de le faire sur tout segment inclus dans I. Si l on y parvient, la convergence est uniforme sur tout segment de I. Exemples Étudions la suite des fonctions f n : x x n, pour n 1, sur R. Il est évident que (f n) converge simplement vers la fonction valeur absolue (notée f) sur R, car pour tout réel x, x n x 2 = x. n + On se demande si cette convergence est uniforme. Or, pour tout n 1 et x R, 0 f n (x) f(x) = x n x 2 1/n = 1/n x n + x 1/ n = 1 1 avec 0, n n n + et l encadrement est indépendant de x. La convergence est donc uniforme sur R. Ce résultat montre au passage que l on peut approcher la valeur absolue (non dérivable en 0) par des fonctions de classe C, de façon uniforme sur R et arbitrairement précise. Étudions la suite des fonctions f n : x nx n (1 x), pour n 1, sur [0,1]. Par croissances comparées, (f n ) converge simplement vers la fonction nulle f sur [0,1[, et f n (1) = 0 pour tout n N. Il y a donc convergence simple vers f sur [0,1]. Pour savoir si cette convergence est uniforme, étudions la fonction f n f = f n sur [0,1]. Pour tout n N, f n est dérivable sur [0,1] et pour tout x [0,1], f n (x) = n2 x n 1 (1 x) nx n = nx n 1 (n(1 x) x) = nx n 1 (n (n + 1)x). 133
142 On en déduit immédiatement que f n, qui est positive, admet un maximum global sur [0,1] en n n + 1. Or ( ) ( ) n n n 1 f n = n n + 1 n + 1 n + 1 = ( n n + 1 Un développement limité classique montre que ( ) n n + e. n n Finalement, f et toutes les fonctions f n sont bornées sur [0,1], et ( ) n 1 f n f = f n n + 1 n + e. ) n ( n La convergence n est donc pas uniforme sur [0,1]. Elle est cependant uniforme sur tout segment de la forme [0,a] avec 0 a < 1 (et donc sur tout segment de [0,1[). En effet, pour tout n tel que a < n n ( ce qui est le cas pour n assez grand car n + 1 n + 1 1), on a n + Le cas des séries de fonctions sup f n (x) f(x) = f n (a) = na n (1 a) 0. x [0,a] n + Bien sûr, on définit la convergence (simple ou uniforme) d une série de fonctions n 0 f n comme la convergence de la suite des sommes partielles ( p (S p ) p N = On se ramène ainsi à une suite de fonctions. Exemples de convergence simple Posons, pour n N et x R, f n (x) = 1 n x. La série de Riemann n 1 f n(x) converge si et seulement si x > 1. La fonction + n=1 f n est appelée fonction ζ de Riemann, elle est définie sur ]1, + [. Posons, pour n N et x R, f n (x) = x n. La série géométrique n 0 xn converge si et seulement si x ] 1,1[. La fonction S = + n=0 f n est définie sur ] 1,1[ et pour tout x ] 1,1[, n=0 f n ) p N ) n. S(x) = 1 1 x. Traduisons plus particulièrement la convergence uniforme d une série de fonctions n 0 f n. Supposons que la fonction somme S soit définie sur I. Pour tout x I et p N, + p + S(x) S p (x) = f n (x) f n (x) = f n (x) = R p (x); n=0 n=0 R p est le reste d ordre p de cette série de fonctions. Ainsi, les propriétés suivantes sont équivalentes : n=p+1 La série de fonctions n 0 f n converge uniformément sur I. La suite (R p ) p N de ses restes converge uniformément vers la fonction nulle sur I. Pour p assez grand, R p est borné sur I et sup R p (x) 0, i.e. sup x I p + x I + n=p+1 f n (x) 0. p + 134
143 2. Convergence normale des séries de fonctions Nous allons chercher une condition suffisante simple pour que toutes ces propriétés soient satisfaites. Supposons que f n soit bornée sur I pour tout n. Pour tout x I, Supposons que la série f n (x) f n. f n n 0 converge (la norme infini étant calculée sur I). Alors, par comparaison des séries à termes positifs, la série n 0 f n(x) converge absolument, et donc converge, pour tout x I. La série de fonctions n 0 f n converge donc simplement sur I. Pour tout x I, pour tout (p,q) N 2 tel que q > p, on a de plus q q q f n (x) f n (x) f n. n=p+1 n=p+1 n=p+1 Lorsque q tend vers +, on obtient en particulier, pour tout x I, et tout p N, R p (x) = f n (x) f n (x) f n avec f n 0. p + n=p+1 n=p+1 n=p+1 n=p+1 Nous avons majoré le reste d ordre p de la série par une quantité qui tend vers 0, indépendante de x : la convergence est donc uniforme sur I. On définit ainsi un nouveau mode de convergence spécifique aux séries de fonctions : Définition Convergence normale On dit que la série de fonctions n 0 f n (où f n est définie sur I pour tout n) converge normalement sur I si : f n est bornée sur I pour tout n N, la série numérique n 0 f n converge. On définit de façon similaire la convergence normale sur tout segment de I. Propriété Si n 0 f n converge normalement sur I, alors elle converge uniformément sur I. Elle converge aussi normalement sur tout segment de I. Démonstration La première implication a été démontrée ci-dessus. La seconde vient du fait que la norme infini de f n sur un segment de I est inférieure ou égale à sa norme infini sur I. Le théorème de comparaison de séries à termes positifs donne alors le résultat. En pratique, la convergence normale se montre souvent de la façon suivante : Propriété Pour que n 0 f n converge normalement sur I, il faut et il suffit qu il existe une suite (α n ) de réels positifs telle que Pour tout x I, pour tout n N, f n (x) α n, n 0α n converge. 135
144 Démonstration Il suffit de choisir α n = f n pour tout n N. Si une telle suite (α n ) existe, alors pour tout n N, f n α n. Par comparaison de séries à termes positifs, la convergence de la série n 0 α n entraîne la convergence normale de la série n 0 f n. Remarque Ainsi, pour prouver la convergence normale de n 0 f n, il n est pas nécessaire de calculer f n, mais il suffit de majorer f n par un terme α n convenable. Pour prouver l absence de convergence normale, on peut calculer f n ou le minorer par le terme général positif d une série divergente. Exemples Posons, pour n N et x R, f n (x) = sin(nx) n 2 ; la série de fonctions n 1 f n converge normalement sur R, car pour tout n 1, pour tout x R, et la série n 1 1 n 2 converge. sin(nx) n 2 1 n 2 Posons, pour n N et x > 1, f n (x) = 1 n x ; n 1 f n ne converge pas normalement sur ]1,+ [ car 1 n x = 1 n, sup x>1 or la série harmonique diverge. En revanche, n 1 f n converge normalement sur tout intervalle de la forme [a, + [ où a > 1. En effet, dans ce cas, sup x a 1 n x = 1 n a, et la série n 1 1/na converge car a > 1. Ceci montre d ailleurs que la convergence normale sur tout segment de I n entraîne pas la convergence normale sur I. On montre de même que la série géométrique, n 0 f n où f n : x x n, ne converge pas normalement sur ] 1,1[, mais converge normalement sur tout segment de ] 1,1[. Donnons un autre exemple, qui montre d ailleurs que la convergence uniforme sur I n entraîne pas la convergence normale sur I, ni même la convergence normale sur tout segment de I : Exemple Posons, pour n N et x > 0, f n (x) = ( 1)n x + n ; la série de fonctions n 0 f n ne converge pas normalement sur tout segment de ]0, + [, car par exemple, pour tout n N, ( 1) n x + n = n, or la série n n sup x [1,2] diverge (série harmonique). Pourtant, n 0 f n converge uniformément sur ]0, + [ : on remarque en effet que pour tout x > 0, la série ( 1) n x + n n 0 136
145 est une série alternée de réels, dont la valeur absolue du terme général décroît vers 0. Elle est donc convergente et, pour tout x > 0 et p N, on a la majoration suivante de la somme et des restes : + ( 1) n x + n 1 x + p p + 1. n=p+1 Ce majorant tend vers 0 lorsque p tend vers +, et est indépendant de x, d où la conclusion. Méthode Pour étudier la convergence d une série de fonctions n 0 f n, on procède souvent comme suit : On fixe x et on étudie la convergence de la série numérique n 0 f n(x). On note S(x) sa somme, où x appartient à un certain intervalle I : la série de fonctions n 0 f n converge simplement sur I (vers S). On se demande alors si la convergence est meilleure. On essaie de majorer, pour x I, le module du reste d ordre p, S(x) S p (x) = + n=p+1 f n (x) par une quantité indépendante de x, qui converge vers 0 lorsque p +. Si l on y parvient sur I tout entier, alors la convergence de n 0 f n est uniforme sur I. Sinon, on essaie de le faire sur tout segment inclus dans I. Si l on y parvient, la convergence est uniforme sur tout segment de I. On essaie de majorer, pour x I et n N, f n (x) par un terme α n indépendant de x, et tel que n 0 α n converge. Si l on y parvient sur I tout entier, alors la convergence de n 0 f n est normale sur I. Sinon, on essaie de le faire sur tout segment inclus dans I. Si l on y parvient, la convergence est normale sur tout segment de I. Si l une de ces deux situations a lieu, la convergence est en particulier uniforme (sur I ou sur tout segment de I selon le cas) et donc simple sur I. On peut donc directement commencer par la convergence normale si on a l intuition que cela va aboutir, et si c est le cas, cela remplace les deux premiers points. Sinon, on essaie de vérifier le premier voire les deux premiers points. Nous sommes maintenant prêts à examiner la question de la régularité, de la dérivation et de l intégration des suites et séries de fonctions. Si (f n ) est une suite de fonctions définies sur I, qui converge (en un certain sens) sur I vers une fonction f, à quelles conditions peut-on écrire : lim lim f x a n(x) = lim limf n(x), n + n + x a b b f n (x)dx f(x) dx, i.e. n + a (f n ) f, i.e. n + a ( lim f n + n = lim n + lim n + f n b a )? f n (x)dx = b a ( ) lim f n(x) dx, n + On imagine désormais facilement que la validité de ces égalités dépend notamment du mode de convergence de la suite (f n ) vers sa limite. On remarque aussi que chacune de ces égalités revient à intervertir une limite selon n avec, soit une limite selon x, soit une intégrale, soit l opérateur de dérivation. On fait donc souvent référence à ces théorèmes que nous allons étudier, comme théorèmes d interversion. 137
146 II. Limite et continuité des suites et séries de fonctions 1. Théorèmes de continuité Théorème Continuité pour les suites de fonctions Soit (f n ) n N une suite de fonctions définies sur I. On suppose que : Pour tout n N, f n est continue sur I, (f n ) converge uniformément sur I, ou uniformément sur tout segment de I, vers une fonction f. Alors f est continue sur I. Démonstration Il suffit de faire la démonstration sous l hypothèse de convergence uniforme sur tout segment de I. Soit ε > 0 fixé et a I. Pour η > 0 assez petit, J = I [a η,a + η] est un segment de I. Pour tout x J, on a f(x) f(a) f(x) f n (x) + f n (x) f n (a) + f n (a) f(a). Par convergence uniforme de (f n ) vers f sur J, il existe n 0 N tel que pour tout n n 0, Alors, pour tout x J, sup x J f n (x) f(x) ε. f(x) f(a) f(x) f n0 (x) + f n0 (x) f n0 (a) + f n0 (a) f(a) ε + f n0 (x) f n0 (a) + ε. La fonction f n0 étant continue en a, il existe δ > 0 tel que pour tout x I vérifiant x a δ, on ait x J et f n0 (x) f n0 (a) ε. Dans ces conditions, on a f(x) f(a) 3ε, d où la continuité de f en a, et ce pour tout a I. Donc f est continue sur I. Remarque Ce théorème donne aussi un moyen efficace pour montrer qu une suite de fonctions ne converge pas uniformément : par contraposition, on en déduit en effet que, si la limite simple de la suite (f n ) n est pas continue en un point a de I alors que chacune des fonctions f n est continue sur I, alors la convergence de (f n ) vers f n est pas uniforme sur I, ni uniforme sur tout segment de I. Cet argument s applique par exemple à la suite des fonctions f n : x x n sur [0,1], avec a = 1. Pour les séries de fonctions, ce théorème prend la forme suivante : Théorème Continuité pour les séries de fonctions Soit n 0 f n une série de fonctions définies sur I. On suppose que : Alors Pour tout n N, f n est continue sur I, n 0f n converge uniformément sur I, ou uniformément sur tout segment de I. + n=0 f n est continue sur I. + 1 Exemple La fonction ζ de Riemann x est continue sur ]1, + [. nx n=1 En effet, la série de fonctions associée converge normalement sur tout segment (et donc uniformément sur tout segment) de ]1, + [ et pour tout n, la fonction x 1 est continue sur nx ]1, + [. 138
147 2. Passages à la limite Théorème de la double limite (admis : démonstration hors programme) Soit (f n ) une suite de fonctions définies sur I, et a une extrémité de I, éventuellement infinie. On suppose que : Pour tout n N, f n possède une limite finie l n en a, (f n ) converge uniformément sur I vers une fonction f. Alors : La suite (l n ) converge, La fonction f possède une limite en a, et lim x a f(x) = lim n + l n, i.e. lim lim f n(x) = lim x a n + n + lim x a f n(x). Pour les séries de fonctions, ce théorème prend la forme suivante : Théorème Interversion limite/somme (admis : démonstration hors programme) Soit n 0 f n une série de fonctions définies sur I et a une extrémité de I, éventuellement infinie. On suppose que : Pour tout n N, f n possède une limite finie l n en a. n 0 f n converge uniformément sur I. Alors : La série n 0 l n converge, La fonction + n=0 f n possède une limite en a, et lim x a + n=0 + + lim f n (x) = lim f n(x). x a x a n=0 n=0 f n (x) = + n=0 l n, i.e. Exemple Dans le cas de la fonction ζ de Riemann, + n=1 1 n x 1. x + En effet, la série de fonctions associée converge normalement sur tout intervalle de la forme [a, + [ avec a > 1, donc par exemple sur [2, + [ dont + est une extrémité, et pour tout n 2, la fonction x 1 converge vers 0 lorsque x +, la limite étant égale à 1 pour n = 1. nx Attention! Dans l exemple précédent, il est essentiel de vérifier une convergence au moins uniforme sur un intervalle de la forme [a, + [. On ne peut se contenter de citer une convergence uniforme ou normale sur tout segment de ]1, + [. D une manière générale, une convergence uniforme sur tout segment de I ne permet pas d appliquer ce théorème aux extrémités de I. Pour illustrer ceci, donnons l exemple de la série géométrique. La série de fonctions associée converge normalement (et donc uniformément) sur tout segment de ] 1,1[ et pour tout n N, x n x 1 1. Pourtant, la série n 0 1 diverge. Ce résultat ne porte que sur des limites finies. Par exemple, il ne s applique donc pas lorsque f n (x) x a + pour tout n. 139
148 III. Intégration des suites et séries de fonctions Théorème Interversion limite/intégrale Soit (f n ) une suite de fonctions définies sur un segment [a,b]. On suppose que : Alors Pour tout n N, f n est continue sur [a,b], (f n ) converge uniformément sur [a,b] vers une fonction f. c est-à-dire b a b lim n + a f n (x)dx n + f n (x)dx = b a b a f(x)dx, ( ) lim f n(x) dx. n + Démonstration On sait que la fonction f, en tant que limite uniforme d une suite de fonctions continues, est continue sur [a,b]. De plus, pour tout n N, b a b (f n (x) f(x))dx f n (x) f(x) dx a b a f n f dx = (b a) f n f. Par convergence uniforme de (f n ) vers f sur [a,b], f n f 0, et donc b a (f n (x) f(x))dx n + 0, d où le résultat par linéarité de l intégrale. Contre-exemple La conclusion est fausse en général sous l hypothèse de convergence simple, comme le montre l exemple de la suite des fonctions f n définies sur [0,1], pour n 2, par n n 2 x si x [0,1/n] f n (x) = n 2 (x 1 n ) + n si x [1/n,2/n] 0 sinon. C f 0 1/n 1 On montre facilement que (f n ) converge simplement vers la fonction nulle sur [0,1], et pourtant, pour tout n 2, 1 0 f n (x)dx = 1. On ne peut donc pas intervertir limite et intégrale dans ce cas. 140
149 Pour les séries de fonctions, on obtient : Théorème Intégration terme à terme des séries de fonctions Soit n 0 f n une série de fonctions définies sur un segment [a,b]. On suppose que : Pour tout n N, f n est continue sur [a,b], n 0 f n converge uniformément sur [a,b]. Alors la série n 0 b a f n (x)dx converge et + b n=0 a f n (x)dx = b a ( + ) f n (x) dx. n=0 Exemple On veut prouver la convergence et calculer la somme de la série 1 n (e n e 2n ). On remarque que, pour tout n N, n 1 1 n (e n e 2n ) = 2 1 e nx dx. On définit donc, pour tout n N, la fonction f n : x e nx. Pour tout n N, f n est continue sur [1,2]. De plus, la série n 1 f n converge normalement (et en particulier uniformément) sur [1,2] car pour tout n N et x [1,2], 0 e nx e n, la série n 1 e n, indépendante de x, étant convergente (série géométrique de raison 1/e avec 1/e < 1). D après le théorème d intégration terme à terme, la série 2 n 1 1 e nx dx converge et + 2 ( 2 + ) e nx dx = e nx dx. Or, pour tout x [1,2], on a n=1 1 + n=1 1 e nx = n=1 e x 1 e x (somme d une série géométrique de raison e x avec e x < 1). Notons S la fonction ainsi définie sur [1,2]. On vient donc de montrer la convergence de la série étudiée, avec 1 + n=1 1 n (e n e 2n ) = 2 1 S(x) dx. Pour calculer cette intégrale, on fait le changement de variable u = e x : la fonction S est continue sur [1,2] et la fonction u ln(u) est de classe C 1 sur [1/e 2,1/e], donc 2 e x 1/e 2 ( u dx = 1 e x 1/e 1 u 1 ) 1/e 1 du = du = [ ln(1 u)]1/e = ln(1 + e) 1, u 1/e 2 1 u 1/e 2 après simplifications. Finalement : + n=1 1 n (e n e 2n ) = ln(1 + e) 1. Le théorème d intégration terme à terme permet de calculer des sommes de séries non triviales. 141
150 IV. Dérivation des suites et séries de fonctions 1. Théorèmes sur la classe C 1 La convergence uniforme semble un mode de convergence efficace qui permet de conserver les propriétés des fonctions f n. Pourtant, elle ne suffit pas dès lors que l on souhaite dériver une limite de suite ou série de fonctions. En effet, la suite des fonctions f n : x x n, toutes de classe C, converge uniformément vers la fonction valeur absolue sur R, qui n est pas dérivable en 0. Théorème Classe C 1 pour les suites de fonctions Soit (f n ) une suite de fonctions définies sur I. On suppose que : Pour tout n N, f n est de classe C 1 sur I, (f n ) converge simplement vers une fonction f sur I, (f n ) converge uniformément sur I, ou uniformément sur tout segment de I, vers une fonction g. Alors f est de classe C 1 sur I et f = g. Démonstration Fixons a I. Pour tout x I et n N, on a f n (x) = f n (a) + x a f n (t)dt, car f n est de classe C 1. Or, (f n ) converge simplement vers f sur I, donc f n (x) n + f(x) et f n(a) n + f(a). De plus, g étant limite uniforme sur tout segment de la suite de fonctions continues (f n ), d après le théorème d interversion limite/intégrale, on a, pour tout x I, x a f n (t)dt n + x a g(t) dt. Finalement, lorsque n tend vers +, on obtient, pour tout x I, f(x) = f(a) + x Ceci entraîne que f est de classe C 1 sur I avec f = g. a g(t) dt. Remarque L hypothèse forte du théorème porte sur les dérivées des f n, et pas sur les fonctions elles-mêmes. Il est indispensable de prouver la convergence uniforme sur tout segment pour (f n ), mais il est inutile de prouver la convergence uniforme de (f n ) : une convergence simple suffit. Pour les séries, on a le résultat suivant : Théorème Dérivation terme à terme des séries de fonctions Soit n 0 f n une série de fonctions définies sur I. On suppose que : Pour tout n N, f n est de classe C 1 sur I, n 0f n converge simplement sur I. n 0f n converge uniformément sur I, ou uniformément sur tout segment de I. Alors la fonction + n=0 ( + ) f n est de classe C 1 sur I et f n = n=0 + n=0 f n. 142
151 Exemples Complétons l étude de la fonction ζ de Riemann : la convergence simple de la série a été établie plus haut (on a même montré une convergence normale sur tout intervalle [a, + [ avec a > 1). Pour tout n 1, la fonction f n : x 1 n x = exp( xln(n)) est de classe C 1 sur ]1, + [ et pour tout x > 1, f n(x) = ln(n) exp( xln(n)) = ln(n) n x. Montrons que la série des dérivées converge normalement sur tout intervalle [a, + [ avec a > 1. Pour tout x a, pour tout n 1, ln(n) n x ln(n) n a. Il suffit donc d établir la convergence de la série n 1 n δ ln(n) n a par croissances comparées, car a δ > 0. Ainsi Or, la série n 1 résultat. ln(n) n a = ln(n) n a δ = o ln(n) n a. Or, en fixant δ ]1,a[, on a 0 n + ( ) 1 n δ. 1 converge car δ > 1. Par comparaison de séries à termes positifs, on obtient le nδ Finalement, on a montré que la fonction ζ de Riemann est de classe C 1 sur ]1, + [ avec, pour tout x > 1, + ζ ln(n) (x) = n x. n=1 En particulier, ζ est strictement décroissante sur ]1, + [. Considérons la série n 0 pour x ] 1,1[. Pour tout n N, la fonction ( 1) n x2n+1 2n + 1 f n : x ( 1) n x2n+1 2n + 1 est de classe C 1 sur ] 1,1[. Pour x = 0, tous les termes de la série sont nuls. Pour tout x ] 1,1[ différent de 0, pour tout n N, x 2n+3 /(2n + 3) 2n + 1 x 2n+1 /(2n + 1) = x 2 2n + 3 n + x 2 < 1. D après le critère de d Alembert, la série converge simplement (et absolument) sur ] 1,1[. De plus, pour tout n N et x ] 1,1[, f n (x) = ( 1)n x 2n. La série n 0 f n converge uniformément (et même normalement) sur tout segment de ] 1,1[, car il s agit de la série géométrique de raison x 2. D après le théorème de dérivation terme à terme, on sait donc que la fonction somme S : x + ( 1) n x2n+1 n= n + 1
152 est de classe C 1 sur ] 1,1[, et pour tout x ] 1,1[, S (x) = + n=0 ( 1) n x 2n = 1 1 ( x 2 ) = x 2. On reconnaît la dérivée de la fonction arctan. Sachant que l on travaille sur un intervalle, on en déduit qu il existe une constante k telle que pour tout x ] 1,1[, + ( 1) n x2n+1 n=0 2n + 1 = arctan(x) + k. En évaluant cette relation en x = 0, on obtient k = 0. On a donc montré que pour tout x ] 1,1[, arctan(x) = + ( 1) n x2n+1 n=0 2n + 1. On remarque que les premiers termes de la somme forment les développements limités de arctan en 0. L égalité précédente s appelle un développement en série entière de la fonction arctan sur ] 1,1[ (voir le chapitre Séries entières). 2. Théorèmes sur la classe C k Pour la classe C k (k 2), on peut bien sûr raisonner par récurrence à partir des théorèmes de la classe C 1. On admettra que cela conduit aux théorèmes suivants, que l on pourra appliquer directement : Théorème Classe C k pour les suites de fonctions Soit (f n ) une suite de fonctions définies sur I. On suppose que : Pour tout n N, f n est de classe C k sur I, (f n ) n N converge simplement vers une fonction f sur I, Pour 1 j k 1, (f n (j) ) n N converge simplement vers une fonction g j sur I, (f n (k) ) n N converge uniformément sur tout segment de I vers une fonction g k. Alors f est de classe C k sur I et pour tout j [1,k], f (j) = g j. Théorème Classe C k pour les séries de fonctions Soit n 0 f n une série de fonctions définies sur I. On suppose que : Pour tout n N, f n est de classe C k sur I, n 0 f n converge simplement sur I, Pour 1 j k 1, n 0 f(j) n converge simplement sur I. n 0 f(k) n converge uniformément sur tout segment de I. Alors la fonction + n=0 f n est de classe C k sur I et pour tout j [1,k], ( + ) (j) f n = n=0 + n=0 f (j) n. 144
153 Chapitre 7 Dérivation et intégration des fonctions de R dans K Dans ce chapitre, sauf indication contraire, [a,b] désigne un segment de R (avec a < b), et I un intervalle de R. Sauf précision, les fonctions considérées sont à valeurs dans K = R ou C. Les parties I, II, III et VI rassemblent des rappels de certains résultats fondamentaux de dérivation et d intégration du cours de première année. La partie IV étend à une classe plus générale de fonctions l intégration des fonctions continues sur un segment, étudiée en première année. La partie V rappelle et/ou généralise un certain nombre de méthodes de calculs d intégrales. I. Théorème de Rolle et accroissements finis Théorème de Rolle Soit f : [a,b] R une fonction continue sur [a,b], dérivable sur ]a,b[, telle que f(a) = f(b). Alors il existe c ]a,b[ tel que f (c) = 0. Démonstration Si f est constante, le résultat est vrai et tout élément c de ]a,b[ convient. La fonction f est continue sur le segment [a,b], elle est donc bornée et atteint ses bornes. Si f n est pas constante, et si par exemple elle prend une valeur strictement supérieure à f(a), alors elle atteint un maximum en un point noté c ]a,b[. Alors, pour tout t [a,b], f(t) f(c) et donc, pour t [a,c[, f(t) f(c) 0. t c Lorsque t c, on en déduit que f (c) 0. De même, pour t ]c,b], f(t) f(c) t c 0. Lorsque t c +, on en déduit que f (c) 0, d où finalement f (c) = 0. On procède de même si f prend une valeur strictement inférieure à f(a), en considérant le minimum de f. Théorème Égalité des accroissements finis Soit f : [a,b] R une fonction continue sur [a,b], dérivable sur ]a,b[. Alors il existe c ]a,b[ tel que f(b) f(a) = f (c)(b a). 145
154 Démonstration Soit g : x f(x) f(a) f(b) f(a) (x a). b a Alors g est continue sur [a,b], dérivable sur ]a,b[ de même que f, et g(a) = g(b) = 0. D après le théorème de Rolle, il existe c ]a,b[ tel que g (c) = 0, i.e., f (c) f(b) f(a) b a = 0. On en déduit le résultat. Contre-exemple Le résultat du théorème de Rolle et l égalité des accroissements finis sont faux en général si f est à valeurs dans C, ou à valeurs vectorielles : par exemple, la fonction f : { [0,2π] C t e it est continue et dérivable sur [0,2π], et f(0) = 1 = f(2π). Pourtant, pour tout t [0,2π], f (t) = ie it 0. Théorème Inégalité des accroissements finis, cas réel Soit f : I R une fonction dérivable sur I. On suppose qu il existe une constante M 0 telle que pour tout t I, f (t) M. Alors f est M-Lipschitzienne sur I : pour tout (x,y) I 2, f(x) f(y) M x y. Démonstration Soit (x,y) I 2 tel que x < y. La fonction f est continue sur [x,y], dérivable sur ]x,y[, donc d après l égalité des accroissements finis, il existe c ]x,y[ tel que f(y) f(x) = f (c)(y x). Alors f(x) f(y) = f (c) x y M x y d après l hypothèse sur f. On procède de même si x > y en raisonnant sur [y,x], et le résultat est évident si x = y. Corollaire Dérivation et fonctions constantes Soit f : I K une fonction dérivable. On rappelle que I est un intervalle. Pour que f soit constante sur I, il faut et il suffit que f = 0. Démonstration Il est évident que pour que f soit constante, il faut et il suffit que les parties réelle et imaginaire de f (qui sont à valeurs réelles) soient constantes. Or, ces deux fonctions sont dérivables sur I, et on a f = Re(f) + i Im(f). Il suffit donc de prouver le résultat pour une fonction g : I R dérivable. Or, pour une telle fonction, si g est nulle, alors d après l inégalité des accroissements finis, pour tout (x,y) I 2, g(x) g(y) 0(x y) = 0, et donc g(x) = g(y). Ceci est vrai pour tout (x,y) I 2, donc g est constante. La réciproque est évidente : une fonction constante a une dérivée nulle. 146
155 Théorème Dérivation et monotonie Soit f : I R une fonction dérivable. Alors : f est croissante si et seulement si f 0 sur I. Si f 0 sur I et si les zéros de f sont en nombre fini, ou forment une suite, alors f est strictement croissante sur I. Démonstration Si f est croissante, alors pour tout a I et x I distinct de a, f(x) f(a) x a 0. Lorsque x a, on obtient f (a) 0. Réciproquement, si f 0, alors pour tout (x,y) I 2 tel que x < y, d après l égalité des accroissements finis, il existe c ]x,y[ tel que f(x) f(y) = f (c)(x y). On en déduit que x y et f(x) f(y) sont de même signe : f est croissante. On sait d après le premier point que f est croissante. Si elle n était pas strictement croissante, il existerait a et b dans I tels que a < b et f(a) = f(b). Alors f est nécessairement constante sur [a,b], et donc pour tout x [a,b], f (x) = 0. Ceci est impossible car les zéros de f sont en nombre fini ou forment une suite. Théorème Limite de la dérivée Soit f : I K une fonction continue sur I et dérivable sur I \ {a}, telle que f admet une limite l en a (éventuellement infinie lorsque K = R). Alors f(x) f(a) x a l. x a x =a En particulier, si l K, alors f est dérivable en a et f (a) = l. Démonstration Premier cas : l K. D après la caractérisation de la limite et de la dérivabilité à l aide des parties réelle et imaginaire, on se ramène en fait à K = R. Définissons sur I la fonction g : x f(x) f(a) l(x a). La fonction g est continue sur I, dérivable sur I \ {a} avec, pour tout x I \ {a}, g (x) = f (x) l. Par hypothèse, g a donc pour limite 0 en a. Fixons ε > 0; il existe η > 0 tel que pour tout t (I \ {a}) [a η,a + η], g (t) ε. Soit x (I \ {a}) [a η,a + η]. D après l égalité des accroissements finis, il existe c strictement compris entre a et x, tel que g(x) g(a) = g (c)(x a), et alors on a g (c) ε, d où g(x) g(a) ε(x a), puis f(x) f(a) x a On a donc montré que f est donc dérivable en a avec f (a) = l. l = f(x) f(a) l(x a) x a = g(x) g(a) x a ε. f(x) f(a) x a l, x a x =a 147
156 Deuxième cas : K = R et l = ±. On adapte la démonstration précédente avec g = f et en traduisant les limites infinies (il est indispensable alors de raisonner avec l égalité des accroissements finis, afin de pouvoir minorer la valeur absolue du taux d accroissement, et non pas avec l inégalité). Remarques Ce théorème ne permet pas de prolonger par continuité la fonction f sur I : une fois la fonction f définie sur I, si a I, l éventuelle dérivabilité de f en a est fixée. Si f est dérivable en a, ce théorème est l un des moyens de le prouver, mais ce que l on prouve est que f (a) est défini. Une fonction f peut être dérivable sur I sans que f ait pour limite f (a) en tout point a I. Par exemple, la fonction ]0,1] R ( ) f : 1 x x 2 sin x prolongée par continuité en 0 avec f(0) = 0, est dérivable à droite en 0 car f(x) f(0) x = xsin ( ) 1 x 0. x 0 + La fonction f est également dérivable sur ]0,1] (par produit et composition) et pour tout x ]0,1], f (x) = 2xsin ( ) ( ) 1 1 cos. x x Le premier terme tend vers 0, mais le second n a pas de limite lorsque x 0 +, donc f n a pas de limite en 0. Il y a donc une différence importante entre la dérivabilité et la classe C 1. II. Dérivées d une bijection réciproque Dans cette partie, les fonctions sont à valeurs réelles. Rappelons, sans démonstration, le résultat suivant de première année : Théorème Soit f : I R une fonction continue et strictement monotone sur I. Alors f réalise une bijection de I sur l intervalle f(i), et sa réciproque f 1 est continue et strictement monotone sur f(i), de même monotonie que f. Concernant la dérivabilité, on a le résultat suivant : Théorème Soit f : I R une fonction dérivable et strictement monotone sur I. Soit a I tel que f (a) 0. Alors f 1 est dérivable en f(a) et (f 1 ) (f(a)) = 1 f (a). Démonstration Notons b = f(a). Pour y dans f(i) avec y b, on a f 1 (y) f 1 (b) y b = f 1 (y) f 1 (b) f(f 1 (y)) f(f 1 (b)), 148
157 que l on peut voir comme un quotient de la forme x a f(x) f(a) avec x = f 1 (y). Or, lorsque y b, f 1 (y) f 1 (b) = a par continuité de f 1 ; f étant dérivable en a avec f (a) 0, on a et donc, par composition de limites, x a f(x) f(a) x a f 1 (y) f 1 (b) y b On en déduit que f 1 est dérivable en b = f(a) avec 1 f (a) 1 y b f (a). (f 1 ) (f(a)) = 1 f (a). Corollaire Soit f : I R une fonction dérivable telle que f soit de signe constant sur I. Alors f réalise une bijection de I sur l intervalle f(i), et f 1 est dérivable sur f(i) avec (f 1 ) 1 = f f 1. Démonstration La fonction f est dérivable sur I et f est de signe constant sur I, donc f est strictement monotone sur I et le théorème précédent s applique. On sait notamment que pour tout b f(i), en notant a = f 1 (b), on a (f 1 ) (b) = (f 1 ) (f(a)) = 1 f (a) = 1 f (f 1 (b)), d où la formule annoncée. Enfin, on peut généraliser ces résultats à la classe C k : Théorème Soit f : I R une fonction de classe C k (k N ) telle que f ne s annule pas. Alors f 1 est de classe C k sur f(i). Démonstration Tout d abord, f est continue et ne s annule pas sur l intervalle I, donc f est de signe constant sur I et le corollaire précédent s applique. Pour la classe C k, on raisonne par récurrence : si f est de classe C 1 sur I, f est continue sur I, donc d après la formule ci-dessus et par composition, f 1 est de classe C 1 sur f(i). Si f est de classe C k+1 sur I, et si le résultat est vrai à l ordre k, alors (f 1 ) est de classe C k sur f(i) comme inverse d une composée de fonctions de classe C k ne s annulant pas. Donc f 1 est de classe C k+1 sur f(i). Exemple La fonction tangente réalise une bijection strictement croissante de ] image R. Sa bijection réciproque est la fonction arctan : R π 2,π 2 tout x R, arctan (x) = 1 tan (arctan(x)) = tan 2 (arctan(x)) = x 2. ] π [ 2,π sur son 2 [. On sait alors que pour 149
158 III. Intégration sur un segment des fonctions continues : quelques rappels 1. Primitives, intégrale fonction de ses bornes Définition Soient f : I K une fonction continue et g : I K une fonction. On dit que g est une primitive de f sur I si g est de classe C 1 sur I et g = f. Propriété Soient g et h deux primitives d une fonction f continue sur un intervalle I, à valeurs dans K. Alors il existe k K tel que pour tout x I, g(x) = h(x) + k. Démonstration La fonction g h est de classe C 1 sur I et vérifie (g h) = 0, donc g h est constante sur l intervalle I. On sait donc qu il existe au plus une primitive de f sur I prenant en un point donné une valeur donnée. On se pose maintenant la question de l existence. Soit f : I K une fonction continue et a I. On peut alors définir la fonction I K F a : x x f(t)dt Théorème Soit f : I K une fonction continue. Soit a I. La fonction F a est de classe C 1 sur I. C est l unique primitive de f sur I qui s annule en a. Soit a I et b K. Il existe une unique primitive de f sur I qui prend la valeur b en a. Il s agit de la fonction x F a (x) + b. Si g est une primitive de f sur I, alors pour tout segment [a,b] de I, on a b a f(t)dt = g(b) g(a), noté [g(t)] b a. a Démonstration Soit c I et ε > 0 fixé. Par continuité de f en c, il existe η > 0 tel que pour tout t I [c η,c + η], f(t) f(c) ε. Soit x I [c η,c + η]. Alors, pour tout t compris entre c et x, f(t) f(c) ε. On évalue alors x x F a (x) F a (c) (x c)f(c) = [f(t) f(c)]dt f(t) f(c) dt ε x c. Si de plus x c, on a donc c F a (x) F a (c) x c f(c) ε. On en déduit que F a est dérivable en c avec F a(c) = f(c), et ce pour tout c I. De plus, la fonction f étant continue, F a est de classe C 1 : F a est donc une primitive de f sur I. Elle s annule en a, et on a déjà prouvé qu il y a unicité d une telle fonction. C est maintenant immédiat : cette fonction convient, et on sait qu il y a unicité. c 150
159 Soit g une primitive de f sur I et [a,b] un segment de I. D après le point précédent, g = F a +g(a) et donc Corollaire b a f(t)dt = F a (b) = g(b) g(a). Si f : I K est de classe C 1, alors pour tout (a,b) I 2, b a f (t)dt = f(b) f(a). Démonstration La fonction f est une primitive de la fonction continue f. Le résultat vient donc du troisième point du théorème précédent (y compris si b a, car dans ce cas on se ramène au cas précédent quitte à considérer f). En application de ce résultat, on montre facilement l inégalité des accroissements finis pour les fonctions à valeurs complexes : Théorème Inégalité des accroissements finis, cas complexe Soit f : I C une fonction de classe C 1 sur I. On suppose qu il existe une constante M 0 telle que pour tout t I, f (t) M. Alors f est M-Lipschitzienne sur I : pour tout (x,y) I 2, f(x) f(y) M x y. Démonstration Soient x et y dans I tels que x < y ; f est de classe C 1 sur [x,y], donc on peut écrire, d après le corollaire précédent, y f(y) f(x) = f (t)dt. Sachant que f (t) M pour tout t [x,y], on a aussi y f y (t)dt f (t) dt M (y x). x x On en déduit le résultat. On procède de même si x > y en raisonnant sur [y,x], et le résultat est évident si x = y. Remarques Bien sûr, ce théorème s applique aussi au cas réel : ses hypothèses sont plus fortes que l inégalité donnée dans le cas réel. En revanche, la démonstration du théorème dans le cas réel ne peut pas être adaptée au cas complexe : elle repose sur l égalité des accroissements finis, et donc sur le théorème de Rolle, dont le résultat est faux en général pour les fonctions à valeurs complexes. Cela explique les hypothèses plus fortes données dans le théorème ci-dessus. 2. Sommes de Riemann Soit f : [a,b] K une fonction. On définit, pour tout entier n 1, S n = b a n 1 ( f a + k b a ). n n k=0 Ces quantités sont appelées sommes de Riemann associées à f sur [a,b]. On a alors : x 151
160 Théorème Soit f : [a,b] R une fonction continue. Alors S n n + b a f(x)dx. Démonstration dans le cas où f est de classe C 1 On notera, pour tout k N, a k = a + k b a n ; ainsi (a 0,...,a n ) est la subdivision régulière de [a,b] à n + 1 points (i.e., a k+1 a k est constant égal à (b a)/n). La fonction f est continue sur le segment [a,b], elle est donc bornée par une certaine constante M 0. D après l inégalité des accroissements finis, f est M-Lipschitzienne sur [a,b]. Alors pour tout n 1, d après la relation de Chasles notamment, on a b a n 1 f(x)dx S n = k=0 n 1 = ak+1 a k ak+1 k=0 a k n 1 ak+1 k=0 a k f(x)dx b a n 1 f(a k ) n k=0 (f(x) f(a k ))dx f(x) f(a k ) dx. Or f est M-Lipschitzienne sur [a,b], donc pour tout k [0,n 1], pour tout x [a k,a k+1 ], f(x) f(a k ) M x a k = M (x a k ). Ainsi b a n 1 f(x)dx S n M k=0 n 1 ak+1 a k [ (x ak ) 2 = M 2 k=0 n 1 k=0 (x a k )dx ] ak+1 a k (a k+1 a k ) 2 = M = M n 2 (b a)2 (b a)2 2n 2 = M 2n 0. n + Remarque Les sommes de Riemann correspondent à un cas particulier de l approximation numérique de b a f(x)dx par la méthode des rectangles. Exemple Soit, pour tout n 1, x n = n 1 k=0 1. En réécrivant n + k x n = 1 n n 1 k= k, n on voit que les x n sont les sommes de Riemann associées à la fonction f : x x La fonction f étant continue sur [0,1], on sait donc que sur [0,1]. x n n dx = ln(2). 1 + x 152
161 IV. Intégrale sur un segment des fonctions continues par morceaux 1. Définitions Définition Fonction continue par morceaux Soit f : [a,b] K une fonction. On dit que f est continue par morceaux s il existe une subdivision (a 0,...,a p ) (p 1) de [a,b] telle que : a = a 0 < a 1 < < a p = b. Pour tout i [0,p 1], f ]ai,a i+1 [ est la restriction à ]a i,a i+1 [ d une fonction continue sur [a i,a i+1 ]. Le (p + 1)-uplet (a 0,...,a p ) est appelé subdivision de [a,b] subordonnée (ou adaptée) à f. Il n est pas unique. Si f est définie sur un intervalle I, on dit que f est continue par morceaux si sa restriction à tout segment de I est une fonction continue par morceaux. Remarque Le réel max (a i+1 a i ) i [[0,p 1]] est appelé pas de cette subdivision. Il est strictement positif, c est le plus grand écart entre deux éléments consécutifs de la subdivision. On dit que la subdivision est régulière si l écart a k+1 a k, pour k [0,p 1], est constant. Voici un exemple de graphe d une fonction continue par morceaux sur un segment [a,b] à valeurs dans R. Les points épais permettent de repérer la valeur prise par la fonction aux points de discontinuité. a = a 0 a 1 a 2 a 3 = b Remarques La deuxième condition de la définition équivaut à chacune des propriétés suivantes : Pour tout i [0,p 1], f ]ai,a i+1 [ est prolongeable par continuité sur le segment [a i,a i+1 ]. Pour tout i [0,p 1], f est continue sur ]a i,a i+1 [, f possède une limite finie à droite en a i, et une limite finie à gauche en a i+1. Une fonction continue par morceaux sur un segment est bornée. Les limites de f en a i ne sont pas nécessairement égales à f(a i ); f peut être discontinue en chaque point a i. Avec les notations précédentes, si f est continue en un certain a i0 ]a,b[, alors on peut enlever a i0 de la subdivision (a 0,...,a p ) pour obtenir une subdivision de [a,b] encore adaptée à f. En faisant cela pour tous les points de la subdivision qui appartiennent à ]a,b[ et qui sont des points de continuité de f, on construit une subdivision de [a,b] adaptée à f dont les points sont a, b, et les points de discontinuité de f dans ]a,b[. Une telle subdivision est unique, elle est, en un certain sens, minimale. 153
162 Propriété L ensemble des fonctions continues par morceaux sur I à valeurs dans K est un K-espace vectoriel. Démonstration La fonction nulle est évidemment continue par morceaux. Si f est continue par morceaux sur I, et si λ K, alors toute subdivision adaptée à f d un segment de I est aussi adaptée à λf, qui est ainsi continue par morceaux sur I. Enfin, soient f et g deux fonctions continues par morceaux sur I, et soit [a,b] un segment de I. On se donne une subdivision (a 0,...,a p ) de [a,b] adaptée à f, une subdivision (b 0,...,b m ) de [a,b] adaptée à g. On construit alors une subdivision adaptée à la fois à f et g en plaçant les nombres a 0,...,a p,b 0,...,b m par ordre croissant, et en enlevant les répétitions. On en déduit que f + g est continue par morceaux sur [a,b], cette nouvelle subdivision de [a,b] étant adaptée à f +g. Ceci est valable pour tout segment de I, donc f + g est continue par morceaux sur I. Finalement, l ensemble des fonctions continues par morceaux sur I à valeurs dans K est un sous-espace vectoriel de l espace vectoriel des fonctions de I dans K. On admettra que l on peut adapter la construction de l intégrale sur un segment, faite en première année pour les fonctions continues, au cadre des fonctions continues par morceaux. Si f : [a,b] K est une fonction continue par morceaux, son intégrale est toujours notée b b f(x)dx, f ou f. a [a,b] Si f est continue par morceaux sur I, elle est continue par morceaux sur tout segment de I, et donc on peut définir son intégrale sur tout segment de I. 2. Propriétés de l intégrale Les propriétés de l intégrale des fonctions continues sur un segment se généralisent aux fonctions continues par morceaux. Nous donnons ici, souvent sans démonstration, ces propriétés. Propriété Linéarité de l intégration Soient f et g deux fonctions continues par morceaux sur [a,b] à valeurs dans K, et λ K. Alors b a (λf + g) = λ b a f + b a a g. Propriété Relation de Chasles Soit f : [a,b] K une fonction continue par morceaux et c [a,b]. Alors, les restrictions de f à [a,c] et [c,b] sont continues par morceaux et b a f = c a f + b c f. Propriété Positivité et croissance de l intégrale Soit f : [a,b] R + une fonction continue par morceaux à valeurs réelles positives. Alors b a f 0. Soient f et g deux fonctions continues par morceaux sur [a,b] à valeurs réelles, telles que f g sur [a,b]. Alors b a f b a g. 154
163 Propriété Soit f : [a,b] K une fonction continue par morceaux. Alors la fonction f : x f(x) est continue par morceaux et b a b f f. a Remarque Soit f : [a,b] K une fonction continue par morceaux. Alors b b a b f(x)dx f(x) dx a b a f dx = (b a) f. 1 Le vecteur f(x) dx est appelé valeur moyenne de f sur [a,b]. L inégalité précédente, b a a qu il faut absolument savoir redémontrer pour majorer des intégrales, est appelée inégalité de la moyenne. Propriété Soient f et g deux fonctions continues par morceaux sur [a,b] à valeurs dans K, qui coïncident sauf en un nombre fini de points. Alors b a f = b a g. En particulier, l intégrale d une fonction continue par morceaux f n est pas modifiée si l on change les valeurs de f en un nombre fini de points. Théorème Soit f : [a,b] R + une fonction continue à valeurs réelles positives. Alors pour que f soit nulle, il faut et il suffit que b a f(x)dx = 0. Démonstration Bien sûr, si f est nulle, son intégrale est nulle. Réciproquement, raisonnons par contraposée : si f n est pas identiquement nulle, alors par continuité de f, il existe c ]a,b[ tel que f(c) > 0, et il existe η > 0 tel que [c η,c + η] [a,b] et pour tout x [c η,c + η], f(x) f(c) 1 2 f(c), et en particulier f(x) 1 2f(c). Alors, d après la relation de Chasles, la positivité et la croissance de l intégrale, b a d où le résultat. f = c η a f + c+η c η b c+η f + f f 2η 1 f(c) = ηf(c) > 0, c+η c η 2 Remarque Si f est continue par morceaux sur [a,b], positive, on en déduit en raisonnant sur chaque morceau que, pour que b a f soit nulle, il faut et il suffit que f soit nulle sauf éventuellement en un nombre fini de points. 3. Le cas des fonctions continues par morceaux sur un intervalle Lorsque f est continue par morceaux sur I, si (a,b) I 2 avec a = b ou a > b, on donne également un sens à b a f(x)dx en posant respectivement a a f(x)dx = 0 et b a f(x)dx = a b f(x)dx. 155
164 La relation de Chasles reste valide, ainsi que la propriété de linéarité de l intégrale. En revanche, dès que des inégalités entrent en jeu, il faut être vigilant sur l ordre des bornes. Par exemple, la majoration du module de l intégrale prend la forme b a b f(x)dx f(x) dx. Pour toute constante k telle que f(x) k pour tout x compris entre a et b, on a b a f(x)dx k b a. V. Méthodes de calculs d intégrales 1. Intégration par parties Théorème Intégration par parties Soient f et g deux fonctions de classe C 1 sur I à valeurs dans K, et soit (a,b) I 2. Alors b b f (t)g(t)dt = [f(t)g(t)] b a f(t)g (t)dt. a a a Démonstration La fonction fg est de classe C 1 sur I donc b [f(t)g(t)] b a = [fg] (t)dt = a b a [f (t)g(t) + f(t)g (t)]dt = b a f (t)g(t)dt + b a f(t)g (t)dt, par linéarité de l intégrale. 2. Changement de variable Théorème Changement de variable (cas continu) Soit f : I K une fonction continue, et soit φ une fonction de classe C 1 sur un segment [c,d] à valeurs dans I. Alors φ(d) φ(c) f(x)dx = d c f(φ(t))φ (t)dt. Remarques On dira souvent «on pose x = φ(t)». On comprend alors bien la formule en écrivant dx = φ (t)dt, même si le sens à donner à cette égalité n est pas évident. En revanche, dire «on pose x = φ(t)» ne suffit pas, il y a des hypothèses à vérifier. Démonstration du théorème Soit F une primitive de f sur I (une telle primitive existe car f est continue sur I). La fonction F φ est une primitive sur [c,d] de la fonction continue (f φ) φ, donc d φ(d) f(φ(t))φ (t)dt = [F(φ(t))] d c = [F(x)]φ(d) φ(c) = f(x)dx. c Assez souvent, on souhaite faire un changement de variable pour une fonction f continue par morceaux. On peut donner un théorème de changement de variable dans ce cas : φ(c) 156
165 Théorème Changement de variable (cas continu par morceaux) Soit f : I K une fonction continue par morceaux, et soit φ une fonction de classe C 1 sur un segment [c,d] à valeurs dans I, strictement monotone. Alors φ(d) φ(c) f(x)dx = d c f(φ(t))φ (t)dt. Démonstration On traite le cas où φ est strictement croissante, l autre cas étant similaire. Soit (b 0,...,b p ) (p 1) une subdivision de [φ(c),φ(d)] adaptée à la restriction de f à [φ(c),φ(d)], et soit (a 0,...,a p ) la subdivision de [c,d] telle que pour tout i [0,p], φ(a i ) = b i (a i existe et est unique car φ est une bijection de [c,d] sur [φ(c),φ(d)], par continuité et stricte monotonie). Alors d après la relation de Chasles, φ(d) φ(c) f(x)dx = p 1 bi+1 i=0 f(x)dx = b i p 1 bi+1 i=0 b i f i (x)dx, où f i désigne le prolongement de f ]bi,b i+1 [ en une fonction continue sur [b i,b i+1 ]. La dernière égalité vient du fait que, sur [b i,b i+1 ], les fonctions f et f i diffèrent seulement éventuellement en b i et b i+1. Alors, pour tout i [0,p 1], d après le théorème précédent (que l on peut appliquer car f i est continue sur [b i,b i+1 ] pour tout i), on a Finalement φ(d) φ(c) bi+1 f(x)dx = b i f i (x)dx = p 1 ai+1 i=0 φ(ai+1 ) φ(a i ) f i (x)dx = f i (φ(t))φ (t)dt = a i p 1 ai+1 i=0 ai+1 a i f i (φ(t))φ (t)dt. a i f(φ(t))φ (t)dt = d c f(φ(t))φ (t)dt. Remarque Dans la démonstration, on voit l utilité de l hypothèse de stricte monotonie de φ. Pour faire la simplification ai+1 a i ai+1 f i (φ(t))φ (t)dt = f(φ(t))φ (t)dt, on utilise le fait que les fonctions f i φ et f φ coïncident sur [a i,a i+1 ], sauf peut-être aux points t de [a i,a i+1 ] tels que φ(t) est l un des b j, car dans ce cas φ(t) est un point d éventuelle discontinuité de f. Or, les seuls points vérifiant cette condition sont a i et a i+1, d après notre hypothèse sur φ. Sans cette hypothèse, la fonction f φ pourrait même ne pas être continue par morceaux. a i VI. Formules de Taylor Théorème Formule de Taylor avec reste intégral Soit f : I K une fonction de classe C n+1 (n N). Alors pour tout (a,x) I 2, f(x) = n k=0 f (k) (a) x (x a) k (x t) n + f (n+1) (t)dt. k! a n! Démonstration On procède par récurrence sur n. Pour n = 0, le résultat à montrer s écrit f(x) = f(a) x a f (t)dt,
166 ce qui est vrai d après un théorème donné plus haut, f étant de classe C 1. Supposons le résultat vrai pour les fonctions de classe C n+1, et soit f : I K une fonction de classe C n+2. On raisonne dans le cas où a < x, les autres cas étant similaires. L hypothèse de récurrence pour la fonction f s écrit (x t)n+1 Or t (n + 1)! x a f(x) = n k=0 f (k) (a) x (x a) k (x t) n + f (n+1) (t)dt. k! a n! et f (n+1) sont de classe C 1 sur [a,x], donc par intégration par parties, (x t) n f (n+1) (t)dt = n! = ] x (x t)n+1 [ f (n+1) (t) (n + 1)! (x a)n+1 (n + 1)! f (n+1) (a) + a x a x + a (x t) n+1 (n + 1)! (x t) n+1 (n + 1)! f (n+2) (t)dt f (n+2) (t)dt, d où le résultat au rang n + 1. Par principe de récurrence, la formule est vraie pour tout n N. Remarque Pour exploiter cette formule, il est souvent utile de savoir majorer le reste intégral. Sous les hypothèses précédentes, on a pour tout (a,x) I 2, f(x) = n k=0 f (k) (a) x (x a) k (x t) n + f (n+1) (t)dt. k! a n! Or, f étant de classe C n+1, f (n+1) est continue sur le segment [a,x] (ou [x,a]), elle est donc bornée sur ce segment (car ses parties réelle et imaginaire le sont), par une certaine constante M. On en déduit que n f(x) f (k) (a) (x a) k x x t n k! f (n+1) (t) dt k=0 a n! x M x t n dt n! M a x a n+1. (n + 1)! L avantage de la formule de Taylor avec reste intégral est d être explicite et globale : elle donne une information pour tout x de I. Lorsque x est proche de a, on peut donner une estimation de f(x) sous forme de développement limité. Commençons par rappeler le résultat suivant : Théorème Primitivation d un développement limité Soit f : I K une fonction continue. On suppose que f possède un développement limité à l ordre n en a I, c est-à-dire que l on peut écrire f(x) = x a n α k (x a) k + o((x a) n ) k=0 avec α k K pour tout k [0,n]. Alors toute primitive g de f sur I possède un développement limité à l ordre n + 1 en a, avec g(x) = x a g(a) + n k=0 α k k + 1 (x a)k+1 + o((x a) n+1 ). 158
167 Démonstration Il suffit de prouver cette formule pour la fonction F a : x x a f(t)dt vérifiant F a (a) = 0, toutes les autres primitives de f s en déduisant par ajout de la valeur en a. Fixons ε > 0. Par définition d un petit «o», il existe η > 0 tel que pour tout x I [a η,a + η], Alors pour un tel x, x On a donc montré que a f(t)dt x qui est le résultat voulu. a n f(x) α k (x a) k ε x a n. k=0 k=0 n α k (x a)k+1 k + 1 f(t)dt n k=0 x ε ε a x n f(t) α k (t a) k dt k=0 t a n dt a x a n+1. n + 1 α k k + 1 (x a)k+1 = x a o((x a) n+1 ), Remarque Ce résultat est très utile pour obtenir des développements limités. Par exemple, on obtient par cette méthode un développement à tout ordre en 0 de la fonction tangente, basé sur la formule tan = 1 + tan 2 ; on obtient des développements de x ln(1 + x) en 0 à tout ordre en intégrant ceux de la fonction x 1 1+x, très faciles à obtenir à partir de la série géométrique de raison x. Théorème Formule de Taylor-Young Soit f : I K une fonction de classe C n (n N). Alors pour tout a I, f(x) = x a n k=0 f (k) (a) (x a) k + o((x a) n ). k! Démonstration On procède par récurrence sur n. Pour n = 0 on reconnaît la définition de la continuité de f en a. Supposons le résultat vrai pour toute fonction de classe C n. Soit f une fonction de classe C n+1 sur I ; on peut appliquer l hypothèse de récurrence à f, ce qui montre que pour tout a I, f (x) = x a n k=0 (f ) (k) (a) (x a) k + o((x a) n ) = k! x a n k=0 f (k+1) (a) (x a) k + o((x a) n ). k! D après le théorème d intégration des développements limités (f étant continue), on obtient f(x) = x a f(a) + n+1 = x a k=0 n k=0 f (k+1) (a) (k + 1)! (x a)k+1 + o((x a) n+1 ) f (k) (a) (x a) k + o((x a) n+1 ), k! d où le résultat à l ordre n + 1, ce qui achève la démonstration. 159
168 Pour terminer, donnons les développements limités de référence : pour tout n N (ou n N si la somme commence à k = 1), 1 n 1 x = x k + o(x n ) = 1 + x + x x n + o(x n ), x 0 e x = x 0 n k=0 cos(x) = x 0 sin(x) = x 0 k=0 x k k! + o(xn ) = 1 + x + x2 2! + + xn n! + o(xn ), n k=0 ( 1) k x2k (2k)! + o(x2n ) = 1 x2 2! n ( 1) k x 2k+1 (2k + 1)! + o(x2n+1 ) = x x3 3! k=0 (1 + x) α = x ln(1 + x) = x 0 arctan(x) = x 0 n k=1 = 1 + αx + n k=1 n k=0 α(α 1) (α k + 1) x k + o(x n ) k! α(α 1) x ! ( 1) k 1xk ( 1) k x2k+1 tan(x) = x 0 x + x3 3 + o(x3 ). + + ( 1)n x2n (2n)! + o(x2n ), + + ( 1)n x2n+1 (2n + 1)! + o(x2n+1 ), α(α 1) (α n + 1) x n + o(x n ) (α R), n! k + o(xn ) = x x2 2 + x ( 1)n 1xn n + o(xn ), 2k o(xn ) = x x ( 1)n x2n+1 2n o(x2n+1 ), 160
169 Chapitre 8 Réduction des endomorphismes et des matrices carrées De nombreux problèmes se ramènent à l étude d une matrice ou d un endomorphisme, comme certaines équations différentielles linéaires ou suites récurrentes linéaires. On est alors amené à faire notamment des calculs de puissances, d inverse... Dans ce cas, le choix d une base dans laquelle travailler influence grandement la simplicité des calculs, et donc de l étude du problème. Un des objectifs de ce chapitre est de ramener l étude des matrices à celle de matrices semblables dont la manipulation est plus simple. En particulier, il est très pratique de travailler avec des matrices diagonales, ou avec des matrices triangulaires supérieures. En effet, par exemple, si A = PDP 1 avec P inversible et D diagonale, on montre très facilement par récurrence que pour tout k N, A k = PD k P 1, le calcul de D k étant immédiat : il suffit d élever chaque coefficient diagonal de D à la puissance k. De plus, A est inversible si et seulement si D est inversible, c est-à-dire, si et seulement si aucun coefficient diagonal de D n est nul. Dans ce cas, A 1 = PD 1 P 1, le calcul de D 1 se faisant en inversant chaque coefficient diagonal de D. En termes d endomorphismes, notre objectif est (en dimension finie) de construire des bases adaptées dans lesquelles écrire la matrice de l endomorphisme considéré. Sauf mention contraire, dans tout ce chapitre E désigne un K-espace vectoriel (non réduit au vecteur nul) avec K = R ou C, et u un endomorphisme de E. I. Éléments propres d un endomorphisme et d une matrice carrée Comme on l a déjà remarqué dans le chapitre Matrices, en dimension finie, «simplifier» l écriture matricielle de u, c est par exemple chercher une décomposition de E en somme directe de sous-espaces stables par u. Si cela est possible, la matrice obtenue est diagonale par blocs, elle est d autant plus «simple» que la dimension de ces sous-espaces est petite (mais non nulle, évidemment). On s intéresse donc très naturellement aux droites stables par u (ce qui est possible même en dimension infinie, nous ne supposons donc pas ici que E soit de dimension finie). Propriété Soient D une droite vectorielle de E et x D non nul. Les propriétés suivantes sont équivalentes : La droite D est stable par u. Il existe λ K tel que u(x) = λx. Démonstration D est stable par u, donc u(x) D. Or D = Vect(x), donc il existe λ K tel que u(x) = λx. On a u(d) = Vect(u(x)), donc s il existe λ K tel que u(x) = λx, alors u(d) = Vect(λx). Or, quel que soit λ, Vect(λx) Vect(x) = D. Donc D est stable par u. 161
170 1. Éléments propres d un endomorphisme Définition Valeur propre, vecteur propre Un scalaire λ K est appelé valeur propre de u s il existe x E non nul tel que u(x) = λx. Un vecteur x E est appelé vecteur propre de u si x est non nul et s il existe λ K tel que u(x) = λx. Remarques Dans cette définition, la condition x 0 E est essentielle, sinon tout scalaire serait valeur propre de u. En effet pour tout λ K, on a u(0 E ) = 0 E = λ 0 E. Un vecteur propre x vérifie la relation u(x) = λx pour une unique valeur propre λ. En effet, si u(x) = λx = λ x, alors x étant non nul, on a nécessairement λ = λ. On peut donc dire que λ est la valeur propre associée au vecteur propre x de u. En revanche, si λ est valeur propre de u, et si x non nul vérifie u(x) = λx, alors par exemple, pour tout α K, le vecteur y = αx est non nul et vérifie u(y) = u(αx) = αu(x) = α(λx) = λ(αx) = λy. Un vecteur x 0 E tel que u(x) = λx est un vecteur propre associé à la valeur propre λ de u. Il y a une infinité de vecteurs propres associés à une même valeur propre. Pour faire le lien avec la propriété précédente, on remarquera qu un vecteur x est vecteur propre de u si et seulement si Vect(x) est une droite vectorielle stable par u. Exemples Une rotation vectorielle de R 2 d angle θ 0[π] n a pas de valeur propre. Soit u : P P, défini sur E = R[X]. Soit P un vecteur propre de u et λ la valeur propre associée. Alors P (X) = λp(x). En considérant les degrés de ces deux polynômes, on a nécessairement λ = 0, et P est un polynôme constant non nul. La réciproque est immédiate. On en déduit que l unique valeur propre de u est 0, et l ensemble des vecteurs propres de u associés à cette valeur propre est R 0 [X] \ {0}. Remarquons que, pour λ K et x E, l égalité u(x) = λx équivaut à (u λid E )(x) = 0 E, i.e., au fait que x Ker(u λid E ). On en déduit immédiatement le résultat suivant : Propriété Soit λ K. Alors λ est une valeur propre de u si et seulement si Ker(u λid E ) {0 E }, c est-à-dire, si et seulement si u λid E n est pas injectif. Définition Sous-espace propre Si λ est une valeur propre de u, l ensemble E λ (u) = Ker(u λid E ) est appelé sousespace propre de u associé à la valeur propre λ. Propriété Soit λ une valeur propre de u. Alors : E λ (u) est un sous-espace vectoriel de E, non réduit à {0 E }. Les vecteurs propres de u associés à la valeur propre λ sont les éléments non nuls de E λ (u). 162
171 Démonstration L ensemble E λ (u) est le noyau de l application linéaire u λid E, c est donc un sous-espace vectoriel de E. Le reste des propriétés résulte directement des définitions. Cas particulier Le scalaire 0 est une valeur propre de u si et seulement si u n est pas injectif. Les vecteurs propres de u associés à la valeur propre 0 sont alors les éléments de Ker(u) \ {0 E }. Exemple Homothéties, projecteurs et symétries Une homothétie u de E de rapport α K a pour unique valeur propre α, et tout vecteur non nul de E est vecteur propre de u associé à la valeur propre α. Soit E = F G une décomposition de E en somme de deux sous-espaces avec F {0 E } et G {0 E }, et soit p la projection sur F parallèlement à G. Alors les valeurs propres de p sont 1 et 0. On a de plus E 1 (p) = F, E 0 (p) = G. Avec les même notations, soit s la symétrie par rapport à F parallèlement à G. Alors les valeurs propres de s sont 1 et 1. On a de plus E 1 (p) = F, E 1 (p) = G. Faisons la démonstration dans le cas d un projecteur, les autres cas sont laissés en exercice. Déterminons les éléments propres de p : soit x un vecteur propre de p et λ la valeur propre associée. Écrivons x = y + z où y F et z G. On a p(x) = λx, donc y = λx = λ(y + z) = λy + λz. La somme F + G étant directe, on en déduit que (1 λ)y = 0 E et λz = 0 E. Or x est non nul, donc y ou z est non nul. Dans le premier cas, on a nécessairement λ = 1, z = 0 E et donc x = y F ; dans le second, on a λ = 0, y = 0 E et donc x = z G. La réciproque est immédiate. Remarque Soit λ une valeur propre de u, et x un vecteur propre associé à la valeur propre λ. Alors, pour tout entier k 1, x est vecteur propre de u k associé à la valeur propre λ k. Pour démontrer ce résultat, on procède par récurrence sur k. Pour k = 1, le résultat est vrai par hypothèse. Si le résultat est vrai pour un certain entier k, alors En appliquant u, on obtient u k (x) = λ k x. u k+1 (x) = u(λ k x) = λ k u(x) = λ k λx = λ k+1 x. Comme x 0 E, le résultat est donc vrai au rang k+1 et finalement pour tout k 1 par principe de récurrence. 2. Stabilité et somme de sous-espaces propres Propriété Tout sous-espace propre de u est stable par u. Si λ est valeur propre de u, l endomorphisme de E λ (u) induit par u est l homothétie de rapport λ. Soient u et v deux endomorphismes de E qui commutent (i.e. u v = v u). Alors tout sous-espace propre de u est stable par v. Démonstration Le premier point est immédiat car pour tout x E λ (u), u(x) = λx par définition. Le second point vient d une propriété du chapitre Espaces vectoriels et applications linéaires : pour toute valeur propre λ de u, u λid E et v commutent de même que u et v, donc E λ (u) = Ker(u λid E ) est stable par v. D après le premier point, les sous-espaces E λ (u) sont donc de bons candidats à former une décomposition de E pour laquelle l expression de u soit particulièrement simple. De plus, on a la propriété suivante : Propriété La somme d une famille finie de sous-espaces propres associés à des valeurs propres de u deux à deux distinctes est directe. 163
172 Démonstration Soient E λ1,...,e λp des sous-espaces propres de u associés aux valeurs propres deux à deux distinctes λ 1,...,λ p. Soit (x 1,...,x p ) E λ1 E λp tel que x x p = 0 E. En appliquant u k pour k N, on obtient, d après la remarque ci-dessus, On en déduit que pour tout P K[X], Soit i [1,p] fixé. En choisissant λ k 1x λ k px p = 0 E. P(λ 1 )x P(λ p )x p = 0 E. P(X) = j i(x λ j ), qui vérifie P(λ i ) 0 et P(λ j ) = 0 pour tout j i, on obtient alors x i = 0 E, ce qui prouve le résultat. Remarque On en déduit que toute famille finie de vecteurs propres de u associés à des valeurs propres deux à deux distinctes est libre. C est une conséquence de la propriété précédente et d un résultat du chapitre Espaces vectoriels et applications linéaires, des vecteurs propres étant non nuls par définition. Par exemple, la famille (exp 0,...,exp p ) d éléments de C (R) est libre pour tout entier naturel p. En effet, pour tout k N, l application exp k : x e kx est vecteur propre de l opérateur dérivation sur C (R), associé à la valeur propre k. 3. Éléments propres d une matrice Dans ce paragraphe, A désigne une matrice de M n (K). Toutes les définitions des éléments propres se traduisent en termes de matrices. Définition Les éléments propres de la matrice A sont les éléments propres de l endomorphisme u A : { Mn,1 (K) M n,1 (K) X AX canoniquement associé à A. En d autres termes : Un scalaire λ K est appelé valeur propre de A s il existe X M n,1 (K) non nul tel que AX = λx. Un vecteur X M n,1 (K) est appelé vecteur propre de A si X est non nul et s il existe λ K tel que AX = λx. Si λ est valeur propre de A, le sous-espace propre de A associé à la valeur propre λ est E λ (A) = Ker(A λi n ). Remarque Soit u L (E). Soit B une base de E, et A la matrice de u dans cette base. Pour x vecteur quelconque de E, on note X la matrice colonne de ses coordonnées dans la base B. On a alors : Pour tout λ K, (u(x) = λx) (AX = λx). En particulier, u et A ont les mêmes valeurs propres et pour toute valeur propre λ de u et A, x est un vecteur propre de u si et seulement si X est un vecteur propre de A. Deux matrices semblables ont les mêmes valeurs propres, car elles représentent le même endomorphisme dans des bases différentes. Remarque Bien sûr, toute matrice A M n (R) peut être vue comme élément de M n (C). La relation AX = λx, pour X M n,1 (R) et λ R, est également valable dans C. On en déduit que l ensemble des valeurs propres de A vue comme matrice réelle est inclus dans l ensemble des valeurs propres de A vue comme matrice complexe. 164
173 II. Recherche des éléments propres, polynôme caractéristique Dans toute la suite, E est supposé de dimension finie n. 1. Polynôme caractéristique Pour l instant, nous n avons aucun moyen pratique autre que la définition pour déterminer l ensemble des valeurs propres d un endomorphisme u ou d une matrice carrée A. La caractérisation des isomorphismes en dimension finie donne immédiatement la propriété suivante : Propriété Soient u L (E) et λ K. Les propriétés suivantes sont équivalentes : Le scalaire λ est valeur propre de u. L endomorphisme u λid E n est pas inversible. det(u λid E ) = 0. On a les équivalences analogues pour une matrice carrée. Ainsi λ K est valeur propre de u si et seulement si λ est un zéro de la fonction x det(u xid E ). Fixons une base B de E et soit A = (a i,j ) 1 i,j n = Mat B (u). Alors pour tout x K, u xid E a pour matrice A xi n dans cette base, donc a 1,1 x... a 1,n det(u xid E ) = det(a xi n ) = a n,1... a n,n x En imaginant le développement de ce déterminant (obtenu par linéarité du déterminant par rapport à chaque colonne de sa variable, ou par développements successifs par rapport à la première colonne), on voit que la fonction x det(u xid E ) est polynomiale. Propriété/Définition Le polynôme χ u (X) = ( 1) n det(u X Id E ) = det(x Id E u) est appelé polynôme caractéristique de u. L ensemble des valeurs propres de u est égal à l ensemble des racines dans K de χ u. Il est appelé spectre de u, et noté Sp(u). Si A M n (K), on définit le polynôme caractéristique χ A (X) = ( 1) n det(a XI n ) = det(xi n A) de A, et son spectre Sp(A), comme étant ceux de l endomorphisme canoniquement associé à A Exemple Soit A = Alors X χ A (X) = 2 X = (X 2)(X + 1)(X 3) (X 2) + 10(X 3) 2 2 X 3 = (X 2)(X 2 2X + 5) = (X 2)(X 1 2i)(X 1 + 2i). 165
174 La matrice réelle A a donc une seule valeur propre, 2, mais la matrice complexe A a trois valeurs propres, 2, 1 + 2i et 1 2i. Remarques Comme on l a expliqué plus haut, si u a pour matrice A dans une certaine base, alors pour tout x K, det(xid E u) = det(xi n A), et donc det(x Id E u) = det(xi n A) (égalité entre polynômes) : u et A ont le même polynôme caractéristique. Deux matrices semblables ont le même polynôme caractéristique car elles représentent le même endomorphisme dans des bases différentes. On peut aussi le montrer ainsi : si deux matrices A et B de M n (K) sont semblables, il existe P Gl n (K) telle que A = PBP 1. Alors χ A (X) = det(xi n A) = det(xi n PBP 1 ) = det(p(xi n B)P 1 ) = det(xi n B) = χ B (X). D après ce qui précède, la recherche des valeurs propres d un endomorphisme ou d une matrice se ramène à la recherche des racines dans K d un certain polynôme (dépendant de cet endomorphisme ou matrice). Explicitons en partie ce polynôme : Propriété Soit u L (E). Alors χ u a pour terme de plus haut degré X n et pour coefficient constant ( 1) n det(u). Démonstration Notons (E 1,...,E n ) la base canonique de M n,1 (K). Si M = (m i,j ) 1 i,j n, par linéarité du déterminant par rapport à chaque colonne de sa variable, det(m) est la somme de tous les termes de la forme m i1,1... m in,n det ( E i1 E in ) où (i 1,...,i n ) [1,n] n. Si A = (a i,j ) est la matrice de u dans une base fixée et M celle de X Id E u, on a, pour tout (i,j) [1,n] 2, m i,j = a i,j si i j et m i,i = X a i,i. Le terme de plus haut degré de χ u provient donc uniquement du produit il est égal à X n. (X a 1,1 ) (X a n,n ), De plus, le coefficient constant de χ u est égal à χ u (0) = ( 1) n det(u) par définition de χ u. Remarques On a bien sûr un résultat analogue sur les matrices. Le polynôme caractéristique de u L (E) (ou A M n (K)) est défini comme det(x Id E u) (ou det(xi n A)) pour qu il soit unitaire. Cela dit, dans les calculs, afin de ne pas avoir à changer les signes de tous les coefficients de A, on pourra calculer det(u X Id E ) (ou det(a XI n )) puis multiplier le résultat obtenu par ( 1) n, c est-à-dire, changer le signe lorsque n est impair. ( ) a b Exemple Si A = est une matrice de M c d 2 (K), alors χ A (X) = X a c b X d = (X a)(x d) bc = X2 (a+d)x+ad bc = X 2 Tr(A)X+det(A). Le fait que la trace de A apparaisse n est pas un hasard, on retrouvera ce phénomène plus tard dans le chapitre. 166
175 Corollaire Soit u L (E). Alors : L endomorphisme u admet au plus n valeurs propres. Si K = C, u admet au moins une valeur propre. Démonstration Les valeurs propres de u sont les racines de χ u. Or, le polynôme χ u est de degré n (et en particulier non nul), il a donc au plus n racines. Le polynôme χ u possède au moins une racine dans C, d après le théorème de d Alembert-Gauss. Remarque Si K = R et n est impair, u possède au moins une valeur propre. En effet, dans ce cas, n = deg(χ u ) est impair; χ u étant de plus unitaire, on a lim χ u(x) = et lim χ u(x) = +. x x + Enfin χ u définit une fonction continue. Le théorème des valeurs intermédiaires montre que χ u possède au moins une racine réelle, et donc u possède au moins une valeur propre. Propriété Soit u L (E). On suppose que χ u est scindé sur K, c est-à-dire qu il possède n racines dans K, notées λ 1,...,λ n (non nécessairement distinctes, et qu il faut donc compter avec leur ordre de multiplicité). Autrement dit, on suppose que u possède n valeurs propres dans K. Alors det(u) = n λ i. i=1 On a un résultat analogue pour une matrice carrée. Démonstration On peut écrire χ u (X) = n (X λ i ). i=1 Ainsi, le coefficient constant de χ u est ( 1) n n i=1 λ i. Or, on sait qu il vaut aussi ( 1) n det(u). Remarque Tout polynôme de C[X] est scindé dans C (d après le théorème de d Alembert- Gauss); cette formule est donc toujours vraie si K = C. Elle peut être fausse dans R comme le montre l exemple de la matrice réelle ( ) 0 1 A = 1 0 dont le polynôme caractéristique est X 2 +1, qui n est pas scindé dans R : le spectre de A est donc vide. En revanche, si l on passe dans C, A possède deux valeurs propres, i et i, et la formule est alors vérifiée. Remarque Déterminer les éléments propres de u L (E) (en dimension finie) ou de A M n (K) se fait donc généralement en deux étapes (formulées ici avec A) : On détermine les valeurs propres de A, ce qui correspond à la résolution d une équation polynomiale, l équation χ A (λ) = 0. On recherche ses vecteurs propres en déterminant, pour λ Sp(A), le noyau de A λi n, ce qui revient à résoudre l équation linéaire (A λi n )X = 0, par exemple par l algorithme de Gauss-Jordan. On sait notamment que dim(e λ (A)) = n rg(a λi n ) est le nombre de paramètres de ce système. 167
176 2. Sous-espaces stables et polynôme caractéristique Propriété Soit M M n (K) une matrice carrée définie par blocs, de la forme ( ) A B M = 0 C avec A et C deux matrices carrées. Alors χ M (X) = χ A (X)χ C (X). Démonstration Soit r l ordre de la matrice A. Alors, d après l expression du déterminant d une matrice triangulaire par blocs, χ M (X) = XI r A B 0 XI n r C = det(xi r A)det(XI n r C) = χ A (X)χ C (X). Corollaire Soit u L (E). Soit F un sous-espace vectoriel de E stable par u, avec F {0 E }. Alors χ u F, le polynôme caractéristique de u F, divise χ u, le polynôme caractéristique de u. Démonstration Il suffit d écrire la matrice de u dans une base adaptée à F et d appliquer la propriété précédente. Propriété/Définition Soit u L (E). Soit λ une valeur propre de u. L ordre de multiplicité de λ en tant que racine de χ u est appelé multiplicité de la valeur propre λ, noté m(λ). On a 1 dim(e λ (u)) m(λ). Démonstration Soit r la dimension de E λ (u). Un sous-espace propre est par définition non réduit au vecteur nul, donc 1 r. De plus, E λ (u) est stable par u et l endomorphisme de E λ (u) induit par u est l homothétie de rapport λ. Sa matrice dans une base quelconque est λi r, d où χ u Eλ (u) (X) = (X λ)r. Or, d après la propriété précédente, χ u Eλ (u) divise χ u, donc r m(λ). Propriété/Définition On dit qu une valeur propre λ de u est simple si m(λ) = 1. De l inégalité précédente, on déduit que dans ce cas, dim(e λ (u)) = 1. Ainsi, l espace propre associé à une valeur propre simple est une droite vectorielle. Attention! Il n y a pas de propriété analogue pour une valeur propre λ de multiplicité m(λ) 2 : la dimension de E λ (u) peut être a priori n importe quel entier compris entre 1 et m(λ). Par exemple, le sous-espace propre associé à une valeur propre double (i.e. de multiplicité 2) peut être une droite ou un plan. 168
177 III. Diagonalisabilité 1. Définition et premier critère Définition Endomorphisme diagonalisable Soit u L (E). On dit que u est diagonalisable s il existe une base de E dans laquelle la matrice de u est diagonale. Cette définition s interprète bien sûr en termes de vecteurs propres : Propriété Soit u L (E). Les propriétés suivantes sont équivalentes : u est diagonalisable. Il existe une base de E formée de vecteurs propres pour u. Dans ce cas, si D est une matrice diagonale représentant u dans une base de E, les coefficients diagonaux de D sont les valeurs propres de u. Démonstration On remarque que, si B = (e 1,...,e n ) est une base de E, alors Mat B (u) est diagonale si et seulement si pour tout i [1,n], e i est un vecteur propre de u associé au coefficient diagonal de la colonne i de Mat B (u), ce qui prouve l équivalence souhaitée. Si u est diagonalisable, et si D est une matrice diagonale représentant u dans une base de E, notons d 1,...,d n les coefficients diagonaux de D. Alors χ u (X) = det(x Id E u) = det(xi n D) = Les coefficients d i sont donc exactement les valeurs propres de u. Donnons deux premiers critères de diagonalisabilité. Théorème n (X d i ). Soit u L (E). Pour que u soit diagonalisable, il faut et il suffit que la dimension de E soit égale à la somme des dimensions des sous-espaces propres de u, c est-à-dire, que dim(e) = dim(e λ (u)). λ Sp(u) i=1 Démonstration On sait que la somme λ Sp(u) E λ(u) est directe. Ainsi, d après un résultat du chapitre Espaces vectoriels et applications linéaires, le fait que dim(e) = dim(e λ (u)) équivaut au fait que λ Sp(u) E = λ Sp(u) E λ (u). Si tel est le cas, en juxtaposant des bases des E λ (u) dont E est somme directe, on obtient une base de E (d après un théorème du chapitre Espaces vectoriels et applications linéaires). Une telle base de E est formée de vecteurs propres de u, car tout élément non nul d un espace propre de u est vecteur propre de u. Donc u est diagonalisable. Si u est diagonalisable, il nous suffit de prouver que E λ Sp(u) E λ(u), l aspect direct de la somme étant acquis. Soit donc (e 1,...,e n ) une base de E formée de vecteurs propres pour u, 169
178 et soit x E ; il existe (α 1,...,α n ) K n tel que x = α 1 e α n e n. Pour tout i [1,n], α i e i E λ (u) pour un certain λ Sp(u). On a donc une décomposition de x comme somme de vecteurs appartenant tous à un sous-espace propre de u, d où le résultat. Théorème Soit u L (E). Pour que u soit diagonalisable, il faut et il suffit que les deux propriétés suivantes soient vérifiées : Le polynôme caractéristique χ u de u est scindé sur K. Pour toute valeur propre λ de u, la dimension du sous-espace propre associé est égale à la multiplicité de λ en tant que valeur propre de u, c est-à-dire, λ Sp(u), dim(e λ (u)) = m(λ). Démonstration Si Sp(u) =, u n est pas diagonalisable car elle n a pas de valeur propre, et χ u n est pas scindé sur K pour la même raison. Sinon, notons λ 1,...,λ p les valeurs propres deux à deux distinctes de u, de sorte que Sp(u) = {λ 1,...,λ p }. Alors on a, pour tout i [1,p], dim(e λi (u)) m(λ i ). On en déduit que p dim(e λi (u)) i=1 p m(λ i ) deg(χ u ) = dim(e). i=1 Or, d après le théorème précédent, u est diagonalisable si et seulement si dim(e) = p dim(e λi (u)). i=1 D après les inégalités précédentes, ceci est équivalent au fait que p m(λ i ) = deg(χ u ) i=1 et que, pour tout i [1,p], dim(e λi (u)) = m(λ i ). En remarquant que χ u est scindé sur K si et seulement si p i=1 m(λ i) = deg(χ u ), on obtient le résultat. Corollaire Si u L (E) admet n valeurs propres deux à deux distinctes, alors u est diagonalisable. De plus, chaque espace propre de u est une droite vectorielle. Démonstration Nous avons vu plus haut que le sous-espace propre associé à une valeur propre simple est une droite vectorielle. Ici, on a donc dim(e) = n = dim(e λ (u)). λ Sp(u) Le premier critère ci-dessus montre que u est diagonalisable. Attention! Bien évidemment, la réciproque est fausse : l identité de E est diagonalisable, mais possède 1 comme unique valeur propre. Remarque Le cas du corollaire précédent est en quelque sorte le cas «idéal». Lorsque l on n est pas dans ce cas, on détermine par le calcul les sous-espaces propres (par la méthode de Gauss- Jordan notamment), pour vérifier l un des critères ci-dessus. Il s agit souvent d une vérification fastidieuse, d où l intérêt de nouveaux critères de diagonalisabilité, que nous donnerons dans la partie IV. 170
179 2. Matrices diagonalisables Définition Matrice diagonalisable Soit A M n (K). On dit que la matrice A est diagonalisable si A est semblable à une matrice diagonale, c est-à-dire, s il existe P Gl n (K) et D M n (K) diagonale telles que A = PDP 1. Théorème Lien entre matrices et endomorphismes diagonalisables Soit A M n (K) une matrice carrée. Les propriétés suivantes sont équivalentes : 1. A est diagonalisable. 2. Il existe une base de M n,1 (K) formée de vecteurs propres pour A. 3. Tout endomorphisme d un K-espace vectoriel de dimension n, de matrice A dans une certaine base, est diagonalisable. Si A est diagonalisable et s écrit PDP 1 avec P inversible et D diagonale, alors les coefficients diagonaux de D sont les valeurs propres de A, et P est la matrice de passage de la base canonique de M n,1 (K) à une base de vecteurs propres de A. Démonstration Ces équivalences viennent des formules de changement de base. Si A = PDP 1 avec P inversible et D diagonale, alors la matrice D, qui est diagonale et représente u A dans une base, a pour coefficients diagonaux les valeurs propres de A d après la propriété donnée page 169. La matrice P contient, en colonnes, les coordonnées dans la base canonique de M n,1 (K) des vecteurs d une base de M n,1 (K) dans laquelle la matrice de u A est D, donc, d une base de vecteurs propres de A, apparaissant dans l ordre correspondant à l ordre des valeurs propres dans la matrice D. Il n y a donc d ailleurs pas qu un choix possible de P et D. Remarque Tous les résultats concernant la diagonalisabilité des endomorphismes se traduisent donc sur les matrices carrées, via les endomorphismes canoniquement associés, et grâce au théorème précédent. Dans le premier critère de diagonalisabilité, il convient de remplacer dim(e) par l ordre de la matrice considérée (n si A M n (K)) Exemple Considérons la matrice réelle A = Son polynôme caractéristique est X X = (X 1) X X 3 4 X 3 = (X 1)[(X + 3)(X 3) ( 4) 2] = (X 1)(X 2 1) = (X 1) 2 (X + 1). La matrice A possède donc une valeur propre double, 1, et une valeur propre simple, 1. On sait sans calcul que E 1 (A) est de dimension 1. Pour en déterminer une base, on résout l équation AX = X correspondant au système x +4y +2z = x 3y 2z = y 4y +3z = z 2x +4y +2z = 0 2y 2z = 0 4y +4z = 0 { x +2y +z = 0 y +z = 0 { y = z x = 2y z = z 171
180 1 1 On a donc E 1 (A) = Vect 1. Notons e 3 = De même, déterminons E 1 (A) en résolvant l équation AX = X correspondant au système x +4y +2z = x 3y 2z = y 4y +3z = z 4y +2z = 0 4y 2z = 0 4y +2z = 0 Donc E 1 (A) est un plan vectoriel; une base de E 1 (A) est 1 0 (e 1,e 2 ) = 0, y + z = 0. En particulier, dim(e 1 (A)) = 2 et finalement, dim(e 1 (A)) + dim(e 1 (A)) = = 3 qui est l ordre de la matrice A. On sait donc que A est diagonalisable. En fait, en posant P = 0 1 1, alors P est la matrice de passage de la base canonique de M 3,1 (R) à la base (e 1,e 2,e 3 ) de vecteurs propres que l on vient de déterminer, et A = P P Remarque La matrice A est la matrice d une symétrie de R 3 (identifié à M 3,1 (R)) car A 2 = I 2. Les calculs précédents permettent de décrire entièrement cette symétrie : il s agit de la symétrie par rapport au plan E 1 (A), parallèlement à la droite E 1 (A). Propriété Soit A M n (K) une matrice diagonalisable. On peut écrire λ 1 0 A = P P 1 0 λ n avec λ 1,...,λ n les valeurs propres de A et P Gl n (K). Alors, pour tout k N, A k = P (λ 1 ) k (λ n ) k P 1. Démonstration Elle se fait par récurrence immédiate, en utilisant le fait que P 1 P = I n. Dans l exemple précédent, pour tout entier k N (et même pour tout k Z dans ce cas), A k = P P ( 1) k 172
181 Application Récurrences linéaires Considérons la relation de récurrence linéaire d ordre 1 x 1 k+1 = a 1,1x 1 k + + a 1,nx n k k N,. x n k+1 = a n,1x 1 k + + a n,nx n k (1) dont les inconnues sont les n suites (x 1 k ) k N,...,(x n k ) k N (l exposant n indique pas une puissance, mais permet de repérer la j-ième suite inconnue, avec j [1,n]). En notant U k le vecteur-colonne de coefficients x 1 k,...,xn k et A = (a i,j) 1 i,j n, la relation (1) est équivalente à la relation de récurrence matricielle k N, U k+1 = AU k. (2) Par récurrence immédiate, (U k ) est solution de (2) si et seulement si pour tout k N, U k = A k U 0. Si A est diagonalisable, la propriété précédente permet d exprimer explicitement toute solution de (1), en fonction des valeurs propres de A et des conditions initiales. IV. Réduction et polynômes annulateurs 1. Polynômes annulateurs et valeurs propres Propriété Soit u L (E) et P K[X] un polynôme annulateur de u. Alors toute valeur propre de u est une racine de P. Démonstration Nous avons montré plus haut que lorsque x est un vecteur propre de u associé à la valeur propre λ, alors pour tout entier naturel k, u k (x) = λ k x. En écrivant P sous forme développée, on en déduit que P(u)(x) = P(λ) x = 0 E car P(u) = 0 L (E). Or x étant vecteur propre, il est non nul; on a donc nécessairement P(λ) = 0. Remarques Cette propriété est très intéressante, car elle montre que les valeurs propres de u, bien qu elles soient les racines du polynôme caractéristique de u, qui est de degré n, sont à chercher parmi les racines de tout polynôme annulateur de u. Or, on peut parfois trouver un polynôme annulateur très simple : par exemple, X 2 X est un polynôme annulateur de toute projection; X λ est un polynôme annulateur de toute homothétie de rapport λ. De même, X 2 1 est annulateur de toute symétrie. On avait déjà remarqué l intérêt des polynômes annulateurs d un endomorphisme ou d une matrice pour les calculs de puissances ou d inverse éventuel. La propriété précédente en donne une nouvelle application. La propriété précédente est vraie même en dimension infinie. Exemple Soit u L (E) tel que u 2 2u 3Id E = 0. Alors (u 3Id E ) (u + Id E ) = 0, donc (X 3)(X + 1) est annulateur de u. Les valeurs propres de u sont donc éléments de { 1;3}. Attention! Ne pas confondre cette propriété avec sa réciproque qui est fausse : si P est annulateur de u et si P(λ) = 0, alors rien ne dit que λ est valeur propre de u. En reprenant l exemple précédent avec u = 3Id E, on a bien (u 3Id E ) (u + Id E ) = 0, mais 1 n est pas valeur propre de u. Dans tout polynôme annulateur de u, il peut y avoir des facteurs «inutiles» : soit P(X) = (X α 1 ) (X α p ) 173
182 un polynôme annulateur scindé de u L (E). Si un certain α i n est pas valeur propre de u, alors u α i Id E est injective et donc inversible d après la caractérisation des isomorphismes en dimension finie. En composant la relation (que l on peut écrire dans un ordre arbitraire) (u α 1 Id E ) (u α p Id E ) = 0 par (u α i Id E ) 1, on voit que l on peut «enlever» u α i Id E de cette relation. On obtient donc un polynôme annulateur avec un facteur en moins. C est le cas du facteur X + 1 dans l exemple ci-dessus lorsque u = 3Id E. Remarque Tout élément u L (E) (E étant de dimension finie n) admet un polynôme annulateur non nul. En effet, la famille (Id E,u,...,u n2 ) est composée de n vecteurs de L (E) qui est de dimension n 2, elle est donc liée. Soit n 2 k=0 a ku k une combinaison linéaire nulle de ces éléments, les a k étant non tous nuls. Alors le polynôme n 2 k=0 a kx k est annulateur de u, et il est non nul. 2. Le théorème de Cayley-Hamilton Le résultat de la remarque précédente possède les inconvénients suivants : il ne donne pas explicitement un polynôme annulateur de u, il garantit seulement l existence de polynômes annulateurs de u de degré au plus n 2, qui est un degré plutôt «élevé». Le théorème suivant y remédie en partie : Théorème de Cayley-Hamilton (admis : démonstration non exigible) Soit u L (E). Alors χ u (u) = 0 L (E) : le polynôme caractéristique de u est un polynôme annulateur de u. On a un résultat analogue pour les matrices carrées Exemple Considérons la matrice A = Alors X χ A (X) = 0 X X 1 = (X 2)2 (X 1). Il est immédiat que (X 2) 2 (X 1) est annulateur de A (conformément au théorème de Cayley- Hamilton). En fait, (X 2)(X 1) est aussi annulateur de A Considérons maintenant la matrice B = Son polynôme caractéristique est X χ B (X) = 3 X C 2 C 2 + 2C X 5 X 2 2(X 2) 4 = 3 X 2 12 L 1 L 1 2L X 5 X = 3 X X 5 = X(X 1)(X 2). En particulier, on sait sans calcul supplémentaire que B est diagonalisable, car B est d ordre 3 et possède trois valeurs propres distinctes. On vérifie que B(B I 3 )(B 2I 3 ) = 0, mais ni 174
183 B(B I 3 ), ni B(B 2I 3 ), ni (B I 3 )(B 2I 3 ) n est nulle, sinon l une des valeurs 0, 1 ou 2 ne serait pas valeur propre de B. En revanche, dans le cas de la matrice C = 0 1 0, on a χ C (X) = (X 1) 3, mais (C I 3 ) = et (C I 3 ) 2 = 0, donc (X 1) 2 est annulateur de C. On peut donc parfois trouver des polynômes annulateurs de plus bas degré que le polynôme caractéristique. Pour un projecteur, une symétrie ou une homothétie, ce phénomène est encore plus flagrant. Remarques Les valeurs propres de u étant racines de tout polynôme annulateur, elles sont racines du polynôme caractéristique χ u. Bien sûr, ceci est déjà connu; le polynôme caractéristique est même un exemple de polynôme annulateur dont les racines sont exactement les valeurs propres de u. On sait que lorsque u possède un polynôme annulateur P de coefficient constant non nul, alors u est inversible et on peut calculer u 1 comme un polynôme en u, à partir de la relation P(u) = 0. En dimension finie, pour le choix de P = χ u on a a 0 = ( 1) n det(u). Si a 0 0, u est donc inversible et le théorème de Cayley-Hamilton permet de déterminer explicitement u 1 à partir de la relation χ u (u) = Un nouveau critère de diagonalisabilité Théorème Soit u L (E). Les propriétés suivantes sont équivalentes : 1. L endomorphisme u est diagonalisable. 2. Il existe un polynôme annulateur de u scindé sur K et à racines simples. 3. Le polynôme (X λ) est annulateur de u. λ Sp(u) Remarques Seule la démonstration de l équivalence entre les propriétés 1 et 3 est exigible. Pour l implication 3 1, on peut démontrer 3 2 et utiliser directement 2 1. Bien sûr, le théorème précédent se traduit en termes de matrices carrées. Démonstration 3 2 : Il suffit de remarquer que le polynôme λ Sp(u) (X λ) est scindé à racines simples (dans ce polynôme, chaque valeur propre apparaît sans multiplicité). 1 3 : Supposons u diagonalisable. Il existe donc une base (e 1,...,e n ) de E formée de vecteurs propres pour u. Notons λ 1,...,λ p les valeurs propres deux à deux distinctes de u. Montrons que le polynôme P(X) = (X λ) = (X λ 1 ) (X λ p ) λ Sp(u) est annulateur de u. Les polynômes en u commutent, donc pour tout j [1,p], ( ) P(u) = (u λ 1 Id E ) (u λ p Id E ) = (u λ k Id E ) (u λ j Id E ), k j 175
184 le symbole k j désignant la composition de tous les facteurs d indice k j. Soit i [1,n], et λ j la valeur propre associée au vecteur e i ; ainsi (u λ j Id E )(e i ) = 0 E. En évaluant P(u) en e i, on a alors ( ) ( ) P(u)(e i ) = (u λ k Id E ) ((u λ j Id E )(e i )) = (u λ k Id E ) (0 E ) = 0 E. k j k j Ceci étant valable pour tous les vecteurs de la base (e 1,...,e n ), on a bien P(u) = : On procède par récurrence : montrons que pour tout entier p 1, tout endomorphisme d un espace de dimension finie admettant un polynôme scindé avec p racines simples, est diagonalisable. On pourra toujours, quitte à diviser par le coefficient dominant, supposer que les polynômes annulateurs non nuls sont unitaires. Initialisation : si p = 1 et si u L (E) annule un polynôme de la forme X α 1, alors u = α 1 Id E. Ainsi, u est diagonalisable. Hérédité : supposons le résultat vrai pour un nombre p de racines simples. Soit u un endomorphisme annulant un polynôme P scindé et ayant p + 1 racines simples, que l on écrit sous la forme P(X) = (X α 1 ) (X α p )(X α p+1 ). Notons Q(X) = (X α 1 ) (X α p ). Étape 1 : montrons que E = Ker(Q(u)) Ker(u α p+1 Id E ) : tout d abord, si un vecteur x appartient à Ker(Q(u)) Ker(u α p+1 Id E ), alors u(x) = α p+1 x et donc 0 E = Q(u)(x) = Q(α p+1 ) x. Le scalaire Q(α p+1 ) est non nul car les α i sont deux à deux distincts : on en déduit que x = 0 E. On a donc montré que Ker(Q(u)) Ker(u α p+1 Id E ) = {0 E }. De plus, effectuons la division euclidienne de Q par (X α p+1 ) : il existe un polynôme A et un polynôme B de degré strictement inférieur à deg(x α p+1 ) = 1, c est-à-dire que B est un polynôme constant que l on notera b K, tels que Q(X) = A(X)(X α p+1 ) + b. En évaluant cette relation en α p+1, on obtient Q(α p+1 ) = b et en particulier b 0 car α p+1 n est pas racine de Q. On a alors Q(u) = A(u) (u α p+1 Id E ) + bid E, c est-à-dire 1 b Q(u) 1 b A(u) (u α p+1 Id E ) = Id E. Soit alors x E. On a d après la relation précédente, x = 1 b Q(u)(x) 1 b (A(u) (u α p+1 Id E )) (x). De plus, le vecteur y = 1 b Q(u)(x) appartient à Ker(u α p+1 Id E ) car ((u α p+1 Id E ) Q(u))(x) = P(u)(x) = 0 E. De même, z = 1 b (A(u) (u α p+1 Id E ))(x) 176
185 appartient à Ker(Q(u)). On a donc décomposé x sur la somme Ker(Q(u)) + Ker(u α p+1 Id E ), ce qui achève de prouver que E = Ker(Q(u)) Ker(u α p+1 Id E ). Étape 2 : Les endomorphismes u et Q(u) commutent, donc Ker(Q(u)) est stable par u. Soit v l endomorphisme de Ker(Q(u)) induit par u. Alors Q est un polynôme annulateur de v par définition, et Q est scindé et possède p racines simples. D après l hypothèse de récurrence, v est diagonalisable et il existe une base de Ker(Q(u)) constituée de vecteurs propres pour v, et donc pour u. Si Ker(u α p+1 Id E ) = {0 E }, on a alors construit une base de E de vecteurs propres pour u. Sinon, on juxtapose à la base de Ker(Q(u)) que l on a construite, une base de Ker(u α p+1 Id E ), qui par définition est constituée de vecteurs propres pour u (associés à la valeur propre α p+1 ). Comme Ker(u α p+1 Id E ) est supplémentaire de Ker(Q(u)) dans E, on a obtient finalement une base de E constituée de vecteurs propres pour u, qui est donc diagonalisable, et l hérédité est démontrée. Exemple Revenons sur l exemple d un endomorphisme u L (E) (E étant de dimension finie) tel que u 2 2u 3Id E = 0. Alors le polynôme X 2 2X 3 = (X + 1)(X 3) est annulateur de u, et il est scindé dans R, à racines simples, donc u est diagonalisable. Il existe une base de E dans laquelle la matrice de u est diagonale, ses coefficients diagonaux étant éléments de { 1;3} (mais, sans information supplémentaire, on ne peut pas savoir si 1 et 3 sont tous les deux valeurs propres de u, il se peut que seul l un de ces deux nombres le soit). Corollaire Soient u L (E) diagonalisable et F un sous espace vectoriel de E stable par u, avec F {0 E }. Alors u F est diagonalisable. Démonstration En effet, u est diagonalisable donc admet un polynôme annulateur scindé à racines simples. Ce même polynôme est aussi annulateur de u F, qui par conséquent est diagonalisable. V. Endomorphismes et matrices trigonalisables Bien sûr, parvenir à diagonaliser un endomorphisme u est la situation la plus favorable. Il n est pas toujours possible d y arriver, mais on peut dans ce cas essayer de trouver une matrice de u non pas diagonale, mais au moins triangulaire supérieure. Définition Trigonalisabilité On dit qu un endomorphisme u L (E) est trigonalisable s il existe une base de E dans laquelle la matrice de u est triangulaire supérieure. On dit qu une matrice A M n (K) est trigonalisable si elle est semblable à une matrice triangulaire supérieure. Remarques Si B = (e 1,...,e n ) est une base de E, alors Mat B (u) est triangulaire supérieure si et seulement si pour tout i [1,n], u(e i ) Vect(e 1,...,e i ). Dans ce cas, e 1 est vecteur propre de u, mais pas nécessairement les autres vecteurs de la base B. 177
186 En revanche, les coefficients diagonaux d une matrice triangulaire supérieure T = (t i,j ) représentant u sont nécessairement les valeurs propres de u : en effet, χ u (X) = det(x Id E u) = det(xi n T). Or, la matrice XI n T est triangulaire supérieure, donc son déterminant est le produit de ses éléments diagonaux, ici n i=1 (X t i,i). On en déduit que les coefficients diagonaux de T sont exactement les valeurs propres de u. Théorème Lien entre matrices et endomorphismes trigonalisables Soit A M n (K) une matrice carrée. Les propriétés suivantes sont équivalentes : A est trigonalisable. Tout endomorphisme d un K-espace vectoriel de dimension n, de matrice A dans une certaine base, est trigonalisable. Si A est trigonalisable et s écrit A = PTP 1 avec P inversible et T triangulaire supérieure, alors les coefficients diagonaux de T sont les valeurs propres de A, et P est la matrice de passage de la base canonique de M n,1 (K) à une base adaptée. Démonstration L équivalence vient des formules de changement de base. Les coefficients diagonaux de T sont les valeurs propres de A d après la remarque précédente. La matrice P contient, en colonnes, les coordonnées dans la base canonique de M n,1 (K) des vecteurs d une base de M n,1 (K) dans laquelle la matrice de u A est T. Il n y a pas qu un choix possible de P et T. De la remarque précédente, on déduit que, si u L (E) est trigonalisable, alors son polynôme caractéristique est scindé sur K. Cette condition n était pas suffisante pour que u soit diagonalisable, elle l est pour que u soit trigonalisable : Théorème Soit u L (E). Pour que u soit trigonalisable, il faut et il suffit que χ u soit scindé sur K. On a un résultat analogue pour les matrices carrées. Démonstration (non exigible) C est ce que nous avons montré dans la remarque précédente. On va prouver le résultat pour une matrice A M n (K), celui sur les endomorphismes s en déduisant, grâce au théorème précédent. On procède par récurrence sur n. Si n = 1, le résultat est vrai car A est trigonalisable et χ A scindé sur K. Supposons le résultat vrai pour toute matrice de M n (K) et soit A M n+1 (K) telle que χ A soit scindé sur K. Il existe donc λ Sp(A), et X E λ (A) non nul. En choisissant une matrice P 1 Gl n+1 (K) dont la première colonne soit X, la matrice (P 1 ) 1 AP 1 est (d après les formules de changement de bases) de la forme ( ) λ L 0 B où L M 1,n (K) et B M n (K). Alors, on a χ A (X) = (X λ)χ B (X) et donc χ B est scindé sur K. Par hypothèse de récurrence, il existe une matrice Q Gl n (K) telle que Q 1 BQ soit triangulaire supérieure. En effectuant les calculs par blocs, il est immédiat que ( ) ( ) est inversible, d inverse 0 Q 0 Q 1, 178
187 et on a ( )( ) ( ) 1 0 λ L Q 1 = 0 B 0 Q ( ) λ LQ 0 Q 1, BQ ) ( 1 0 qui est triangulaire supérieure. Finalement, en posant P = P 1 0 Q P 1 AP est triangulaire supérieure, d où le résultat. Corollaire Toute matrice de M n (C) est trigonalisable., on a P Gl n+1 (K) et Démonstration Le polynôme caractéristique d une matrice complexe est scindé sur C, comme tout polynôme à coefficients dans C (théorème de d Alembert-Gauss). Le résultat vient donc du théorème précédent. Propriété Soit u L (E). On suppose que χ u est scindé sur K et on note λ 1,...,λ n les valeurs propres de u, comptées avec multiplicité. Alors det(u) = n λ i et Tr(u) = i=1 On a un résultat analogue pour une matrice carrée. n λ i. i=1 Démonstration D après le théorème précédent, u est trigonalisable. Il existe donc une base de E dans laquelle la matrice de u est de la forme λ 1. T = , 0 0 λ n Alors n det(u) = det(t) = λ i et Tr(u) = Tr(T) = i=1 n λ i. i=1 Rappel Le résultat concernant le déterminant avait déjà été démontré plus haut en calculant de deux façons le coefficient constant de χ u. Remarque Une méthode numérique de calcul d une valeur propre Soit A M n (C) (n 2). On note λ 1,...,λ n les valeurs propres de A, classées par module croissant, et on suppose que λ n est l unique valeur propre de plus grand module (en particulier, on a λ n 0). En raisonnant comme ci-dessus, on a, pour tout k N, et Tr(A k ) = (λ 1 ) k + + (λ n ) k, donc Tr(A k ) (λ n ) k Tr(A k+1 ) Tr(A k ) (λ n) k+1 (λ n ) k = λ n. Ainsi le quotient des traces de deux puissances itérées successives de A permet une approximation numérique, programmable sur ordinateur, de λ n, valeur propre de plus grand module de A. L intérêt d une telle méthode est qu elle ne nécessite pas le calcul de χ A puis la résolution de l équation polynomiale χ A (λ) = 0. En revanche, elle ne donne pas toutes les valeurs propres. 179
188 Testons cette méthode numériquement avec le module numpy de Python : >>> import numpy as np >>> import numpy.linalg as npl >>> B = np.array([[2,0,4],[3,-4,12],[1,-2,5]]) >>> np.trace(npl.matrix_power(b,10))/np.trace(npl.matrix_power(b,9)) >>> np.trace(npl.matrix_power(b,20))/np.trace(npl.matrix_power(b,19)) >>> npl.eigvals(b) array([ e+00, e-15, e+00]) On a fait appel à la fonction eigvals, qui donne un tableau des valeurs propres (approchées) d une matrice, afin de comparer les résultats. On rappelle que l on avait obtenu, par le calcul de χ B, que les valeurs propres de B sont 0, 1 et 2 (voir page 174). Exemple Suites récurrentes linéaires d ordre n 2 Dans le chapitre Espaces vectoriels et applications linéaires, on s est intéressé aux suites d éléments de K vérifiant la relation de récurrence : k N, u k+2 + au k+1 + bu k = 0, et la condition initiale u 0 = x, u 1 = y. Nous avons entièrement décrit ces suites. La réduction donne un nouvel éclairage à ce problème : notons, pour tout entier naturel k, ( ) uk X k =. u k+1 Alors, pour tout k N, la relation u k+2 + au k+1 + bu k = 0 équivaut à : ( ) ( )( ) uk uk X k+1 = = = AX u k+2 b a u k, k+1 où A = ( ) 0 1. b a L avantage principal de cette présentation est d avoir transformé une relation d ordre 2 en une relation d ordre 1 : on se ramène à une suite géométrique dont la «raison» est la matrice A. En particulier, pour tout entier naturel k, ( ) ( ) X k = A k uk X 0, i.e. = A k u0. u 1 On en déduira immédiatement u k. L inconvénient est que cette relation n a plus lieu dans K mais dans M 2,1 (K) : l étude du problème n est pas évidente car il nous faudrait déterminer les puissances de la matrice A. Essayons donc de trouver une forme réduite intéressante pour cette matrice. Son polynôme caractéristique est χ A (X) = X 1 b X + a = X(X + a) + b = X2 + ax + b. u k+1 Il s agit du polynôme définissant l équation caractéristique. En particulier, si l équation caractéristique a deux solutions distinctes r 1 et r 2 dans K, alors A est diagonalisable et, en notant P la matrice de passage de la base canonique de M 2,1 (K) à une base de vecteurs propres de A, on a ( ) r1 0 A = P P 1, 0 r 2 180
189 et donc pour tout entier naturel k, A k = P ( (r1 ) k ) 0 0 (r 2 ) k P 1. Après avoir fait le produit par P, P 1 et X 0, on retrouve bien le fait qu il existe (λ,µ) K 2 tel que, pour tout k N, u k = λ(r 1 ) k + µ(r 2 ) k, où λ et µ dépendent de u 0, u 1, r 1 et r 2. Si l équation caractéristique a une solution double r dans K, alors A n est pas diagonalisable : en effet, si A était diagonalisable, elle serait semblable à la matrice ri 2 qui commute avec toute matrice; A serait donc égale à ri 2, ce qui n est pas le cas. En revanche, A est trigonalisable car χ A est scindé sur K ; montrons qu il existe une matrice inversible P telle que ( ) r 1 A = P P 1. 0 r Ceci équivaut à l existence d une base (e 1,e 2 ) de M 2,1 (K) telle que { Ae1 = re 1 Ae 2 = e 1 + re 2 ce qui équivaut à { (A ri2 )e 1 = 0 (A ri 2 )e 2 = e 1 i.e. à { (A ri2 ) 2 e 2 = 0 (A ri 2 )e 2 = e 1 Le polynôme caractéristique de A étant (X r) 2, le théorème de Cayley-Hamilton montre que (A ri 2 ) 2 = 0, la première relation du système précédent est donc toujours vraie. Soit donc e 2 M 2,1 (K) et e 1 = (A ri 2 )e 2. Pour que e 1 soit non nul, on impose de plus que e 2 / Ker(A ri 2 ). Ceci est possible car Ker(A ri 2 ) n est pas égal à M 2,1 (K), la matrice A n étant pas égale à ri 2. Il reste seulement à montrer que (e 1,e 2 ) est une base de M 2,1 (K), et par raison de dimension, qu elle est libre. Soit donc (λ,µ) K 2 tel que λe 1 +µe 2 = 0. En multipliant à gauche par A ri 2, on obtient λ(a ri 2 )e 1 + µ(a ri 2 )e 2 = 0 i.e. µe 1 = 0. Comme e 1 0, on en déduit µ = 0. La relation initiale donne alors λe 1 = 0, d où λ = 0 et le résultat. ( ) ( ) r 1 r 1 Par construction, la matrice de u A dans cette base est, donc A est semblable à. 0 r 0 r Or, une récurrence immédiate montre que pour tout entier naturel k 1, ( ) k r 1 = 0 r ( r k kr k 1 0 r k On retrouve le fait qu il existe (λ,µ) K 2 tel que, pour tout k N, où λ et µ dépendent de u 0, u 1 et r. ). u k = λr k + µ kr k = (λ + µk)r k, Cette méthode se généralise aux relations de récurrence linéaires scalaires d ordre n 2 quelconque : si (a 0,...,a n 1 ) K n, une suite (u k ) k N vérifie la relation de récurrence k N, u k+n + a n 1 u k+n a 0 u k = 0 si et seulement si la suite vectorielle (X k ) k N définie par X k = u k.. u k+n 1 181
190 vérifie la relation d ordre 1 où k N, X k+1 = AX k, A = a 0 a 1 a n 1 M n (K). Dans le cas où A est diagonalisable, on sait en déduire X k, et donc u k, pour tout k. Remarque Calcul des puissances d une matrice Le calcul de puissances ci-dessus (cas d une racine double) est un cas particulier d une méthode plus générale pour calculer les puissances d une matrice triangulaire supérieure A de la forme α I n +N, où α I n est la partie diagonale de A, et N (comme «nilpotente») sa partie triangulaire «strictement supérieure». Dans ce cas, α I n et N commutent, donc d après la formule du binôme de Newton, pour tout k N, k ( ) A k k = α k j N j. j j=0 L avantage de cette décomposition est que N j = 0 pour tout j n. Le nombre de termes dans la somme est donc au plus n, quelle que soit la valeur de k. Par exemple, pour tout k N, ( ) k 2 3 = 0 2 On a donc, pour tout k 1, (( ) ( ) k ( 2 3 = 2 k ) ( )) k 0 3 = 0 0 k j=0 ( ) + k 2 k = 0 0 ( ) ( ) j k 2 k j 0 3. j 0 0 ( 2 k 3k2 k 1 ) 0 2 k et cette formule est d ailleurs aussi valable pour k = 0. Comme nous l avions expliqué dans le chapitre Matrices, on peut aussi effectuer le calcul des puissances k-ièmes d une matrice carrée A à partir d un polynôme annulateur P de A (par exemple son polynôme caractéristique), en déterminant le reste de la division euclidienne de X k par P. Ce calcul est d autant plus simple que le degré de P est petit. 182
191 Chapitre 9 Espaces probabilisés Dans de nombreuses situations, une expérience, reproduite plusieurs fois dans des conditions apparemment identiques, peut fournir des résultats différents et imprévisibles. Lorsque l on lance une pièce en l air, si l on avait une parfaite connaissance de toutes les données (sur la pièce, la façon dont elle est lancée, la constitution et le mouvement de l air ambiant, les équations des différents mouvements, le moment où la personne rattrape la pièce,...) on serait peut-être en mesure de prévoir si le résultat obtenu est «pile» ou «face». En pratique, une telle connaissance est sans doute impossible, et la moindre variation dans les conditions de l expérience peut avoir sur le résultat une influence qui le rend impossible à prévoir. On considère que de tels phénomènes relèvent de l aléatoire, du hasard (parmi ces phénomènes, on peut aussi citer le comportement de particules physiques, l évolution du cours de la bourse, la démographie, les jeux de hasard). Pour les étudier, on ne cherche pas à prévoir leur résultat mais on s attache à mesurer les «chances» ou le «risque» qu un événement se réalise. La théorie des probabilités donne un cadre mathématique à ce que l on entend par «expérience aléatoire» et développe des outils permettant l étude des phénomènes associés. Dans tout le chapitre, Ω est un ensemble; P(Ω) désigne la collection de toutes les parties de Ω. I. Ensembles dénombrables En première année ont été étudiées des expériences aléatoires ayant un nombre fini de résultats possibles. De nombreuses expériences aléatoires ont un nombre infini de résultats possibles. Mais il convient de distinguer plusieurs types d infinis, ce qui mène à définir la notion d ensemble dénombrable. Intuitivement, un ensemble est dénombrable si l on peut «étiqueter» ses éléments, c est-àdire en dresser une liste exhaustive où chaque élément est repéré par un nombre, l ensemble de ces nombres parcourant N. Mathématiquement, cela s écrit ainsi : Définition Ensemble dénombrable Soit E un ensemble. On dit que E est dénombrable si E est en bijection avec N, c est-à-dire s il existe une bijection ϕ de N sur E. Dans ce cas, on peut noter, pour tout n N, x n = ϕ(n), et on a donc E = {x n ; n N}. C est ce que l on appelle décrire E en extension. Exemples L ensemble N est bien sûr dénombrable (choisir ϕ = Id), c est en quelque sorte le modèle d ensemble dénombrable. L ensemble 2N des entiers naturels pairs est dénombrable : ϕ : n 2n est une bijection de N sur 2N. 183
192 Remarques Quitte à faire un changement d indice, on peut toujours se ramener à une bijection de N sur E dans la définition précédente. On montre facilement que les ensembles finis ou dénombrables sont les ensembles qui sont en bijection avec une partie I de N. Dans le cas où E est fini, on peut choisir I = [1,m] avec m = card(e); on peut aussi décrire E en extension sous la forme E = {x 1,...,x m }. Propriété L ensemble Z est dénombrable. Démonstration Soit ϕ l application ainsi définie : pour tout k N, ϕ(2k) = k, ϕ(2k + 1) = k + 1. Il s agit d une bijection de N sur Z, ce qui prouve le résultat. Propriété Un produit cartésien d ensembles dénombrables est dénombrable. Démonstration Soient E 1 et E 2 deux ensembles dénombrables, ϕ une bijection de N sur E 1, ψ une bijection de N sur E 2. L idée est la suivante : si E 1 et E 2 sont décrits en extension sous la forme E 1 = {x n ; n N}, E 2 = {y n ; n N}, on peut décrire E 1 E 2 en extension sous la forme E 1 E 2 = {(x 0,y 0 ),(x 0,y 1 ),(x 1,y 0 ),(x 0,y 2 ),(x 1,y 1 ),(x 2,y 0 ),(x 3,y 0 ),...}. Ce principe est illustré sur le graphique suivant dans le cas de N 2 : Pour construire explicitement une bijection Φ de N sur E 1 E 2 qui correspond à la description précédente, on peut procéder ainsi : pour tout n N, soit k l unique entier naturel tel que k n < k + (k + 1) (k = 0 si n = 0, k = 1 si n [1,2]), et soient i = n ( k), j = k i. On pose alors Φ(n) = (x i,y j ). On vérifie facilement que Φ convient. Exemples Pour tout n N, N n, Z n sont dénombrables. L ensemble des matrices de M n (R) dont les coefficients appartiennent à Z est en bijection avec Z n2 qui est dénombrable, il est donc également en bijection avec N, et ainsi dénombrable. L idée mise en oeuvre dans la démonstration précédente peut être utilisée pour montrer que Q est dénombrable. En revanche, R n est pas dénombrable. 184
193 II. Espaces probabilisés 1. Tribu, probabilité Modéliser une expérience aléatoire (afin de pouvoir l étudier), c est choisir : un ensemble Ω qui permet de représenter toutes les issues de l expérience, c est-à-dire tous les résultats possibles de l expérience. L ensemble Ω est appelé univers. une probabilité sur Ω, qui est une fonction sur Ω ayant certaines propriétés qui font que cette fonction peut être choisie pour «mesurer les chances» qu un résultat ou ensemble de résultats possibles de l expérience (ce que l on appelle sous certaines conditions un événement), se réalise. Exemples Une expérience aléatoire ayant deux issues, l une (interprétée comme succès) de probabilité p, et l autre (échec) de probabilité q = 1 p, est appelée épreuve de Bernoulli de paramètre p. C est le cas de l expérience consistant à lancer une fois une pièce non nécessairement équilibrée (avec par exemple, p la probabilité d obtenir «pile», q celle d obtenir «face»). L expérience aléatoire consistant à lancer une fois un dé équilibré et à noter le résultat obtenu peut être modélisée de la façon suivante : l ensemble des issues est Ω = {1,2,3,4,5,6}, le fait que le dé soit équilibré se traduit par le choix de la probabilité uniforme sur Ω, c est-à-dire que chacun des résultats possibles a la probabilité 1/6 de se réaliser. Le sous-ensemble {2,4,6} de Ω est l événement que l on peut décrire en français comme «le résultat est un nombre pair». Une personne se lève de façon aléatoire à 7h00 ou 7h05 ou 7h10 ou 7h15. Pour son petit déjeuner, elle choisit au hasard soit des tartines, soit des céréales. En numérotant 1, 2, 3 et 4 les horaires possibles de lever, et en notant T et C les deux petits déjeuners possibles, on peut modéliser l expérience aléatoire consistant à observer, un jour, l heure de réveil et le choix de petit déjeuner de cette personne, par le choix de Ω = {(1,C),(1,T),(2,C),(2,T),(3,C),(3,T),(4,C),(4,T)}, chaque élément ayant par exemple une probabilité 1/8 de se produire. Selon la connaissance que l on a de la situation, on peut bien sûr être amené à choisir des valeurs de probabilités différentes. On peut bien sûr imaginer des expériences aléatoires plus complexes, par exemple des lancers successifs de pièces jusqu à obtenir «pile» trois fois de suite, l observation du déplacement d un insecte sur une surface plane, la trajectoire d une balle de tennis. Dans ce cas, déterminer l ensemble des issues peut être très complexe, cet ensemble peut notamment être infini. Pour cette raison, on est amené à préciser ce que l on entend par événement : Définition Tribu Soit Ω un ensemble. On appelle tribu sur Ω une partie A de P(Ω) telle que : Ω A, Pour tout A A, le complémentaire de A, i.e. A = Ω \ A, appartient à A. Pour toute suite (A n ) n N d éléments de A, la réunion + n=0 A n appartient à A. Lorsque A est une tribu sur Ω, l ensemble Ω est appelé univers, et les éléments de A (qui sont des parties de Ω) sont appelés les événements. Remarques Les opérations ensemblistes correspondent bien sûr à des opérations logiques : le passage au complémentaire traduit la négation, la réunion correspond à «ou». Une tribu rassemble tous les événements observables lors de l expérience aléatoire considérée, et la définition précédente fixe les règles fondamentales de logique permettant de combiner ces événements. 185
194 Il est notamment important de savoir passer de la description d un événement par une phrase en français à sa description par opérations ensemblistes à partir d autres événements, et inversement. D après les deux premiers points, = Ω est un événement. Si (A n ) n N est une suite d éléments de A, + n=0 A n = {ω Ω; n N, ω A n }. C est l ensemble des éléments de Ω qui appartiennent à au moins l un des A n, i.e., l événement «l un au moins des événements A n est réalisé». La collection P(Ω) des parties de Ω est une tribu sur Ω (tribu triviale). De même, {,Ω} est une tribu sur Ω (tribu grossière). Pour modéliser une expérience aléatoire ayant un nombre fini de résultats possibles, on choisit Ω de sorte que A = P(Ω). C est aussi souvent le cas lorsque l ensemble des résultats est dénombrable. Par exemple, considérons un dé à six faces sur lequel la face portant le numéro 1 est gravée de façon habituelle, et les autres faces de sorte que le numéro ne soit lisible qu au microscope. Si l expérience consistant à lancer une fois ce dé est réalisée avec microscope, on choisira pour univers Ω = {1,2,3,4,5,6}, mais si elle est réalisée sans microscope, on choisira par exemple Ω = {1,A}, où A représente l ensemble des autres faces que celle numérotée 1. Dans ce cas, par exemple, 2 ne doit pas être considéré comme une issue, sinon {2} serait un événement (puisque A = P(Ω)), alors que le résultat 2 n est pas observable dans les conditions de l expérience. En revanche, dans le cas général, choisir A = P(Ω) est possible mais pas toujours adapté. Propriété Soit A une tribu sur Ω et (A n ) n N une suite d événements. Alors + n=0 A n A. Ainsi, A est stable par intersection dénombrable : une intersection dénombrable d événements est un événement. Démonstration Notons B = + n=0 A n. Alors B = + n=0 A n A car pour tout n N, A n A, et A est stable par réunion dénombrable. Alors, par passage au complémentaire, B A. Remarques Avec les notations précédentes, + n=0 A n = {ω Ω; n N, ω A n }. C est l ensemble des éléments de Ω qui appartiennent à tous les A n, i.e., l événement «tous les événements A n sont réalisés». Si A 0,...,A n sont des événements, en posant A k = A n pour tout k n + 1, on a + n A k = k=0 k=0 A k et + n A k = A k. k=0 k=0 186
195 On voit donc qu une tribu est également stable par réunion et intersection finie. Le tableau suivant définit un certain nombre de termes du vocabulaire des probabilités, en parallèle avec le vocabulaire ensembliste : Vocabulaire ensembliste Vocabulaire des probabilités Ensemble Ω Univers, événement certain Élément ω de Ω Issue (ou résultat possible, ou réalisation) A A (A P(Ω) si Ω est fini) Événement A ω A L issue ω réalise l événement A Si Ω est fini par exemple : singleton {ω} Événement élémentaire Ensemble vide Événement impossible (jamais réalisé) Réunion A B Événement «A ou B» Réunion + n=0 A n Événement «l un au moins des A n est réalisé» Intersection A B Événement «A et B» Intersection + n=0 A n Événement «tous les A n sont réalisés» Complémentaire A = Ω \ A Événement contraire Parties disjointes : A B = Événements incompatibles Définition Système complet d événements On appelle système complet (dénombrable) d événements toute suite (A n ) n N d événements telle que : Les événements A n sont deux à deux incompatibles, + A n = Ω. n=0 Remarques On définit comme en première année les systèmes complets (finis) d événements, les A n étant en nombre fini. Un système complet d événement permet de partitionner l univers en plusieurs événements, ce qui permet de faire des disjonctions de cas dans les raisonnements. Exemples Si A est un événement, (A,A) est un système complet d événements. On lance un dé à six faces. Pour n [1,6], on note A n l événement «le numéro obtenu est n». La famille (A i ) 1 i 6 est un système complet d événements. Définition Probabilité Soient Ω un ensemble et A une tribu sur Ω. On appelle probabilité sur (Ω,A ) une application P : A [0,1] telle que : P(Ω) = 1, Pour toute suite (A n ) n N d éléments de A deux à deux incompatibles, la série n 0 P(A n) converge et ( + ) + P A n = P(A n ). n=0 Lorsque P est une probabilité sur (Ω,A ), on dit que le triplet (Ω,A,P) est un espace probabilisé. Deux événements A et B tels que P(A) = P(B) sont dits équiprobables. n=0 187
196 Remarques La probabilité d un événement A s interprète comme la «mesure» de l ensemble des issues constituant A relativement à l ensemble des issues. C est, de façon imagée, le «poids relatif», la proportion de A dans l univers Ω. Si (A n ) n N est un système complet d événements, n 0 P(A n) converge et a pour somme 1. Cas des univers finis Si Ω est un ensemble fini de cardinal N, la définition précédente est équivalente à la définition donnée en première année, dans laquelle le deuxième point était remplacé par la propriété : si A et B sont deux événements incompatibles, P(A B) = P(A) + P(B). Dans ce cas, on choisit toujours A = P(Ω). On dit alors simplement que le couple (Ω,P) est un espace probabilisé fini. Avec la règle de calcul ci-dessus, la fonction P est entièrement déterminée par la donnée des probabilités des événements élémentaires : pour tout A Ω, P(A) = ω AP({ω}). On définit la probabilité uniforme sur Ω en posant, pour tout ω Ω, P({ω}) = 1/N, c està-dire que tous les événements élémentaires sont équiprobables. C est le cas dans le deuxième exemple décrit plus haut (lancer de dé). On a alors, pour tout événement A, P(A) = ω A ce que l on résume souvent ainsi : P({ω}) = card(a) 1 N = card(a) card(ω), P(A) = nombre de cas favorables nombre de cas possibles. Le fait de choisir la probabilité uniforme est souvent signalé par des expressions comme «la pièce est équilibrée», «le dé est équilibré», «les billes sont indiscernables au toucher et le contenu de l urne est soigneusement mélangé», etc... On remarque immédiatement que la situation est plus complexe lorsque l univers est infini : il n est pas possible de généraliser la notion précédente de probabilité uniforme. Cas des univers dénombrables Soit Ω un ensemble dénombrable, avec Ω = {x n ; n N}, et soit (p n ) n N une suite de nombres positifs telle que la série n 0 p n soit convergente et de somme 1. Si A P(Ω), on pose P(A) = x n A p n. Alors on pourra vérifier que (Ω,P(Ω),P) est un espace probabilisé, p n étant pour tout n N la probabilité de l événement élémentaire {x n }. Dans ce qui précède, la notation x p n A n est intuitive, mais lorsque Ω est dénombrable, il convient de l expliquer. Dans ce cas, A est lui-même fini ou dénombrable, et peut-être décrit en extension sous la forme (x ϕ(1),...,x ϕ(m) ) (où m = card(a)) ou {x ϕ(k) ; k N} (où ϕ est une bijection de N sur N). Alors x p n A n s exprime comme une somme finie ou une somme de série convergente : m + p n = ou p n = p ϕ(k). x n A k=1 p ϕ(k) x n A Par exemple, si Ω = N et A = 2N = {2k; k N}, alors P(A) = + k=0 P({2k}). Exemples Une personne participe à un jeu dans lequel elle remporte une somme d argent (un nombre entier naturel d euros) déterminée de façon aléatoire. On modélise ce jeu de la façon suivante : k=0 188
197 Ω = N, l événement «la personne gagne n euros» est le singleton {n}. On pose p 0 = 0 et, pour tout n N, p n = P({n}) = 1 2 n. La série n 1 p n (série géométrique de raison 1/2 et de premier terme 1/2) converge et + n=0 p n = + n=1 1 2 n = /2 = 1. Le triplet (N,P(N),P) est un espace probabilisé modélisant cette expérience. Considérons l événement A suivant : «la personne remporte une somme paire». On a alors A = {ω N; k N, ω = 2k} = + k=0 {2k}. Les événements {2k} sont deux à deux incompatibles, donc par définition d une probabilité, P(A) = + k=0 P({2k}) = p k=1 p 2k = + k= k = /4 = 1 3. Fixons p N et considérons l événement S p suivant : «la personne remporte une somme strictement supérieure à p euros». On a alors S p = {ω N; n N; n > p, ω = n} = + n=p+1 Les événements {n} pour n > p sont deux à deux incompatibles, donc P(S p ) = + n=p+1 P({n}) = + n=p+1 {n}. 1 2 n = 1 2 p /2 = 1 2 p. La personne a autant de chances de remporter exactement p euros que de remporter une somme au moins égale à p + 1 euros. L expérience consistant à lancer indéfiniment une pièce (jeu de pile ou face infini) peut-être modélisée par le choix de Ω = {0,1} N des suites à termes dans {0,1} indexées à partir de 1. Cet ensemble n est pas dénombrable, il n est alors pas évident de définir une tribu A sur Ω et une probabilité sur (Ω,A ). Il existe une tribu A sur Ω qui contient toutes les parties de Ω constituées des éléments dont les premiers termes sont imposés, c est-à-dire les parties C u1,...,u k = {ω = (ω n ) n N ; ω 1 = u 1,, ω k = u k } où k N et (u 1,... u k ) {0,1} k représente les k premiers termes imposés. Ce sont des événements naturels. Il existe alors une probabilité P sur (Ω,A ) telle que, avec les notations précédentes, P(C u1,...,u k ) = 1 2 k. Par exemple, «le résultat du second lancer est pile» est un événement : il s agit de C 0,1 C 1,1. On note A 0 l événément «on n obtient jamais pile», et pour tout n N, A n l événement «on obtient pile pour la première fois au n-ième lancer». La famille (A n ) n N est un système complet dénombrable d événements. Il existe une tribu A sur [0,1] qui contient les segments inclus dans [0,1], et une probabilité P sur (Ω,A ) telle que pour tout segment [a,b] inclus dans [0,1], on ait P([a,b]) = b a. L espace probabilisé ([0,1],A,P) peut modéliser par exemple l expérience consistant à noter le moment où une particule se désintègre, l intervalle de temps étant ramené à [0,1] si l on est sûr que la désintégration a lieu avant un temps connu. 189
198 Remarques Un événement peut tout à fait avoir une probabilité nulle sans être impossible. C est le cas de tous les singletons dans l exemple précédent. En particulier, la définition P(A) = ω A P({ω}) est impossible à généraliser dans ce cadre. Lorsque Ω n est pas dénombrable, P n est presque jamais définie en donnant la probabilité de tous les événements ; on peut par exemple donner (en analysant les conditions de l expérience) la probabilité d événements fondamentaux à partir desquels on peut retrouver toutes les probabilités souhaitées, en utilisant les règles de calculs imposées. Dans l exemple du jeu de pile ou face infini, l événement A : «le résultat du second lancer est pile» est la réunion des deux événements incompatibles C 0,1 et C 1,1, chacun de probabilité 1/4; on a donc (voir la propriété suivante) P(A) = 1/2. Ce raisonnement se généralise et montre que pour tout k N, la probabilité d obtenir k résultats fixés est 1/2 k (et en particulier, à chaque lancer, la probabilité d obtenir «pile» est 1/2) : en fait, cette modélisation porte en elle le fait que la pièce est équilibrée et que chaque lancer est indépendant de tous les autres (cette notion sera précisée dans la suite). 2. Propriétés élémentaires Propriété Soit (Ω,A,P) un espace probabilisé. P( ) = 0. Pour tout événement A, P(A) = 1 P(A). Si n N et A 0,...,A n sont des événements deux à deux incompatibles, l événement n k=0 A k vérifie ( n ) n P A k = P(A k ). Si A et B sont des événements avec A B, alors P(A) P(B). k=0 k=0 Si A et B sont des événements, l événement A B vérifie P(A B) = P(A) + P(B) P(A B). Si n N et A 0,...,A n sont des événements, ( n ) n P A k P(A k ). k=0 k=0 Démonstration Posons B n = pour tout n N. Les événements B n sont deux à deux incompatibles donc n 0 P(B n) = n 0 P( ) converge. Cette série étant à termes constant, on a P( ) = 0. Posons B 0 = A, B 1 = A et B n = si n 2. Les B n sont des événements deux à deux incompatibles donc la série n 0 P(B n) converge et ( + ) P B n = n=0 + n=0 Sachant que P(Ω) = 1, on obtient le résultat. P(B n ), i.e. P(Ω) = P(A) + P(A) d après le point 1. Posons A k = pour tout k n + 1. Les A k sont deux à deux incompatibles, donc ( n ) ( + ) P A k = P A k = k=0 k= k=0 P(A k ) = n P(A k ). k=0
199 On écrit B = A (B A). Les événements A et B A = B \ A sont incompatibles, donc P(B) = P(A) + P(B A) P(A). Posons B 0 = A B, B 1 = A B, B 2 = A B. Alors B 0, B 1 et B 2 sont des événements deux à deux incompatibles et A B = B 0 B 1 B 2, donc d après le point précédent, Mais on a également P(A B) = P(A B) + P(A B) + P(A B). P(A) = P(A B) + P(A B) et P(B) = P(A B) + P(A B). Ainsi P(A B) = P(A) P(A B) + P(B) P(A B) + P(A B) = P(A) + P(B) P(A B). On remarquera en particulier que P(A B) P(A) + P(B). On prouve cette dernière propriété par récurrence sur n, à partir de l inégalité ci-dessus. Propriété Soient (Ω,A,P) un espace probabilisé et (A n ) n N une suite d événements. Continuité croissante : si pour tout n N, A n A n+1, alors ( + ) P(A n ) P A k. n + Continuité décroissante : si pour tout n N, A n+1 A n, alors ( + ) P(A n ) P A k. n + k=0 k=0 Sous-additivité : si n 0 P(A n) converge, alors ( + ) P A n n=0 + n=0 P(A n ). Démonstration Posons B 0 = A 0 et pour tout k N, B k = A k A k 1 = A k \ A k 1. Alors + k=0 A k = les événements B k étant deux à deux incompatibles : s il existait (n,m) N 2 tel que n < m et B n B m, on pourrait trouver un élément ω de A n n appartenant pas à A m 1, ce qui est absurde car A n A m 1. Mais, d après la démonstration de la propriété précédente, pour tout k N, Finalement, ( + ) P A k = k=0 + k=0 + k=0 B k, P(A k A k 1 ) = P(A k ) P(A k 1 ). P(B k ) = P(B 0 ) + + k=1 P(A k A k 1 ) = P(A 0 ) k=1 (P(A k ) P(A k 1 )).
200 On reconnaît une somme de série télescopique, et on conclut en rappelant que pour tout n N, n (P(A k ) P(A k 1 )) = P(A n ) P(A 0 ). k=1 Posons, pour tout k N, B k = A k. Alors, pour tout k N, B k est un événement et B k B k+1. D après le point précédent, ( + ) P(B n ) P B k, n + c est-à-dire 1 P(A n ) n + 1 P k=0 ( + ) ( + ) B k = 1 P A k, k=0 d où le résultat. On remarquera que la suite (P(A n )) n N est décroissante. Posons, pour tout n N, B n = n k=0 A k. Alors pour tout n N, B n est un événement et B n B n+1, donc d après la propriété de continuité croissante, ( + ) ( P(B n ) P + ) B k = P A k. n + Mais d après le dernier point de la propriété précédente, on obtient, pour tout n N, k=0 P(B n ) n P(A k ). En passant à la limite lorsque n +, on obtient l inégalité souhaitée. Exemples k=0 Dans le jeu de pile ou face infini, soit A l événement «on obtient pile au moins deux fois», et pour tout n 2, A n l événement «on obtient pile au moins deux fois au cours des n premiers lancers». Réaliser A n revient à obtenir pile aucune fois ou une fois exactement au cours des n premiers lancers : A n est la réunion des événements deux à deux incompatibles C u1,...,u n où les u i sont tous nuls, ou bien tous nuls sauf un. Ces événements sont au nombre de n+1 et ont tous pour probabilité 1/2 n, donc P(A n ) = 1 n n. De plus, pour tout n 2, A n A n+1 ; enfin, A = + n=2 A n. Ainsi, P(A) = lim n + P(A n) = 1 par croissances comparées. Soit (A k ) k N une suite d événements. Pour tout n N, notons B n l événement + k=n A k ; notons également B l événement + n=0 B n. Ainsi, ( + + ) B = A k. n=0 Il s agit de l événement «une infinité des A k sont réalisés». En effet, ω B si et seulement si pour tout n N, il existe k n tel que ω A k, ce qui équivaut au fait que ω appartient à une infinité de A k. Supposons que la série k 0 P(A k) converge. Pour tout n N, B n+1 B n, donc d après la propriété de continuité décroissante, k=n P(B n ) n + P(B). 192 k=0 k=0
201 Or, d après la propriété de sous-additivité et le fait que k 0 P(A k) converge, on a pour tout n N, P(B n ) + k=n P(A k ), le majorant tendant vers 0 en tant que reste d une série convergente. Une probabilité étant positive, on en déduit que P(B n ) 0, et donc P(B) = 0. Cette propriété s écrit ainsi : presque sûrement, le nombre des événements A n qui sont réalisés est fini. III. Probabilités conditionnelles 1. Conditionnement Lors d une expérience aléatoire, le fait de savoir (ou d imaginer) qu un événement est réalisé revient à ajouter de l information sur l expérience, et peut modifier notre façon de calculer la probabilité de certains événements. C est ce que l on appelle les probabilités conditionnelles. Soit (Ω,A,P) un espace probabilisé. Supposons que A soit un événement tel que P(A) > 0. Calculer la probabilité qu un événement B soit réalisé en sachant que l événement A est réalisé revient à considérer, parmi les issues qui réalisent A, celles qui réalisent également B. Tout se passe comme si, pour ce calcul, on considérait l expérience aléatoire à travers le «filtre» de l événement A, comme si l on considérait A comme univers. Définition Probabilité conditionnelle Soit A un événement tel que P(A) > 0. Pour tout événement B, on appelle probabilité conditionnelle de B sachant A le réel, noté P A (B) ou P(B A), défini par P A (B) = P(A B). P(A) On a donc P(A B) = P(B A)P(A). Remarque Sachant que A B A, on a P(A B) P(A), et donc avec le fait que P(A) > 0, on a P A (B) [0,1]. Exemple Reprenons l exemple du petit déjeuner exposé au début de ce chapitre, avec la probabilité définie par le tableau suivant : ω (1,C) (1,T) (2,C) (2,T) (3,C) (3,T) (4,C) (4,T) P({ω}) 0,2 0,05 0,1 0,15 0,05 0,3 0,05 0,1 Notons A l événement «la personne se lève à 7h00» (i.e., l ensemble des issues ω dont la première composante est 1) et B l événement «la personne choisit des céréales» (i.e., l ensemble des issues ω dont la deuxième composante est C). Alors on a P(A) = 0,2 + 0,05 = 0,25, P(B) = 0,2 + 0,1 + 0,05 + 0,05 = 0,4 P(B A) = P(A B) P(A) = 0,2 0,25 = 4 P(A B), P(A B) = = 0,2 5 P(B) 0,4 = 1 2. On notera que le calcul d une probabilité conditionnelle n est pas à confondre avec un lien de cause à effet, on peut calculer P(A B) même si la personne se lève avant de déjeuner! Simplement, quelqu un arrivant chez cette personne après son déjeuner, voyant un bol vide sur la table (et disposant du tableau précédent), peut affirmer qu il y a une chance sur deux que la personne se soit levée à 7h00. Sans cette information, on pouvait donner une probabilité P(A) = 0,25, deux fois moindre! 193
202 Propriété Soit A un événement tel que P(A) > 0. L application P A : { A [0,1] B P A (B) est une probabilité sur (Ω,A ), appelée probabilité conditionnelle sachant A. Démonstration On a remarqué plus haut que P A est à valeurs dans [0,1]. On a P A (Ω) = P(Ω A) P(A) = P(A) P(A) = 1. Enfin, si (B n ) n N est une suite d événements deux à deux incompatibles, on a ( + ) P A B n n=0 ( ) ( = 1 + P(A) P A B n = 1 + ) P(A) P (A B n ). n=0 n=0 Les événements B n sont deux à deux incompatibles, donc les événements A B n également; P étant une probabilité, on a alors ( + ) P A B n n=0 = P(A B n ) + P(A B n ) = = P A (B n ). P(A) P(A) n=0 n=0 n=0 On a vérifié les différentes propriétés qui font de P A une probabilité sur (Ω,A ). Remarque Si P(A) = 0, afin que l égalité P(A B) = P(B A)P(A) reste valable, on pose par convention P(B A)P(A) = 0 (mais le terme P(B A) seul n est pas défini dans ce cas). 2. Propriétés et utilisation des probabilités conditionnelles Propriété Formule des probabilités composées Soient A 1,...,A p des événements (p 2) tels que P(A 1 A p 1 ) > 0. Alors P(A 1 A p ) = P(A 1 )P(A 2 A 1 )P(A 3 A 1 A 2 ) P(A p A 1 A p 1 ). Démonstration On procède par récurrence sur le nombre p 2 d événements : Initialisation (p = 2) : cela résulte de la définition de P(A 2 A 1 ) (on a P(A 1 ) > 0 par hypothèse). Hérédité : supposons le résultat vrai pour un nombre p 2 d événements, et considérons A 1,...,A p+1 des événements tels que P(A 1 A p ) > 0. Alors, par définition P(A 1 A p+1 ) = P(A p+1 A 1 A p )P(A 1 A p ). Or on a également P(A 1 A p 1 ) > 0, et donc par hypothèse de récurrence, P(A 1 A p ) = P(A 1 )P(A 2 A 1 )P(A 3 A 1 A 2 ) P(A p A 1 A p 1 ). Des deux égalités précédentes, on déduit le résultat au rang p + 1 et finalement pour tout p 2 par principe de récurrence. Remarque On réalise parfois des arbres pour représenter une expérience aléatoire. La formule des probabilités composées traduit le fait que la probabilité d un chemin est le produit des probabilités des arêtes qui le composent. 194
203 Exemple Une personne qui se rend au restaurant prend uniquement un plat une fois sur trois, un menu sinon (événement M). Lorsqu elle prend un menu, elle choisit de la viande (événement V ) une fois sur deux. Dans ce cas, elle prend un café (événement C) dans trois fois sur quatre. Les données du problème se traduisent de la manière suivante : P(M) = = 2 3, P(V M) = 1 2, P(C M V ) = 3 4. La probabilité pour que la personne choisisse un menu avec viande puis café est, d après la formule des probabilités composées, P(M V C) = P(M)P(V M)P(C M V ) = = 1 4. Propriété Formule des probabilités totales Soient (A n ) n N un système complet d événements et B un événement. Alors la série n 0 P(B A n) converge, et on a P(B) = + n=0 P(B A n ) = + n=0 P(B A n )P(A n ). Le résultat précédent reste valable dans le cas plus général suivant : (A n ) n N est une suite d événements deux à deux incompatibles tels que + n=0 P(A n ) = 1. Démonstration Il suffit de faire la démonstration sous la deuxième hypothèse, puisqu elle est plus générale. On se place donc dans ce cadre. Tout d abord, la série n 0 P(B A n) converge, car les événements B A n sont deux à deux incompatibles. De plus, notons N l événement Ω \ + n=0 A n. Les A n étant deux à deux incompatibles, ( + ) P A n = n=0 + n=0 P(A n ) = 1 et donc P(N) = 0. En particulier, P(B N) = 0. On a alors B = B Ω = B ( N + n=0 A n ) = (B N) + n=0 (B A n ). Les A n et N forment une famille d événements deux à deux incompatibles, donc c est aussi le cas des B A n et de B N, et on a finalement P(B) = P(B N) + + P(B A n ) = + P(B A n ) = + n=0 n=0 n=0 P(B A n )P(A n ). Cas particulier Lorsque A est un événement, (A, A) est un système complet d événements, donc pour tout événement B, P(B) = P(B A)P(A) + P(B A)P(A). 195
204 Propriété Formules de Bayes Soient A et B deux événements tels que P(B) > 0. Alors P(A B) = P(B A)P(A). P(B) Soient B un événement tel que P(B) > 0 et (A n ) n N une suite d événements deux à deux incompatibles tels que + n=0 P(A n ) = 1. Alors, pour tout j N, P(A j B) = P(B A j)p(a j ). + P(B A n )P(A n ) n=0 Démonstration Sachant que P(B) > 0, on peut écrire P(B A)P(A) P(B) = P(A B) P(B) = P(A B). Il suffit de reprendre la même idée en écrivant de plus que P(B) = la formule des probabilités totales. + n=0 P(B A n )P(A n ) d après Exemple On présente à un candidat trois coffres fermés. L un des coffres contient un lingot d or, les deux autres sont vides. Le candidat choisit un coffre; l organisateur, qui connaît l emplacement du lingot, dévoile, parmi les coffres non choisis, un coffre vide (de façon équiprobable lorsque le candidat a choisi le bon coffre). On propose alors au candidat de maintenir son choix ou de changer de coffre, puis d ouvrir le coffre choisi. Quelle est la meilleure stratégie? Numérotons 1 le coffre choisi par le candidat au début du jeu, et 2, 3 les deux autres coffres. Pour i {2,3}, notons C i l événement «l organisateur ouvre le coffre i» et pour i {1,2,3}, L i l événement «le lingot se trouve dans le coffre i». Le problème revient à comparer P(L 1 C 2 ) et P(L 1 C 2 ) = 1 P(L 1 C 2 ). D après la seconde formule de Bayes, P(C 2 L 1 )P(L 1 ) P(L 1 C 2 ) = P(C 2 L 1 )P(L 1 ) + P(C 2 L 2 )P(L 2 ) + P(C 2 L 3 )P(L 3 ) 1 = = On obtient le même résultat pour P(L 1 C 3 ). La meilleure stratégie est donc de changer de coffre! On remarquera que l on n a pas eu besoin de préciser Ω pour répondre à la question, mais simplement de traduire les conditions de l expérience. On peut souvent admettre l existence de (Ω,A,P). 196
205 IV. Événements indépendants Dans de nombreuses situations, le fait de savoir qu un événement A est réalisé n apporte rien pour le calcul de la probabilité d un événement B. C est la notion d événements indépendants : Propriété/Définition : Événements indépendants Soient A et B deux événements. On dit que A et B sont indépendants si P(A B) = P(A)P(B). Si P(A) > 0, ceci équivaut à : P(B A) = P(B). L équivalence des deux propriétés lorsque P(A) > 0 est immédiate car P(B A) = P(A B). P(A) On remarquera cependant que la deuxième formulation n est pas symétrique en A et B, alors que la première l est. Définition Événements mutuellement indépendants Soient A 1,...,A p des événements. On dit que A 1,...,A p sont mutuellement indépendants si pour tout sous-ensemble J de [1,p], on a ( ) P A n = P(A n ). n J n J Propriété Des événements A 1,...,A p mutuellement indépendants sont deux à deux indépendants. La réciproque est fausse en général : si n 3, l indépendance de n événements deux à deux n entraîne pas leur indépendance mutuelle. Démonstration Si A 1,...,A p sont mutuellement indépendants, alors pour tout (i,j) [1,p] tels que i j, en choisissant J = {i,j} dans la définition, on obtient P(A i A j ) = P(A i )P(A j ). Donc A 1,...,A p sont deux à deux indépendants. En revanche, considérons l exemple suivant : on dispose de quatre livres, un livre de mathématiques, un livre de physique, un livre de chimie, et un livre mathématiques-physique-chimie. On choisit au hasard, avec la probabilité uniforme, un livre parmi les quatre. Notons M, ϕ et C les événements «le livre choisi traite notamment de mathématiques» (respectivement physique, chimie). On a P(M ϕ) = P(M C) = P(ϕ C) = 1 4 P(M)P(ϕ) = P(M)P(C) = P(ϕ)P(C) = ( ) 2 2 = donc les événements M, ϕ et C sont deux à deux indépendants. Pourtant, ils ne sont pas mutuellement indépendants car P(M ϕ C) = 1 4 et P(M)P(ϕ)P(C) = ( ) 2 3 =
206 Remarque Si A et B sont indépendants, alors A et B sont indépendants : en effet, P(A) = P(A B) + P(A B) = P(A)P(B) + P(A B) et donc P(A B) = P(A)(1 P(B)) = P(A)P(B). Plus généralement, si A 1,...,A p sont mutuellement indépendants, et si pour tout i [1,p], B i = A i ou B i = A i, alors B 1,...,B p sont mutuellement indépendants. Exemples Lors d un parcours à vélo, les événements «le trajet est parcouru en moins de n minutes» et l événement «il y a un vent de face de 40 km/h» ne sont sans doute pas toujours indépendants! L indépendance entre événements relève parfois de la modélisation : on postule que certains événements fondamentaux sont indépendants. Par exemple, dans un jeu de pile ou face, on considère dans la plupart des cas que les lancers sont mutuellement indépendants. Ce type d expérience sera d ailleurs plutôt modélisé ainsi, en faisant l hypothèse qu à chaque lancer, «pile» et «face» ont des probabilités d apparition respectives p et q = 1 p, et l hypothèse d indépendance mutuelle des lancers. Lorsque p = q = 1/2, le fait que pour tout n N, les événements consistant à fixer les résultats des n premiers lancers aient pour probabilité 1/2 n, est alors une conséquence de cette modélisation, ce qui est une démarche peut-être plus naturelle que de postuler ces probabilités. Par exemple, l événement «pile apparaît pour la première fois au n-ième lancer» a pour probabilité 1/2 n (car il correspond à n 1 premiers résultats «face» suivis d un résultat «pile»). De plus, l événement «tous les lancers donnent face» est de probabilité nulle : pour tout n N, cet événement est inclus dans un événement de probabilité 1/2 n, celui consistant à fixer n premiers résultats «face». Il suffit alors de faire tendre n vers
207 Chapitre 10 Intégrales généralisées Le but de ce chapitre est de définir l intégrale d une fonction continue par morceaux sur un intervalle quelconque de R ; a et b désignent deux éléments de R {± } tels que a < b (avec des conventions évidentes si a et/ou b est infini), et I désigne un intervalle d extrémités a et b. L intervalle I peut donc être de l une des quatre formes suivantes : [a,b] (avec a et b finis), [a,b[ (avec a fini), ]a,b] (avec b fini), ou ]a,b[. On remarquera que le premier cas correspond à l intégrale sur un segment, et a donc été étudié dans le chapitre Dérivation et intégration des fonctions de R dans K. Enfin, K désigne R ou C. I. Convergence des intégrales généralisées 1. Définitions Définition Convergence d une intégrale généralisée Soit f : I K une fonction continue par morceaux. Si I = [a,b[, on dit que l intégrale généralisée x x a b f(t)dt possède une limite dans K lorsque x b. Si I = ]a,b], on dit que l intégrale généralisée x b x a b f(t)dt possède une limite dans K lorsque x a +. a f(t)dt est convergente si la fonction f(t)dt est convergente si la fonction Dans les deux cas précédents, en cas de convergence, la limite est notée Si I = ]a,b[, on dit que l intégrale généralisée c ]a,b[ tel que les deux intégrales généralisées f(t)dt soient convergentes. Dans ce cas, on pose b a f(t)dt = c a f(t)dt + b c b a c a f(t)dt = lim x a + b a f(t)dt. f(t) dt est convergente s il existe f(t)dt et c x b c y f(t)dt + lim f(t)dt. y b c Dans tous les cas, on dit que l intégrale est divergente si elle n est pas convergente. Remarques On appelle nature d une intégrale généralisée son caractère convergent ou divergent. Par définition, f est continue par morceaux sur I si elle est continue par morceaux sur tout segment de I. Ainsi, lorsque I = [a,b[ par exemple, alors pour tout x [a,b[, l intégrale x a f(t)dt apparaissant dans la définition est l intégrale usuelle de f sur le segment [a,x]. 199
208 Ces définitions sont très similaires à celles de série et de somme de série convergente. En revanche, pour les séries, on distinguait les notations n 0 u n (la suite des sommes partielles) et, en cas de convergence, + n=0 u n (la somme de la série). Ici, la même notation est utilisée pour désigner l intégrale généralisée de f «avant de savoir si elle converge ou diverge», et sa valeur en cas de convergence. Il faut donc être particulièrement vigilant sur le sens des objets utilisés, et notamment, ne pas faire de calculs ou de majorations sur des intégrales généralisées avant d avoir prouvé la convergence de tous les termes. L intervalle I n est pas toujours directement donné : lorsque l on étudie la convergence d une intégrale généralisée b a f(t)dt, il y a trois formes possibles pour I. En pratique, on identifie le plus grand intervalle I d extrémités a et b sur lequel f est continue par morceaux, et on commence toujours la rédaction par une phrase du type «f est continue par morceaux sur I». 2. Intégrales de référence Les intégrales généralisées suivantes sont d utilisation très fréquente. Leur nature est explicitement au programme, mais pas la valeur des deux dernières en cas de convergence. Intégrales de Riemann sur [1, + [ : + 1 dt tα, où α R. La fonction t 1/t α est continue (et donc continue par morceaux) sur [1, + [. Pour x 1, x 1 dt t α = [ t 1 α ] x = 1 ( 1 1 ) 1 α 1 α 1 x α 1 si α 1 ln(x) si α = 1. On en déduit que l intégrale est convergente si et seulement si α > 1, et dans ce cas Intégrales de Riemann sur ]0,1] : dt t α = 1 α 1. dt tα, où α R. La fonction t 1/t α est continue sur ]0,1]. Pour x ]0,1], 1 x dt t α = [ ] t 1 α 1 = 1 ( 1 x 1 α ) si α 1 1 α x 1 α ln(x) si α = 1. On en déduit que l intégrale est convergente si et seulement si α < 1, et dans ce cas dt t α = 1 1 α. e αt dt où α R. La fonction t e αt est continue sur [0, + [. Pour tout x 0, x 0 [ e αt 1 ] x dt = α e αt = 1 0 α (1 e αx ) si α 0 x si α = 0 On en déduit que l intégrale converge si et seulement si α > 0, et dans ce cas + 0 e αt dt = 1 α. 200
209 1 0 ln(t)dt. La fonction ln est continue sur ]0,1]. Pour tout x ]0,1], une intégration par parties (les fonctions t t et t ln(t) étant de classe C 1 sur [x,1]) montre que 1 L intégrale est donc convergente et x ln(t)dt = [t ln(t) t] 1 x 1 0 ln(t)dt = Lien avec l intégrale sur un segment = xln(x) + x 1 x Lorsque f est continue par morceaux sur le segment [a,b] (a et b finis), la notion d intégrale généralisée coïncide avec la notion usuelle définie dans le chapitre Dérivation et intégration des fonctions de R dans K. Propriété Soit f : [a,b] K une application continue par morceaux (a est b sont finis). Alors les trois intégrales de f sur [a,b[, ]a,b] et ]a,b[ sont convergentes, et leur valeur est l intégrale «usuelle» [a,b] f. Démonstration La fonction f est continue par morceaux sur [a,b], elle est donc bornée, d où, pour x [a,b[, x f(t)dt f [a,b] = b f(t)dt (b x) f 0. x b a x On en déduit le résultat dans le cas de l intégrale sur [a,b[. On procède de façon similaire pour l intégrale sur ]a,b], puis, pour l intégrale sur ]a,b[, on découpe les intégrales sur [x,y] ]a,b[ et sur [a,b] en deux, grâce à une borne c ]a,b[ quelconque, et on applique les résultats des deux autres cas. On en déduit en particulier le résultat suivant : Propriété Si b est fini, soit f : [a,b[ K une fonction continue qui admet une limite dans K en b. Alors b a f(t)dt est convergente. On parle de faux problème en b. Démonstration Dans ce cas, f est prolongeable par continuité en b en une fonction f continue sur [a,b]. Alors, pour x [a,b[, x L intégrale est donc convergente. 2π a f(t)dt = x a b f(t)dt x b a f(t)dt. sin(t) Exemple L intégrale dt est convergente : t sin(t)/t est continue sur ]0,1] et 0 t sin(t) sin (0) = 1. Il y a un faux problème en 0. t t 0 Attention! Il n y a pas de faux problème en +. Par exemple, ce n est pas parce qu une fonction f : [a,+ [ K continue par morceaux possède une limite dans K en +, même nulle, que l intégrale + a f(t)dt converge. On l a bien vu avec l exemple de la fonction inverse, dont l intégrale sur [1, + [ diverge. 201
210 Il n y a pas non plus de condition nécessaire de convergence pour les intégrales (et c est là une différence avec les séries) : du fait que b a f(t)dt converge, on ne peut pas déduire que f possède des limites dans K aux bornes de I. On a déjà montré que la fonction logarithme népérien, qui possède une limite infinie en 0 +, a une intégrale convergente sur ]0,1]. On construit même facilement des fonctions continues non bornées sur [0, + [ qui ont une intégrale convergente : penser à une fonction «en triangles» pour laquelle la somme des aires des triangles est la somme d une série convergente. Il ne faut donc pas croire que les problèmes de convergence se traitent uniquement en examinant les limites éventuelles de f aux bornes. 4. Propriétés élémentaires On peut facilement se ramener à des fonctions à valeurs réelles : Propriété Soit f : I C une fonction continue par morceaux. L intégrale b a f(t)dt converge si et seulement si les deux intégrales convergent. Dans ce cas, b a Re(f(t)) dt et b a Im(f(t))dt b a f(t)dt = b a Re(f(t))dt + i b a Im(f(t)) dt. Les propriétés élémentaires de l intégrale sont également valables pour les intégrales généralisées : Propriété Linéarité de l intégration Soient f et g deux fonctions continues par morceaux sur I à valeurs dans K, et λ K. Si b a f(t)dt et b a g(t) dt convergent, alors b a (λf(t) + g(t))dt = λ b a b a (λf(t) + g(t))dt converge et f(t)dt + b a g(t) dt. Propriété Positivité et croissance de l intégrale Soient f et g deux fonctions continues par morceaux sur I à valeurs dans K telles que b a Alors : f(t)dt et b a Si f 0 sur I, Si f g sur I, g(t)dt convergent. On rappelle que a < b. b a b a f(t)dt 0. f(t)dt b a g(t) dt. 202
211 Démonstration des trois propriétés précédentes Il suffit d écrire la propriété correspondante (donnée dans le chapitre Dérivation et intégration des fonctions de R dans K) sur un segment inclus dans I ([a,x], [x,b] ou [x,y] selon la forme de I) puis, en cas de convergence, de passer à la limite. Pour la première propriété, on utilise la caractérisation de la limite à l aide des parties réelle et imaginaire, pour la deuxième, une combinaison linéaire de limites, et pour la troisième, un passage à la limite d inégalités larges. Propriété Relation de Chasles Soit f : I K une fonction continue par morceaux, et soit c I. Si I = [a,b[, alors Si I = ]a,b], alors Si I = ]a,b[, alors convergent. b a b a b f(t) dt converge si et seulement si f(t) dt converge si et seulement si a b c c f(t)dt converge si et seulement si Dans les trois cas, en cas de convergence, on a b a f(t)dt = c a f(t)dt + b c a f(t)dt. f(t) dt converge. f(t) dt converge. c a f(t)dt et b c f(t)dt Démonstration Les deux premiers points sont similaires, on ne traite que le premier. Soit x I ; d après la relation de Chasles pour les segments, x a f(t)dt = c a f(t)dt + x c f(t)dt. Le terme c a f(t)dt étant indépendant de x, les deux autres termes sont de même nature, et en cas de convergence, on a la formule annoncée en faisant tendre x vers b par valeurs inférieures. Dans le cas où I = ]a,b[, si les deux intégrales b a c a f(t)dt et f(t)dt converge et on a la formule annoncée, par définition. Réciproquement, si b a b f(t)dt converge, il existe d I tel que convergent. D après les deux premiers points, pour tout c I, Remarques c a c f(t) dt convergent, alors d f(t)dt et a b f(t)dt et c b d f(t)dt f(t) dt convergent. Le premier point montre bien que le problème de convergence ne vient que du voisinage de b (resp. a) dans le cas d une intégrale généralisée sur [a,b[ (resp ]a,b]). Dans le cas I = ]a,b[, on notera bien la différence entre la propriété ci-dessus (énoncée avec un quantificateur universel : «pour tout c I,...»), et la définition (énoncée avec un quantificateur existentiel : «il existe c I tel que...»). La propriété précédente est donc indispensable, pour prouver que b a f(t)dt ne dépend pas du «découpage» de l intervalle. 203
212 Pour les fonctions à valeurs positives, on a un critère de convergence : Propriété Soit f une fonction continue par morceaux sur I à valeurs réelles positives. Si I = [a,b[, pour que majorée sur [a,b[. Si I = ]a,b], pour que majorée sur ]a,b]. b a b a f(t)dt converge, il faut et il suffit que x f(t)dt converge, il faut et il suffit que x x a b x f(t)dt soit f(t)dt soit Démonstration Dans le premier cas, la fonction x x a f(t)dt est croissante sur [a,b[, le résultat vient donc du théorème de la limite monotone. Le deuxième cas est similaire. II. Intégrales absolument convergentes, fonctions intégrables On rappelle que I est un intervalle quelconque de R d extrémités a et b, éventuellement infinies. 1. Définition, lien avec la convergence Définition Convergence absolue Soit f : I K une fonction continue par morceaux. On dit que l intégrale b a b f(t) dt est convergente. a f(t) dt est absolument convergente si l intégrale Remarque Pour les fonctions de signe constant, les notions d intégrale convergente et absolument convergente coïncident. Pour une fonction de signe quelconque, l intérêt majeur de cette notion est que, comme pour les séries, la convergence absolue entraîne la convergence : Théorème Soit f : I K une fonction continue par morceaux. Si l intégrale b a Dans ce cas, on a f(t)dt est absolument convergente, alors elle est convergente. b a b f(t)dt f(t) dt. a Démonstration On raisonne dans le cas où I = [a,b[, les autres cas sont similaires. L idée est exactement la même que pour les séries. Posons g = Re(f) et g + = max{0,g} = 1 ( g + g), 2 g = max{0, g} = 1 ( g g). 2 Les fonctions g + et g sont continues par morceaux sur I et vérifient 0 g + g Re(f) 2 + Im(f) 2 = f, 0 g g f. 204
213 Pour x [a,b[ par croissance de l intégrale, on a x a g + (t)dt x a f(t) dt. La fonction x x a f(t) dt est majorée sur [a,b[ car b a f(t) dt converge. Il en est donc de même pour la fonction x x a g+ (t) et la fonction g + étant positive, on en déduit que l intégrale b a g+ (t)dt converge. On obtient de même la convergence de b a g (t)dt. On remarque enfin que l on a g = g + g, et donc, par différence, b a g(t)dt converge. On procède de même avec la partie imaginaire Im(f), d où la convergence de b a f(t)dt. En utilisant l inégalité triangulaire sur les segments, puis en passant à la limite, on obtient l inégalité souhaitée. Définition Soit f : I K une fonction continue par morceaux. On dit que f est intégrable sur I si b a f(t) dt est absolument convergente. La valeur de cette intégrale est bien définie d après le théorème précédent. Elle pourra être notée b f(t) dt (notation déjà définie), mais aussi f(t)dt ou f. a I I 2. Théorèmes de comparaison Théorème de comparaison Soient f : [a,b[ K et g : [a,b[ K deux fonctions continues par morceaux. Si f g sur [a,b[, et si g est intégrable sur [a,b[, alors f est intégrable sur [a,b[. On a la même conclusion si l inégalité f g est remplacée par l une des conditions Si f(t) [a,b[. t b f(t) = O(g(t)) ou f(t) = o(g(t)). t b t b g(t), alors f est intégrable sur [a,b[ si et seulement si g est intégrable sur Remarque On adaptera facilement ce théorème au cas d une intégrale généralisée sur ]a,b], et on peut combiner ces résultats pour traiter une intégrale généralisée sur ]a,b[. Démonstration On reprend une idée déjà utilisée ci-dessus. Pour x [a,b[ par croissance de l intégrale, on a x a f(t) dt x a g(t) dt. La fonction g est intégrable sur [a,b[, donc la fonction x x a g(t) est majorée sur [a,b[. Il en est donc de même pour la fonction x x a f(t), ce qui montre que f est intégrable sur [a,b[. Dans ce cas, il existe M > 0 et a 0 [a,b[ tel que pour tout t [a 0,b[, f(t) M g(t). On prouve alors le résultat de la même façon que le premier point, l intégrale de f et g sur [a 0,b[ et l intégrale sur [a,b[ étant de même nature. Le cas d un petit «o» s en déduit car il est contenu dans celui d un grand «O». 205
214 Si f(t) g(t), alors on a f(t) = O(g(t)) et g(t) = O(f(t)). Le résultat vient donc du t b t b t b point précédent. Remarque Ces résultats sont très fréquemment utilisés en association avec les propriétés suivantes que nous avons déjà données : Pour des fonctions positives, l intégrabilité de f sur I équivaut à la convergence de L intégrabilité de f sur I entraîne la convergence de Exemples b a f(t)dt. La fonction t sin(t) t 2 est continue sur [1, + [. Pour tout t 1, sin(t) t 2 1 t 2, b a f(t)dt. et t 1/t 2 est intégrable sur [1, + [ (critère des intégrales de Riemann sur [1, + [, exposant 2 > 1). Par comparaison, la fonction t sin(t) est intégrable sur [1, + [. En particulier, l intégrale La fonction t e t t + 1 t 2 sin(t) t 2 dt converge. est continue sur [1, + [ et à valeurs positives. Pour tout t 1, 0 e t t e t et t e t est intégrable sur R + (intégrale de référence) donc sur [1, + [. Par comparaison, t e t t est intégrable sur [1, + [. La fonction t t cos(t) e t est continue sur ]0, + [. Examinons la convergence éventuelle de 1 + t cos(t) e t dt. Tout d abord, il y a un faux problème en 0 car 1 0 t cos(t) e t 1 t t 0 + t = 1. De plus, pour t > 0 t cos(t) e t 1 t e t 1 avec t e t 1 t t + e t = t + O(e t/2 ) car t e t/2 t + 0. La fonction t e t/2 est intégrable sur [1,+ [, donc par comparaison, t t e t puis t + et t t cos(t) t cos(t) e t sont intégrables sur [1, + [. Finalement, 1 0 e t 1 et donc converge. La fonction t 1 est continue sur [0,1[, à valeurs positives. On a 1 t2 1 1 t 2 = 1 (1 + t)(1 t) t 1 2(1 t). t e t 1 dt converge absolument,
215 Or t 1 1 t n est pas intégrable sur [0,1[, car elle est à valeurs positives et pour tout x [0,1[, x 0 1 dt = ln(1 x) avec ln(1 x) 1 t +. x 1 Par comparaison, t 1 n est pas intégrable sur [0,1[, et comme elle est à valeurs positives, 1 t2 1 dt 0 1 t 2 diverge. La fonction t ln(t) est continue sur [3, + [, à valeurs positives. Pour tout t 3, t ln(t) t et t 1/t n est pas intégrable sur [3, + [. 1 t 0, Par la contraposée du premier résultat de comparaison, t ln(t) n est pas intégrable sur [3,+ [, t + ln(t) et comme elle est à valeurs positives, dt diverge. t 3 Attention! De même que pour les séries, la convergence n entraîne pas la convergence absolue. Si un théorème de comparaison amène à la conclusion que f n est pas intégrable sur [a,b[, il se peut malgré tout que b a f(t) dt converge. Dans les deux derniers exemples ci-dessus, nous pouvions conclure à la divergence des intégrales car les fonctions comparées étaient positives. III. Méthodes de calcul des intégrales généralisées 1. Utilisation d une primitive Bien sûr, la première méthode à essayer est d utiliser une primitive : si f est continue sur [a,b[ et si F en désigne une primitive, alors pour tout x [a,b[, x a f(t)dt = [F(t)] x a = F(x) F(a). On en déduit que l intégrale b a f(t)dt est convergente si et seulement si F possède une limite finie en b, et dans ce cas b a f(t)dt = lim F(a). x b F(x) On raisonne de même pour les autres formes de I. C est la méthode que nous avons mise en oeuvre pour les intégrales de référence. 2. Intégration par parties Il faut être très vigilant dans les intégrations par parties pour les intégrales généralisées, car on peut facilement écrire une intégrale convergente comme somme de deux termes divergents... Par exemple, l intégrale 2π sin(t) dt t 0 converge (la fonction t sin(t)/t est prolongeable en une fonction continue sur [0,2π]). [ ] cos(t) 2π 2π cos(t) Pourtant, ni le «crochet généralisé» ni l intégrale t t 2 dt ne convergent. Pour éviter cela, on revient à l intégrale sur un segment, on fait une intégration par parties usuelle, puis on essaie de passer à la limite. Cela conduit immédiatement au théorème suivant :
216 Théorème Intégration par parties dans une intégrale généralisée Soient f et g deux fonctions de classe C 1 sur I. Si la fonction fg a une limite dans K en a + et b, alors les intégrales sont de même nature. En notant b on a, en cas de convergence, a f (t)g(t)dt et b a f(t)g (t)dt [f(t)g(t)] b a = lim lim y b (f(y)g(y)) x a +(f(x)g(x)), b a b f (t)g(t)dt = [f(t)g(t)] b a f(t)g (t)dt. a Remarque Si I = [a,b[, alors fg a une limite en a + car elle est continue en a. Il suffit donc de vérifier l hypothèse sur la limite de fg en b. De même, si I = ]a,b], il suffit de vérifier l hypothèse sur la limite de fg en a +. Exemple On pose, sous réserve d existence, Γ(x) = est appelée fonction Γ d Euler. + 0 t x 1 e t dt. La fonction ainsi définie Commençons par étudier la convergence de l intégrale. Soit x R ; la fonction t t x 1 e t est continue sur ]0, + [. Par croissances comparées, t x+1 e t 0 lorsque t +, donc ( ) 1 t x 1 e t = o t + t 2. La fonction t 1/t 2 est intégrable sur [1, + [ (critère des intégrales de Riemann sur [1, + [, exposant 2 > 1); par comparaison, t t x 1 e t est intégrable sur [1, + [, donc + 1 t x 1 e t dt converge. De plus, t x 1 e t 1 t 0 + t 1 x, donc, les deux termes étant positifs, 1 0 tx 1 e t dt converge si et seulement si l intégrale de Riemann 1 0 dt/t1 x converge, ce qui équivaut à 1 x < 1, i.e. x > 0. L ensemble de définition de la fonction Γ est donc ]0, + [. Fixons x > 0. Les fonctions f : t e t et g : t t x sont de classe C 1 sur ]0, + [, t x e t 0 lorsque t 0 + car x > 0, et t x e t 0 lorsque t + par croissances comparées. Enfin, l intégrale + d intégration par parties, c est-à-dire, f (t)g(t)dt est convergente d après ce qui précède. D après le théorème + 0 t x e t dt = [ t x e t] f(t)g (t)dt est convergente et on a + 0 Γ(x + 1) = xγ(x). xt x 1 e t dt = x + 0 t x 1 e t dt, C est ce que l on appelle une équation fonctionnelle vérifiée par la fonction Γ. Elle permet en particulier de définir Γ de proche en proche sur R \ ( N). De plus, on a Γ(1) = + 0 e t [ dt = lim e t ] A A + 0 = lim (1 A + e A ) = 1. On montre alors facilement par récurrence que pour tout n N, Γ(n + 1) = n! La fonction Γ généralise donc la factorielle aux valeurs non entières. 208
217 3. Changement de variable Théorème Changement de variable dans une intégrale généralisée Soit f :]a,b[ K une fonction continue par morceaux, et soit ϕ :]α,β[ ]a,b[ une bijection de classe C 1 de ]α,β[ sur ]a,b[. Alors les intégrales b a f(t)dt et β sont de même nature, et en cas de convergence : Si ϕ est strictement croissante, b a f(t)dt = Si ϕ est strictement décroissante, b a α β α f(ϕ(u))ϕ (u)du f(ϕ(u))ϕ (u)du. β f(t)dt = f(ϕ(u))ϕ (u)du. α Attention! Ne pas oublier le signe dans la formule, qui prend en compte la monotonie de ϕ. En cas de convergence des deux intégrales, les deux cas ci-dessus peuvent être réunis dans la formule Remarques b a f(t)dt = β α f(ϕ(u)) ϕ (u) du. Sous les hypothèses du théorème, la fonction ϕ est continue et bijective de ]α,β[ sur ]a,b[, et on peut montrer qu elle est soit strictement croissante, soit strictement décroissante. Les deux cas considérés ci-dessus sont donc les seuls possibles. De plus, la fonction ϕ 1 est strictement monotone, de même monotonie que ϕ. Le théorème précédent est formulé avec des intervalles ouverts, mais on peut avoir à traiter le cas d intervalles semi-ouverts. C est bien sûr possible, puisque pour une fonction f : [a,b[ K continue par morceaux, les intégrales de f sur [a,b[ et sur ]a,b[ sont de même nature et égale en cas de convergence (la situation est analogue pour ]a,b]). Ceci se prouve en adaptant un résultat donné plus haut sur la cohérence des différentes notions d intégrale, pour une fonction continue par morceaux sur un segment. Démonstration du théorème Soient r et s deux éléments de ]α,β[, x et y deux éléments de ]a,b[. En utilisant la formule usuelle pour les segments, on a ϕ(s) ϕ(r) f(t)dt = s Si ϕ est strictement croissante, r f(ϕ(u))ϕ (u)du et y x f(t)dt = ϕ 1 (y) ϕ 1 (x) f(ϕ(u))ϕ (u)du. ϕ(r) r α + a+, ϕ(s) s β b, ϕ 1 (x) x a + α+ et ϕ 1 (y) y b β. On en déduit que b a f(t)dt converge si et seulement si la formule annoncée en cas de convergence. β α f(ϕ(u))ϕ (u)du converge, ainsi que Si ϕ est strictement décroissante, on reprend le raisonnement, les bornes a et b sont échangées dans les limites de ϕ et ϕ 1, et en cas de convergence, a b f(t)dt = b a f(t)dt. 209
218 Exemple On souhaite calculer La fonction I = π/2 0 f : t cos 2 (t) dt cos 2 (t) est continue et positive sur le segment [0,π/2], il ne s agit en fait pas d une intégrale généralisée, mais on peut bien sûr la considérer comme une intégrale généralisée convergente sur ]0,π/2[. On effectue le changement de variable t = arctan(u). La fonction ϕ = arctan est une bijection strictement croissante de classe C 1 de ]0,+ [ sur ]0,π/2[. Le théorème de changement de variable montre donc que π/ cos 2 (t) dt = = cos 2 (ϕ(u)) u 2 du u 2 du, 1 + tan 2 (ϕ(u)) la convergence de cette dernière intégrale faisant partie des conclusions du théorème. Or, sur ]0,π/2[, tan coïncide avec ϕ 1, d où I = = u u 2 du u 2 du [ ( )] 1 u A = lim 2 arctan A = π 2 2. IV. Comparaison entre une série et une intégrale Reprenons l idée d encadrement des sommes partielles d une série n 0 f(n) mise en oeuvre dans le chapitre Séries numériques : soit f : [0,+ [ R + une fonction continue par morceaux et décroissante. Si n N, on a pour tout t [n 1,n], f(n) f(t) et donc, après intégration sur [n 1,n], De la même façon, pour tout n N, f(n) n+1 n n n 1 f(t)dt. f(t)dt f(n). On rappelle que ceci est illustré sur le graphique suivant : C f f(n) n 1 n n
219 En additionnant la première inégalité pour n entre 1 et p 1 puis en ajoutant f(0), et en additionnant la seconde pour n entre 0 et p, on obtient p+1 0 f(t)dt p f(n) f(0) + n=0 p 0 f(t)dt. On en déduit que la suite ( p 0 f(t)dt) est majorée si et seulement si la suite des sommes p N partielles de la série n 0 f(n) est majorée. Or, la série n 0 f(n) est à terme positifs, donc la suite de ses sommes partielles est majorée si et seulement si elle converge. De plus, la fonction f étant à valeurs positives, la suite ( p 0 f(t)dt) est majorée si et seulement si la fonction p N x x 0 f(t)dt (définie sur [0, + [) est majorée : en effet, pour tout x 0, x 0 f(t)dt p 0 f(t)dt avec p = x + 1. Pour la même raison (f à valeurs positives), la fonction x x 0 f(t)dt est majorée si et seulement si f est intégrable sur [0, + [. Finalement, nous venons de démontrer le résultat suivant : Théorème Comparaison entre une série et une intégrale Soit f : [0, + [ R + une fonction continue par morceaux, décroissante, à valeurs positives. Pour que la série n 0f(n) converge, il faut et il suffit que f soit intégrable sur [0,+ [. Remarques La fonction f étant positive, le fait que f soit intégrable équivaut à la convergence de + 0 f(t)dt. Bien sûr, on adapte facilement ce résultat au cas des fonctions définies sur [n 0, + [, pour comparer les natures de + n 0 f(t)dt et n n 0 f(n). Dans le chapitre Séries numériques, on avait montré comment étudier, par encadrement, le comportement asymptotique de sommes partielles, ou de restes de séries convergentes. La méthode d encadrement avait été exposée dans le cadre des fonctions continues, mais elle reste valable dans le cadre de l intégrale des fonctions continues par morceaux. On peut donner des encadrements semblables de sommes partielles lorsque f est croissante. Exemples Nous avons déjà mis en oeuvre cette technique pour prouver la convergence des séries de Riemann 1 1 pour α > 1. En effet, dans ce cas, la fonction f : t est continue, positive, nα tα n 1 décroissante et intégrable sur [1, + [. On peut également obtenir des équivalents de sommes de séries de fonctions par cette méthode : définissons, pour tout n N et x > 0, u n (x) = 1 n + n 2 x. La série de fonctions n 1 u n converge normalement sur tout intervalle de la forme [a, + [ avec a > 0, car pour tout x a et n N, 0 u n (x) 1 n 2 a, le majorant étant le terme général d une série convergente. De plus, chaque fonction u n est continue sur R +. En particulier, la somme f de la série de fonctions est définie et continue sur 211
220 R +. On cherche à déterminer un équivalent de f(x) lorsque x tend vers 0 +. Pour cela, posons, x > 0 étant fixé, g : t 1 t + t 2 x. La fonction g est continue et décroissante sur [1, + [. Pour tout n 2, on a donc n+1 n g(t)dt g(n) n n 1 g(t) dt. En ajoutant ces inégalités pour n entre 2 et p 2, on obtient donc p+1 2 g(t)dt p n=2 puis, en ajoutant le terme correspondant à n = 1, x + p+1 2 g(t)dt p n=1 1 n + n 2 x p 1 g(t) dt 1 n + n 2 x x + Or, pour tout (a,b) R 2 avec 1 a b, b b ( 1 g(t)dt = a a t x ) [ ( )] t b dt = ln 1 + tx 1 + tx a p 1 g(t) dt. (10.1) Lorsque b +, on a donc, pour tout a 1, la convergence de l intégrale + a g(t) dt avec + ( ) ( ) 1 a g(t)dt = ln ln. x 1 + ax a Finalement, en faisant tendre p vers + dans (10.1), on obtient, pour tout x > 0, ( ) 1 2 ln(x) ln f(x) 1 ( ) 1 ln(x) ln. 1 + x 1 + 2x 1 + x 1 + x Il est alors immédiat, par encadrement, que f(x) ln(x) lorsque x 0 +. V. Espaces fonctionnels et fonctions intégrables Définition On note L 1 (I,K) l ensemble des fonctions continues par morceaux et intégrables sur I, à valeurs dans K. Si f est continue par morceaux sur I à valeurs dans K, on dit que f est de carré intégrable sur I si f 2 est intégrable sur I. On note L 2 (I,K) l ensemble des fonctions continues par morceaux sur I, à valeurs dans K, de carré intégrable sur I. Propriété L ensemble L 1 (I,K) est un K-espace vectoriel. Démonstration On montre que L 1 (I,K) est un sous-espace vectoriel de l espace vectoriel des fonctions continues par morceaux sur I à valeurs dans K : la fonction nulle appartient à L 1 (I,K). De plus, si f et g sont deux éléments de L 1 (I,K) et λ K, on a λf + g λ f + g. Les fonctions f et g ont une intégrale convergente sur I, il en est donc de même pour λ f + g par combinaison linéaire de limites. La fonction positive λ f + g est donc intégrable sur I, et par comparaison, il en est de même pour λf + g. 212
221 Propriété Soit f : I K une fonction continue et intégrable sur I, telle que f(t) dt = 0. Alors f = 0. I Démonstration On fait la démonstration dans le cas où I = [a,b[, les autres cas sont similaires. Si J désigne un segment de [a,b[, alors pour x [a,b[ assez proche de b, on a J [a,x] et donc x b 0 f(t) dt f(t) dt f(t) dt = 0, J a x b a d où f(t) dt = 0. Sachant que J est un segment et que f est continue et positive, on a J f J = 0. Ceci étant vrai pour tout segment J [a,b[, on a f = 0. Propriété Le produit de deux éléments de L 2 (I,K) est un élément de L 1 (I,K). L ensemble L 2 (I,K) est un K-espace vectoriel. Soit H = L 2 (I,R) C 0 (I,R). L application H H R ( ) : (f,g) f g définit un produit scalaire sur H, dont la norme associée est définie par ( f H, f 2 = I I f 2 ) 1/2. Démonstration Si f et g sont deux éléments de L 2 (I,K), alors d après la majoration fg f 2 + g 2, 2 on obtient par comparaison que fg L 1 (I,K) car f 2 et g 2 sont deux éléments de L 1 (I,K), qui est un K-espace vectoriel. Montrons alors que L 2 (I,K) est un sous-espace vectoriel de l espace vectoriel des fonctions continues par morceaux sur I à valeurs dans K, la seule difficulté étant la stabilité par somme; or, si f et g sont deux éléments de L 2 (I,K), alors f + g 2 = f Re(fg) + g 2 f fg + g 2. Les fonctions f 2 et g 2 sont intégrables, et en particulier il en résulte que fg est intégrable, d après le premier point. Par comparaison, f+g 2 est intégrable, c est-à-dire que f+g L 2 (I,K). Les propriétés d un produit scalaire sont immédiates à vérifier, la définie positivité étant une conséquence de la propriété précédente. Le fait que 2 soit une norme est alors clair : c est la norme associée à ce produit scalaire. On rappelle que dans ce cadre, l inégalité triangulaire est une conséquence de l inégalité de Cauchy-Schwarz, f g f 2 g 2, I I I que nous démontrerons dans le chapitre Espaces préhilbertiens, espaces euclidiens. 213
222 214
223 Chapitre 11 Interversions pour les intégrales généralisées Intégrales à paramètre I. Les théorèmes d interversion pour les intégrales généralisées Nous allons compléter les résultats du chapitre Suites et séries de fonctions par deux théorèmes d interversion dans le cadre des fonctions intégrables. On a tout d abord : Théorème de convergence dominée (admis : démonstration hors programme) Soit (f n ) n N une suite de fonctions définies sur un intervalle I à valeurs dans K. On suppose que : Pour tout n N, f n est continue par morceaux sur I. (f n ) n N converge simplement sur I vers une fonction f. La fonction f est continue par morceaux sur I. Il existe une fonction ϕ : I R + continue par morceaux, positive et intégrable sur I, telle que n N, t I, f n (t) ϕ(t). Alors toutes les fonctions f n et f sont intégrables sur I et f. f n I n + I Remarques L hypothèse «n N, t I, f n (t) ϕ(t)» est appelée hypothèse de domination, elle donne son nom au théorème. Sous cette hypothèse, on a en passant à la limite simple, f(t) ϕ(t) pour tout t I. On sait donc que les fonctions f n et f sont intégrables, par comparaison. Vérifier cette hypothèse revient à établir une majoration des fonctions f n par une fonction intégrable sur I et indépendante de n. L hypothèse «f est continue par morceaux» ne peut pas être enlevée : rien ne garantit que les mêmes subdivisions sont adaptées à toutes les fonctions f n. À la limite, il se pourrait donc que f ne soit pas continue par morceaux, et donc que son intégrale n ait pas de sens pour nous. Cela dit, cette hypothèse est imposée par le cadre de travail des fonctions continues par morceaux. Elle n a pas l importance de l hypothèse de domination. 1 Exemple Montrons que nx 2 e nx2 dx 0. On ne peut pas calculer explicitement cette 0 n + intégrale, et il n apparaît pas de majoration simple. La suite des fonctions continues f n : x nx 2 e nx2 215
224 converge simplement vers la fonction nulle f sur [0,1], qui est continue. La convergence n est pas uniforme car pour n 1, ( ) 1 sup f n (x) f n n = 1 x [0,1] e > 0. On ne peut donc pas appliquer le théorème d interversion limite/intégrale sur un segment. On peut tout de même conclure avec le théorème de convergence dominée. L étude de la fonction y ye y montre facilement que pour tout n N et x [0,1], 0 f n (x) 1, la fonction ϕ constante égale à 1 étant évidemment continue par morceaux et intégrable sur [0,1]. On en déduit que 1 f n 0 n f = 0. Pour les séries de fonctions, on a de plus le résultat suivant : Théorème Intégration terme à terme pour les intégrales généralisées Soit n 0 f n une série de fonctions définies sur un intervalle I à valeurs dans K. On suppose que : Alors Pour tout n N, f n est continue par morceaux sur I. n 0f n converge simplement sur I. La fonction + n=0 f n est continue par morceaux sur I. Pour tout n N, f n est intégrable sur I. La série f n converge. n 0 I + n=0 f n est intégrable sur I et I + n=0 f n = + n=0 I f n. Ce résultat est admis (démonstration hors programme). Exemple Soit, pour tout n 1, f n : t ( 1) ne nt n 2. Les fonctions f n sont continues sur R + et la série n 1f n converge normalement sur R + car, pour tout n 1 et t 0, e nt ( 1)n 1 n 2 et la série 1 n 2 converge. En particulier, + f n est continue sur R +. n 1 n=1 n 2 De plus, pour tout n 1, f n est intégrable sur R + (multiple d une fonction intégrable de référence) avec + + e nt f n (t) dt = n 2 dt = 1 n 3, et la série n 1 1 n 3 converge
225 + D après le théorème précédent, la fonction t + 0 ( + ( 1) n e nt n 2 n=1 ( 1) n e nt n 2 n=1 ) dt = + n=1 ( 1) n n 3. est intégrable sur R + et Remarque Dans le cas d une série de fonctions, le théorème précédent n est pas le seul moyen d intervertir somme et intégrale généralisée. Par exemple, il ne s applique pas dans le cas où f n est définie sur I = ]0, + [ par f n (x) = ( 1) n e n x, pour tout n 1. Toutes les fonctions f n sont continues par morceaux et intégrables sur ]0, + [, mais n f n (x) dx = n e n x dx = n 1 1 n, qui est une série divergente. Dans ces cas, on pourra parfois utiliser avec profit, notamment : le théorème de convergence dominée pour la suite des sommes partielles ( p n=0 f n) p N. des estimations des restes de la série n 0 f n, pour des séries alternées par exemple, Dans l exemple ci-dessus, pour tout x > 0, la série n 1 f n(x) est une série alternée dont la valeur absolue du terme général décroît vers 0. On sait donc que n 1 f n(x) converge, et que pour tout m N, + f n (x) f m+1(x) = e m+1 x. (11.1) n=m+1 n=m+1 En particulier, pour tout a > 0 et x a, + f n (x) m+1 x e e m+1 a 0, m + le majorant étant indépendant de x. La série n 1 f n converge donc uniformément sur tout segment de I, et comme chaque fonction f n est continue sur I, on en déduit que + n=1 f n est continue sur I. Notons, pour tout p N, S p = p f n. n=1 Pour tout p N, S p est continue par morceaux sur I, (S p ) p 1 converge simplement sur I vers + n=1 f n qui est continue (et donc continue par morceaux) sur I d après ce qui précède. Enfin, pour tout x > 0 et p N, p S p (x) = f n (x) = + + f n (x) f n (x) n=1 n=1 n=p+1 + f n (x) + + f n (x) n=1 e x + e p+1 x 2e x, n=p+1 ce qui donne l hypothèse de domination pour la suite des sommes partielles (S p ) p N fonction x 2e x est continue par morceaux et intégrable sur ]0, + [. car la 217
226 + D après le théorème de convergence dominée, S = + 0 S p (x)dx p + n=1 + ce qui est le résultat voulu, car pour tout p N, + ( + p ) S p (x)dx = f n (x) dx = 0 0 n=1 0 f n est intégrable sur ]0, + [ et S(x) dx, p n=1 + 0 f n (x)dx par linéarité de l intégrale : il y a un nombre fini de termes, qui sont tous des intégrales convergentes car pour tout n N et x > 0, f n (x) 2e x de même que ci-dessus, comme on le voit en écrivant f n (x) = + k=n f k (x) + k=n+1 f k (x). Remarque On peut aussi conclure de la façon suivante : l inégalité (11.1) prouve, par comparaison, que pour tout m N, p n= n=m+1 f n (x)dx f n est intégrable sur ]0, + [. De plus, pour tout p N, + 0 ( + ) f n (x) dx n=1 = n=p e p+1 x dx 1 p + 1 p + 0. f n (x) dx On a donc bien + 0 ( + ) f n (x) dx = + n=1 n=1 + 0 f n (x)dx. II. Intégrales à paramètre Dans la première partie, nous avons donné des résultats de convergence pour des suites définies par une intégrale de la forme f n (t)dt où la suite de fonctions (f n ) converge simplement vers une fonction f. I Écrivons f n (t) = f(n,t) et remplaçons la variable discrète n par une variable continue x : on considère alors des intégrales du type F(x) = f(x,t)dt, I vues comme fonctions du paramètre x. On peut alors très naturellement se demander, comme on l a fait dans le cas discret, comment se comporte cette intégrale en fonction de x. En sciences, les intégrales à paramètres sont utilisées notamment pour créer des transformations sur les fonctions : si f est une fonction, on définit (sous certaines conditions) : La transformée de Laplace de f, qui est la fonction définie par Lf(p) = Elle est très utilisée en sciences industrielles. + 0 f(t)e pt dt. 218
227 La transformée de Fourier de f, qui est la fonction définie par Ff(x) = + f(t)e ixt dt. Elle joue un rôle fondamental en physique et mathématiques. Dans cette partie, A et I désignent deux intervalles de R (A pour la variable x, I pour la variable d intégration t). 1. Théorème de continuité Théorème Continuité pour les intégrales à paramètre Soit f : A I K une fonction. On fait les hypothèses suivantes : Pour tout x A, la fonction t f(x,t) est continue par morceaux sur I. Pour tout t I, la fonction x f(x,t) est continue sur A. Il existe une fonction ϕ : I R + continue par morceaux et intégrable sur I telle que pour tout (x,t) A I, Alors la fonction F : x I f(x,t) ϕ(t). f(x,t)dt est définie et continue sur A. Remarques On fait souvent référence à ce théorème comme «théorème de continuité sous le signe». La dernière hypothèse est appelée hypothèse de domination, comme dans le cas discret. Comme dans le cas discret, il est bien entendu essentiel que ϕ ne dépende pas du paramètre, ici x. Démonstration (non exigible) Tout d abord, F est bien définie car pour tout x A, t f(x,t) est continue par morceaux et intégrable sur I, par comparaison et d après l hypothèse de domination. D après la caractérisation séquentielle de la limite, il suffit de montrer que pour tout a A, et toute suite (a n ) d éléments de A convergeant vers a, on a f(a n,t)dt f(a,t)dt. n + I Par cette remarque, on est donc ramené au cadre d application du théorème de convergence dominée. Notons en effet, pour tout n N, g n : t f(a n,t). Alors g n est continue par morceaux sur I pour tout n, la suite (g n ) converge simplement vers la fonction continue par morceaux g : t f(a,t), par continuité de f par rapport à sa première variable. Enfin, (g n ) est dominée par la fonction ϕ continue par morceaux et intégrable sur I. On en déduit le résultat. Cette démonstration n est pas difficile, mais il faut garder à l esprit qu elle utilise le théorème de convergence dominée, que nous avons admis, et qui est un résultat délicat. Remarque La continuité étant une notion locale, les hypothèses portant sur la première variable x peuvent être localisées aux segments de A, ce qui peut éviter des problèmes dus aux extrémités de A. Dans le théorème précédent, on peut ainsi remplacer l hypothèse de domination par : pour tout segment J A, il existe une fonction ϕ : I R + continue par morceaux et intégrable sur I telle que pour tout (x,t) J I, La conclusion reste valide. I f(x,t) ϕ(t). 219
228 Exemples Pour tout x 0, la fonction t 1 est continue et intégrable sur [1, + [ car x + t3 t 1, 0 1 x + t 3 1 t 3, et t 1/t 3 est continue et intégrable sur [1,+ [ (critère des intégrales de Riemann sur [1,+ [, exposant 3 > 1). De plus cette dernière fonction est indépendante de x, ce qui prouve l hypothèse de domination. Enfin, pour tout t [1,+ [, x 1 est continue sur [0,+ [. On en déduit x + t3 que la fonction est continue sur [0, + [. F : x x + t 3 dt Dans le chapitre précédent, nous avons défini la fonction Γ par la relation Γ(x) = + 0 t x 1 e t dt pour tout x > 0. Examinons la continuité de Γ. La fonction f : { ]0, + [ ]0, + [ R (x,t) t x 1 e t est continue par rapport à ses deux variables. Pour tout t > 0, e t sup t x 1 e t si t ]0,1] = t x>0 + si t > 1. Il n y a donc pas d hypothèse de domination sur ]0, + [. En revanche, restreignons-nous à x [a,a] avec 0 < a < A. Alors sup x [a,a] t x 1 e t = { t a 1 e t si t ]0,1] t A 1 e t si t > 1. La fonction ϕ définie sur ]0,+ [ par la formule précédente est continue par morceaux sur ]0,+ [ et intégrable (mêmes arguments que pour l existence de Γ(x) pour x > 0), elle vérifie l hypothèse de domination sur [a,a]. On en déduit que Γ est continue sur ]0, + [. 2. Classe C 1 Définition Soit f : A I K une fonction. Si, pour un certain t I, la fonction x f(x,t) est de classe C 1 sur A, alors pour tout x 0 A, le nombre dérivé de x f(x,t) en x 0 est noté f x (x 0,t). Si cela est vrai quel que soit t I, on obtient ainsi une fonction f f : (x,t) x x (x,t), appelée dérivée partielle de f par rapport à x. On définit de façon analogue la dérivée partielle de f d ordre k 2 par rapport à x, notée k f x k. 220
229 Exemple Soit f : R 2 R définie par : pour tout (x,t) R 2, f(x,t) = la fonction x xt 1 + x 2 xt 1 + x2. Pour tout t R, est de classe C 1 sur R comme fraction rationnelle dont le dénominateur ne s annule pas. La fonction f admet donc une dérivée partielle par rapport à x; de plus, pour tout (x,t) R 2, f x (x,t) = t(1 + x2 ) xt 2x (1 + x 2 ) 2 = t(1 x2 ) (1 + x 2 ) 2. Théorème Classe C 1 pour les intégrales à paramètre Soit f : A I K une fonction. On fait les hypothèses suivantes : Pour tout x A, t f(x,t) est continue par morceaux et intégrable sur I. Pour tout t I, x f(x,t) est de classe C 1 sur A. Pour tout x A, t f (x,t) est continue par morceaux sur I. x Il existe une fonction ϕ : I R + continue par morceaux et intégrable sur I telle que pour tout (x,t) A I, f x (x,t) ϕ(t). Alors la fonction F : x x A, I f(x,t)dt est définie et de classe C 1 sur A et pour tout F (x) = I f x (x,t)dt. Remarques On fait souvent référence à ce théorème comme «théorème de dérivation sous le signe». On a fait en sorte que les hypothèses fondamentales du théorème précédent soient vérifiées par la fonction f x. À nouveau, on peut remplacer l hypothèse de domination pour t f (x,t) par une version x locale sur tout segment pour la variable x. Démonstration (non exigible) Tout d abord, la fonction F est définie sur A car t f(x,t) est continue par morceaux et intégrable sur I pour tout x A. Soit a A; pour montrer que F est dérivable en a avec F f (a) = x (a,t)dt, I il suffit de montrer que pour toute suite (a n ) d éléments de A distincts de a convergeant vers a, F(a n ) F(a) a n a f n + I x (a,t)dt, cette dernière intégrale étant convergente car t f (a,t) est continue par morceaux et intégrable x sur I, par comparaison et d après l hypothèse de domination. Par linéarité de l intégrale, ce taux de variations est égal à f(a n,t) f(a,t) dt. a n a I 221
230 Définissons donc, pour tout n N, g n : t f(a n,t) f(a,t). a n a La suite (g n ) de fonctions continues par morceaux sur I converge simplement sur I vers la fonction t f (a,t) par définition d une dérivée partielle, cette fonction étant continue par morceaux x sur I. De plus, pour tout n N et t I, g n (t) sup f x (x,t), x J n d après l inégalité des accroissements finis, J n désignant le segment [a n,a] ou [a,a n ]. Ainsi, pour tout n N et t I, g n (t) ϕ(t), ce qui prouve l hypothèse de domination du théorème de convergence dominée. On en déduit finalement que I g n (t)dt n + I f x (a,t)dt, ce qui est le résultat voulu. Enfin, F est de classe C 1 sur A d après le théorème de continuité sous le signe. Exemple Calculons, pour tout x > 0, I(x) = + Pour cela, définissons pour tout (x,t) ]0, + [ 2, 0 sin(t) t f(x,t) = sin(t) t e xt dt. e xt. Pour tout x > 0, t f(x,t) est continue, et intégrable sur ]0, + [ : si t 1, sin(t) t e xt e xt l application t e xt étant intégrable sur [1, + [; on a de plus un faux problème en 0 car sin(t) t e xt t Pour tout t > 0, l application x f(x,t) est de classe C 1 sur ]0, + [, et pour tout x > 0, f x (x,t) = sin(t)e xt. Fixons a > 0 et restreignons-nous à x a. L application t f (x,t) est continue sur ]0, + [ x et pour tout t > 0 et x a, f x (x,t) sin(t) e at e at. Ce majorant définit une fonction intégrable sur ]0, + [ et indépendante de x a, ce qui montre que l hypothèse de domination locale est satisfaite. Le théorème de dérivation sous le signe intégral montre alors que I est de classe C 1 sur [a,+ [. Ceci étant valable pour tout a > 0, I est de classe C 1 sur ]0, + [. De plus pour tout x > 0, I (x) = sin(t)e xt dt.
231 Soit A R +. On a avec A 0 A 0 e (i x)t dt = [ ( A ) sin(t)e xt dt = Im e (i x)t dt 0 ] A e (i x)t = e(i x)a 1 i x i x 0 A + 1 x i = x + i 1 + x 2. D après la caractérisation de la limite à l aide des parties réelle et imaginaire, on obtient + 0 sin(t)e xt dt = x 2 (pour le calcul de l intégrale précédente, on aurait aussi pu effectuer deux intégrations par parties successives). Finalement, pour tout x de l intervalle ]0, + [, I (x) = x 2. On en déduit qu il existe une constante k R telle que pour tout x > 0, I(x) = arctan(x) + k. On remarque également que I(x) 0 lorsque x +. En effet, l application t sin(t) t est bornée sur ]0, + [, car elle est prolongeable en une fonction continue sur R + et tend vers 0 en +. Soit M un majorant de sa valeur absolue sur ]0, + [. Alors pour tout x > 0, I(x) M + 0 e xt dt = M x 0. x + Sachant de plus que on en déduit que k = π, d où, pour tout x > 0, 2 arctan(x) x + π 2, + 0 sin(t) t e xt dt = π 2 arctan(x). La fonction I est la transformée de Laplace de la fonction sinus cardinal. Grâce à ce calcul, on peut montrer, en faisant tendre x vers 0 +, que + 0 sin(t) t dt = π
232 3. Classe C k On peut généraliser le résultat du paragraphe précédent aux dérivées d ordre supérieur, en raisonnant par récurrence : Théorème Classe C k pour les intégrales à paramètre Soit f : A I K une fonction et k 2 un entier. On fait les hypothèses suivantes : Pour tout x A, t f(x,t) est continue par morceaux et intégrable sur I. Pour tout t I, x f(x,t) est de classe C k sur A. Pour tout j [1,k 1], pour tout x A, t j f (x,t) est continue par morceaux xj et intégrable sur I. Pour tout x A, t k f (x,t) est continue par morceaux sur I. xk Il existe une fonction ϕ : I R + continue par morceaux et intégrable sur I telle que pour tout (x,t) A I, k f x k (x,t) ϕ(t). Alors la fonction F : x j [1,k], pour tout x A, I f(x,t)dt est définie et de classe C k sur A et pour tout F (j) (x) = I j f x j (x,t)dt. On peut remplacer l hypothèse de domination pour t k f (x,t) par une version locale xk sur tout segment pour la variable x. 224
233 Chapitre 12 Espaces préhilbertiens Espaces euclidiens Dans ce chapitre, H désigne un R-espace vectoriel, et E un R-espace vectoriel de dimension finie. I. Produit scalaire Définition Un produit scalaire sur H est une forme bilinéaire symétrique définie positive sur H, c est-à-dire, une application f : H H R vérifiant les propriétés suivantes : Bilinéarité : pour tout (a,b) H H, les applications x f(x,b) et y f(a,y) sont linéaires. Symétrie : pour tout (x,y) H H, f(x,y) = f(y,x). Définie positivité pour tout x H, f(x,x) 0, et on a l équivalence : f(x,x) = 0 x = 0. Si f est un produit scalaire sur H, on note le plus souvent, pour (x,y) H 2, f(x,y) = (x y), ou x,y, ou x y. Si H est muni d un produit scalaire ( ), on dit que (H,( )) (ou simplement H s il n y a pas d ambiguité sur le produit scalaire) est un espace préhilbertien (réel). Un espace euclidien est un espace préhilbertien de dimension finie. Remarques Du fait de la symétrie, il suffit en fait d imposer la linéarité par rapport à une seule des deux variables. Si ( ) est un produit scalaire sur H, alors pour tout (a,b) H 2, (a 0) = (0 b) = 0. Si E est un sous-espace vectoriel de dimension finie de H, et si ( ) est un produit scalaire sur H, alors ( ) induit par restriction un produit scalaire sur E qui est donc un espace euclidien. Exemples L application f 1 définie sur R 2 R 2 par f 1 ((x 1,x 2 ),(y 1,y 2 )) = x 1 y 1 +2x 2 y 2 est un produit scalaire sur R 2, mais pas l application f 2 définie sur R 2 R 2 par f((x 1,x 2 ),(y 1,y 2 )) = x 1 y 1 2x 2 y 2, cette dernière ne vérifiant pas la propriété de définie positivité : en effet, f 2 ((0,1),(0,1)) = 2 <
234 L application ( ) définie sur R n R n par (x y) = n x i y i (où x = (x 1,...,x n ) et y = (y 1,...,y n )) est un produit scalaire sur R n. Il est appelé produit scalaire canonique sur R n. En fait, si E est un R-espace vectoriel de dimension finie, on peut toujours munir E d une structure d espace euclidien. En effet, soit B = (e 1,...,e n ) une base de E ; on définit alors, pour x = x 1 e x n e n et y = y 1 e y n e n éléments de E, Ceci définit un produit scalaire sur E. (x y) = i=1 n x i y i. L application g définie sur M n (R) 2 par g(a,b) = Tr( t AB) est un produit scalaire sur M n (R). Si A = (a i,j ) et B = (b i,j ), alors, pour tout (i,j) [1,n] 2, le coefficient en position (i,j) de la matrice t AB est n a k,i b k,j, et donc g(a,b) = n k=1 i=1 k=1 i=1 n a k,i b k,i = n a i,j b i,j après changement d indices muets. On est donc dans la situation du point précédent, pour le choix de la base canonique de M n (R). Soit ω : [a,b] R + une application continue. L application ( ) définie sur C0 ([a,b],r) 2 par (f g) = b a i,j=1 f(x)g(x)ω(x)dx, est un produit scalaire sur C 0 ([a,b],r) (qui, munit de ce produit scalaire, est un espace préhilbertien réel, mais pas un espace euclidien). Soit I un intervalle de R et H = L 2 (I,R) C 0 (I,R). L application H H R ( ) : (f,g) f g est un produit scalaire sur H. L application ( ) définie sur R n [X] 2 par (P Q) = I n P(i)Q(i), i=0 est un produit scalaire sur R n [X]. Pour la définie positivité, on remarque qu un polynôme P de R n [X] vérifie (P P) = 0 si et seulement si P(i) = 0 pour tout i [0,n], ce qui équivaut à P = 0 (si P(i) = 0 pour tout i [0,n], P possède au moins n+1 racines, or P est de degré au plus n). Théorème Inégalité de Cauchy-Schwarz Soit ( ) un produit scalaire sur H. Alors, pour tout (x,y) H 2, (x y) (x x) (y y), avec égalité si et seulement si x et y sont colinéaires. 226
235 Démonstration Fixons x et y dans H et définissons sur R l application Pour tout λ R, par bilinéarité et symétrie, P : λ (λx + y λx + y). P(λ) = λ 2 (x x) + λ(x y) + λ(y x) + (y y) = λ 2 (x x) + 2λ(x y) + (y y). La fonction P ne prend que des valeurs positives d après la propriété de définie positivité. Si x 0, (x x) 0 pour la même raison, et P est une fonction polynomiale de degré 2; on en déduit que le discriminant du polynôme P est négatif ou nul, c est-à-dire (2(x y)) 2 4(x x) (y y) 0, d où (x y) 2 (x x) (y y). Le résultat suit en composant cette inégalité par la fonction croissante racine carrée. Si x = 0, P est une fonction affine partout positive, donc le coefficient directeur associé est nul, c est-à-dire (x y) = 0. L inégalité est également vérifiée dans ce cas. En ce qui concerne le cas d égalité : si x et y sont colinéaires, il est immédiat que l égalité est vérifiée; par exemple s il existe α R tel que y = αx, on a (x y) = (x αx) = α(x x), et (x x) (y y) = (x x) (αx αx) = α (x x) (x x) = α (x x), donc on a égalité dans l inégalité de Cauchy-Schwarz (on procède de même s il existe α R tel que x = α y). Réciproquement, supposons que x 0 et que (x y) = (x x) (y y). En reprenant la démonstration précédente, on voit que le discriminant de P est nul, donc P possède une racine réelle (double) λ, et on a donc P(λ) = (λx + y λx + y) = 0. Par définie positivité, il s ensuit que λx+y = 0 et donc x et y sont colinéaires. Si x = 0, x et y sont également colinéaires. Propriété/Définition Si ( ) est un produit scalaire sur H, l application : x (x x) est une norme sur H, dite norme associée à ( ). Une norme associée à un produit scalaire sur H est appelée norme euclidienne. L application d définie sur H 2 par d(x,y) = x y est appelée distance associée à ( ). Démonstration du fait que est une norme. L application est bien définie car (x x) 0 pour tout x H. Homogénéité : pour tout x H et λ R, Séparation : pour tout x H, car ( ) est définie positive. λx = (λx λx) = λ 2 (x x) = λ (x x) = λ x. x = 0 (x x) = 0 x = 0, Inégalité triangulaire : comme on l a remarqué dans le chapitre Espaces vectoriels normés, elle résulte de l inégalité de Cauchy-Schwarz, qui se réécrit (x,y) H 2, (x y) x y. 227
236 Pour tout (x,y) H 2, on a en effet x + y 2 = (x + y x + y) = x 2 + 2(x y) + y 2 x x y + y 2 = ( x + y ) 2. Le résultat suit en prenant la racine carrée car les deux membres sont positifs. On peut également caractériser le cas d égalité dans l inégalité triangulaire : Propriété Cas d égalité dans l inégalité triangulaire Soit ( ) un produit scalaire sur H et la norme associée. Pour tout (x,y) H 2, on a l équivalence : x + y = x + y il existe α R + tel que x = α y ou y = αx. Démonstration Si y = α x avec α R +, et x + y = (1 + α)x = (1 + α) x, x + y = x + αx = x + α x = (1 + α) x. On procède de même si x = αy avec α R +. Réciproquement, si x + y = x + y, alors en reprenant l inégalité de la démonstration précédente, on a (x y) = x y. En particulier, il y a égalité dans l inégalité de Cauchy-Schwarz, donc x et y sont colinéaires. Si x est non nul, on peut écrire y = αx avec α R, et on a et (x y) = α (x x) = α x 2, x y = α x 2. Sachant que x 0, x 0 donc α = α, c est-à-dire que α R +. Si x = 0, la relation x = α y est vérifiée avec α = 0. Exemples La norme associée au produit scalaire canonique sur R n est définie par ( n ) 1/2 x R n, x = Elle est appelée norme euclidienne canonique sur R n. La norme associée au produit scalaire défini sur M n (R) 2 par (A B) = Tr ( t AB) est donnée par : A = (a i,j ) M n (R), A = ( Tr( t AA ) 1/2 n 1/2 = (a i,j ) 2 La norme associée au produit scalaire défini sur C 0 ([a,b],r) par (f g) = b a f(t)g(t)dt est donnée par : ( b 1/2 f C 0 ([a,b],r), f = f(x) dx) 2. Le résultat suivant montre qu une norme euclidienne provient d un unique produit scalaire, que l on peut retrouver à partir d elle. i=1 a x 2 i i,j=1 228
237 Propriété Identité de polarisation Soit ( ) un produit scalaire sur H et la norme associée. Alors, pour tout (x,y) H 2, (x y) = 1 4 ( x + y 2 x y 2 ) = 1 2 ( x + y 2 x 2 y 2 ). Démonstration Pour (x,y) H 2, on a, par bilinéarité et symétrie, x + y 2 = (x + y x + y) = x 2 + 2(x y) + y 2, et de même x y 2 = (x y x y) = x 2 2(x y) + y 2. On en déduit facilement le premier résultat en retranchant la seconde égalité à la première, et le second résultat en utilisant la première égalité. Remarque Pour tout (x,y) H 2, on a en additionnant les deux égalités de la démonstration précédente, x + y 2 + x y 2 = 2 ( x 2 + y 2). Cette égalité est appelée identité du parallélogramme. Géométriquement, cette identité signifie que la somme des carrés des longueurs des diagonales d un parallélogramme est égale à la somme des carrés de ses côtés. II. Orthogonalité Dans cette partie, (H,( )) désigne un espace préhilbertien réel. 1. Familles orthogonales de vecteurs Définition Si x H, on dit que x est unitaire (ou normé) si x = 1. Si x et y appartiennent à H, on dit que x et y sont orthogonaux si (x y) = 0. Si (x i ) i I est une famille de vecteurs de H (I étant un ensemble d indices), on dit que cette famille est : normée si pour tout i I, x i = 1. orthogonale si pour tout (i,j) I tel que i j, (x i x j ) = 0. orthonormale (ou orthonormée) si elle est orthogonale et normée. Ceci équivaut au fait que (x i x j ) = δ i,j pour tout (i,j) I 2. Propriété Une famille orthogonale finie de vecteurs tous non nuls de H est libre. Démonstration Soit (x 1,...,x p ) une famille orthogonale de vecteurs tous non nuls de H et (λ 1,...,λ p ) une famille de scalaires telle que Alors pour tout i [1,p], λ 1 x λ p x p = 0 H. (x i λ 1 x λ p x p ) = 0 i.e. λ 1 (x i x 1 ) + + λ p (x i x p ) = 0, et donc λ i = 0 car la famille est orthogonale et x i 0, d où (x i x i )
238 Exemple Définissons sur R, pour tout k N, la fonction c k : x cos(kx). Alors, pour tout n N, la famille (c 0,...,c n ) est libre dans C 0 ([0,2π],R), car est elle composée de vecteurs tous non nuls, et orthogonale pour le produit scalaire usuel sur C 0 ([0,2π],R). En effet, pour tous p et q distincts dans N, on a p q 0 et p + q 0, donc 2π 0 2π 1 cos(px) cos(qx) dx = (cos((p + q)x) + cos((p q)x))dx 0 2 = 1 [ ] sin((p + q)x) sin((p q)x) 2π + = 0. 2 p + q p q 0 Théorème de Pythagore Soit (x 1,...,x p ) une famille orthogonale de vecteurs de H. Alors x x p 2 = x x p 2. Démonstration C est immédiat puisque les termes 2(x i x j ) dans le développement de x x p 2 sont nuls par orthogonalité de la famille (x 1,...,x p ). Définition Base orthonormée Soit E un espace euclidien et B = (e 1,...,e n ) une famille de vecteurs de E. On dit que B est une base orthonormée de E si B est une base de E et une famille orthonormale. Propriété Calculs dans une base orthonormée Soit (E,( )) un espace euclidien, et B = (e 1,...,e n ) une base orthonormée de E. Soient x = x 1 e x n e n et y = y 1 e y n e n deux vecteurs de E. Alors : ( n n ) 1/2 (x y) = x i y i et x = x i 2. i=1 Si X = t( x 1 x n ) et Y = t ( y 1 y n ) sont les vecteurs-colonnes des coordonnées de x et y dans la base B, on a (en identifiant une matrice de M 1 (R) à son unique coefficient) (x y) = t X Y et x = ( t XX) 1/2. i=1 Démonstration Il suffit de montrer le premier point. Or, par bilinéarité de ( ), car la base B est orthonormée. (x y) = (x 1 e x n e n y 1 e y n e n ) n = x i y j (e i e j ) = i,j=1 n x i y i, i=1 Remarque Dans M n,1 (R), l expression du produit scalaire canonique entre deux vecteurs X et Y s écrit simplement (X Y ) = t X Y. 230
239 Propriété Matrice d une application linéaire dans une base orthonormée Soit (E,( )) un espace euclidien, u L (E) et B = (e 1,...,e n ) une base orthonormée de E. Alors Mat B (u) = ( (e i u(e j )) ) 1 i,j n Démonstration Notons a i,j les coefficients de la matrice Mat B (u). Pour tout j [1,n], on a donc n u(e j ) = a k,j e k. Le produit scalaire (e i u(e j )) est donc égal à ( ) n e i a k,j e k = k=1 k=1 n a k,j (e i e k ) = a i,j k=1 car B est une famille orthonormée. D où le résultat. Les résultats précédents montrent l intérêt, pour la simplicité des calculs, de travailler dans des bases orthonormées. On va donc chercher à construire de telles bases orthonormées. 2. Orthonormalisation Théorème Procédé d orthonormalisation de Gram-Schmidt Soit (e 1,...,e p ) une famille libre de vecteurs de H et F = Vect(e 1,...,e p ). Alors il existe une base orthonormée (ε 1,...,ε p ) de F telle que pour tout i [1,p], Vect(ε 1,...,ε i ) = Vect(e 1,...,e i ). Démonstration On procède par récurrence sur p. Initialisation : pour p = 1, on remarque que e 1 0 car la famille (e 1 ) est libre. Il suffit alors de poser ε 1 = e 1 e 1. On a évidemment ε 1 = 1 et Vect(ε 1 ) = Vect(e 1 ). Hérédité : supposons la propriété vraie pour un entier p et considérons une famille libre (e 1,...,e p+1 ). Par hypothèse de récurrence, on peut supposer ε 1,...,ε p construits. Analyse : le vecteur ε p+1 doit vérifier ε p+1 Vect(e 1,...,e p+1 ) = Vect(ε 1,...,ε n,e p+1 ), donc il doit exister (λ 1,...,λ p+1 ) R p+1 tel que Alors pour tout i [1,p], 0 = (ε i ε p+1 ) = ε p+1 = λ 1 ε λ p ε p + λ p+1 e p+1. p λ j (ε i ε j ) + λ p+1 (ε i e p+1 ) = λ i + λ p+1 (ε i e p+1 ), j=1 car la famille (ε 1,...,ε p+1 ) doit être orthonormée. On en déduit que ) p ε p+1 = λ p+1 (e p+1 (ε i e p+1 )ε i. Synthèse : on sait que Vect(ε 1,...,ε p ) = Vect(e 1,...,e p ); de plus, la famille e 1,...,e p+1 étant libre, le vecteur f p+1 = e p+1 p i=1 (ε i e p+1 ) ε i est non nul. On peut donc poser i=1 ε p+1 = f p+1 f p
240 Tout d abord, la famille (ε 1,...,ε p+1 ) est normée. Elle est également orthogonale : en effet, soit (j,k) [1,p + 1] 2 avec j k. Si j p et k p, alors (ε j ε k ) = 0 par hypothèse de récurrence. Si j p et k = p + 1, alors ( ) 1 p (ε j ε p+1 ) = ε j ep+1 (ε i e p+1 ) ε i f p+1 = = 1 f p+1 ( (ε j e p+1 ) i=1 ) p (ε i e p+1 ) (ε j ε i ) i=1 1 f p+1 ((ε j e p+1 ) (ε j e p+1 )), car seul le terme correspondant à i = j est éventuellement non nul, et (ε i ε i ) = 1. Donc (ε j ε p+1 ) = 0. Ensuite, montrons que pour tout i [1,p + 1], Vect(ε 1,...,ε i ) = Vect(e 1,...,e i ). C est vrai si i p par hypothèse de récurrence. Il suffit donc de le montrer pour i = p + 1. Or ε p+1 = 1 f p+1 e p+1 + y avec y Vect(ε 1,...,ε p ) = Vect(e 1,...,e p ). On en déduit le résultat par double inclusion immédiate. Illustrons les différentes étapes de ce procédé dans le plan : e 2 f 2 ε 2 e 1 ε 1 (ε 1 e 2 ) ε 1 Remarques On peut aussi montrer que l on peut imposer que (ε i e i ) R + pour tout i. La famille (ε 1,...,ε p ) est alors unique. Cette démonstration est constructive : elle donne un algorithme qui permet de construire explicitement une famille (ε 1,...,ε p ). En particulier, elle est programmable sur ordinateur. En pratique, on pourra procéder ainsi : on remarque qu à chaque étape, si f 1,...,f i sont construits, f i+1 est de la forme f i+1 = e i+1 + λ i f i + + λ 1 f 1 où λ 1,...,λ i sont des scalaires. Il suffit alors d imposer les conditions (f i+1 f 1 ) = = (f i+1 f i ) = 0 pour déterminer ces scalaires. À la fin de la procédure, on pose alors ε i = f i / f i et l on obtient une famille qui répond au problème. Avec cette façon de faire, on peut ainsi ne normer les vecteurs qu à la fin de la procédure, ce qui évite des erreurs de calculs. On peut procéder de même en cherchant f i+1 sous la forme e i+1 + µ i e i + + µ 1 e 1, car Vect(e 1,...,e i ) = Vect(f 1,...,f i ). 232
241 Exemple Soit B = (e 0,e 1,e 2 ) la base canonique de R 2 [X], muni du produit scalaire défini par (P Q) = Orthonormalisons la base B. On pose f 0 = e 0 = P(x)Q(x)dx. On choisit f 1 de la forme f 1 = e 1 + αf 0 (α réel) de sorte que (f 1 f 0 ) = 0, ce qui équivaut à 1 0 (t + α)dt = 0 α = 1 2. On pose donc f 1 = X 1 2. On choisit f 2 de la forme f 2 = e 2 + βf 1 + γf 0 (β et γ réels) de sorte que (f 2 f 0 ) = 0 et (f 2 f 1 ) = 0, ce qui équivaut à i.e. à ( t 2 + β ( ( t 2 + β t 1 ) ) + γ dt = 0 2 ( t 1 ) )( + γ t 1 ) dt = γ = β 1 i.e. à 12 = 0 On pose donc f 2 = X 2 f f 0 = X 2 X On norme enfin les vecteurs f 0,f 1 et f 2 : f 0 = 1 ( 1 f 1 = f 2 = 0 ( 1 On obtient une famille (ε 0,ε 1,ε 2 ) qui convient. 0 β = 1 γ = 1 3 ( t 2) 1 2 1/2 1 dt) = 12 = 1 ( t 2 t + 1 6) 2 dt 2 3 ) 1/2 = Corollaire Soit (E,( )) un espace euclidien. Il existe des bases orthonormées de E. Toute famille orthonormale de E peut être complétée en une base orthonormée de E. Démonstration Pour le premier point, il suffit d appliquer le procédé d othonormalisation de Gram-Schmidt à une base quelconque de E. On obtient alors une famille génératrice de E et libre (car orthonormale), c est-à-dire une base de E. Pour le second, on sait que toute famille orthonormale est libre, on peut la compléter en une base de E puis orthonormaliser cette base par le procédé de Gram-Schmidt, ce qui ne modifie pas la famille initiale. 233
242 3. Sommes orthogonales Définition Sous-espaces orthogonaux Soient F et G deux sous-espaces vectoriels de H. On dit que F et G sont orthogonaux si : Ceci se note également : F G. (x,y) F G, (x y) = 0. Propriété Soient F 1,...,F p des sous-espaces vectoriels de H, deux à deux orthogonaux. Alors la somme F F p est directe. Démonstration Soit (x 1,...,x p ) F 1 F p tel que x x p = 0. En faisant le produit scalaire de cette expression avec x i pour i [1,p], on obtient 0 = (x i x x p ) = (x i x 1 ) + + (x i x p ). Les F j étant deux à deux orthogonaux, on en déduit que (x i x i ) = 0 et donc x i = 0, et ce pour tout i. D où le résultat. Définition Soient F 1,...,F p des sous-espaces vectoriels de H, deux à deux orthogonaux. La somme p i=1 F i est appelée somme directe orthogonale des F i (on dit aussi que les F i sont en somme directe orthogonale). Soient F et G deux sous-espaces vectoriels de H. On dit que F et G sont supplémentaires orthogonaux si F G et F G = H. Ceci se note parfois H = F G. Remarques Soient F 1,...,F p des sous-espaces vectoriels deux à deux orthogonaux d un espace euclidien E. Alors leur somme est directe, donc d après un résultat du chapitre Espaces vectoriels et applications linéaires, on a dim(f 1 F p ) = dim(f 1 ) + + dim(f p ) et pour que E = F 1 F p, il faut et il suffit que dim(e) = dim(f 1 ) + + dim(f p ). Si F et G sont deux sous-espaces vectoriels de H, pour montrer que F et G sont supplémentaires orthogonaux, il suffit de montrer que F G et H F + G. En effet, d après la propriété précédente, si F G, l aspect direct de la somme F +G est acquis (notamment, F G = {0 E }). 4. Orthogonal d un sous-espace vectoriel Propriété/Définition Soit F un sous-espace vectoriel de H. On appelle orthogonal de F l ensemble F = {y H; x F, (x y) = 0}. C est un sous-espace vectoriel de H, orthogonal à F. 234
243 Démonstration On a F H, et le vecteur nul de H est orthogonal à tout vecteur donc appartient à F. Si y et z appartiennent à F et si λ R, alors pour tout x F, (x λy + z) = λ(x y) + (x z) = 0 donc λy + z F. Ainsi F est un sous-espace vectoriel de H. Il est orthogonal à F, car par définition, si x F et y F, (x y) = 0. Exemple Dans R n (n 1) muni du produit scalaire canonique, soit a = (a 1,...,a n ) un vecteur non nul. Alors Vect(a) est l ensemble des vecteurs x = (x 1,...,x n ) tels que n a i x i = 0. Il s agit du noyau de la forme linéaire ϕ définie sur R n par i=1 ϕ(x 1,...,x n ) = n a i x i, qui est non nulle car a est non nul. En particulier, Vect(a) est un hyperplan de R n. Remarque Si F et G sont deux sous-espaces vectoriels de H, alors on a les équivalences i=1 F G F G G F. Par contre, lorsque F G on n a pas toujours les égalités F = G et G = F. Propriété On a H = {0 H } et {0 H } = H. Démonstration En effet, si y H vérifie (x y) = 0 pour tout x H, alors pour le choix de x = y on obtient (y y) = 0 et donc y = 0 H. L autre inclusion (et la seconde égalité) vient simplement du fait que (x 0 H ) = 0 pour tout x H. Remarque Soient x et y deux éléments de H tels que pour tout z H, (x z) = (y z). Alors x = y. En effet, l hypothèse entraîne que (x y z) = 0 pour tout z H, et donc x y H = {0 H }. D où le résultat. Propriété Soit F un sous-espace vectoriel de dimension finie de H et (e 1,...e p ) une famille génératrice de F. Pour tout x H, on a l équivalence : x F i [1,p], (e i x) = 0. Démonstration Si x F, alors pour tout i [1,p], (e i x) = 0, car e i F. Réciproquement, si (e i x) = 0 pour tout i [1,p], alors pour tout (λ 1,...,λ p ) R p, p λ i (e i x) = 0, i.e. i=1 ( n ) x λ i e i = 0, i=1 par linéarité à gauche de ( ). Comme F = Vect(e 1,...,e p ), on a bien x F. 235
244 Propriété Soit F un sous-espace vectoriel de H. Alors : F (F ). F et F sont en somme directe orthogonale. En particulier, F F = {0 H }. Si G est un supplémentaire orthogonal de F, alors G = F. Démonstration Soit x F. Alors, pour tout y F, (x y) = 0, donc x (F ). C est une conséquence de la propriété du paragraphe précédent, car F F. Soit G un supplémentaire orthogonal de F. Montrons que G = F. Tout d abord, F G donc G F. Réciproquement, soit x F. On peut décomposer x sous la forme y + z avec y F et z G. Alors y = x z F car x F et z G F. Donc y F F = {0 H } et x = z G. D où l égalité G = F. Ainsi, F a au plus un supplémentaire orthogonal, qui ne peut être que F. Remarque Il est important de remarquer que l inclusion réciproque du premier point est fausse en général. Par exemple, soit H = C 0 ([0,1],R) muni du produit scalaire usuel défini par (f g) = 1 0 f(t)g(t) dt. Considérons le sous-espace vectoriel F = {f E; f(0) = 0} de H. Soit f F ; alors, la fonction g : t t f(t) étant un élément de F, on a (f g) = 0, i.e. 1 0 t f(t) 2 dt = 0. La fonction t t f(t) 2 étant de plus continue et positive, elle est nulle, donc f(t) = 0 pour tout t ]0,1]. Par continuité de f, on a également f(0) = 0, et finalement, f = 0 H. On en déduit que F = {0 H }. Ainsi, dans ce cas, on a (F ) = {0 H } = H F. On remarque également que la somme F F n est pas toujours égale à H : dans l exemple précédent, on a F F = F H. En général, F et F ne sont donc pas toujours supplémentaires orthogonaux. En revanche, les résultats sont vrais lorsque F est de dimension finie : Théorème Supplémentaire orthogonal d un sous-espace de dimension finie Soit F un sous-espace vectoriel de dimension finie de H. Alors : H = F F. (F ) = F. Remarque D après le premier point, si F est un sous-espace vectoriel de dimension finie de H, F est un supplémentaire orthogonal de F, et on sait d après la propriété précédente que c est alors l unique supplémentaire orthogonal de F. Démonstration On sait déjà que la somme est directe, il suffit de montrer que H F +F. Soit B = (ε 1,...,ε n ) une base orthonormée de F (qui existe d après le procédé de Gram-Schmidt). Pour tout x H, on cherche à écrire x = y + z avec y F et z F. Analyse : supposons qu une telle décomposition existe, et soit y = n i=1 λ iε i la décomposition de y dans la base B. Alors x y = z F, donc pour tout j [1,n], (ε j x y) = 0, c est-à-dire (ε j x) = (ε j y) = n λ i (ε j ε i ) = λ j i=1 236
245 car B est orthonormée. Ainsi y est nécessairement donné par : y = n i=1 (ε i x) ε i. Synthèse : définissons donc y par cette formule. Alors y F et x y F car pour tout j [1,n], (ε j x y) = 0 en reprenant le calcul précédent. On a donc bien la décomposition souhaitée avec z = x y. Le premier point montre que F a un supplémentaire orthogonal, à savoir F. Le dernier point de la propriété précédente (appliqué avec F à la place de F et F à la place de G) montre alors que F = (F ). Théorème/Définition Projection orthogonale Soit F un sous-espace vectoriel de dimension finie de H. La projection p F sur F parallèlement à F est bien définie car H = F F, elle est appelée projection orthogonale sur F. Si (ε 1,...,ε n ) est une base orthonormée de F, alors pour tout x H, p F (x) = n (ε i x) ε i. i=1 Le vecteur p F (x) est appelé le projeté orthogonal de x sur F. Démonstration La formule donnant p F (x) a été démontrée dans le théorème précédent. Remarques Pour déterminer le projeté orthogonal de x sur F, il n est pas nécessaire de disposer d une base orthonormée de F. En effet, il suffit de remarquer que p F (x) est entièrement caractérisé par : p F (x) F et x p F (x) F. Si l on dispose d une famille génératrice quelconque (e 1,...,e p ) de F, alors d après une propriété précédente, x p F (x) F si et seulement si i [1,p], (e i x p F (x)) = 0, ce qui peut s écrire comme un système linéaire dont les inconnues sont les scalaires d une décomposition de p F (x) sur la famille (e 1,...,e p ). En revanche, pour que la formule explicite de p F (x) de la propriété précédente soit vraie, il est essentiel que (ε 1,...,ε n ) soit une base orthonormée de F. Si F est un sous-espace vectoriel de dimension finie de H, on appelle symétrie orthogonale par rapport à F la symétrie s F par rapport à F, parallèlement à F. On a la relation Id H +s F = 2p F. Si E est euclidien et F est un hyperplan de E, on dit que s F est la réflexion par rapport à F. Propriété Soit B = (ε 1,...,ε n ) une base orthonormée d un espace euclidien (E,( )). Alors, la décomposition d un vecteur x E dans la base B est x = n (ε i x) ε i. i=1 Démonstration C est une conséquence immédiate de la formule du théorème précédent, avec le choix particulier de F = E; dans ce cas, bien sûr, le projeté orthogonal de x sur E est x lui-même. Remarque En particulier, pour tout (x,y) E 2, (x y) = ( n n ) 1/2 (ε i x)(ε i y) et x = (ε i x) 2. i=1 i=1 237
246 Théorème Soit F un sous-espace vectoriel d un espace euclidien E. Alors E = F F. En particulier, dim(f) + dim(f ) = dim(e). Si F et G sont deux sous-espaces vectoriels de E, pour que F et G soient supplémentaires orthogonaux, il faut et il suffit que F G et dim(f) + dim(g) = dim(e). Démonstration On a montré que le résultat E = F F est toujours vrai si F est de dimension finie, ce qui est le cas dans la situation présente, E étant de dimension finie. La formule des dimensions vient de la première remarque du paragraphe précédent. Cela vient aussi de la première remarque du paragraphe précédent. Remarque Si F est un sous-espace vectoriel de E, F et F sont de dimension finie, les projections orthogonales sur F et F sont bien définies et on a la relation p F + p F = Id, c est-à-dire que pour tout x E, x p F (x) = p F (x). III. Distance Étant donné un vecteur x de H et F un sous-espace vectoriel de H de dimension finie, on cherche un vecteur de F qui soit le plus proche de x au sens de la distance associée au produit scalaire ( ) sur H. Théorème/Définition Soit x H et F un sous-espace vectoriel de dimension finie de H. Alors la fonction { F R+ y x y a un minimum sur F, qui est atteint en p F (x) et uniquement en ce point. Autrement dit, il existe un unique vecteur y 0 de F tel que et ce vecteur est p F (x). x y 0 = min x y, y F Le réel positif x p F (x) est appelé distance de x à F, noté d(x,f) : d(x,f) = x p F (x) = min x y. y F Démonstration Comme F est de dimension finie, on sait que H = F F. On peut donc écrire x = p F (x) + z avec p F (x) F et z F. Alors pour tout y F, p F (x) y F et donc x p F (x) = z est orthogonal à p F (x) y. D après le théorème de Pythagore, on a donc x y 2 = (x p F (x)) + (p F (x) y) 2 = x p F (x) 2 + p F (x) y 2 x p F (x) 2, avec égalité si et seulement si p F (x) y 2 = 0 c est-à-dire y = p F (x). 238
247 Propriété Soit F un sous-espace vectoriel de dimension finie de H et (ε 1,...,ε n ) une base orthonormée de F. La distance de x à F est donnée par les formules d(x,f) 2 = x 2 p F (x) 2 = x 2 n (ε i x) 2. i=1 Démonstration La famille (ε 1,...,ε n ) est une base orthonormée de F, donc pour tout x H, on connaît l expression explicite de p F (x) : p F (x) = n (ε i x)ε i, i=1 et on a également p F (x) 2 n 2 = (ε i x) ε i = i=1 n (ε i x) 2. De plus, les vecteurs p F (x) et x p F (x) sont orthogonaux, donc d après le théorème de Pythagore, x 2 = p F (x) + (x p F (x)) 2 = p F (x) 2 + x p F (x) 2 = p F (x) 2 + d(x,f) 2. i=1 On en déduit les deux formules. Corollaire Inégalité de Bessel Soit F un sous-espace vectoriel de dimension finie de H et (ε 1,...,ε n ) une base orthonormée de F. Pour tout x H, on a p F (x) x. Démonstration En effet, la différence x 2 p F (x) 2 est égale à d(x,f) 2 0. Exemple Déterminons le polynôme de degré au plus 2 qui soit le plus proche de X 3 au sens de la norme associée au produit scalaire défini sur R[X] par (P Q) = 1 0 P(x)Q(x)dx. Nous avons déterminé ci-dessus une base orthonormée (ε 0,ε 1,ε 2 ) de R 2 [X] pour ce produit scalaire. L unique polynôme qui répond au problème est le projeté orthogonal de X 3 sur R 2 [X], c est-à-dire le polynôme P(X) = ( ε 0 X 3) ε 0 + ( ε 1 X 3) ε 1 + ( ε 2 X 3) ε 2 ( 1 ) ( = t 3 dt + 2 ) 2 ( 1 ( 3 t 1 ) )( t 3 dt X 1 ) ( 1 ( t 2 t + 1 ) )( t 3 dt X 2 X + 1 ) = 1 ( ) ( X 1 ) ( )( X 2 X + 1 ). 4 6 Après simplifications, on obtient P(X) = 3 2 X2 3 5 X
248 Comme indiqué dans une remarque de la partie précédente, on peut aussi déterminer P(X) en résolvant le système ( X 3 ax 2 bx c 1 ) = 0 ( X 3 ax 2 bx c X ) = 0 ( X 3 ax 2 bx c X 2) = 0 ce qui aboutit bien sûr à la même valeur de P(X), et ne nécessite pas de disposer de la famille (ε 0,ε 1,ε 2 ). On peut alors déterminer la distance de X 3 à R 2 [X], c est-à-dire la racine carrée de la quantité inf (a,b,c) R ( t 3 at 2 bt c ) 2 dt; en effet cette borne inférieure est un minimum, qui est atteint pour a = 3 2, b = 3 5 et c = 1 20 et uniquement pour ces valeurs. D après la propriété ci-dessus, on peut également calculer cette valeur en utilisant la formule inf (a,b,c) R ( t 3 at 2 bt c ) 2 dt = X ( εi X 3) 2. i=0 IV. Formes linéaires sur un espace euclidien Dans cette partie, (E,( )) désigne un espace euclidien. Théorème Représentation des formes linéaires sur un espace euclidien Soit f une forme linéaire sur E. Alors il existe un unique vecteur a E tel que : x E, f(x) = (a x). On dit parfois que le vecteur a représente f via le produit scalaire ( ). Démonstration Soit B = (e 1,...,e n ) une base orthonormée de E, et soit x = x 1 e x n e n un vecteur de E. Alors n f(x) = x i f(e i ), i=1 qui est le produit scalaire entre x et le vecteur a = f(e 1 )e 1 + +f(e n )e n car B est orthonormée. Ceci prouve l existence de a. Quant à l unicité, supposons que deux vecteurs a et b vérifient, pour tout x E, f(x) = (a x) = (b x). Alors, pour tout x E, (a b x) = 0 et donc a b E = {0 E }. On en déduit que a = b. Remarque Réciproquement, si a E, l application x (a x) est linéaire, par linéarité à droite du produit scalaire. Le résultat précédent signifie donc que dans un espace euclidien, on sait décrire entièrement les formes linéaires : il s agit exactement des applications de la forme x (a x) où a est un vecteur de E, chaque forme linéaire f sur E étant associée à un unique vecteur a. Exemples Dans le cas de la forme linéaire définie sur R 3 (muni du produit scalaire canonique) par f(x,y,z) = x + 2y + 3z, a est le vecteur (1,2,3). Les formes linéaires sur M n (R) sont exactement les applications de la forme M Tr(AM) où A M n (R). 240
249 Propriété/Définition Vecteur normal à un hyperplan Soit H un hyperplan de E et f une forme linéaire non nulle sur E telle que H = Ker(f). Il existe a E non nul tel que f : x (a x). Ainsi, pour x E, on a l équivalence x H (a x) = 0. On dit que a est un vecteur normal à H. Avec les notations précédentes, en notant a = a 1 e a n e n la décomposition de a dans la base orthonormée B, on a (a x) = a 1 x a n x n. Ainsi, H a pour équation dans la base B. a 1 x a n x n = 0 Remarque Avec les notations précédentes, l ensemble des formes linéaires caractérisant H est Vect(f) \ {0}. De la même façon, l ensemble des vecteurs normaux à H est Vect(a) \ {0}. Il est en effet évident que pour tout λ R, λf est représentée par le vecteur λa. Les équations de H sont donc exactement les équations (λa x) = 0 où λ R. Si l on travaille dans une base orthonormée B = (e 1,...,e n ), et si H a pour équation a 1 x a n x n = 0 dans la base B, les vecteurs normaux à H sont exactement les vecteurs λ(a 1 e a n e n ) où λ R. Propriété Distance d un vecteur à un hyperplan ou une droite Soit H un hyperplan de E et a un vecteur normal à H. Alors, pour tout x E, la distance de x à H est donnée par d(x,h) = (x a). a Soit D une droite vectorielle de E et a un vecteur non nul de D. Alors, pour tout x E, la distance de x à D est donnée par d(x,d) = x 2 (x a)2 a 2. Démonstration La distance de x à H est donnée par d(x,h) = x p H (x), le vecteur p H (x) étant entièrement caractérisé par : p H (x) H et x p H (x) H = Vect(a). Ainsi, p H (x) est l unique vecteur de la forme x λa, où λ R, qui appartienne à H, i.e. tel que (x λa a) = 0, ce qui équivaut à : (x a) λ a 2 = 0. On a alors d(x,h) = x p H (x) = λa = (x a). a D après le théorème de Pythagore, on a d(x,d) 2 = x 2 d(x,d ) 2, la distance d(x,d ) étant donnée par le premier point, car a est un vecteur normal à l hyperplan D. On en déduit la formule. 241
250 242
251 Chapitre 13 Séries entières Nous avons déjà montré à l aide du théorème de dérivation terme à terme des séries de fonctions, que pour tout x ] 1,1[, arctan(x) = + ( 1) n x2n+1 n=0 2n + 1. Nous avons également prouvé dans le chapitre Séries numériques que la série z n n! converge n 0 absolument pour tout z C. L un des raisonnements que nous avions faits, basé sur la formule de Taylor avec reste intégral, montrait même que pour tout x R, e x = + n=0 Il semble donc que les séries de la forme n 0 a nz n jouent un rôle particulier et que des fonctions usuelles se représentent comme somme de telles séries ; c est ce que nous allons étudier dans ce chapitre. x n n!. I. Définition et convergence des séries entières 1. Définition, rayon de convergence Définition Série entière Une série entière est une série de la forme n 0 a nx n où x est une variable réelle, ou de la forme n 0 a nz n où z est une variable complexe, les coefficients a n étant des nombres complexes. On dit que cette série est associée à la suite (a n ) n N, ou qu elle a pour coefficients les nombres a n. L étude de la convergence des séries entières est basée sur le lemme suivant : Lemme d Abel Soit n 0 a nz n une série entière et z 0 C tel que la suite (a n z0 n) n N soit bornée. Alors, pour tout z C tel que z < z 0, la série n 0a n z n converge absolument. Démonstration Si z 0 = 0, il n y a rien à démontrer. Sinon, soit z C tel que z < z 0. Alors pour tout n N, a n z n = a n z0 n z n. 243 z 0
252 La suite (a n z0 n ) étant bornée, on en déduit que ( a n z n z n) = O. De plus, la série géométrique de raison z/z 0 [0,1[ est convergente. Par comparaison, la série a n z n converge absolument. n 0 Définissons alors z 0 I = {ρ 0; (a n ρ n ) est bornée} et R = supi [0, + ]. Ce nombre est bien défini car la suite (a n ρ n ) est bornée par exemple pour ρ = 0, donc I est non vide. La borne supérieure est calculée dans R, et notamment, R peut être infini; c est le cas si et seulement si la partie I n est pas majorée. On remarque de plus que R ne dépend que de (a n ) et notamment, il est le même, que la série entière soit de la variable réelle, ou de la variable complexe. Enfin, il est tout à fait possible que R / I, même lorsque R est fini : cela correspond à la situation où (a n R n ) n est pas bornée. Exemples La série géométrique n 0 zn est une série entière. Pour ρ 0, la suite (ρ n ) est bornée si et seulement si ρ 1. On a donc ici I = [0,1], d où R = 1. Dans le cas de la série n 0 nzn, pour ρ 0, la suite (nρ n ) est bornée si et seulement si ρ < 1 : on a I = [0,1[ et ici aussi R = 1. Propriété On utilise les notations précédentes. Soit z C. Si z < R, alors la série n 0a n z n converge absolument. Si z > R, alors la série n 0a n z n diverge grossièrement. Démonstration Si z < R, alors par définition de la borne supérieure, il existe ρ I tel que z < ρ. Alors la suite (a n ρ n ) est bornée et d après le lemme d Abel, n 0 a nz n converge absolument. Si z > R, alors z / I et donc (a n z n ) n est pas bornée, ce qui entraîne que a n z n ne tend pas vers 0. En particulier, la série n 0 a nz n diverge grossièrement. Définition Rayon de convergence, disque/intervalle ouvert de convergence On appelle R le rayon de convergence de la série entière a n z n ou n x n 0 n 0a n. Dans le cas d une variable complexe, l ensemble D(0,R) = {z C; z < R} est appelé disque ouvert de convergence de la série entière. Si R = +, il s agit de C tout entier. Dans le cas d une variable réelle, l intervalle ] R,R[ est appelé intervalle ouvert de convergence de la série entière. Si R = +, il s agit de R tout entier. Remarque En fait, R est entièrement caractérisé par les deux premiers points de la propriété précédente : si R et R sont deux réels vérifiant cette propriété, et si par exemple R < R, alors 244
253 pour R < r < R, la série n 0 a nr n doit être à la fois convergente et divergente, ce qui est absurde. On a donc R R et de même R R. Méthode On a plusieurs moyens pour minorer et majorer le rayon de convergence R, notamment, pour tout r 0 et z 0 C : Si la suite (a n ρ n ) est bornée pour tout ρ tel que 0 ρ < r, alors R r. Si la suite (a n ρ n ) est non bornée pour tout ρ > r, alors R r. Si la série n 0 a nz n converge pour tout z C tel que z < r, alors R r. Si la série n 0 a nz n diverge pour tout z C tel que z > r, alors R r. Si la série n 0 a nz n 0 converge ou si la suite (a nz n 0 ) est bornée, alors R z 0. Si la série n 0 a nz n 0 diverge, alors R z 0. Ces points proviennent, suivant les cas, de la définition de R, de la propriété précédente, ou se démontrent comme le résultat de la remarque précédente. La propriété suivante, basée sur le théorème de comparaison, permet de comparer les rayons de convergence de deux séries entières : Propriété Comparaison de rayons de convergence Soient n 0 a nz n et n 0 b nz n deux séries entières de rayons de convergence respectifs R a et R b. Si a n = O(b n ), alors R a R b. Si a n b n, alors R a = R b. Démonstration Sachant que a n = O(b n ), on a, pour tout z C, a n z n = O( b n z n ). Si z < R b, n 0 b nz n converge absolument, donc par comparaison, n 0 a nz n converge absolument, et donc converge. On en déduit que R a R b d après le troisième point de la méthode précédente. Si a n b n, alors a n = O(b n ) et b n = O(a n ), donc d après le point précédent, R a R b et R b R a, d où le résultat. Exemples La série géométrique n 0 zn est une série entière de rayon de convergence égal à 1 et pour tout z C tel que z < 1, + z n = 1 1 z. n=0 La série n 1 z n n est une série entière de rayon de convergence R égal à 1. En effet, on a 1/n = O(1), donc d après le point précédent et la propriété ci-dessus, R 1. De plus, pour z = 1, la série obtenue est la série harmonique, divergente. On en déduit que R 1. Remarquons au passage que pour z = 1, de module 1, la série obtenue est la série harmonique alternée, convergente. On retiendra donc de ces exemples qu aux points du bord du disque de convergence, on peut avoir convergence comme divergence de la série. En revanche, si n 0 a n R n converge, alors par définition même, la série converge absolument en tout point du bord du disque de convergence. En dehors de ce cas particulier, on ne donnera dans ce cours aucun résultat général de convergence au bord du disque de convergence, qui devra donc être examinée au cas par cas. 245
254 La série ( ln ) z n a pour rayon de convergence 1 d après le point précédent et la n n 1 propriété ci-dessus, car ( ln ) 1 n n. La série z n est une série entière de rayon de convergence infini : d après la règle de d Alembert, elle converge pour tout z n! n 0 C. 2. La règle de d Alembert pour les séries entières Pour étudier la convergence des séries, nous disposons de la règle de d Alembert, dont on sait qu elle permet de conclure à des convergences absolues ou des divergences grossières, ce qui est le cas des séries entières en dehors du bord du disque de convergence. Il paraît donc judicieux de tester cette règle dans le cadre des séries entières. Soit R le rayon de convergence de la série entière n 0a n z n. Supposons que a n 0 pour n assez grand. Pour z = 0, la série converge toujours. Si z 0, le quotient apparaissant dans la règle de d Alembert est (pour n assez grand) a n+1 z n+1 a n z n = a n+1 a n z. Supposons que a n+1 a n possède une limite l (éventuellement infinie). Alors a n+1 z n+1 a n z n l z. n + D après la règle de d Alembert : Si l = 0, la série converge absolument quel que soit z et R = +. Si l = +, elle ne converge que pour z = 0 et R = 0. Si l ]0, + [, alors : si l z < 1, la série n 0 a nz n converge absolument, et si l z > 1, elle diverge grossièrement. Ainsi R = 1/l. On vient donc de démontrer le résultat suivant : Théorème Règle de d Alembert pour les séries entières Soit n 0 a nz n une série entière. On suppose que a n 0 pour n assez grand, et qu il existe l R + ou l = + tel que a n+1 a n l. Alors le rayon de convergence R de la série entière n 0 a nz n est donné par : 1 si l ]0, + [ l R = + si l = 0 0 si l = + Remarque Comme pour la règle de d Alembert usuelle, il n existe pas de réciproque : le quotient a n+1 /a n peut ne pas avoir de limite, voire ne pas être défini, alors que le rayon de convergence existe toujours. En particulier, lorsque cette règle ne s applique pas, il faut penser aux autres moyens que nous avons exposés pour déterminer un rayon de convergence. 246
255 Exemples La série entière n 0 nz n a pour rayon de convergence 1 car n + 1 n 1. La série entière n!z n a pour rayon de convergence 0 car n 0 converge que pour z = 0. La série entière n 0 (n + 1)! n! 2 n n! 2 zn a pour rayon de convergence + car = (n + 1) +. Elle ne 2 n+1 /(n + 1)! 2 2 n /n! 2 = 2 (n + 1) 2 0. Elle converge pour tout z C. Attention aux séries dites «lacunaires», dans lesquelles tous les exposants n apparaissent pas, comme la série 2 n ln(n)z 2n. n 1 Pour cette série, on a, pour tout p N, a 2p = 2 p ln(p) si p 1, mais a 2p+1 = 0. Il ne faut pas faire l erreur de dire que a n = 2 n ln(n) pour tout n 1, ce qui donnerait un rayon de convergence (faux) de 1/2. Pour n 2, et z 0, 2 n+1 ln(n + 1)z 2(n+1) 2 n ln(n)z 2n = 2 ln(n + 1) ln(n) z 2 n + 2 z 2. On en déduit que la série converge absolument si 2 z 2 < 1 et diverge si 2 z 2 > 1. Le rayon de convergence est donc 1/ 2. On retiendra que pour appliquer la règle de d Alembert à de telles séries, il faut revenir à la règle de d Alembert pour les séries numériques. 3. Convergence normale sur tout segment de l intervalle de convergence Nous savons déjà que la convergence des séries entières est absolue sur le disque ouvert de convergence. Qu en est-il de la convergence uniforme ou normale? Théorème Soit n 0 a nx n une série entière d une variable réelle, de rayon de convergence R. Posons, pour tout n N, f n : x a n x n. Alors n 0 f n converge normalement sur tout segment inclus dans l intervalle ouvert de convergence ] R,R[. Démonstration Soit [a,b] un segment inclus dans ] R,R[ et r = max{ a, b } [0,R[. Alors, pour tout x [a,b], pour tout n N, a n x n a n r n. La série n 0 a nr n converge absolument car r [0,R[, d où le résultat. Attention! Il n y a pas nécessairement convergence normale sur l intervalle ouvert de convergence tout entier : par exemple, la série de fonctions associée à n 0 xn ne converge pas normalement sur ] 1,1[, car la série n 0 1 diverge. 247
256 II. Opérations sur les séries entières Théorème Somme de séries entières Soient n 0 a nz n et n 0 b nz n deux séries entières de rayons de convergence respectifs R a et R b. Alors le rayon de convergence R de la série entière n 0(a n + b n )z n vérifie R min{r a,r b }, avec égalité si R a R b. Pour tout z C vérifiant z < min{r a,r b }, on a alors + (a n + b n )z n = + a n z n + + n=0 n=0 n=0 b n z n. Démonstration Si z < min{r a,r b }, alors les deux séries n 0 a nz n et n 0 b nz n convergent, donc la série n 0 (a n + b n )z n converge, ce qui implique que R min{r a,r b }. Si R a R b (par exemple R a < R b ), alors pour r vérifiant R a < r < R b, la série n 0 a nr n diverge tandis que la série n 0 b nr n converge, donc la série n 0 (a n + b n )r n diverge. On a donc, dans ce cas, R min{r a,r b }. Si z < min{r a,r b }, la formule sur la somme est une conséquence des résultats sur les séries (linéarité de la somme). Remarque On n a pas toujours R = min{r a,r b } si R a = R b. Par exemple, les séries n 0 zn et n 0 zn ont toutes les deux pour rayon de convergence 1, mais la série somme a un rayon de convergence infini. Théorème Produit de Cauchy de séries entières Soient n 0 a nz n et n 0 b nz n deux séries entières de rayons de convergence respectifs R a et R b. Alors leur produit de Cauchy est la série entière ( a p b q )z n, n 0 dont le rayon de convergence R vérifie p+q=n R min{r a,r b }. Pour tout z vérifiant z < min{r a,r b }, on a alors ( + + a p b q )z n = a p z p n=0 p+q=n p=0 + q=0 b q z q. Démonstration Le produit de Cauchy des deux séries est la série ( ) (a p z p )(b q z q ) = ( a p b q )z n. p+q=n n 0 p+q=n n 0 Si z < min{r a,r b }, alors les deux séries n 0 a nz n et n 0 b nz n convergent absolument, donc d après le théorème de convergence du chapitre Séries numériques, on a convergence du produit de Cauchy, ainsi que la formule annoncée. En particulier R min{r a,r b }. 248
257 Attention! Il n y a pas de cas d égalité pour les rayons de convergence de produits de séries entières : les séries entières 1 z et n 0 zn ont pour rayons de convergence respectifs + et 1, qui sont distincts, mais leur produit de Cauchy est la série constante égale à 1, de rayon de convergence + > min{1, + }. En effet, avec les notations du théorème, on a ici a p b q = a 0 b 0 = 1 1 = 1, n 1, p+q=0 p+q=n a p b q = a 0 b n + a 1 b n 1 = = 0. Exemple Le produit de Cauchy des séries entières n 0 z n et n 1 z n n est la série entière n 1H n z n où, pour tout n 1, H n = n k=1 1/k. Son rayon de convergence R vérifie R 1 (on peut en fait montrer que R = 1 à partir de l équivalent H n ln(n)). III. Régularité de la somme d une série entière Continuité sur le disque ouvert de convergence Théorème Soit n 0 a nx n une série entière d une variable réelle, de rayon de convergence R. Alors la fonction somme S : x + n=0 a n x n est continue sur ] R,R[. Soit n 0 a nz n une série entière d une variable complexe, de rayon de convergence R. Alors la fonction somme S : z + n=0 a n z n est continue sur D(0,R). Démonstration Pour tout n N, f n : x a n x n est continue sur ] R,R[. De plus, la série de fonctions n 0 f n converge normalement (et donc uniformément) sur tout segment de ] R,R[. D après le théorème de continuité pour les séries de fonctions, S est continue sur ] R,R[. Conformément au programme, ce résultat est admis. Séries entières de la variable réelle : dérivation et intégration La série des dérivées d une série entière n 0 a nz n est la série n 1 na nz n 1. À un facteur près, on obtient la série n 0 na nz n. On s intéresse donc au rayon de convergence de cette série entière. Propriété Soit n 0 a nz n une série entière de rayon de convergence R. Alors la série entière a pour rayon de convergence R. na n z n n 0 Démonstration Notons R le rayon de convergence de la série n 0 na nz n. On a tout d abord donc R R. a n = O(na n ) 249
258 Si z < R, soit r vérifiant z < r < R. Alors pour n N, La suite na n z n = n zn r n a nr n. ( ( z n ) n est bornée par croissances comparées, car r) na n z n = O ( a n r n ). z r < 1. On en déduit que Or r < R, donc la série n 0 a nr n converge absolument. Par comparaison, la série n 0 na nz n converge absolument, et donc converge. Ainsi R R, ce qui termine la démonstration. Théorème Primitivation terme à terme des séries entières Soit n 0 a nx n une série entière de rayon de convergence R > 0. Alors, l unique primitive de sa fonction somme f sur ] R,R[ qui s annule en 0 est la fonction somme de la série entière a n n + 1 xn+1, qui a pour rayon de convergence R. n 0 On peut donc primitiver terme à terme les séries entières sur leur intervalle ouvert de convergence. Démonstration D après le théorème fondamental, l unique primitive de f sur ] R,R[ qui s annule en 0 est la fonction x x 0 f(t)dt. Par continuité des fonctions f n : t a n t n et convergence normale de n 0 f n sur tout segment de ] R,R[, on peut appliquer le théorème d intégration terme à terme pour les séries de fonctions : si x ] R,R[, x 0 f(t)dt = + n=0 ( x 0 ) + a n t n a n dt = n + 1 xn+1. Cette série entière a pour rayon de convergence R, on le montre en raisonnant comme dans la propriété précédente. n=0 Théorème Dérivation terme à terme des séries entières Soit n 0 a nx n une série entière de rayon de convergence R > 0. Alors sa fonction somme f est de classe C 1 sur ] R,R[ et pour tout x ] R,R[, f (x) = + n=1 na n x n 1, la série entière associée ayant pour rayon de convergence R. On peut donc dériver terme à terme les séries entières sur leur intervalle ouvert de convergence. Démonstration Pour tout n 0, la fonction f n : x a n x n est de classe C 1 sur ] R,R[ avec f 0 = 0 et f n(x) = na n x n 1 pour tout n 1 et x ] R,R[. La série n 0 f n converge simplement sur ] R,R[. Pour appliquer le théorème de dérivation terme à terme des séries de fonctions, il suffit de vérifier que la série des dérivées, n 1 f n, converge uniformément sur tout segment de ] R,R[. Or, cette dernière série est une série entière de rayon de convergence R d après la propriété précédente (le facteur x ne modifie pas le rayon de convergence), d où le résultat. 250
259 On peut alors réitérer ce raisonnement avec la série des dérivées k-ièmes. On en déduit le résultat suivant : Théorème Soit n 0 a nx n une série entière de rayon de convergence R > 0. Alors sa fonction somme f est de classe C sur l intervalle ] R,R[ et pour tout k N, pour tout x ] R,R[, f (k) (x) = + n=k n(n 1) (n k + 1)a n x n k = + n=k n! (n k)! a nx n k. Corollaire Expression des coefficients d une série entière Soit n 0 a nx n une série entière de rayon de convergence R > 0. Alors, pour tout k N, a k = f(k) (0). k! Démonstration Pour tout x ] R,R[, on a d après le théorème précédent, f (k) (x) = + n=k n! (n k)! a nx n k. En évaluant en x = 0 (ce qui est possible car R > 0), on obtient f (k) (0) = k!a k, car seul le terme correspondant à n = k fournit un terme éventuellement non nul. D où le résultat. On en déduit en particulier que les coefficients a n sont entièrement déterminés par la donnée de la somme de la série entière n 0 a nx n de rayon de convergence non nul. Par exemple, et c est intuitif, si la somme d une série entière ne prend que des valeurs réelles, alors on sait que tous les coefficients de cette série entière sont réels, même si l expression de ces coefficients ne le fait pas clairement apparaître. Du corollaire précédent, on déduit immédiatement : Théorème Unicité du développement en série entière Soient n 0 a nx n et n 0 b nx n deux séries entières de rayons de convergence supérieurs ou égaux à un certain r > 0. On suppose que pour tout x ] r,r[, Alors a n = b n pour tout n N. + n=0 a n x n = + n=0 b n x n. Application Soit n 0 a nx n une série entière de rayon de convergence R > 0 et f sa fonction somme. Alors : f est paire si et seulement si pour tout k N, a 2k+1 = 0. f est impaire si et seulement si pour tout k N, a 2k = 0. Démonstration Il suffit de traiter le cas où f est paire, l autre est similaire. Si f est paire, alors pour tout x ] R,R[, + n=0 a n x n = + n=0 a n ( x) n = + n=0 ( 1) n a n x n. Par unicité du développement en série entière, on a donc a n = ( 1) n a n pour tout n N, ce qui entraîne le résultat. La réciproque est claire. 251
260 IV. Développements en séries entières 1. Série de Taylor Définition Fonction développable en série entière Soit I un intervalle de R auquel 0 est intérieur, et soit r > 0 tel que ] r,r[ I. Soit f : I C une fonction. On dit que f est développable en série entière sur ] r,r[ si f est la somme d une série entière sur ] r,r[, c est-à-dire, s il existe une série entière n 0 a nx n de la variable réelle, de rayon de convergence au moins égal à r, telle que x ] r,r[, f(x) = + n=0 a n x n. + ( 1) n x2n+1 Exemple Pour tout x ] 1,1[, arctan(x) = 2n + 1. n=0 Ce développement en série entière de arctan est explicitement au programme, il est à connaître. On remarque au passage que le rayon de convergence de la série entière précédente est 1, même si la fonction arctan est définie sur R tout entier. On ne demande pas à la fonction somme de la série entière de coïncider avec f, ni même d être définie, sur I tout entier. C est pour cela qu on a introduit le paramètre r dans la définition, qui permet de se placer au voisinage de 0. Remarque Si f est développable en série entière sur ] r,r[, par unicité du développement en série entière, les éventuels coefficients a n sont alors entièrement déterminés : f est de classe C sur ] r,r[ et on a nécessairement, pour tout n N, Définition Série de Taylor a n = f(n) (0). n! Soit f :] r,r[ C une fonction de classe C avec r > 0. On appelle série de Taylor de f (en 0) la série entière f (n) (0) x n. n! n 0 Si f est développable en série entière sur ] r,r[, elle ne peut être somme que de sa série de Taylor. Le problème de la recherche des coefficients a n ne se pose donc presque pas, en revanche, se pose le problème de la convergence de la série de Taylor, seule «candidate» à avoir pour somme f, et le problème de l égalité entre sa somme et f. Commençons par donner des contre-exemples qui prouvent que ces deux problèmes ne sont pas anodins. On peut prouver qu il existe une fonction f de classe C au voisinage de 0 telle que pour tout n N, f (n) (0) = (n!) 2. Alors la série de Taylor de f a un rayon de convergence nul car il s agit de la série entière n 0 n!xn. Considérons la fonction f définie sur R par f(0) = 0 et f(x) = exp( 1/x 2 ) si x 0. On prouve facilement que f est de classe C sur R avec, pour tout n N, f (n) (0) = 0. En effet, le seul problème est évidemment en 0, mais on montre facilement par récurrence que pour tout n N, il existe un polynôme P n tel que pour tout x 0, ( ) 1 f (n) (x) = P n e 1/x2. x 252
261 Par croissances comparées, f (n) (x) tend vers 0 lorsque x tend vers 0. On obtient alors le résultat par applications successives du théorème de la limite de la dérivée. La série de Taylor de f en 0 est la série nulle : elle a évidemment un rayon de convergence infini, mais sa somme ne coïncide avec f qu en 0 puisque f(x) 0 si x Lien avec les formules de Taylor Bien sûr, la série de Taylor d une fonction f n est pas sans rapport avec les formules de Taylor pour la fonction f : on voit bien qu elles font toutes intervenir les termes f(n) (0) x n. n! Tout d abord, supposons que f est développable en série entière sur ] r,r[; on a donc, pour tout x ] r,r[, f(x) = + n=0 f (n) (0) x n. n! Soit k N. Alors, d après la formule de Taylor-Young à l ordre k, on a f(x) = x 0 k n=0 f (n) (0) x n + o(x k ). n! Ainsi, le développement limité à l ordre k de f en 0 est obtenu par troncature à l ordre k de son développement en série entière. Écrivons maintenant la formule de Taylor avec reste intégral à l ordre k en 0 pour une fonction f de classe C sur un intervalle I contenant 0 : x I, f(x) = k n=0 f (n) (0) x n + n! x 0 (x t) k f (k+1) (t)dt. k! Si l on est capable de prouver que le reste intégral converge vers 0 lorsque k + pour tout x dans un intervalle de la forme ] r,r[ I, alors on obtiendra un développement en série entière de f sur ] r,r[. En utilisant cette idée, on va prouver le résultat suivant : Propriété Pour tout z C, e z = + n=0 z n n!. Démonstration D après la formule de Taylor avec reste intégral à l ordre k pour la fonction f : t e zt, de classe C sur [0,1], on a e z = f(1) = = k n=0 k n=0 f (n) (0) n! 1 (1 t) k + f (k+1) (t)dt 0 k! z n 1 n! + (1 t) k z k+1 e zt dt. 0 k! Or 1 (1 t) k z k+1 e zt 1 dt k! (1 t) k z k+1 e zt dt k! (1 t) k = z k+1 e Re(z)t dt 0 k! 1 z k+1 e Re(z) (1 t) k dt 0 k! = z k+1 e Re(z) 1 (k + 1)!. 253
262 Ce dernier terme tend vers 0 lorsque k +, par croissances comparées. On en déduit le résultat par passage à la limite dans la formule de Taylor ci-dessus. 3. Autres développements en série entière de référence Nous allons donner quelques développements en série entière usuels, en plus de ceux de arctan et exp. On peut alors en construire beaucoup d autres par : Combinaison linéaire, Produit de Cauchy, Intégration et dérivation terme à terme. Bien sûr, commençons par rappeler le développement en série entière correspondant à la série géométrique : Propriété Pour tout z C tel que z < 1, z = n=0 z n Remarque On a en particulier, pour tout x ] 1,1[, x = x n, n= x = ( 1) n x n, n=0 1 + (1 x) 2 = nx n 1, ce dernier développement étant obtenu par dérivation du premier (on l avait déjà prouvé par produit de Cauchy dans le chapitre Séries numériques). En intégrant terme à terme le deuxième développement de la remarque précédente, on obtient : Propriété n=1 Pour tout x ] 1,1[, ln(1 + x) = + ( 1) n 1xn n=1 n. Remarque Bien sûr, en changeant x en x, on a aussi, pour tout x ] 1,1[, ln(1 x) = + n=1 En prenant parties réelle et imaginaire de exp(ix) = on a également : Propriété Pour tout x R, x n n. + n=0 i n xn n! et en utilisant exp(x) = + n=0 x n n!, cos(x) = ch(x) = + ( 1) n x2n n=0 + n=0 x 2n (2n)! (2n)! sin(x) = sh(x) = + n=0 + n=0 x2n+1 ( 1) n (2n + 1)! x 2n+1 (2n + 1)! 254
263 Enfin, donnons le développement en série entière de la fonction x (1 + x) α : Propriété Pour tout α R, pour tout x ] 1,1[, (1 + x) α = n=1 α(α 1) (α n + 1) x n. n! L égalité est valable pour tout x R lorsque α N, auquel cas on reconnaît la formule du binôme de Newton. Démonstration Pour α N, le résultat est connu, il s agit de la formule du binôme (et c est en fait une somme finie). Sinon, en posant f(x) = (1 + x) α pour tout x ] 1,1[, alors f est de classe C sur ] 1,1[ et pour tout n N, { f (n) 1 si n = 0, (0) = α(α 1) (α n + 1) sinon. La série de Taylor de f en 0, 1 + n 1 f (n) (0) x n, n! a un rayon de convergence égal à 1 d après la règle de d Alembert : en effet, α n étant pas entier naturel, α(α 1) (α n + 1) 0 pour tout n 1 et α(α 1) (α n)/(n + 1)! α(α 1) (α n + 1)/n! = α n n n + Notons S la fonction somme de cette série. Alors S est de classe C 1 sur ] 1,1[ et pour tout x ] 1,1[, S (x) = + n=1 = α + = α + α(α 1) (α n + 1) x n 1 (n 1)! + n=1 + n=1 α(α 1) (α n) x n n! (α n) α(α 1) (α n + 1) x n. n! En séparant ce dernier terme en deux, on a pour tout x ] 1,1[, + S (x) = α + α n=1 α(α 1) (α n + 1) n! x n + n=1 n α(α 1) (α n + 1) x n, n! toutes les séries entières dans l égalité précédente ayant pour rayon de convergence 1. On reconnaît alors l égalité S (x) = αs(x) xs (x). La fonction S est donc solution de l équation différentielle (1 + x)s = αs sur ] 1,1[. La fonction x α ln(1 + x) est une primitive sur ] 1,1[ de la fonction continue x donc il existe λ R tel que pour tout x ] 1,1[, S(x) = λexp (αln(1 + x)) = λ(1 + x) α. α 1 + x, En remarquant de plus que S(0) = 1, on obtient λ = 1, donc f = S sur ] 1,1[, ce qui est le résultat souhaité. 255
264 256
265 Chapitre 14 Variables aléatoires Très souvent, on peut associer à chaque issue d une expérience aléatoire un résultat, notamment numérique, qui correspond à l observation d un des aspects de l expérience. Par exemple, si on lance deux dés, un rouge et un vert, on peut s intéresser au résultat du dé rouge, à celui du dé vert, à la somme des deux, à la couleur de celui (ou ceux) qui donne(nt) le plus grand résultat. Si l on observe le déplacement aléatoire d une particule dans l espace, on peut s intéresser à la position, à chaque seconde, de la particule, mais aussi à sa vitesse, au temps nécessaire pour que la particule atteigne, éventuellement, une position fixée, etc... Dans tout le chapitre, (Ω,A,P) est un espace probabilisé. I. Définitions, premières propriétés Définition Variable aléatoire Une variable aléatoire discrète sur (Ω,A ) est une application définie sur Ω, et vérifiant les conditions suivantes : L image X(Ω) de X est finie ou dénombrable, Pour tout x X(Ω), X 1 ({x}) A. Pour tout x X(Ω), l événement X 1 ({x}) est noté {X = x} ou (X = x). Lorsque X est à valeurs dans R, on dit que X est une variable aléatoire réelle. Remarques On parle aussi souvent de variable aléatoire sur (Ω,A,P), mais la définition d une variable aléatoire n utilise pas la probabilité P. Dans ce cours, toutes les variables aléatoires seront implicitement supposées discrètes. On rappelle que X 1 ({x}) = {ω Ω; X(ω) = x}. Plus généralement, si U est un sousensemble de X(Ω), X 1 (U) = {ω Ω; X(ω) U}. Le fait d employer cette notation ne signifie absolument pas que X est bijective! Si X est une variable aléatoire sur (Ω,A ), X(Ω) est fini ou dénombrable, donc on peut le décrire en extension sous la forme X(Ω) = {x n ; n I}, où I est une partie de N. Alors la famille ((X = x n )) n I est un système complet d événements. Lorsque Ω est fini, si X est une application définie sur Ω, X(Ω) est également fini. Sachant de plus que A = P(Ω), la deuxième condition de la définition ci-dessus est aussi remplie. Une variable aléatoire est donc tout simplement, dans ce cadre, une application définie sur Ω. On parle de variable aléatoire sur Ω, au lieu de (Ω,P(Ω)). 257
266 Propriété Soit X une variable aléatoire sur (Ω,A ) et U un sous-ensemble de X(Ω) : U X(Ω). Alors X 1 (U) A. L événement X 1 (U) est noté {X U} ou (X U). Démonstration L ensemble U est fini ou dénombrable en tant que sous-ensemble de X(Ω), on peut le décrire en extension sous la forme U = {x n ; n I}, où I est une partie de N. Alors X 1 (U) = n I X 1 ({x n }); c est un élément de A en tant que réunion finie ou dénombrable d éléments de A. Notation Soit X une variable aléatoire réelle sur (Ω,A ) et x R. Lorsque U = ],x] X(Ω), l événement (X U) est noté plus simplement (X x). On définit de façon analogue les événements (X < x), (X x) et (X > x). Exemple On modélise le lancer de deux dés, un rouge et un vert, par le choix de Ω = [1,6] 2, muni de la probabilité uniforme. Pour tout (i,j) Ω, i est le résultat du dé rouge, j celui du dé vert. La fonction X qui à (i,j) associe i + j est une variable aléatoire sur Ω. Elle prend toutes les valeurs de [2,12]. Par exemple, (X = 2) = {1,1} avec P(X = 2) = 1 36, (X = 4) = {(1,3),(2,2),(3,1)} avec P(X = 4) = 3 36 = 1 12, (X = 7) = {(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)} avec P(X = 7) = 6 36 = 1 6, Propriété/Définition Soit X une variable aléatoire sur (Ω,A ) et f une fonction définie sur X(Ω). Alors f X est une variable aléatoire sur (Ω,A ), plus souvent notée f(x). Démonstration L image de X est finie ou dénombrable, donc celle de f(x) également. De plus, soit a un élément de f(x(ω)) (image de f(x)); alors (f X) 1 ({a}) = (X f 1 ({a})). Or f 1 ({a}) X(Ω), donc d après la propriété précédente, (f X) 1 ({a}) A, ce qui prouve le résultat. Exemple Si X est une variable aléatoire réelle, X 2 est une variable aléatoire. Si X est à valeurs strictement positives, ln(x) est une variable aléatoire. II. Loi d une variable aléatoire 1. Généralités Définition Loi d une variable aléatoire Soit X une variable aléatoire sur (Ω,A,P). On appelle loi de la variable aléatoire X la fonction définie sur X(Ω) par : x X(Ω), P X (x) = P(X = x). Remarque La loi de X permet de définir une probabilité sur (X(Ω),P(X(Ω))). 258
267 Propriété Soit X une variable aléatoire sur (Ω,A,P). On décrit X(Ω) en extension sous la forme X(Ω) = {x n ; n I} où I est une partie de N. Alors, pour tout U X(Ω), on a P(X U) = x n U P(X = x n ). Rappel Lorsque X(Ω) est dénombrable et décrit en extension sous la forme {x n ; n N}, U est fini ou dénombrable, et peut-être décrit en extension sous la forme {x ϕ(1),...,x ϕ(m) } (où m = card(u)) ou {x ϕ(k) ; k N} (où ϕ est une bijection de N sur N). Alors x n U P(X = x n) s exprime comme une somme finie, ou une somme de série convergente : m P(X = x n ) = P(X = x ϕ(k) ) ou x n U k=1 P(X = x n ) = + x n U k=0 P(X = x ϕ(k) ). Par exemple, si X(Ω) = N et U = 2N = {2k; k N}, alors P(X U) = + k=0 P(X = 2k). Démonstration de la propriété L événement (X U) est la réunion des événements deux à deux disjoints (X = x n ) pour les x n de U, d où le résultat par définition d une probabilité (et notamment, la somme précédente ne dépend pas de la façon de décrire U en extension). Remarque Dans le cas dénombrable, la série n 0 P(X = x n) converge et a pour somme 1. De plus, pour tout événement A A, on a d après la formule des probabilités totales, P(A) = + n=0 Définition Fonction de répartition Soit X une variable aléatoire réelle sur (Ω,A,P). P(A X = x n )P(X = x n ). On appelle fonction de répartition de X la fonction F X définie sur R par : x R, F X (x) = P(X x). Propriété Soit X une variable aléatoire réelle sur (Ω,A,P) et F X sa fonction de répartition. Alors : F X est croissante sur R. F X (x) x 0 et F X(x) x + 1. Démonstration Soit (x,y) R 2 tel que x y ; alors (X x) (X y), et donc P(X x) P(X y), i.e., F X (x) F X (y) : la fonction F X est croissante. D après le premier point, F X a une limite l en +, et donc F X (n) l. Or on remarque n + que + n=0 (X n) = Ω, donc par propriété de continuité croissante, On a donc l = 1. F X (n) = P(X n) P(Ω) = 1. n + On procède de même pour la limite en en utilisant la propriété de continuité décroissante et le fait que + n=0 (X n) = avec P( ) =
268 Remarques La fonction de répartition d une variable aléatoire réelle X est une fonction «en escalier» (pas tout à fait au sens mathématique), chaque «marche» correspondant au passage en abscisse d une valeur prise par X. Ci-dessous, on donne la fonction de répartition correspondant au résultat du lancer d un dé équilibré. P X (2) 1 5/6 2/3 1/2 1/3 1/6 y = F X (x) x Les fonctions F X et P X sont liées : si X(Ω) = N par exemple, on a, pour tout n N, et pour n 1, F X (n) = n P(X = k) = k=0 n P X (k) k=0 P X (n) = P(X n) P(X n 1) = F X (n) F X (n 1). Les valeurs de P X correspondent aux hauteurs des «marches», sur le dessin précédent, P X (n) est la hauteur de la marche au point d abscisse n. Comme on l a vu plus haut, si X est une variable aléatoire sur (Ω,A ), la donnée d une probabilité sur (Ω,A ) définit la loi de X, qui s identifie à la donnée des P(X = x) pour x X(Ω). Inversement, il est en fait possible de choisir des lois, ce qui peut être très utile lors de l étape de modélisation : Propriété (admise : démonstration hors programme) Soit X une variable aléatoire sur (Ω,A ). On décrit X(Ω) en extension sous la forme X(Ω) = {x n ; n I}, où I est une partie de N. Soit (p n ) n I une famille ou une suite de réels positifs vérifiant p n converge n 0 p n = 1 (si X(Ω) est fini) ou + (si X(Ω) est dénombrable) n I p n = 1 n=0 Alors il existe une probabilité P sur (Ω,A ) telle que, pour tout n I, P(X = x n ) = p n. Remarque En pratique, très souvent, une expérience aléatoire est en fait décrite par des données sur une ou plusieurs variables aléatoires. La modélisation par le choix de (Ω,A ) vient après, et elle n est parfois pas nécessaire, ou admise. Par exemple : L évolution d un arbre généalogique peut être décrite par le nombre aléatoire de descendants directs de chaque individu, mais un choix de (Ω,A ) n est pas du tout évident. Imaginons un système dont les états à différentes dates sont repérés par les entiers naturels ou relatifs (on pourra penser à la position une particule, à un stock de marchandises). L évolution du système est décrite par les probabilités de transition de l état i à l état j. Supposons que les 260
269 transitions se font entre états voisins dans Z (de k à k + 1 ou k 1), et notons X n l état du système au rang n. La description du système se fait en donnant, pour tout (n,k) N Z, la probabilité P(X n+1 = k + 1 X n = k). On peut choisir Ω = {(u n ) n N Z N ; n N, u n+1 u n = 1}, mais ce n est pas nécessairement utile de le préciser pour étudier le système. 2. Lois usuelles La propriété précédente permet de définir des lois par la simple vérification qu une série est à termes positifs, convergente et de somme 1 (ou qu une famille finie de nombres positifs a pour somme 1). Ceci permet de définir les lois fondamentales suivantes ; pour chaque exemple, on donne un exemple de situation ainsi modélisée. a. Loi uniforme Définition On dit qu une variable aléatoire X sur (Ω,A,P) suit la loi uniforme si X(Ω) est fini et si les événements (X = x) pour x X(Ω) sont équiprobables. Exemples La loi uniforme modélise par exemple le résultat d un lancer de dé équilibré. Dans la modélisation du jeu de pile ou face infini faite dans le chapitre Espaces probabilisés, la variable aléatoire X qui donne le résultat des n premiers lancers suit la loi uniforme : pour tout (u 1,...,u n ) {0,1} n (qui est de cardinal 2 n ), b. Loi de Bernoulli Définition P(X = (u 1,...,u n )) = 1 2 n. Soit p [0,1]. On dit qu une variable aléatoire X sur (Ω,A,P) suit la loi de Bernoulli de paramètre p si X(Ω) = {0,1} et si Ceci se note X B(p). P(X = 1) = p, P(X = 0) = 1 p. Remarque On note très souvent q = 1 p. Exemples La loi de Bernoulli modélise un lancer de pièce, p représentant par exemple la probabilité d obtenir «pile». Plus généralement, la loi de Bernoulli modélise toutes les épreuves de Bernoulli, c est-à-dire ayant deux résultats possibles ; celui de probabilité p est souvent interprété comme succès. En Python, on peut simuler ainsi une expérience de Bernoulli de paramètre p (on supposera importé le module random) : 1 def sim_bernoulli(p): 2 x = random.random() 3 if x < p: 4 return 1 5 else: 6 return 0 261
270 Propriété Lien avec les fonctions indicatrices Soit A un événement de probabilité p, avec A et A Ω. Alors 1 A est une variable aléatoire sur (Ω,A,P) qui suit la loi de Bernoulli de paramètre p. Inversement, soit X une variable aléatoire sur (Ω,A,P) qui suit la loi de Bernoulli de paramètre p. Alors X =1 A, avec A = (X = 1) de probabilité p. Démonstration La fonction 1 A prend les valeurs 0 et 1, et P(1 A = 1) = P(A) = p. Les deux fonctions X et 1 (X=1) prennent la valeur 1 sur (X = 1) et 0 sur (X = 0), avec (X = 0) (X = 1) = Ω, donc ces fonctions sont égales. On a P(X = 1) = p par définition. c. Loi binomiale Définition Soient n N et p [0,1]. On dit qu une variable aléatoire X sur (Ω,A,P) suit la loi binomiale de paramètres n et p si X(Ω) = [0,n] et si ( ) n k [0,n], P(X = k) = p k (1 p) n k. k Ceci se note X B(n,p). Remarque On définit bien ainsi une loi, car d après la formule du binôme de Newton, n ( ) n p k (1 p) n k = (p + 1 p) n = 1. k k=0 Interprétation Le nombre S de succès lors d une succession de n épreuves de Bernoulli de paramètre p mutuellement indépendantes suit la loi binomiale de paramètres n et p. En effet, la variable aléatoire S est à valeurs dans [0,n] et, pour k [0,n], l événement (S = k) est la réunion des événements consistants à fixer k succès et n k échecs. Ces événements sont deux à deux incompatibles, sont au nombre de ( n k), et chacun est de probabilité p k (1 p) n k par indépendance mutuelle. On a donc P(S = k) = ( ) n p k (1 p) n k. k Exemples Le nombre de «pile» obtenus lors de n lancers successifs mutuellement indépendants d une pièce suit la loi binomiale de paramètres n et p, où p est la probabilité d obtenir «pile» à un lancer donné. On effectue n tirages avec remise dans une urne contenant des boules indiscernables, rouges en proportion p et vertes en proportion q = 1 p. La variable aléatoire donnant le nombre de boules rouges tirées suit la loi binomiale de paramètres n et p. En Python, on peut simuler ainsi une suite de n épreuves de Bernoulli de paramètre p : 1 def sim_tirages(n,p): 2 L = [] 3 for i in range(n): 4 x = random.random() 5 if x < p: 6 L.append(1) 7 else: 8 L.append(0) 9 return L 262
271 On peut simuler la variable aléatoire S de la façon suivante : 1 def sim_nb_succes(n,p): 2 S = 0 3 for i in range(n): 4 x = random.random() 5 if x < p: 6 S += 1 7 return S On peut alors simuler la loi B(n,p) de la façon suivante : on répète N fois la simulation ci-dessus, et on calcule, pour tout k [0,n] la fréquence relative du résultat k lors de ces N exepériences : 1 def loi_binomiale(n,p,n): 2 L = [] 3 for i in range(n): 4 S = sim_nb_succes(n,p) 5 L.append(S) 6 return [L.count(k)/float(N) for k in range(n+1)] d. Loi géométrique Définition Soit p ]0,1[. On dit qu une variable aléatoire X sur (Ω,A,P) suit la loi géométrique de paramètre p si X(Ω) N et si Ceci se note X G (p). k N, P(X = k) = p (1 p) k 1. Remarques C est le premier exemple que l on rencontre de variable aléatoire prenant un nombre infini de valeurs. On définit bien une loi car la série géométrique de raison (1 p) ]0,1[ est à termes positifs, elle converge, et + + p (1 p) k 1 = p (1 p) k p = 1 (1 p) = 1. Exemples k=1 k=0 Considérons le jeu de pile ou face infini, avec p la probabilité d obtenir «pile». Pour k N, l événement «pile apparaît pour la première fois au rang k» a pour probabilité p (1 p) k 1 (k 1 échecs suivis d un succès). Plus généralement, la loi géométrique peut être interprétée comme loi du rang du premier succès dans une suite illimitée d épreuves de Bernoulli mutuellement indépendantes et de même paramètre p. Il est parfois utile d autoriser que X prenne d autres valeurs que celles de N, avec probabilité nulle, notamment, en lien avec l interprétation précédente, si aucun succès ne survient. La loi géométrique est aussi souvent utilisée pour modéliser des durées de fonctionnement de composants, machines, etc... Remarque On peut remplacer X(Ω) = N par X(Ω) = N avec : k N, P(X = k) = p (1 p) k. Dans ce cas, cette loi s interprète comme loi du nombre d échecs avant le premier succès. 263
272 e. Loi de Poisson Définition Soit λ R +. On dit qu une variable aléatoire X sur (Ω,A,P) suit la loi de Poisson de paramètre λ si X(Ω) = N et si Ceci se note X P(λ). λ λk k N, P(X = k) = e k!. Remarque On définit bien ainsi une loi, car on reconnaît la série exponentielle de λ, qui est à termes positifs, convergente, avec + k=0 λ λk e k! = e λ e λ = 1. Le théorème suivant établit un lien asymptotique entre loi binomiale et loi de Poisson : Théorème Approximation de la loi binomiale par la loi de Poisson Soient (p n ) n N une suite d éléments de [0,1], (X n ) n N une suite de variables aléatoires sur (Ω,A,P) et λ R +. On fait les hypothèses suivantes : Pour tout n N, X n suit la loi binomiale de paramètres n et p n, n p n λ. n + Alors, pour tout k N, λk P(X n = k) e λ n + k! Démonstration Soit k N. Alors, pour n k assez grand, p n ]0,1[ et on a ( ) n P(X n = k) = p k n k (1 p n) n k n(n 1) (n k + 1) = p k n k! (1 p n) n k Tout d abord, (np n ) k Or n k n + k! pk n (1 p n) n k. n + λk. De plus, n p n λ, donc p n 0 + et, lorsque n +, (1 p n ) n k = exp ((n k)ln (1 p n )) = exp ((n k)( p n + o(p n ))). (n k)( p n + o(p n )) = n p n + o(n p n ) n p n λ. n + n + Par continuité de l exponentielle et d après ce qui précède, on a bien λk P(X n = k) e λ n + k! Remarques Dans les calculs, on peut donc approcher ( n )p k k (1 p) n k par e np (np)k. k! Cela permet d éviter des calculs de coefficients du binôme, qui font intervenir des quotients de grands nombres. On considère que l approximation est intéressante lorsque p 0,1, n 30 et np <
273 Exemple On lance 100 fois un dé équilibré à 20 faces et on compte le nombre N de 20 obtenus. Ce nombre suit une loi binomiale B(100,1/20), on a donc, pour tout k [0,100], P(N = k) = ( ) k 20 k ( ) k 20 On est dans les conditions de l approximation avec np = 100/20 = 5, on peut donc approcher P(N = k) par e 5 5 k /k!. Pour k = 2 par exemple, on a ( ) Le programme suivant permet d utiliser cette approximation : ( ) ,081 et e 20 2! 0, from math import exp, factorial 2 3 def approx_poisson(n,p): 4 return [exp(-n*p)*(n*p)**k/factorial(k) for k in range(n+1)] On peut alors tester par exemple l approximation de B(30,0.1) par P(3) (listes B et A), ainsi qu une simulation de cette approximation (liste L); dans ce qui suit, on n affiche que les 10 premières valeurs, en arrondissant à 4 décimales pour B et A : 1 from scipy.special import binom 2 3 # Loi binomiale B(30,0.1) 4 B = [ binom(30,k)*(0.1**k)*(0.9**(30-k)) for k in range(31) ] 5 B = [ float("%.4f" % x) for x in B ] 6 7 # Approximation par P(3) 8 A = approx_poisson(30,0.1) 9 A = [ float("%.4f" % x) for x in A ] # Simulation de B(30,0.1) 12 L = loi_binomiale(30,0.1,10000) for k in range(10): 15 print "P( X =",k,") :",B[k],",",A[k],",",L[k] Voici un résultat possible : P( X = 0 ) : , , P( X = 1 ) : , , P( X = 2 ) : , 0.224, P( X = 3 ) : , 0.224, P( X = 4 ) : , 0.168, P( X = 5 ) : , , P( X = 6 ) : , , P( X = 7 ) : 0.018, , P( X = 8 ) : , , P( X = 9 ) : , , Remarque On s intéresse à la loi du nombre d occurrences d un phénomène dans un intervalle de temps [0,T]. On fait les hypothèses suivantes : il existe a R tel que la probabilité que le phénomène se produise une fois dans un intervalle de temps de petite longueur h est ah; la probabilité qu il se produise plus d une fois est négligeable (en fait, un o(h)); les nombres d occurrences du phénomène dans des intervalles disjoints sont mutuellement indépendants. 265
274 On subdivise [0,T] en intervalles de longueur T/n. D après les hypothèses précédentes, on peut considérer que le nombre d occurrences du phénomène dans l intervalle [0,T] suit la loi binomiale B(n,aT/n). D après le résultat d approximation précédent, pour n grand, on peut approcher cette loi par la loi de Poisson P(aT) (le paramètre λ s identifie donc à at). Pour cette raison, la loi de Poisson est dite loi des événements rares ; elle est souvent utilisée pour modéliser le nombre d occurrences d un phénomène dans un intervalle de temps fixé, ce phénomène étant «rare» dans un court intervalle de temps, mais observé sur un grand nombre de tels intervalles. Par exemple, on peut modéliser ainsi le nombre de véhicules passant devant un point d observation, de clients entrant dans un magasin, de catastrophes naturelles, de désintégrations de noyaux radioactifs (lorsque la source est éloignée, les mesures faites par un compteur Geiger font effectivement apparaître une loi de Poisson). III. Familles de variables aléatoires 1. Couple de variables aléatoires Propriété/Définition Soient X et Y deux variables aléatoires sur (Ω,A ). L application ω (X(ω),Y (ω)) est une variable aléatoire sur (Ω,A ), appelée couple (X,Y ). Démonstration Les ensembles X(Ω) et Y (Ω) sont finis ou dénombrables, donc X(Ω) Y (Ω) est fini ou dénombrable. L image de (X,Y ) est contenue dans X(Ω) Y (Ω), elle est donc aussi finie ou dénombrable. Notons Z = (X,Y ). Pour tout (x,y) de Z(Ω), Z 1 ({(x,y)}) = {ω Ω; (X(ω),Y (ω)) = (x,y)} = X 1 (x) Y 1 (y); c est un événement en tant qu intersection de deux événements. Notation L événement ((X,Y ) = (x,y)), c est-à-dire (X = x) (Y = y) est plus souvent noté (X = x,y = y). Si A X(Ω) et B Y (Ω), l événement ((X,Y ) A B), c est-à-dire (X A) (Y B), est plus souvent noté (X A,Y B). Corollaire L ensemble des variables aléatoires sur (Ω,A ) à valeurs dans K (K = R ou C) est un K-espace vectoriel (pour les lois d addition et de multiplication par un scalaire). Démonstration C est un sous-ensemble de l espace vectoriel des applications de Ω dans K, qui est non vide (la fonction nulle est une variable aléatoire) Enfin, soient X et Y deux variables aléatoires sur (Ω,A ) à valeurs dans K et soit λ K. On définit la fonction f : (x,y) λx+y sur K 2. Alors λx + Y = f(x,y ), qui est une variable aléatoire car le couple (X,Y ) est une variable aléatoire. Définition Soit (X,Y ) un couple de variables aléatoires sur (Ω,A ). On appelle : loi conjointe de X et Y la loi du couple (X,Y ). lois marginales du couple (X,Y ) les lois de X et de Y. 266
275 Propriété Soit (X,Y ) un couple de variables aléatoires sur (Ω,A ). La loi du couple (X,Y ) détermine entièrement ses lois marginales par les relations x X(Ω), P(X = x) = y Y (Ω) y Y (Ω), P(Y = y) = x X(Ω) P(X = x,y = y), P(X = x,y = y). En revanche, les lois marginales du couple (X,Y ) ne déterminent pas la loi conjointe de X et Y. Démonstration La première égalité est immédiate en remarquant que ((Y = y)) y Y (Ω) est un système complet dénombrable d événements ; de même pour la seconde, avec ((X = x)) x X(Ω). En revanche, considérons l exemple suivant, où l on définit les lois de deux couples (X 1,Y 1 ) et (X 2,Y 2 ) : (x,y) (0,0) (0,1) (1,0) (1,1) P(X 1 = x,y 1 = y) 0,25 0,25 0,25 0,25 P(X 2 = x,y 2 = y) 0,3 0,2 0,2 0,3 Dans les deux cas, les lois marginales sont les mêmes, car pour i {1,2}, P(X i = 0) = P(X i = 1) = P(Y i = 0) = P(Y 1 = 1) = 0,5 mais les lois conjointes ne sont pas les mêmes (car P(X 1 = 0,Y 1 = 0) P(X 2 = 0,Y 2 = 0) par exemple). Les lois marginales du couple (X,Y ) ne déterminent donc pas la loi conjointe de X et Y. 2. Conditionnement et indépendance Définition Loi conditionnelle Soient X et Y deux variables aléatoires sur (Ω,A,P) et y Y (Ω) tel que P(Y = y) > 0. On appelle loi conditionnelle de X sachant (Y = y) la fonction { X(Ω) [0,1] x P(X = x Y = y) C est la loi de X dans l espace probabilisé (Ω,A,P (Y =y) ). On rappelle que pour tout x X(Ω), P(X = x Y = y) = P(X = x,y = y). P(Y = y) Exemple Dans l exemple de la propriété précédente, on a P(Y 2 = 0) = P(X 2 = 0,Y 2 = 0) + P(X 2 = 1,Y 2 = 0) = 0,3 + 0,2 = 0,5 > 0. La loi de X 2 sachant (Y 2 = 0) est caractérisée par les deux nombres P(X 2 = 0 Y 2 = 0) = 0,3 0,5 = 0,6 et P(X 2 = 1 Y 2 = 0) = 0,2 0,5 = 0,4. 267
276 Définition Indépendance de variables aléatoires Soient X et Y deux variables aléatoires sur (Ω,A,P). On dit que X et Y sont indépendantes si pour tout (x,y) X(Ω) Y (Ω), les événements (X = x) et (Y = y) sont indépendants, i.e. P(X = x,y = y) = P(X = x)p(y = y). Soit I un ensemble d indices. Pour tout i I, soit X i une variable aléatoire sur (Ω,A,P). On dit que les variables aléatoires X i, pour i I, sont mutuellement indépendantes si, pour toute famille (x i ) i I telle que pour tout i I, x i X i (Ω), les événements (X i = x i ) pour i I sont mutuellement indépendants, i.e. : pour toute partie finie J I, P j J(X j = x j ) = P(X j = x j ). j J Propriété (admise : démonstration hors programme) Soient X et Y deux variables aléatoires indépendantes sur (Ω,A,P), A un sousensemble de X(Ω) et B un sous-ensemble de Y (Ω). Alors les événements (X A) et (Y B) sont indépendants, i.e. P(X A, Y B) = P(X A)P(Y B). Soit (X i ) i I une famille de variables aléatoires mutuellement indépendantes sur (Ω,A,P). Alors, pour toute famille (A i ) i I telle que pour tout i I, A i X i (Ω), les événements (X i A i ) pour i I sont mutuellement indépendants, i.e. : pour toute partie finie J I, P j J(X j A j ) = P(X j A j ). j J Propriété Soient X et Y deux variables aléatoires indépendantes sur (Ω,A,P). Soient f et g des fonctions définies respectivement sur X(Ω) et Y (Ω). Alors les variables aléatoires f(x) et g(y ) sont indépendantes. Démonstration Soit a f(x(ω)) et b g(y (Ω)). Alors P(f(X) = a,g(y ) = b) = P(X f 1 ({a}),y g 1 ({b})). Par indépendance de X et Y, et d après la propriété précédente, P(f(X) = a,g(y ) = b) = P(X f 1 ({a}))p(y g 1 ({b})) = P(f(X) = a)p(g(y ) = b), d où le résultat. 268
277 3. Quelques propriétés des lois usuelles Propriété Somme de variables de Bernoulli Soient X 1,...,X n des variables aléatoires mutuellement indépendantes sur (Ω,A,P), suivant chacune la loi de Bernoulli B(p). Alors la variable aléatoire X X n suit la loi binomiale B(n,p). Démonstration La démonstration est identique à celle donnée plus haut en interprétation de la loi B(n,p). Remarque Des sommes de variables de Bernoulli, comme dans la propriété précédente, sont très utiles pour compter le nombre de succès dans une succession d épreuves de Bernoulli. On rappelle de plus que de telles variables de Bernoulli peuvent être vues comme des fonctions indicatrices. Propriété Caractérisation des lois géométriques comme lois sans mémoire Soit X une variable aléatoire sur (Ω,A,P) telle que X(Ω) = N. Les propriétés suivantes sont équivalentes : 1. Il existe p ]0,1[ tel que X G (p). 2. P(X = 1) > 0, P(X > n) > 0 pour tout n N et (n,k) N 2, P(X > n + k X > n) = P(X > k). La loi d une variable aléatoire vérifiant 2 est dite loi sans mémoire (ou sans vieillisement). Ainsi, les lois géométriques sont exactement les lois sans mémoire. Démonstration 1 2 : supposons que X G (p) avec p ]0,1[. Alors P(X = 1) = p > 0 et, pour tout n N, P(X > n) = + P(X = j) = + j=n+1 j=n+1 p(1 p) j 1 (1 p)n = p 1 (1 p) = (1 p)n. En particulier, P(X > n) > 0 pour tout n N. Soit (n,k) N 2. Alors P(X > n + k X > n) = = P(X > n + k,x > n) P(X > n) P(X > n + k) P(X > n) = (1 p)n+k (1 p) n = (1 p) k = P(X > k). 2 1 : posons p = P(X = 1) > 0. On a aussi p = 1 P(X > 1) < 1. Soit, pour tout n N, x n = P(X > n). D après la propriété d absence de mémoire, x n+1 = P(X > n + 1) = P(X > n + 1 X > n)p(x > n) = P(X > 1)P(X > n) = (1 p)x n. La suite (x n ) n N est donc géométrique de raison 1 p et de premier terme x 0 = P(X > 0) = 1, donc pour tout n N, x n = (1 p) n. Alors, pour tout n N, P(X = n) = P(X > n 1) P(X > n) = (1 p) n 1 (1 p) n = (1 p) n 1 (1 (1 p)) = p (1 p) n 1. Finalement, p ]0,1[ et X G (p). 269
278 Remarque Comme on l a dit plus haut, la loi G (p) modélise souvent une durée de fonctionnement, ou plus généralement un temps d attente avant qu un phénomène se produise. La propriété d absence de mémoire signifie que ce temps d attente est indépendant de l étape à laquelle on commence à attendre. 4. Indépendance et modélisation Comme nous l avons déjà vu, la modélisation d une expérience aléatoire par le choix de (Ω,A,P) n est pas toujours évidente. En fait, elle n est parfois pas utile, le fait de préciser les conditions de l expérience, ce qui est plus intuitif, étant souvent suffisant. C est ce que permet de faire le résultat suivant : Théorème (admis : démonstration hors programme) Soit I un ensemble d indices fini ou dénombrable. Pour tout i I, on se donne une loi discrète L i (ce qui revient à se donner une famille ou une suite de nombres positifs de somme 1). Alors il existe un espace probabilisé (Ω,A,P) et une famille (X i ) i I de variables aléatoires sur (Ω,A,P), mutuellement indépendantes, tels que pour tout i I, X i suit la loi L i. Il est ainsi possible de modéliser une succession, finie ou infinie, d expériences aléatoires mutuellement indépendantes, par le choix des lois de variables aléatoires, sans avoir à préciser (Ω,A,P). Exemples Un jeu de pile ou face, fini ou infini, avec indépendance mutuelle des différents lancers, pourra être modélisé par le choix d une suite (X i ) i I, finie ou infinie, de variables de Bernoulli mutuellement indépendantes de même paramètre p. Pour tout i I, X i représente le résultat du i-ième lancer (1 pour «pile», de probabilité p, 0 pour «face», par exemple). On considère la situation suivante : une urne contient des jetons rouges en proportion p, et blancs en proportion 1 p ; N personnes tirent successivement, avec remise, n jetons dans l urne, le gain de chaque personne étant lié au nombre de jetons rouges tirés. On pourra modéliser cette situation par une famille (X 1,...,X N ) de N variables aléatoires mutuellement indépendantes, suivant chacune la loi binomiale B(n,p). Pour tout i [1,N ], X i représente le nombre de jetons rouges tirés par le i-ième participant. IV. Espérance Définition Soit X une variable aléatoire réelle sur (Ω,A,P), avec X(Ω) dénombrable; on décrit X(Ω) en extension sous la forme {x n ; n N}. On dit que X est d espérance finie si la série x n P(X = x n ) est absolument convergente. n 0 Dans ce cas, la somme de cette série est appelée espérance de X, et notée E(X), c est-à-dire, E(X) = + n=0 x n P(X = x n ). 270
279 Remarques L espérance de X est à interpréter comme moyenne pondérée des valeurs de X. Par exemple en physique, elle représente l énergie moyenne de systèmes à spectre discret (comme un atome confiné dans une boîte). La notion d espérance de X dépend de X uniquement à travers sa loi. La définition précédente semble dépendre du choix des x n (c est-à-dire de l ordre d énumération des éléments de X(Ω)). On admettra que lorsque X est d espérance finie, la somme définissant E(X) ne dépend pas de l ordre d énumération. Si X(Ω) est fini avec X(Ω) = {x 1,...,x m }, alors X est d espérance finie, et E(X) est simplement définie par : m E(X) = x n P(X = x n ). S il existe a R tel que P(X = a) = 1, alors X est d espérance finie égale à a. n=1 Si Ω est fini, on a la relation E(X) = ω ΩX(ω)P({ω}). Propriété Espérance correspondant aux lois usuelles Soit X une variable aléatoire sur (Ω,A,P). Si X suit la loi uniforme avec X(Ω) = {x 1,...,x m }, alors X est d espérance finie avec E(X) = 1 m m x n. n=1 Si X B(p), alors X est d espérance finie et E(X) = p. Si X B(n,p), alors X est d espérance finie et E(X) = np. Si X G (p), alors X est d espérance finie et E(X) = 1 p. Si X P(λ), alors X est d espérance finie et E(X) = λ. Démonstration Pour tout n [1,m], P(X = x n ) = 1/m, d où le résultat. Si X B(p), on a E(X) = 0 (1 p) + 1 p = p. Si X B(n,p), E(X) = n k k=0 ( ) n p k (1 p) n k = k Avec le changement d indice j = k 1, on obtient E(X) = n = np n ( ) n 1 n p k (1 p) n k. k 1 k=1 n 1 ( ) n 1 p j+1 (1 p) (n 1) j j j=0 n 1 ( ) n 1 p j (1 p) (n 1) j = np (p + (1 p)) n 1 = np. j j=0 Supposons que X G (p). La série n 1 n p(1 p)n 1 est convergente : on reconnaît la dérivée de la série géométrique évaluée en 1 p avec 1 p < 1. On a ainsi E(X) = p 1 (1 (1 p)) 2 = 1 p. 271
280 Supposons que X P(λ). La série k 0 k e λλk k! = k 1 est convergente (série exponentielle) et e λ E(X) = λe λ + j=0 λ k (k 1)! = λe λ j 0 λ j j! = λe λ e λ = λ. λ j j! Propriété Soit X une variable aléatoire sur (Ω,A,P) à valeurs dans N. La variable aléatoire X est d espérance finie si et seulement si la série n 1 P(X n) converge, et dans ce cas on a E(X) = + n=1 P(X n). Démonstration Pour tout n N, on a (X n) = (X = n) (X n + 1), ces deux événements étant incompatibles, et donc Alors, pour tout p N, P(X = n) = P(X n) P(X n + 1). p n P(X = n) = n=0 = p n (P(X n) P(X n + 1)) n=0 p p+1 n P(X n) (n 1)P(X n) n=0 après séparation des sommes et changement d indice dans la deuxième somme. Finalement, ( p p ) n P(X = n) = P(X n) p P(X p + 1). (14.1) n=0 n=1 Si X est d espérance finie, alors on peut écrire 0 p P(X p + 1) = p + n=p+1 P(X = n) n=1 + n=p+1 n P(X = n) p + 0 en tant que reste d une série convergente. On en déduit que n 1 P(X n) converge ainsi que l égalité souhaitée en faisant tendre p vers +. Par positivité des termes, et d après (14.1), si n 1 P(X n) converge, alors n P(X = n) n 1 converge (la suite de ses sommes partielles est majorée) donc X est d espérance finie. On conclut comme précédemment. 272
281 Théorème de transfert (admis : démonstration hors-programme) Soit X une variable aléatoire sur (Ω,A,P) avec X(Ω) dénombrable; on décrit X(Ω) en extension sous la forme {x n ; n N}. Soit f : X(Ω) R une fonction. La variable aléatoire f(x) est d espérance finie si et seulement si la série n 0 f(x n)p(x = x n ) converge absolument, et dans ce cas, on a E(f(X)) = + n=0 f(x n )P(X = x n ). Remarque Si l on appliquait la définition de l espérance pour f(x), on devrait déterminer la loi de f(x) : on devrait décrire f(x(ω)) en extension sous la forme {y n ; n I} (I fini ou I = N) puis considérer la somme finie ou la série n I y n P(f(X) = y n ). L immense avantage du théorème de transfert est de montrer qu il suffit en fait de considérer la loi de X. On a transféré le calcul de E(f(X)) sur la variable aléatoire X. Ceci est particulièrement intéressant lorsque f n est pas injective. Exemple Soit X une variable aléatoire suivant la loi géométrique de paramètre p. D après le théorème de transfert, si la série ( 1) n p (1 p) n 1 n 1 converge absolument, alors ( 1) X est d espérance finie et la somme de cette série est E(( 1) X ). On reconnaît (à un facteur p près) la série géométrique de raison p 1 avec p 1 < 1, donc absolument convergente. On en déduit que ( 1) X est d espérance finie avec E(( 1) X ) = + n=1 ( 1) n p (1 p) n 1 1 = p 1 (p 1) = p p 2. Théorème Quelques propriétés de l espérance Soient X et Y deux variables aléatoires d espérance finie sur (Ω,A,P) et λ R. Alors : Linéarité : λx + Y est d espérance finie et E(λX + Y ) = λe(x) + E(Y ). Positivité : si P(X 0) = 1, alors E(X) 0. Croissance : si P(X Y ) = 1, alors E(X) E(Y ). Démonstration La démonstration de la linéarité de l espérance n est pas exigible. Considérons le couple (X,Y ) et lorsque X(Ω) Y (Ω) est dénombrable, décrivons-le en extension sous la forme {(x n,y n )}; n N}. Soit f une fonction définie sur X(Ω) Y (Ω), à valeurs dans R ; d après le théorème de transfert, la série n 0 f(x n,y n )P(X = x n,y = y n ) est absolument convergente si et seulement si f(x,y ) est d espérance finie, et dans ce cas E(f(X,Y )) = + n=0 f(x n,y n )P(X = x n,y = y n ). Nous allons utiliser ce résultat avec f : (x,y) x, f : (x,y) y et f : (x,y) λx + y. Les séries x n P(X = x n,y = y n ) et y n P(X = x n,y = y n ) n 0 sont absolument convergentes car X et Y sont d espérance finie. Par combinaison linéaire, la série (λx n + y n )P(X = x n,y = y n ) n n 0
282 est absolument convergente, donc λx + Y est d espérance finie; on a alors E(λX + Y ) = λ + n=0 x n P(X = x n,y = y n ) + + n=0 y n P(X = x n,y = y n ) = λe(x) + E(Y ). On adapte la démonstration avec des sommes finies si X(Ω) Y (Ω) est fini. On décrit X(Ω) en extension sous la forme {x n ; n I}. On a P(X < 0) = 0, donc pour tout n tel que x n < 0, x n P(X = x n ) = 0. Donc on peut écrire E(X) comme somme d une série (ou somme finie) à termes positifs, d où E(X) 0. Cela résulte des deux points précédents. Application On retrouve facilement l espérance d une variable aléatoire suivant la loi B(n,p) en utilisant la linéarité de l espérance : soient X 1,...,X n des variables aléatoires mutuellement indépendantes suivant la même loi B(p) (on sait qu il existe un espace probabilisé portant de telles lois). Alors on sait que S = X X n suit la loi B(n,p). Par linéarité de l espérance, on a donc n E(S) = E(X k ) = np k=1 car E(X k ) = p pour tout k. L espérance ne dépendant que de la loi, on obtient ainsi l espérance de toutes les variables aléatoires suivant la loi B(n,p). Propriété Soient X et Y deux variables aléatoires indépendantes sur (Ω,A,P), d espérance finie. Alors XY est d espérance finie et La réciproque est fausse en général. E(XY ) = E(X)E(Y ). La démonstration est hors-programme dans le cas général. Dans le cas des univers finis, elle a été donnée en première année. Exemple Marche aléatoire Reprenons un exemple décrit plus haut : une particule peut occuper différentes positions repérées par les entiers relatifs. À intervalle régulier, la particule peut passer de la position i à la position i+1 avec probabilité p ]0,1[, ou à la position i 1 avec probabilité q = 1 p. On suppose qu un mouvement ne dépend que de la position à partir de laquelle il est fait. Pour n 1, on note X n la variable aléatoire représentant la position de la particule après n mouvements ; X 0 est la variable aléatoire nulle (la position initiale est 0). On admet l existence d un espace probabilisé (Ω,A,P) modélisant cette expérience. On cherche à étudier différents aspects de cette marche aléatoire. Loi de X 1 et X 2 : X 1 prend les valeurs 1 et 1, avec P(X 1 = 1) = p, P(X 1 = 1) = q. On en déduit que X 2 prend les valeurs 2, 0 et 2. D après la formule des probabilités totales, P(X 2 = 2) = P(X 2 = 2 X 1 = 1)P(X 1 = 1) + P(X 2 = 2 X 1 = 1)P(X 1 = 1) = p P(X 1 = 1) + 0 P(X 1 = 1) = p 2, P(X 2 = 0) = P(X 2 = 0 X 1 = 1)P(X 1 = 1) + P(X 2 = 0 X 1 = 1)P(X 1 = 1) = 2pq, P(X 2 = 2) = P(X 2 = 2 X 1 = 1)P(X 1 = 1) + P(X 2 = 2 X 1 = 1)P(X 1 = 1) = 0 P(X 1 = 1) + q P(X 1 = 1) = q 2. La particule ne peut revenir en 0 qu après un nombre pair de mouvements, ainsi, pour tout n N, P(X 2n+1 = 0) = 0. Pour n N, la particule est à l origine après 2n mouvements si et 274
283 seulement si elle a effectué n mouvements à droite et n mouvements à gauche. Le nombre de mouvements à droite parmi les 2n premiers suit la loi B(2n,p), donc P(X 2n = 0) = D après la formule de Stirling, ( ) 2n p n (1 p) 2n n = (2n)! n (n!) 2 (p(1 p))n. ( ) 2n 2n 4πn (2n)! (n!) 2 e ( n e ) 2n 2πn = 4n nπ et finalement, P(X 2n = 0) 1 nπ (4p(1 p)) n. La variable aléatoire 1 (X2 =0) + +1 (X2n =0) représente le nombre de retours à l origine au cours des 2n premiers mouvements. Par linéarité de l espérance (pour tout A A, la variable aléatoire 1 A est d espérance finie égale à P(A)), E(1 (X2 =0) + +1 (X2n =0)) = n P(X 2k = 0). Remarquons que l on a calculé cette espérance sans déterminer la loi du nombre de retours. Si p 1/2, 0 < 4p(1 p) < 1, et par comparaison de séries à termes positifs, la série de terme général P(X 2n = 0) converge. L espérance du nombre de retours à l origine est majorée indépendamment du nombre de mouvements. Si p = 1/2, P(X 2n = 0) 1 nπ et la série de terme général P(X 2n = 0) (à termes positifs) diverge par comparaison avec une série de Riemann d exposant 1/2 < 1. Un résultat sur les sommes partielles de séries à termes positifs divergentes, puis une comparaison série/intégrale (que nous ne détaillons pas ici), montrent alors que n P(X 2k = 0) k=1 n k=1 k=1 1 n 2 kπ π. Cette espérance tend vers + lorsque n + : en un temps illimité, il y a en moyenne une infinité de retours à l origine! V. Séries génératrices des variables aléatoires à valeurs dans N Propriété/Définition Soit X une variable aléatoire sur (Ω,A,P), à valeurs dans N. Alors, pour tout t [ 1,1], la variable aléatoire t X est d espérance finie. On pose, pour tout t [ 1,1], G X (t) = E(t X ), et on a G X (t) = + n=0 P(X = n)t n. La fonction G X est la somme d une série entière de rayon de convergence au moins égal à 1. Elle est appelée série génératrice (ou fonction génératrice) de X. 275
284 Démonstration On peut considérer que X(Ω) = N. Soit t [ 1,1]. D après le théorème de transfert, t X est d espérance finie si et seulement si la série P(X = n)t n n 0 converge absolument. Or, pour tout n N, P(X = n)t n P(X = n), et n 0 P(X = n) converge (et sa somme vaut 1). Par comparaison, on en déduit l existence de E(t X ); la formule donnant E(t X ) provient aussi du théorème de transfert. Sachant que la série entière définissant G X converge absolument en tout point de [ 1,1], son rayon de convergence est au moins égal à 1. Remarques On a G X (1) = + n=0 P(X = n) = 1. Lorsque X(Ω) est fini, G X est un polynôme (et R = + ). Propriété La loi d une variable aléatoire à valeurs dans N est caractérisée par sa série génératrice : soient X et Y deux variables aléatoires sur (Ω,A,P), à valeurs dans N, telles que X(Ω) = Y (Ω) et G X (t) = G Y (t) pour tout t ] r,r[ (pour un certain r ]0,1]). Alors X et Y ont la même loi. Démonstration Si G X (t) = G Y (t) pour tout t [ 1,1], alors par unicité du développement en série entière, P(X = n) = P(Y = n) pour tout n N. Remarque La série génératrice de X contient donc toute l information sur la loi de X. On a en fait, d après l expression des coefficients d une série entière : pour tout n N, Propriété P(X = n) = G(n) X (0) n! Soit X une variable aléatoire sur (Ω,A,P), à valeurs dans N. Alors, pour que X soit d espérance finie, il faut et il suffit que G X soit dérivable à gauche en 1. Dans ce cas, on a E(X) = G X (1). Démonstration (non exigible) Posons, pour tout n N, f n : t P(X = n)t n. La série de fonctions n 0 f n converge simplement sur [ 1,1]; pour tout n N, f n est de classe C 1 sur [ 1,1] avec pour tout n N et t [ 1,1], f n (t) = n P(X = n)tn 1 n P(X = n). Le majorant est le terme général d une série convergente car X est d espérance finie. D après le théorème de la classe C 1 pour les séries de fonctions, G X est de classe C 1 sur [ 1,1], et en particulier dérivable à gauche en 1. On a de plus + G X (1) = + f n (1) = n P(X = n) = E(X). n=0 Soit p N. Pour tout t [0,1[, G X (t) G X (1) t 1 n=1 p P(X = n) tn 1 p t 1 = P(X = n)(1 + t + + t n 1 ), n=0 276 n=1
285 l inégalité étant valable par positivité des termes. Lorsque t 1, on en déduit que p n P(X = n) G X(1). n=1 pour tout p N. La série à termes positifs n 0 n P(X = n) est donc à sommes partielles majorées indépendamment de p, donc convergente, ce qui entraîne (à nouveau par positivité des termes) que X est d espérance finie. Propriété Séries génératrices correspondant aux lois usuelles Soit X une variable aléatoire sur (Ω,A,P). Si X B(p), alors pour tout t R, G X (t) = 1 p + pt. Si X B(n,p), alors pour tout t R, G X (t) = (1 p + pt) n. Si X G (p), alors pour tout t tel que (1 p)t < 1, G X (t) = Si X P(λ), alors pour tout t R, G X (t) = e λ(t 1). pt 1 (1 p)t. Démonstration Si X B(p), on a pour tout t R, G X (t) = P(X = 0) + P(X = 1)t = 1 p + pt. Si X B(n,p), on a pour tout t R, G X (t) = n k=0 ( ) n p k (1 p) n k t k = k d après la formule du binôme de Newton. n k=0 ( ) n (pt) k (1 p) n k = (1 p + pt) n k Supposons que X G (p). La série génératrice de X est la fonction somme de la série entière p (1 p) n 1 t n. n 1 On reconnaît une série géométrique de raison (1 p)t. Elle converge si et seulement si (1 p)t < 1, et dans ce cas + G X (t) = pt ((1 p)t) n pt = 1 (1 p)t. n=0 Supposons que X P(λ). La série génératrice de X est la fonction somme de la série entière n 0 λ λn e n! tn. On reconnaît une série exponentielle; elle converge pour tout t R, et + t R, G X (t) = e λ (λt) n n=0 n! = e λ e λt = e λ(t 1). Propriété Somme de deux variables aléatoires indépendantes Soient X et Y deux variables aléatoires indépendantes sur (Ω,A,P), à valeurs dans N. Alors, pour tout t [ 1,1], G X+Y (t) = G X (t)g Y (t). 277
286 Démonstration La variable X + Y est à valeurs dans N de même que X et Y. Les variables X et Y sont indépendantes, donc pour tout t [ 1,1], t X et t Y sont indépendantes. On en déduit que G X+Y (t) = E(t X+Y ) = E(t X t Y ) = E(t X )E(t Y ) = G X (t)g Y (t). Remarque Soit n N ; on a (X + Y = n) = n (X = k,y = n k), ces événements étant deux à deux incompatibles, d où, par indépendance, P(X + Y = n) = k=0 n P(X = k,y = n k) = k=0 n P(X = k)p(y = n k). On connaît donc la loi de X + Y. Par produit de Cauchy de deux séries entières absolument convergentes, on a pour tout t [ 1,1], G X (t)g Y (t) = + n=0 k=0 ( n ) P(X = k)p(y = n k) t n = k=0 + n=0 ce qui donne une autre démonstration de la propriété précédente. P(X + Y = n)t n = G X+Y (t), Corollaire Soient X et Y deux variables aléatoires indépendantes sur (Ω,A,P) et λ,µ deux réels strictement positifs. On suppose que X P(λ) et Y P(µ). Alors X + Y P(λ + µ). Démonstration Pour tout n N, P(X = n,y = 0) = P(X = n)p(y = 0) par indépendance, donc P(X + Y = n) > 0. On en déduit que (X + Y )(Ω) = N. De plus, pour tout t [ 1,1] (en fait pour tout t R), G X+Y (t) = G X (t)g Y (t) = e λ(t 1) e µ(t 1) = e (λ+µ)(t 1). La série génératrice caractérisant la loi, on en déduit que X + Y P(λ + µ). VI. Variance 1. Généralités L espérance de X correspond à la moyenne pondérée des valeurs de X, mais ne décrit pas comment sont réparties les valeurs de X autour de cette moyenne. C est l intérêt des notions de variance et d écart-type. Propriété Soit X une variable aléatoire réelle sur (Ω,A,P). On suppose que X 2 est d espérance finie. Alors : X est d espérance finie. (X E(X)) 2 est d espérance finie. 278
287 Démonstration Le problème ne se pose que si X(Ω) est dénombrable. On écrit X(Ω) = {x n ; n N}. La variable aléatoire X 2 est d espérance finie, donc d après le théorème de transfert, n 0 x2 n P(X = x n ) converge et sa somme est E(X 2 ). Pour tout p N, on a d après l inégalité de Cauchy-Schwarz, p x n P(X = x n ) = n=0 p n=0 ( x n P(X = x n )) P(X = xn ) ( p x 2 n P(X = x n) n=0 ( + x 2 n P(X = x n) n=0 = E(X 2 ) p P(X = x n ) n=0 + n=0 P(X = x n ) car + n=0 P(X = x n) = 1. Les sommes partielles de la série à termes positifs n 0 x n P(X = x n ) sont majorées indépendamment de p, donc cette série converge, ce qui prouve le résultat. En passant à la limite dans les inégalités précédentes, on obtient même : E( X ) E(X 2 ). On a (X E(X)) 2 = X 2 2E(X)X + E(X) 2. Si X 2 est d espérance finie, X également, et donc par combinaison linéaire, (X E(X)) 2 est d espérance finie. Cette propriété permet de donner la définition suivante : Propriété/Définition ) 1/2 ) 1/2 Soit X une variable aléatoire réelle sur (Ω,A,P). On dit que X admet une variance (ou admet un moment d ordre 2) si X 2 est d espérance finie. Dans ce cas : On appelle variance de X le réel positif On a aussi V (X) = E(X 2 ) E(X) 2. V (X) = E((X E(X)) 2 ). On appelle écart-type de X le réel positif σ(x) = V (X). Démonstration de la seconde expression de V (X) D après la propriété précédente, (X E(X)) 2 = X 2 2E(X)X + E(X) 2 est d espérance finie; par linéarité de l espérance, Remarques V (X) = E(X 2 ) 2E(X) 2 + E(X) 2 = E(X 2 ) E(X) 2. Si X 2 est d espérance finie, le moment d ordre 2 de X est le réel positif E(X 2 ). Si X(Ω) = {x n ; n N}, d après le théorème de transfert, X a une variance si et seulement si la série à termes positifs n 0 x2 n P(X = x n) converge, et dans ce cas, V (X) = + n=0 (x n E(X)) 2 P(X = x n ). Si X admet une variance et m = E(X), on a V (X) = 0 si et seulement si P(X = m) = 1. Exemple Soit X une variable aléatoire prenant les valeurs 1 et 1 et suivant la loi uniforme, et soit Y la variable aléatoire nulle. Alors X et Y sont toutes les deux d espérance nulle. Pourtant, elles se comportent très différemment; la variance est un moyen de mesurer cette différence : on a V (X) = E((X 0) 2 ) = E(X 2 ) = 1 et V (Y ) =
288 Propriété Soit X une variable aléatoire réelle sur (Ω,A,P) admettant une variance, et (a,b) R 2. Alors ax + b admet une variance et on a : V (ax + b) = a 2 V (X). Démonstration On a (ax+b) 2 = a 2 X 2 +2abX+b 2 et X 2 est d espérance finie donc X également. Par combinaison linéaire, ax + b a une variance et par linéarité de l espérance, Par différence, on en déduit que E((aX + b) 2 ) = a 2 E(X 2 ) + 2abE(X) + b 2 (E(aX + b)) 2 = (ae(x) + b) 2 = a 2 E(X) 2 + 2abE(X) + b 2. V (ax + b) = a 2 (E(X 2 ) E(X) 2 ) = a 2 V (X). Remarque Cette propriété est cohérente avec l interprétation de V (X) et σ(x) comme indicateurs de dispersion des valeurs de X autour de son espérance : ajouter une même valeur b à toutes les valeurs de X ne modifie pas la variance et l écart-type, multiplier toutes les valeurs de X par un réel a multiplie l écart-type par a. Propriété (démonstration non exigible) Soit X une variable aléatoire sur (Ω,A,P), à valeurs dans N. Pour que X admette une variance, il faut et il suffit que G X soit deux fois dérivable à gauche en 1. Dans ce cas, V (X) = G X(1) + G X(1) G X(1) 2. Ce résultat est admis. Il s agit d adapter la démonstration faisant le lien entre l existence de E(X) et celle de G X (1). Expliquons simplement comment retrouver la formule donnant V (X) : en cas d existence, on montre que G X (t) et G X (t) se calculent, pour t [ 1,1], par dérivation terme à terme avec + G X (t) = + n P(X = n)t n 1, G X (t) = n(n 1)P(X = n)t n 2 n=1 n=2 + G X (1) = + n P(X = n) = E(X), G X (1) = n(n 1)P(X = n) = E(X(X 1)). n=0 n=0 D après le théorème de transfert, et par linéarité de l espérance, V (X) = E(X 2 ) E(X) 2 = E(X(X 1)) + E(X) E(X) 2 = G X (1) + G X (1) G X (1)2. Propriété Variance correspondant aux lois usuelles Soit X une variable aléatoire sur (Ω,A,P). Si X B(p), alors X admet une variance et V (X) = p(1 p). Si X B(n,p), alors X admet une variance et V (X) = np(1 p). Si X G (p), alors X admet une variance et V (X) = 1 p p 2. Si X P(λ), alors X admet une variance et V (X) = λ. 280
289 Démonstration Si X B(p), on a E(X 2 ) = 0 2 (1 p) p = p. Alors V (X) = E(X 2 ) E(X) 2 = p p 2 = p(1 p). Si X B(n,p), on sait que G X (t) = (1 p + pt) n pour tout t R. La fonction G X est deux fois dérivable en 1, donc X admet une variance, et V (X) = G X(1) + G X(1) G X(1) 2 = n(n 1)p 2 + np n 2 p 2 = np(1 p). pt Supposons que X G (p). On sait que G X (t) = 1 (1 p)t La fonction G X est deux fois dérivable sur [ 1,1], avec notamment pour tout t [ 1,1]. t [ 1,1], G X (t) = p 2p(1 p) (1 (1 p)t) 2, G X (t) = (1 (1 p)t) 3. En particulier, X admet une variance, et V (X) = G X(1) + G X(1) G X(1) 2 = 2p(1 p) p p 1 p 2 = 1 p p 2. Supposons que X P(λ). On sait que G X (t) = e λ(t 1) pour tout t R. La fonction G X est deux fois dérivable en 1, donc X admet une variance, et V (X) = G X (1) + G X (1) G X (1)2 = λ 2 + λ λ 2 = λ. Remarque On peut calculer toutes ces variances directement à partir du théorème de transfert. 2. Covariance et corrélation Propriété Inégalité de Cauchy-Schwarz Soient X et Y deux variables aléatoires sur (Ω,A,P) admettant une variance. Alors XY est d espérance finie et E(XY ) E(X 2 )E(Y 2 ). Démonstration On a XY X 2 + Y 2 ; en adaptant la démonstration de la linéarité de l espérance, on en déduit que XY est d espérance finie. Quant à l inégalité de Cauchy-Schwarz, on procède comme pour un produit scalaire, en considérant la fonction polynomiale de degré au plus 2 λ E((λX + Y ) 2 ) = λ 2 E(X 2 ) + 2λE(XY ) + E(Y 2 ), à valeurs positives. Définition Soient X et Y deux variables aléatoires sur (Ω,A,P) admettant une variance. On appelle covariance de X et Y le réel Cov(X,Y ) = E ( [X E(X)][Y E(Y )] ) = E(XY ) E(X)E(Y ). Si σ(x) et σ(y ) sont non nuls, on appelle coefficient de corrélation de X et Y le réel ρ(x,y ) = Cov(X,Y ) σ(x)σ(y ). 281
290 Démonstration de l existence de Cov(X,Y ), et de la seconde formule On a [X E(X)][Y E(Y )] = XY E(X)Y E(Y )X + E(X)E(Y ). Les variables aléatoires X et Y ont une variance, donc le produit XY est d espérance finie et par combinaison linéaire, [X E(X)][Y E(Y )] est d espérance finie. Par linéarité de l espérance, on a Cov(X,Y ) = E(XY ) E(X)E(Y ) E(Y )E(X) + E(X)E(Y ) = E(XY ) E(X)E(Y ). Remarques Si X admet une variance, Cov(X,X) = V (X). Si X et Y admettent une variance, Cov(X,Y ) = Cov(Y,X). Propriété Soient X et Y deux variables aléatoires indépendantes sur (Ω,A,P) admettant une variance. Alors Cov(X,Y ) = 0. Démonstration On a Cov(X,Y ) = E(XY ) E(X)E(Y ) = 0 par indépendance. Remarque La réciproque de la propriété précédente est fausse comme le montre l exemple suivant : soit X une variable aléatoire d image { 1,0,1}, de loi uniforme, et soit Y = X 2. Alors E(XY ) = E(X) = 0 (on a XY = X 3 = X) donc Cov(X,Y ) = 0, mais X et Y ne sont pas indépendantes car P(Y = 0 X = 1) = 0 1 = P(Y = 0). 3 Exemple Soit (X n ) n N une suite de variables aléatoires mutuellement indépendantes suivant la loi B(p) avec p ]0,1[. Posons, pour tout n N, Y n = X n X n+1. Pour tout n, X n est la fonction indicatrice de l événement (X n = 1), et Y n est la fonction indicatrice de l événement (X n = 1) (X n+1 = 1), de probabilité p 2 ]0,1[ par indépendance. En particulier, Y n B(p 2 ). La variable Y n indique deux succès consécutifs aux rangs n et n + 1. De la même façon, pour tout n N, Y n Y n+1 = X n X n+1 X n+2 B(p 3 ), donc Cov(Y n,y n+1 ) = E(Y n Y n+1 ) E(Y n )E(Y n+1 ) = p 3 p 4 = p 3 (1 p). Notamment, Y n et Y n+1 ne sont pas indépendantes. En revanche, si j i + 2, on remarque que Y i Y j est la fonction indicatrice de (Y i Y j = 1) = (X i = 1) (X i+1 = 1) (X j = 1) (X j+1 = 1), de probabilité p 4 par indépendance, et donc E(Y i Y j ) = p 4, puis Cov(Y i,y j ) = E(Y i Y j ) E(Y i )E(Y j ) = p 4 p 2 p 2 = 0. Attention, on ne peut pas en déduire que Y i et Y j sont indépendantes (c est vrai, mais il faudrait le prouver en revenant par exemple à la définition). Propriété Soient X et Y deux variables aléatoires sur (Ω,A,P) admettant une variance. Alors En particulier, si σ(x) 0 et σ(y ) 0, Cov(X,Y ) σ(x)σ(y ), ρ(x,y ) [ 1,1]. 282
291 Démonstration D après l inégalité de Cauchy-Schwarz, Cov(X,Y ) = E([X E(X)][Y E(Y )]) ( E((X E(X)) 2 )E((Y E(Y )) 2 ) ) 1/2 = σ(x)σ(y ). L encadrement de ρ(x,y ) s ensuit directement. Remarque Le coefficient de corrélation mesure en quelque sorte la dépendance entre X et Y. Lorsque ρ(x,y ) est proche de 1, une information sur X apporte une information sur Y. Lorsque X et Y sont indépendantes, ρ(x,y ) = 0, mais la réciproque est fausse. Propriété Soient X 1,...,X n des variables aléatoires sur (Ω,A,P) admettant une variance. Alors : n k=1 X k admet une variance et ( n ) V X k = k=1 n k=1 V (X k ) + 2 i<j Cov(X i,x j ). Si de plus X 1,...,X n sont deux à deux indépendantes, on a ( n ) n V X k = V (X k ). k=1 k=1 Démonstration On a ( n ) 2 X k = k=1 n k=1 X 2 k + 2 i<j X i X j. Les X k ont toutes une variance, donc les X i X j sont d espérance finie, et par combinaison linéaire ( n k=1 X k) 2 est d espérance finie (i.e., n k=1 X k admet une variance). De plus, par linéarité de l espérance, ( n ) 2 n E X k = E(X i X j ). D autre part, k=1 k=1 E(X 2 k ) + 2 i<j ( ( n )) 2 ( n 2 n E X k = E(X k )) = k )) k=1 k=1 k=1(e(x E(X i )E(X j ). i<j On en déduit le résultat par différence. Si les X k sont deux à deux indépendantes, on a, pour tout (i,j) [1,n] 2 tel que i < j, Cov(X i,x j ) = 0, d où l égalité souhaitée. Application Soient X 1,...,X n des variables aléatoires mutuellement indépendantes suivant la même loi B(p) et soit S = X 1 + +X n. D après la propriété précédente, S a une variance et V (S) = n V (X k ) = np(1 p). k=1 On sait aussi que S suit la loi B(n,p). La variance ne dépendant que de la loi, on en déduit que pour toute variable aléatoire X qui suit la loi B(n,p), on a V (X) = np(1 p). On retrouve donc la valeur de V (X) déterminée plus tôt par un calcul direct. 283
292 3. Estimations de la dispersion La variance s interprète comme indicateur de dispersion. Dans ce paragraphe, nous allons montrer plus précisément comment la variance (ou l écart-type) permet de mesurer cette dispersion. Théorème Inégalité de Markov Soit X une variable aléatoire sur (Ω,A,P), positive, d espérance finie. Alors, pour tout ε > 0, P(X ε) E(X). ε Démonstration Soit ε > 0 fixé. On décrit X(Ω) en extension sous la forme {x n ; n I}. Soit U = [ε, + [. Par positivité de X, car x n ε si x n U. Alors E(X) x n U x n P(X = x n ) ε x n U E(X) εp(x U) = εp(x ε), P(X = x n ) d où le résultat. Théorème Inégalité de Bienaymé - Tchebychev Soit X une variable aléatoire sur (Ω,A,P) admettant une variance. Alors, pour tout ε > 0, P( X E(X) ε) σ(x)2 ε 2. Démonstration Soit ε > 0 fixé. La variable aléatoire X admet une variance donc est d espérance finie et, en posant Y = (X E(X)) 2, alors Y est une variable aléatoire positive d espérance finie. De plus, on remarque que ( X E(X) ε) = (Y ε 2 ). Alors, d après l inégalité de Markov, P( X E(X) ε) = P(Y ε 2 ) E(Y ) ε 2 = σ(x)2 ε 2. Remarque L inégalité de Bienaymé - Tchebychev permet de majorer la probabilité que X s écarte d au moins ε de son espérance, i.e., de sa moyenne. On voit que cette majoration fait intervenir l écart-type de X ; plus précisément, plus σ(x) est petit, plus la probabilité précédente est faible, c est-à-dire, plus grande est la probabilité que X soit proche de son espérance. Cela confirme l interprétation de σ(x) et V (X) comme indicateurs de dispersion. Exemple Notons m = E(X) et σ = σ(x). Pour ε = 2σ, on obtient ou de façon équivalente, P ( X m 2σ) 1 4, P (m 2σ < X < m + 2σ) 3 4. La probabilité que X soit au plus à 2 écarts-types de son espérance est donc au moins 3/4. En revanche, pour ε = σ, l inégalité ne donnerait pas de résultat intéressant. 284
293 Théorème Loi faible des grands nombres Soit (X n ) n N une famille de variables aléatoires sur (Ω,A,P). On suppose que les variables aléatoires X n sont deux à deux indépendantes, ont la même loi et admettent une variance. On note m = E(X 1 ), σ = σ(x 1 ) et pour tout n N, S n = X X n. Alors, pour tout ε > 0, et en particulier, ( ) 1 P n S n m ε σ2 n ε 2, ( ) 1 P n S n m ε 0. n + Démonstration Les variables aléatoires X n admettent une variance donc également une espérance. Sachant qu elles ont la même loi, elles ont la même espérance et la même variance (par exemple celles de X 1, m et σ 2 ). De plus, par linéarité de l espérance, on a pour tout n N, E ( ) 1 n S n = 1 n n E(X 1) = m, et d après les propriétés de la variance, ( ) 1 V n S n = 1 n 2 V (S n) = 1 n V (X 1) ( Sn ) 2 par indépendance deux à deux des X k. Ainsi, σ = σ2 n n. Soit ε > 0 fixé. D après l inégalité de Bienaymé-Tchebychev appliquée à S n /n, on a ( ) 1 P n S n m ε σ(s n/n) 2 ε 2 = σ2 n ε 2 0. n + Remarques Imaginons que l on répète indéfiniment une même expérience aléatoire en observant, à chaque étape, un certain résultat; cette situation est modélisée par une suite (X n ) n N de variables aléatoires mutuellement indépendantes et de même loi, X n représentant le résultat observé à la n-ième étape. Alors S n /n représente la moyenne empirique des résultats au cours des n premières expériences. Notons m l espérance commune à toutes les variables X n. La loi faible des grands nombres affirme que pour tout ε > 0, la probabilité que S n /n s écarte de m d au moins ε tend vers 0 lorsque le nombre d expériences tend vers +. De façon équivalente, la probabilité que cette moyenne vérifie m ε < S n /n < m + ε tend vers 1. Par exemple, considérons un jeu de pile ou face infini (ou toute autre expérience de Bernoulli reproduite indéfiniment) et notons X n l indicatrice de l événement «le n-ième lancer donne pile». Pour tout n N, X n B(p), E(X n ) = p et V (X n ) = p(1 p). Si les X n sont deux à deux indépendantes, le théorème précédent affirme que la moyenne S n /n du nombre de «piles» au cours des n premiers tirages sera «proche» de p (à ε près) avec une probabilité tendant vers 1 lorsque n +. En un certain sens, la moyenne se stabilise vers p lorsque le nombre d expériences augmente. Ci-dessous, on a représenté les fréquences relatives d apparition de «pile» au cours des n premiers lancers, pour n [1,200] puis pour n [1,1000]. Dans chaque cas, on a effectué trois simulations (courbes des différentes couleurs). 285
294 Frequences relatives Frequences relatives Nombre de tirages Nombre de tirages Il faut bien comprendre que ce théorème ne dicte pas à une expérience «concrète» comment elle va se dérouler pour «assurer» l équilibre. Le théorème s inscrit à l intérieur du modèle, mais est cohérent avec l approche intuitive des probabilités comme fréquence relative de réalisation lors d un grand nombre de répétitions. Ce théorème peut jouer un rôle dans la validation du modèle : si on suppose une pièce équilibrée et que toutes les observations montrent une convergence vers p 1/2, alors le modèle est sans doute à revoir. Il permet d estimer certains paramètres (par observation d un échantillon, comme par exemple lors d un sondage), l inégalité du théorème permettant de mesurer le risque d erreur. Ces deux remarques relèvent de la théorie des Statistiques. Le théorème précédent n affirme pas que S n (ω)/n tend vers m pour toute issue ω (ce qui est faux en général); il ne faudrait donc pas s étonner d une issue ω pour laquelle (S n (ω)/n) n N ne converge pas vers m, ou même, ne converge pas : dans le jeu de pile ou face infini avec une pièce équilibrée, il est possible d obtenir pile à chaque tirage (même si l événement associé est de probabilité nulle), et pour cette issue ω de l expérience, (S n (ω)/n) est constante égale à 1. Exemple On fait un test de qualité dans une production de N articles. Soit p la proportion d articles défectueux. On vérifie n articles pris au hasard dans le stock, ce que l on modélise par une famille (X 1,...,X n ) de variables aléatoires de Bernoulli mutuellement indépendantes de paramètre p (X k prend la valeur 1 si le k-ième article testé est défectueux). Avec les notations précédentes, S n /n est la proportion d articles défectueux dans l échantillon testé. On sait que pour tout ε > 0, ( ) 1 P n S n p ε p(1 p) n ε 2 1 4nε 2, la dernière inégalité provenant de l étude de la fonction trinôme p p(1 p). Choisissons par exemple ε = 10 2 ; alors le majorant vaut 2500/n. Ainsi, en testant n pièces, on peut affirmer avec un risque d erreur d au plus 2500/n, que la proportion observée est une valeur approchée de p à 10 2 près. On voit que, avec la précision voulue, minimiser le risque d erreur implique de tester un nombre assez grand d articles : la convergence du majorant n est pas très rapide. 286
295 Le tableau suivant récapitule certaines caractéristiques des lois usuelles : Nom Notation Condition Image P(X = k) E(X) V (X) G X (t) Bernoulli B(p) p [0,1] {0,1} P(X = 1) = p p p(1 p) 1 p + pt Binomiale B(n,p) n N,p [0,1] [0,n] ( ) n p k k (1 p) n k np np(1 p) (1 p + pt) n Géométrique G (p) p ]0,1[ N p (1 p) k 1 1 p 1 p p 2 pt 1 (1 p)t Poisson P(λ) λ > 0 N e λ λk k! λ λ e λ(t 1) 287
296 288
297 Chapitre 15 Endomorphismes remarquables des espaces euclidiens Dans ce chapitre, sauf indication contraire, (E,( )) désigne un espace euclidien de dimension n et la norme associée. I. Isométries vectorielles 1. Définition, propriétés, caractérisations Définition Soit u L (E). On dit que u est une isométrie vectorielle si u conserve la norme, c est-à-dire si x E, u(x) = x. Exemple Dans R 2 [X] muni du produit scalaire défini par : ( ax 2 + bx + c αx 2 + βx + γ ) = aα + bβ + cγ, soit u l endomorphisme défini par : u(ax 2 + bx + c) = b + c 2 X 2 + ax + b c 2. Alors u est une isométrie vectorielle car, pour tout P = ax 2 + bx + c R 2 [X], u(p) 2 = 1 2 (b2 + 2bc + c 2 ) + a (b2 2bc + c 2 ) = a 2 + b 2 + c 2 = P 2, donc en prenant la racine carrée, on obtient que u conserve la norme. Propriété Une isométrie vectorielle est un automorphisme. Démonstration L espace E étant de dimension finie, il suffit de montrer que u est injectif. Or, si u(x) = 0 E, alors par conservation de la norme, x = u(x) = 0 et donc x = 0 E, d où le résultat. Remarque Les isométries vectorielles sont également appelées automorphismes orthogonaux. Attention! En général, une projection orthogonale n est pas un automorphisme orthogonal : elle ne conserve pas la norme et n est pas bijective. 289
298 Propriété/Définition L ensemble des isométries vectorielles de E est appelé groupe orthogonal de E, et noté O(E). On a notamment : Si u et v sont deux éléments de O(E), alors u v O(E). Si u O(E), u 1 O(E). Démonstration Pour tout x E, x = v(x) = (u v)(x) car u et v sont des isométries vectorielles donc conservent la norme. On en déduit que u v conserve la norme, c est donc une isométrie vectorielle. Pour tout x E, x = (u u 1 )(x) = u 1 (x) car u conserve la norme. On en déduit que u 1 conserve la norme, c est donc une isométrie vectorielle. Propriété Soit u L (E). Pour que u soit une isométrie vectorielle, il faut et il suffit que u conserve le produit scalaire, c est-à-dire, que (x,y) E 2, (u(x) u(y)) = (x y). Démonstration Si u conserve le produit scalaire, pour tout x E, u(x) 2 = (u(x) u(x)) = (x x) = x 2 et donc u(x) = x. On en déduit que u est une isométrie vectorielle. Si u conserve la norme, on montre que u conserve le produit scalaire à l aide de l identité de polarisation : pour tout (x,y) E 2, (u(x) u(y)) = 1 4 ( u(x) + u(y) 2 u(x) u(y) 2) = 1 4 par linéarité de u. Comme u conserve la norme, on a donc ( u(x + y) 2 u(x y) 2), (u(x) u(y)) = 1 4 ( x + y 2 x y 2) = (x y). D où la conservation du produit scalaire. Propriété Soit u L (E) et B une base orthonormée de E. Les propriétés suivantes sont équivalentes : u est une isométrie vectorielle. L image par u de la base orthonormée B de E est une base orthonormée de E. Démonstration On note B = (e 1,...,e n ). Si u est une isométrie vectorielle, alors u conserve le produit scalaire, et donc pour tout (i,j) [1,n] 2, (u(e i ) u(e j )) = (e i e j ) = δ i,j. La famille u(b) est donc une base orthonormée de E : elle est orthonormée, donc libre, et est composée de n vecteurs en dimension n. 290
299 On suppose que u(b) = (u(e 1 ),...,u(e n )) est une base orthonormée de E. Si sont deux vecteurs de E, alors x = x 1 e x n e n et y = y 1 e y n e n u(x) = x 1 u(e 1 ) + + x n u(e n ) et u(y) = y 1 u(e 1 ) + + y n u(e n ), donc les coordonnées de u(x) et u(y) dans la base u(b) sont les mêmes que celles de x et y dans la base B. L expression du produit scalaire dans une base orthonormée montre donc que (u(x) u(y)) = (x y). Donc u est une isométrie vectorielle. Propriété Soit u une isométrie vectorielle de E et F un sous-espace vectoriel de E stable par u. Alors F est stable par u. Démonstration L application u est un isomorphisme, donc dim(u(f)) = dim(f). Sachant de plus que u(f) F car F est stable par u, on a u(f) = F. Soit x F ; on veut montrer que u(x) F. Soit donc y F ; d après ce qui précède, il existe z F tel que y = u(z). Alors, par conservation du produit scalaire, (u(x) y) = (u(x) u(z)) = (x z) = 0 car x F et z F. Donc u(x) est orthogonal à tout vecteur de F : u(x) F. Ceci étant vrai pour tout x F, on a le résultat voulu. 2. Matrices orthogonales Définition Soit M M n (R) une matrice carrée réelle. On dit que M est orthogonale si l endomorphisme u M canoniquement associé à M est une isométrie vectorielle pour la norme associée au produit scalaire canonique sur M n,1 (R). Propriété Soit M M n (R). Les propriétés suivantes sont équivalentes : 1. M est une matrice orthogonale. 2. t MM = I n. 3. M t M = I n. 4. M est inversible et M 1 = t M. 5. Les colonnes de M forment une famille orthonormée de M n,1 (R) muni du produit scalaire canonique. Dans ce cas, elles en forment une base orthonormée. 6. Les lignes de M forment une famille orthonormée de M 1,n (R) muni du produit scalaire canonique. Dans ce cas, elles en forment une base orthonormée. Démonstration Soit ( ) le produit scalaire canonique sur M n,1 (R). 1 2 : La matrice M est orthogonale si et seulement si u M conserve le produit scalaire, ce qui équivaut au fait que pour tout (X,Y ) M n,1 (R) 2, (u M (X) u M (Y )) = (X Y ). 291
300 Or, pour tout (X,Y ) M n,1 (R) 2, (u M (X) u M (Y )) = t (MX)(MY ) = t X( t MM)Y et (X Y ) = t XY. Si t MM = I n, M est donc orthogonale; réciproquement, si M est orthogonale, en choisissant pour X et Y les vecteurs de la base canonique de M n,1 (R), on obtient t MM = I n : C est un résultat du chapitre Matrices. 2 5 : Notons C 1,...,C n les colonnes de M. Le coefficient en position (i,j) dans la matrice t MM est t C i C j, c est-à-dire (C i C j ). On en déduit que t MM = I n si et seulement si pour tout (i,j), (C i C j ) = δ i,j, c est-à-dire, si et seulement si (C 1,...,C n ) est une famille orthonormée de M n,1 (R). Dans ce cas, sachant de plus que cette famille est composée de n = dim(e) vecteurs, c est une base orthonormée de M n,1 (R). 3 6 : On raisonne de la même façon, le coefficient en position (i,j) dans la matrice M t M étant (L i L j ), où L 1,...,L n sont les lignes de M. Exemple La matrice M = est orthogonale, car la famille (C 1,C 2,C 3 ) de ses colonnes vérifie les relations (C i C j ) = δ i,j pour tout (i,j) [1,3] 2. Propriété Lien entre isométries vectorielles de E et matrices orthogonales Soit u L (E) et B une base orthonormée de E. Les propriétés suivantes sont équivalentes : u est une isométrie vectorielle. La matrice M de u dans la base orthonormée B est orthogonale. Démonstration L endomorphisme u est une isométrie vectorielle si et seulement si pour tout (x,y) E 2, (u(x) u(y)) = (x y). Si X et Y sont les vecteurs-colonnes des coordonnées de x et y dans la base orthonormée B, alors (u(x) u(y)) = t (MX)(MY ) = t X( t MM)Y et (x y) = t XY. Or, lorsque x et y parcourent E, X et Y parcourent M n,1 (R), et réciproquement. Ainsi, u est une isométrie vectorielle si et seulement si pour tout (X,Y ) M n,1 (R) 2, t X( t MM)Y = t XY, c est-à-dire, si et seulement si M est orthogonale (voir la démonstration précédente). Propriété Les matrices orthogonales sont exactement les matrices de changement de base orthonormée : si B est une base orthonormée de E et P M n (R) est la matrice d une famille F de vecteurs de E dans la base B, alors P est une matrice orthogonale si et seulement si F est une base orthonormée de E. Démonstration Avec les notations de la propriété, soit u l endomorphisme de E ayant P pour matrice dans la base B. La matrice P est orthogonale si et seulement si u est une isométrie vectorielle, ce qui équivaut au fait que u(b), i.e. F, soit une base orthonormée de E. Remarque En particulier, si B et B sont deux bases orthonormées de E, et si P désigne la matrice de passage de B vers B, alors pour tout u L (E), Mat B (u) = t P Mat B (u)p. 292
301 Propriété/Définition L ensemble des matrices orthogonales d ordre n est appelé groupe orthogonal d ordre n, et noté O(n) ou O n (R) : O(n) = {M M n (R); t MM = I n }. L ensemble O(n) est stable par produit et passage à l inverse. Démonstration Si M O(n) et N O(n), t (MN)(MN) = t N t MMN = t NN = I n, donc MN O(n). De plus, t (M 1 )M 1 = ( t M) 1 M 1 = (M t M) 1 = I n, donc M 1 O(n). Propriété Si M O(n), alors det(m) = ±1. De même, si u O(E), alors det(u) = ±1. Démonstration Une matrice orthogonale M vérifie t MM = I n donc det( t M)det(M) = 1. Or det( t M) = det(m), donc det(m) 2 = 1 et det(m) = ±1. Si u O(E), on raisonne matriciellement dans une base orthonormée. Remarque Bien sûr, la réciproque est fausse, comme le montre l exemple de la matrice ( ) 1 1 ; 0 1 elle a pour déterminant 1 mais n est pas orthogonale : ses deux colonnes ne sont pas orthogonales pour le produit scalaire canonique. Propriété/Définition L ensemble des matrices orthogonales de M n (R) de déterminant 1, est appelé groupe spécial orthogonal d ordre n, noté SO(n) ou SO n (R). Il est stable par produit et passage à l inverse. Démonstration On sait déjà que O n (R) est stable par produit et passage à l inverse. De plus, si M SO n (R) et N SO n (R), on a det(mn) = det(m)det(n) = 1 et det(m 1 ) = (det(m)) 1 = 1, d où le résultat. Définition Si E est de dimension 2 ou 3, un élément de O(E) de déterminant 1 est appelé rotation de E. 293
302 II. Endomorphismes symétriques Définition Soit u L (E). On dit que u est symétrique si (x,y) E 2, (u(x) y) = (x u(y)). Propriété Lien entre endomorphismes symétriques et matrices symétriques Soit u L (E) et B une base orthonormée de E. Les propriétés suivantes sont équivalentes : u est symétrique. La matrice M de u dans la base orthonormée B est symétrique, c est-à-dire vérifie t M = M. Démonstration L endomorphisme u est symétrique si et seulement si pour tout (x,y) E 2, (u(x) y) = (x u(y)). Si X et Y sont les vecteurs-colonnes des coordonnées de x et y dans la base orthonormée B, alors (u(x) y) = t (MX)Y = t X t MY et (x u(y)) = t X(MY ) = t XMY. Or, lorsque x et y parcourent E, X et Y parcourent M n,1 (R), et réciproquement. Ainsi, u est symétrique si et seulement si pour tout (X,Y ) M n,1 (R) 2, t X t MY = t XMY, c est-à-dire, si et seulement si t M = M. Exemple La projection orthogonale p sur un sous-espace vectoriel F de E est symétrique. En effet, dans une base orthonormée de E adaptée à la décomposition la matrice de p est (en notant r = rg(p)) elle est symétrique. E = Im(p) Ker(p) = Im(p) Im(p), ( Ir 0 r,n r 0 n r,r 0 n r,n r Attention! Pour utiliser ce résultat, il est essentiel que B soit orthonormée, de même que dans la propriété sur le lien entre isométries vectorielles et matrices orthogonales. Les endomorphismes symétriques ont des propriétés remarquables vis-à-vis de la réduction des endomorphismes : Théorème spectral Soit u L (E) un endomorphisme symétrique. Alors u est diagonalisable dans une base orthonormée : il existe une base orthonormée de E constituée de vecteurs propres pour u. ) ; 294
303 Démonstration (non exigible) On procède par récurrence sur n = dim(e). Le résultat est vrai pour n = 1 car tout vecteur de E de norme 1 est vecteur propre de u. Si le résultat est vrai en dimension n, soit u un endomorphisme symétrique de E, espace euclidien de dimension n + 1. Soit M la matrice de u dans une base orthonormée quelconque. Sachant que u est symétrique et que M est sa matrice dans une base orthonormée, M est symétrique. La matrice M est réelle, mais on peut la considérer comme matrice complexe et à ce titre, M possède une valeur propre λ C. Soit X M n,1 (C) un vecteur propre associé; on va calculer t XMX de deux façons : tout d abord, M étant réelle, t XMX = t XMX = t XλX = λ t XX. De plus, M étant symétrique, t XMX = t X t MX = t (MX)X = t (λx)x = λ t XX. Mais, en notant x 1,...,x n les coefficients de X, on a t XX = n x i x i = i=1 n x i 2 0 i=1 car X 0. On en déduit que λ = λ, i.e., λ R. Ainsi, u possède une valeur propre réelle λ. Soit e 1 un vecteur propre associé. Quitte à diviser e 1 par sa norme (qui est non nulle), on peut supposer e 1 unitaire. Notons F = Vect(e 1 ) ; il s agit d un sous-espace vectoriel de E de dimension n. De plus, F est stable par u : en effet, si x F, alors car u est symétrique. Or u(e 1 ) = λe 1, donc (u(x) e 1 ) = (x u(e 1 )) (u(x) e 1 ) = λ(x e 1 ) = 0 car x F = Vect(e 1 ). On a finalement (u(x) e 1 ) = 0, et donc u(x) Vect(e 1 ) = F. On peut donc considérer l endomorphisme u F de F induit par u; F est bien sûr un espace euclidien par restriction du produit scalaire de E, et u F est symétrique de même que u. Par hypothèse de récurrence, il existe une base orthonormée (e 2,...,e n+1 ) de F constituée de vecteurs propres pour u F, et donc pour u. Alors, sachant que E = Vect(e 1 ) F (cette somme étant orthogonale), on obtient que (e 1,...,e n+1 ) est une base orthonormée de E de vecteurs propres pour u, ce qui prouve l hérédité. Remarques En particulier, si u L (E) est symétrique, u possède n valeurs propres réelles (χ u est scindé dans R). Ces valeurs propres ne sont pas nécessairement distinctes. Si u L (E) est un endomorphisme symétrique, les sous-espaces propres de u sont deux à deux orthogonaux. En effet, soient λ et µ deux valeurs propres distinctes de u, x et y deux vecteurs propres associés respectivement à ces valeurs propres. Alors Mais u étant symétrique, on a aussi (u(x) y) = (λx y) = λ(x y). (u(x) y) = (x u(y)) = (x µy) = µ (x y). Sachant que λ µ, on en déduit que (x y) = 0, et donc E λ (u) E µ (u). 295
304 Matriciellement, le théorème spectral s interprète de la façon suivante : Théorème spectral (matriciel) Soit M M n (R) une matrice symétrique réelle. Alors M est diagonalisable au moyen d une matrice orthogonale, c est-à-dire qu il existe : une matrice diagonale D M n (R) dont les coefficients diagonaux sont les valeurs propres de M, une matrice orthogonale P O(n) dont les colonnes constituent une base orthonormée de M n,1 (R) (pour le produit scalaire canonique) de vecteurs propres pour M, telles que M = P D t P. Démonstration On applique le théorème spectral à l endomorphisme u M canoniquement associé à M : il existe une base orthonormée B de M n,1 (R) constituée de vecteurs propres pour M. Soit P la matrice de passage de la base canonique de M n,1 (R) à la base B ; P est une matrice orthogonale car c est une matrice de changement de bases orthonormées, donc P 1 = t P. La formule M = P D t P est alors une conséquence des formules de changement de base. Attention! Une matrice symétrique complexe n est pas toujours diagonalisable, comme le montre l exemple de la matrice ( ) 1 i i 1 de polynôme caractéristique X 2 ; si elle était diagonalisable, elle serait nulle. Exemple La matrice A = est symétrique réelle, elle est donc diagonalisable au moyen d une matrice orthogonale. Comme de plus elle est de rang 1, on sait que 0 est valeur propre double de A. Une base orthonormée de E 0 (A), qui est le plan d équation x + y + z = 0, est 1 1 2, Dans ce cas particulier, on sait alors que le second espace propre est E 0 (A), c est une droite vectorielle dirigée par le vecteur normal t( ) à E 0 (A), dont on constate qu il est vecteur propre pour A associé à la valeur propre 3 (ce que l on pouvait remarquer directement car la somme des coefficients de chaque ligne de A est 3). En posant P = , on obtient une matrice orthogonale telle que A = P t P On remarquera que dans ce cas, on n a pas à calculer P 1, il suffit de transposer P. Attention cependant, pour pouvoir affirmer ceci, il faut bien prendre soin de vérifier que P est effectivement 296
305 orthogonale. Dans cet exemple, il était indispensable de choisir une base de E 0 (A) qui soit orthonormée. Application : en Sciences Industrielles, la matrice d inertie d un solide dans un repère orthonormé est une matrice symétrique réelle, elle est donc diagonalisable au moyen d une matrice orthogonale. Les droites propres pour cette matrice sont appelées axes principaux d inertie du solide. III. Espaces euclidiens orientés de dimension 2 et 3 1. Orientation Soient B et B deux bases orthonormées de E, et P la matrice de passage de B à B. On sait que P O n (R), et donc det(p) = ±1, c est-à-dire, det B (B ) = ±1. De plus, Ceci permet de donner la définition suivante : det B (B) = det(p 1 ) = det(p) = det B (B ). Définition Orientation, bases orthonormées directes On dit que B et B ont la même orientation si det B (B ) = 1. On dit que B et B ont des orientations opposées si det B (B ) = 1. Orienter E, c est choisir l ensemble des bases orthonormées qui ont la même orientation qu une base orthonormée fixée, de référence. Ces bases sont alors dites bases orthonormées directes. Les autres bases orthonormées sont dites bases orthonormées indirectes. Remarques Les matrices de passage entre bases orthonormées directes de E sont exactement les matrices orthogonales de déterminant 1, i.e., les éléments de SO(n) : si B est une base orthonormée directe de E et P M n (R) est la matrice d une famille F de vecteurs de E dans la base B, alors P SO(n) si et seulement si F est une base orthonormée directe de E. Échanger deux vecteurs d une base orthonormée, ou changer le sens d un de ses vecteurs, change son orientation (c est-à-dire son caractère direct ou indirect), d après les propriétés du déterminant. On définit une relation entre bases orthonormées de E de la façon suivante : si B et B sont deux bases orthonormées de E, on a B B si, par définition, B et B ont la même orientation. Le fait que SO n (R) contienne I n et soit stable par produit et passage à l inverse permet de montrer que est une relation d équivalence. Il y a exactement deux classes d équivalence; orienter E revient à choisir l une de ces deux classes, ses éléments sont les bases orthonormées directes de E. Définition Orientation d une droite ou d un plan Soit E un espace euclidien orienté de dimension 3. Si F est une droite vectorielle ou un plan vectoriel de E, on peut orienter F comme tout espace euclidien, par le choix d une base orthonormée de F. Si P est un plan vectoriel, on peut aussi orienter P par le choix d un vecteur unitaire a normal à P : une base orthonormée (i,j) de P est dite directe si (i,j,a) est une base orthonormée directe de E, sinon, elle est dite indirecte. 297
306 2. Produit mixte, produit vectoriel Propriété/Définition Produit mixte Soient B et B deux bases orthonormées directes d un espace euclidien orienté E de dimension n = 2 ou n = 3. Alors, pour toute famille (x 1,...,x n ) de vecteurs de E, on a det B (x 1,...,x n ) = det B (x 1,...,x n ). Autrement dit, le déterminant de (x 1,...,x n ) ne dépend pas de la base orthonormée directe choisie pour le calculer. Ce déterminant est appelé produit mixte de la famille (x 1,...,x n ), et noté [x 1,...,x n ]. Démonstration Soit M la matrice de (x 1,...,x n ) dans la base B, M sa matrice dans la base B et P la matrice de passage de B à B. Alors, d après les formules de changement de bases, M = PM, d où det(m) = det(p)det(m ) = det(m ) car P est une matrice de passage entre bases orthonormées directes, donc P SO n (R). On en déduit le résultat car Interprétation géométrique det B (x 1,...,x n ) = det(m) et det B (x 1,...,x n ) = det(m ). Si u et v sont deux vecteurs de R 2, [u,v] est l aire du parallélogramme formé sur u et v. De même, si u, v et w sont trois vecteurs de R 3, [u,v,w] est le volume du parallélépipède rectangle formé sur u, v et w. On a immédiatement : Propriété Soit E un espace euclidien orienté de dimension 3. Alors : Échanger deux vecteurs dans un produit mixte change le signe du produit mixte. Le produit mixte [u,v,w] est nul si et seulement si la famille (u,v,w) est liée. Une base orthonormée (e 1,e 2,e 3 ) de E est directe si et seulement si [e 1,e 2,e 3 ] = 1. On a les propriétés analogues en dimension 2. Propriété/Définition Produit vectoriel Soit E un espace euclidien orienté de dimension 3. Pour tout (u,v) E 2, il existe un unique vecteur de E, noté u v, tel que x E, [u,v,x] = (u v x). (1) Le vecteur u v est appelé produit vectoriel de u et v. Démonstration Par linéarité du déterminant par rapport à sa troisième variable, l application x [u,v,x] est une forme linéaire sur E. Le théorème de représentation des formes linéaires sur un espace euclidien entraîne l existence et l unicité du vecteur vérifiant (1). 298
307 Propriété Soit E un espace euclidien orienté de dimension 3 et B = (e 1,e 2,e 3 ) une base orthonormée directe de E. Soient u = u 1 e 1 + u 2 e 2 + u 3 e 3 E et v = v 1 e 1 + v 2 e 2 + v 3 e 3 E. Alors u v = (u 2 v 3 u 3 v 2 )e 1 + (u 3 v 1 u 1 v 3 )e 2 + (u 1 v 2 u 2 v 1 )e 3. En particulier, dans E = M 3,1 (R), u 1 v 1 u 2 v 3 u 3 v 2 u 2 v 2 = u 3 v 1 u 1 v 3. u 3 v 3 u 1 v 2 u 2 v 1 On peut toujours se ramener à ce cas en raisonnant en coordonnées dans une base orthonormée directe de E. Démonstration Pour tout x = x 1 e 1 + x 2 e 2 + x 3 e 3 E, u 1 v 1 x 1 [u,v,x] = det B (u,v,x) = u 2 v 2 x 2 u 3 v 3 x 3. En développant ce déterminant par rapport à la dernière colonne, on a [u,v,x] = (u 2 v 3 u 3 v 2 )x 1 (u 1 v 3 u 3 v 1 )x 2 + (u 1 v 2 u 2 v 1 )x 3. La base B étant orthonormée, on reconnaît le produit scalaire entre (u 2 v 3 u 3 v 2 )e 1 + (u 3 v 1 u 1 v 3 )e 2 + (u 1 v 2 u 2 v 1 )e 3 et x. Cette égalité étant vraie pour tout x, et u v étant l unique vecteur à la vérifier pour tout x, on a le résultat. Propriété Soit E un espace euclidien orienté de dimension 3 et (u,v) E 2. Alors : 1. u v = v u. 2. Les applications x u x et x x v sont des endomorphismes de E. 3. La famille (u,v) est libre si et seulement si u v 0 E. 4. Le vecteur u v est orthogonal à u et v. Si u et v sont indépendants, u v est un vecteur normal au plan vectoriel Vect(u,v). 5. Si (e 1,e 2,e 3 ) est une base orthonormée directe de E, on a e 1 e 2 = e 3, e 2 e 3 = e 1, e 3 e 1 = e 2. Si (e 1,e 2 ) est une famille orthonormée de E, alors (e 1,e 2,e 1 e 2 ) est une base orthonormée directe de E. 6. Pour tout w E, on a la formule : u (v w) = (u w) v (u v) w. Démonstration 1. Pour tout x E, par antisymétrie du déterminant, [u,v,x] = [v,u,x] = (v u x) = ( v u x). Ceci étant vrai pour tout x E, on a u v = v u. 299
308 2, 6 et première partie de 5. C est immédiat en revenant aux coordonnées dans une base orthonormée directe. Quant à la deuxième partie du point 5, complétons (e 1,e 2 ) en base orthonormée directe (e 1,e 2,e 3 ) de E (ce qui est possible en complétant d abord en base orthonormée de E puis éventuellement en changeant le sens du troisième vecteur choisi). D après ce qui précède, on a e 1 e 2 = e 3, d où le résultat. 3. Si (u,v) est liée, alors pour tout x E, [u,v,x] = 0, et donc (u v x) = 0. On en déduit que u v = 0 E. Si (u,v) est libre, on peut la compléter en une base (u,v,w) de E, et donc [u,v,w] 0, c est-à-dire, (u v w) 0, ce qui entraîne que u v 0 E. 4. On a (u v u) = [u,v,u] = 0 car la famille (u,v,u) contient deux fois le même vecteur. Donc u v est orthogonal à u. On procède de même pour v. Si (u,v) est libre, u v est un vecteur non nul orthogonal à u et v, donc orthogonal au plan Vect(u,v). C est donc un vecteur normal à Vect(u,v). 3. Classification des isométries vectorielles en dimension 2 Théorème Détermination des éléments de O 2 (R) et SO 2 (R) On a {( ) cos(θ) sin(θ) O 2 (R) = sin(θ) cos(θ) } ; θ R } {{ } = SO 2 (R) {( ) } cos(θ) sin(θ) ; θ R. sin(θ) cos(θ) } {{ } ={M O 2 (R); det(m)= 1} Démonstration Il est immédiat que les matrices ci-dessus sont éléments de O 2 (R), car leurs colonnes forment une famille orthonormée de M 2,1 (R) pour le produit scalaire canonique, d après la formule cos 2 + sin 2 = 1. De plus, pour tout θ R, ( ) ( ) cos(θ) sin(θ) cos(θ) sin(θ) det = 1 et det = 1. sin(θ) cos(θ) sin(θ) cos(θ) Réciproquement, soit M = ( ) a c O b d 2 (R). Sa première colonne est de norme 1, donc a 2 + b 2 = 1. En particulier, a 2 1, donc a [ 1,1], et il existe θ R tel que a = cos(θ). Alors b = ± 1 a 2 = ± sin(θ), mais quitte à changer θ en θ, ce qui ne modifie pas la valeur de cos(θ), on peut supposer que b = sin(θ). La deuxième colonne de M est orthogonale à la première. Or, (a,b) = (cos(θ),sin(θ)) (0,0), donc ( ( )) cos(θ) Vect sin(θ) ( ) sin(θ) est une droite vectorielle; or elle contient le vecteur non nul, et ainsi cos(θ) ( Vect ( )) cos(θ) = Vect sin(θ) En particulier, il existe λ R tel que ( ) ( ) c sin(θ) = λ. d cos(θ) 300 ( ) sin(θ). cos(θ)
309 Enfin, ( ) cos(θ) λsin(θ) det(m) = det = λ. sin(θ) λ cos(θ) Or det(m) = ±1; on obtient les formes indiquées dans chaque cas. Définition Soit θ R. La matrice ( ) cos(θ) sin(θ) R(θ) = sin(θ) cos(θ) est appelée matrice de rotation d angle de mesure θ. On remarquera que, pour (θ,θ ) R 2, R(θ) = R(θ ) si et seulement si θ θ 2πZ. Ainsi, Propriété SO 2 (R) = {R(θ); θ R} = {R(θ); θ ] π,π]}. Pour tout (θ,θ ) R 2, R(θ)R(θ ) = R(θ + θ ). SO 2 (R) est commutatif pour le produit matriciel : pour tout (A,B) (SO 2 (R)) 2, on a AB = BA. Démonstration On a ( )( R(θ)R(θ cos(θ) sin(θ) cos(θ ) = ) sin(θ ) ) sin(θ) cos(θ) sin(θ ) cos(θ ) ( cos(θ)cos(θ = ) sin(θ)sin(θ ) cos(θ)sin(θ ) sin(θ)cos(θ ) ) sin(θ)cos(θ ) + cos(θ)sin(θ ) sin(θ)sin(θ ) + cos(θ)cos(θ ) ( cos(θ + θ = ) sin(θ + θ ) ) sin(θ + θ ) cos(θ + θ = R(θ + θ ). ) Soit (A,B) (SO 2 (R)) 2. D après le théorème précédent, il existe (θ,θ ) R 2 tel que A = R(θ) et B = R(θ ). Alors d après le premier point, AB = R(θ)R(θ ) = R(θ + θ ) = R(θ + θ) = R(θ )R(θ) = BA. Théorème Classification des isométries vectorielles en dimension 2 Soit E un plan euclidien orienté. 1. Soit u O(E) vérifiant det(u) = 1 (i.e., une rotation de E). Alors, il existe θ R tel que la matrice de u dans toute base orthonormée directe de E soit R(θ). Le réel θ n est pas unique, mais unique modulo 2π. On dit que θ est une mesure de l angle de la rotation u. On retrouve facilement les mesures θ de l angle d une rotation u de E à l aide des formules suivantes, valables pour tout vecteur unitaire x 0 E : cos(θ) = 1 2 Tr(u) = (x 0 u(x 0 )) et sin(θ) = [x 0,u(x 0 )]. 2. Soit u O(E) vérifiant det(u) = 1. Alors u est la symétrie par rapport à Ker(u Id) parallèlement à Ker(u Id) (i.e., la réflexion par rapport à Ker(u Id)). Dans toute base adaptée à la décomposition E = Ker(u Id) Ker(u Id), la matrice de u est ( )
310 Démonstration 1. Si u O(E) vérifie det(u) = 1, sa matrice dans une base orthonormée directe B = (e 1,e 2 ) est un élément de SO 2 (R), donc il existe θ R tel que Mat B (u) = R(θ). Si B = (ε 1,ε 2 ) est une autre base orthonormée directe de E, alors la matrice de passage P de B à B est un élément de SO 2 (R), donc d après les formules de changement de base et la commutativité de SO 2 (R), Mat B (u) = P 1 Mat B (u)p = P 1 P Mat B (u) = Mat B (u) = R(θ). La matrice de u dans toute base orthonormée directe de E est donc R(θ). Le réel θ est unique modulo 2π car R(θ) = R(θ ) si et seulement si θ θ 2πZ. On a alors Tr(u) = Tr(R(θ)) = 2cos(θ), d où cos(θ) = 1 2 Tr(u). Soit x 0 = αe 1 +βe 2 un vecteur unitaire de E. Alors la matrice colonne des coordonnées de u(x 0 ) dans la base B est ( ) ( ) α α cos(θ) β sin(θ) R(θ) =. β α sin(θ) + β cos(θ) La base B étant orthonormée, (x 0 u(x 0 )) = α(α cos(θ) β sin(θ)) + β(α sin(θ) + β cos(θ)) = (α 2 + β 2 )cos(θ) = cos(θ) car x 0 est unitaire et B orthonormée. De plus, [x 0,u(x 0 )] = α α cos(θ) β sin(θ) β α sin(θ) + β cos(θ) = α(α sin(θ) + β cos(θ)) β(α cos(θ) β sin(θ)) = sin(θ). 2. Si u O(E) vérifie det(u) = 1, sa matrice dans la base orthonormée directe B est un élément de O 2 (R) de déterminant 1, donc il existe θ R tel que ( ) cos(θ) sin(θ) Mat B (u) =. sin(θ) cos(θ) Alors Mat B (u) 2 = ( ) 2 cos(θ) sin(θ) = I sin(θ) cos(θ) 2, donc u est une symétrie. On sait que u est diagonalisable avec Sp(u) { 1,1}, mais sachant que dim(e) = 2 et que det(u) = 1, on a Sp(u) = { 1,1}, les valeurs propres 1 et 1 étant simples. Les espaces propres Ker(u Id) et Ker(u + Id) sont donc des droites vectorielles. Enfin, ils sont orthogonaux, car si x Ker(u Id) et y Ker(u+Id), alors par conservation du produit scalaire, (x y) = (u(x) u(y)) = (x y) = (x y), et donc (x y) = 0. Ainsi, u est la symétrie par rapport à la droite Ker(u Id) parallèlement à la droite Ker(u + Id) = Ker(u Id). L écriture matricielle dans toute base adaptée à la décomposition E = Ker(u Id) Ker(u Id) est alors immédiate. Propriété Soit E un plan euclidien orienté et (θ,θ ) R 2. Soit u la rotation d angle de mesure θ et u la rotation d angle de mesure θ. Alors u u = u u est la rotation d angle de mesure θ + θ. Démonstration Il suffit de raisonner matriciellement dans une base orthonormée directe de E. La matrice de u dans cette base est R(θ), celle de u, R(θ ). Or, d après une propriété donnée plus haut, R(θ)R(θ ) = R(θ )R(θ) = R(θ + θ ), d où le résultat. 302
311 Propriété Écriture complexe d une rotation Soit E un plan euclidien orienté et B = (e 1,e 2 ) une base orthonormée directe de E. On identifie E à C, grâce à l application bijective { E C φ : αe 1 + βe 2 α + iβ Alors la rotation u d angle de mesure θ a pour expression complexe z e iθ z, c est-à-dire que pour tout x E, φ(u(x)) = e iθ φ(x). Démonstration Pour tout x = αe 1 + βe 2 E, le vecteur-colonne des coordonnées de u(x) dans la base B est ( ) ( ) α α cos(θ) β sin(θ) R(θ) =, β α sin(θ) + β cos(θ) et donc De plus, φ(u(x)) = [α cos(θ) β sin(θ)] + i[α sin(θ) + β cos(θ)]. e iθ φ(x) = [cos(θ) + isin(θ)][α + iβ], ce qui donne le même résultat après développement. 4. Réduction des isométries vectorielles en dimension 3 Théorème Réduction des isométries vectorielles en dimension 3 Soit E un espace euclidien orienté de dimension 3. Soit u O(E); on note ε = det(u) (ε = 1 ou ε = 1). On est dans l un et un seul des cas suivants : 1. u = εid. 2. L ensemble Ker(u ε Id) est une droite vectorielle. En notant D cette droite, alors le plan D est stable par u et l endomorphisme de D induit par u est une rotation. Si a est un vecteur unitaire dirigeant la droite D, alors en orientant D par le choix du vecteur normal a, on peut considérer une mesure θ de l angle de cette rotation. La matrice de u dans toute base orthonormée directe de E de la forme (e 1,e 2,a) est alors cos(θ) sin(θ) 0 sin(θ) cos(θ) ε Pour les rotations (ε = 1) : D est l ensemble des vecteurs invariants par u; on dit que u est une rotation d axe D, et, D étant orienté par a, que θ est une mesure de l angle de u. On détermine alors entièrement θ (modulo 2π) par les formules suivantes, dans lesquelles x 0 désigne un vecteur unitaire orthogonal à a : Pour déterminer cos(θ) : Tr(u) = 2cos(θ) + 1, cos(θ) = (x 0 u(x 0 )), Pour déterminer sin(θ) : x 0 u(x 0 ) = (sin(θ))a, sin(θ) = [x 0,u(x 0 ),a]. Enfin, pour tout x E, l image de x par u est donnée explicitement par la formule u(x) = cos(θ)[x (a x) a] + sin(θ)a x + (a x) a. 303
312 Démonstration Si u O(E), χ u est un polynôme unitaire de degré 3, donc définit une fonction continue de limite en et + en +. D après le théorème des valeurs intermédiaires, χ u possède (au moins) une racine réelle, c est-à-dire que u possède (au moins) une valeur propre réelle. Soit λ Sp(u) et x un vecteur propre associé. Par conservation de la norme, u(x) = x, c est-à-dire, λ x = x. Le vecteur x est non nul, donc λ = 1, et λ = ±1. Le polynôme caractéristique de u est scindé sur C, de degré 3 et à coefficients réels, donc, s il possède des racines complexes non réelles, elles sont au nombre de 2 et complexes conjuguées, on les notera α et α. On a alors αα = α 2 > 0. Cas ε = 1 : Le déterminant de u, qui vaut 1, est le produit des racines complexes de χ u, donc 1 doit être valeur propre de u (les différents triplets possibles de racines de χ u sont, à l ordre près, (1,1,1), (1, 1, 1), (1,α,α) avec α C \ R). Soit a un vecteur propre unitaire de u associé à a valeur propre 1. On note D = Vect(a) et P = D. Sachant que D est stable par u et que u O(E), on sait que P est stable par u. De plus, u conserve le produit scalaire sur E et donc par restriction, sur P. Ainsi, u P est une isométrie vectorielle du plan P. De plus, dans toute base B = (e 1,e 2,a) adaptée à la décomposition E = P D, ( Mat(e1 Mat B (u) =,e 2 ) (u ) P) 0, 0 1 donc 1 = det(u) = det(u P ) 1, ce qui entraîne finalement que u P est une rotation de P. On oriente P par le choix du vecteur normal a. D après le paragraphe précédent, il existe θ R tel que dans toute base orthonormée directe de P, la matrice de u P soit R(θ). La matrice de u dans toute base orthonormée directe de E de dernier vecteur a est donc cos(θ) sin(θ) 0 M = sin(θ) cos(θ) Le polynôme caractéristique de u est alors ( (X cos(θ)) 2 + sin(θ) 2) (X 1) = (X 2 2cos(θ)X + 1)(X 1). Si cos(θ) = 1, M = I 3 et u = Id. Sinon, 1 est valeur propre simple de u et en particulier, Ker(u Id) est une droite vectorielle. Dans ce cas, on a D = Ker(u Id) (inclusion et même dimension) et la description annoncée. De plus, Tr(u) = Tr(M) = 2cos(θ) + 1, et on démontre les autres formules en raisonnant en coordonnées dans une base orthonormée directe (e 1,e 2,a) de E : soit x 0 = αe 1 + βe 2 un vecteur unitaire orthogonal à a; les coordonnées de u(x 0 ) dans la base (e 1,e 2,a) sont α cos(θ) sin(θ) 0 α α cos(θ) β sin(θ) M β = sin(θ) cos(θ) 0 β = α sin(θ) + β cos(θ), donc (x 0 u(x 0 )) = α(α cos(θ) β sin(θ)) + β(α sin(θ) + β cos(θ)) = (α 2 + β 2 )cos(θ) = cos(θ) car α 2 + β 2 = x 0 2 = 1. De plus, la matrice colonne des coordonnées de x 0 u(x 0 ) dans la base (e 1,e 2,a) est α α cos(θ) β sin(θ) 0 0 β α sin(θ) + β cos(θ) = (α 2 + β 2 ) 0 = 0, 0 0 sin(θ) sin(θ) 304
313 donc x 0 u(x 0 ) = (sin(θ))a. Par définition, on a alors Enfin, la formule [x 0,u(x 0 ),a] = (x 0 u(x 0 ) a) = sin(θ)(a a) = sin(θ). u(x) = cos(θ)[x (a x) a] + sin(θ)a x + (a x) a est vraie pour x = e 1, x = e 2 et x = a : par exemple, u(e 1 ) = cos(θ)e 1 + sin(θ)e 2 = cos(θ)[e 1 (a e 1 ) a] + sin(θ)a e 1 + (a e 1 )a car (a e 1 ) = 0 et a e 1 = e 2 ; on procède de même pour u(e 2 ) et u(a). Sachant que (e 1,e 2,a) est une base de E et que les deux membres de l égalité à démontrer définissent des applications linéaires, l égalité est vraie pour tout x E. Cas ε = 1 : On raisonne de façon analogue en remplaçant la valeur propre 1 par 1; avec des notations semblables, il existe θ R tel que dans toute base orthonormée directe de E de dernier vecteur a, la matrice de u soit cos(θ) sin(θ) 0 M = sin(θ) cos(θ) Si cos(θ) = 1, M = I 3 et u = Id. Sinon, 1 est valeur propre simple de u, Ker(u + Id) est une droite vectorielle. Remarques Dans le cas d une rotation, changer l orientation de l axe revient à changer θ en θ. Si u O(E) vérifie det(u) = 1 avec u Id, u est soit la réflexion par rapport à D (symétrie par rapport à D, parallèlement à D), soit la composée (commutative) d une rotation d axe D et d une réflexion par rapport à D. Exemple L espace R 3 étant orienté et muni du produit scalaire canonique, soit { R u : 3 R 3 (x,y,z) (y,z,x) La matrice de u dans la base canonique (qui est orthonormée) est M = Elle est orthogonale de déterminant 1, donc u est une rotation. Pour déterminer son axe D, on résout l équation u(x) = x, ce qui équivaut à x Vect(a), où a = 1 3 (1,1,1). On oriente D par le choix du vecteur normal a. Alors, si θ est une mesure de l angle de u, 0 = Tr(u) = 2cos(θ) + 1, donc cos(θ) = 1/2. Il reste à déterminer le signe de sin(θ). Soit x = (1, 1,0) D. Alors la matrice colonne des coordonnées de x u(x) dans la base canonique est , 0 1 dont le premier coefficient est 1. Donc x u(x), dont on sait qu il est colinéaire à a, est de sens opposé à a. On en déduit que sin(θ) < 0, et donc, on peut choisir θ = 4π/3 (ou 2π/3). 305
314 306
315 Chapitre 16 Fonctions vectorielles Arcs paramétrés Dans ce chapitre, n est un entier strictement positif, I désigne un intervalle de R (non vide et non réduit à un point), et (sauf indication contraire) f désigne une application définie sur I, à valeurs dans R n. I. Dérivation des fonctions à valeurs vectorielles 1. Définition et premières propriétés Définition Dérivabilité en un point Soit a I. On dit que f est dérivable en a si la fonction x f(x) f(a), x a définie sur I \ {a}, possède une limite en a. Dans ce cas, cette limite, qui est un vecteur de R n, est appelée vecteur dérivé de f en a, noté f df (a) ou dx (a). Remarque La dérivabilité de f en a équivaut au fait que la fonction h f(a + h) f(a), h définie sur {h 0; a + h I}, possède une limite en 0. Définition Soit a I. On dit que f est : f(x) f(a) dérivable à gauche en a si a est intérieur à I ou a = supi, et si x x a possède une limite à gauche en a. Dans ce cas, cette limite est notée f (a ). f(x) f(a) dérivable à droite en a si a est intérieur à I ou a = inf I, et si x x a possède une limite à droite en a. Dans ce cas, cette limite est notée f (a + ). Remarque Si n = 1, on retrouve la définition déjà connue pour les fonctions à valeurs réelles. Le quotient f(x) f(a) x a 307
316 est le taux d accroissement de f entre a et x, et f (a) est le coefficient directeur de la tangente à la courbe représentative de f dans un repère au point d abscisse a. Cette tangente a pour équation y = f (a)(x a) + f(a). Exemple La fonction f : x (x,x 2,x 3 ) est dérivable en tout point de R, et pour tout a R, f (a) = (1,2a,3a 2 ). On remarque que pour f : I R n, former le quotient f(x) f(a) x a revient à former le vecteur contenant les taux d accroissement de chaque fonction-coordonnée de f. Ceci suggère une formule de dérivation composante par composante, dont la démonstration est immédiate : Propriété Dérivation composante par composante Écrivons f = (f 1,...,f n ) où les f i : I R sont les fonctions-coordonnées de f dans la base canonique. Soit a I. Pour que f soit dérivable en a, il faut et il suffit que pour tout i [1,n], f i soit dérivable en a. Dans ce cas, f (a) = (f 1(a),...,f n(a)). La propriété suivante montre le lien entre la dérivabilité en un point a et le fait de posséder un développement limité à l ordre 1 en a : Propriété Lien avec l existence d un développement limité Soit a I et b R n. Les propriétés suivantes sont équivalentes : f est dérivable en a et f (a) = b. f admet le développement limité f(x) = f(a) + b(x a) + o(x a) en a. Notation La notation o(x a) représente une fonction x (x a)ε(x) où ε : I R n a pour limite (0,...,0) en a. Démonstration La fonction f est dérivable en a avec f (a) = b si et seulement si f(x) f(a) x a b, x a c est-à-dire, si et seulement si f(x) f(a) x a = b + o(1). x a Ceci équivaut au fait que f(x) = f(a) + b(x a) + o(x a) lorsque x a. Corollaire Si f est dérivable en a, elle est continue en a. La réciproque est fausse. Démonstration Si f est dérivable en a, elle possède un développement limité à l ordre 1 en a : f(x) = f(a)+f (a)(x a)+o(x a). Lorsque x tend vers a, f(x) tend vers f(a), d où le résultat. L exemple de la fonction t ( t,0,...,0) montre que la réciproque est fausse. 308
317 2. Opérations sur les fonctions dérivables Propriété Combinaison linéaire et produit Soient f : I R n, g : I R n et α : I R trois fonctions dérivables en a I. Soit λ R. Alors : La fonction λf + g est dérivable en a et (λf + g) (a) = λf (a) + g (a). La fonction αf est dérivable en a et (αf) (a) = α (a)f(a) + α(a)f (a). Démonstration Le premier point est évident par combinaison linéaire de limites. Le cas du produit αf est une conséquence d une propriété plus générale (voir ci-dessous) sur la dérivation des fonctions du type B(f 1,f 2 ) où B est une application bilinéaire (dans notre cas, le produit), et f 1,f 2 sont deux fonctions dérivables en a I. Propriété Composition par une application linéaire ou bilinéaire Soient p N et L : R n R p une application linéaire. Si f : I R n est dérivable en a I, alors L f : I R p est dérivable en a et (L f) (a) = L(f (a)). Soient (m,p) (N ) 2, f : I R n et g : I R m deux fonctions, et B : R n R m R p une application bilinéaire. Si f et g sont dérivables en a I, alors B(f,g) : I R p est dérivable en a et B(f,g) (a) = B(f (a),g(a)) + B(f(a),g (a)). Démonstration Pour tout x I différent de a, par linéarité de L, on a ( ) (L f)(x) (L f)(a) f(x) f(a) = L. x a x a Or, f étant dérivable en a, f(x) f(a) x a f (a). x a De plus, L est une application linéaire sur un espace de dimension finie, elle est donc continue. Il en résulte que d où le résultat. (L f)(x) (L f)(a) x a Pour tout x I différent de a, par bilinéarité de B, on a B(f,g)(x) B(f,g)(a) x a L(f (a)), x a B(f(x),g(x)) B(f(a),g(x)) + B(f(a),g(x)) B(f(a),g(a)) = ( ) ( x a ) f(x) f(a) g(x) g(a) = B,g(x) + B f(a),. x a x a Or, f et g étant dérivables (et en particulier continues) en a, g(x) x a g(a), f(x) f(a) x a f (a) x a et g(x) g(a) x a L application B est bilinéaire sur R n R m, elle est donc continue, d où ce qui prouve le résultat. B(f,g)(x) B(f,g)(a) x a x a g (a). B(f (a),g(a)) + B(f(a),g (a)), x a 309
318 Corollaire Cas d un produit scalaire et d un déterminant Soit ( ) un produit scalaire sur R n. Soient f : I R n et g : I R n deux fonctions dérivables en a I. Alors : La fonction (f g) est dérivable en a avec La fonction f 2 est dérivable en a avec (f g) (a) = ( f (a) g(a) ) + ( f(a) g (a) ). ( f 2 ) (a) = 2 ( f(a) f (a) ). Si n = 2 et B est une base de R 2, la fonction det B (f,g) est dérivable en a avec (det B (f,g)) (a) = det B (f (a),g(a)) + det B (f(a),g (a)). Démonstration Le premier et le troisième point sont immédiats car un produit scalaire et le déterminant sont bilinéaires. Pour le second point, il suffit de remarquer que f 2 = (f f) et d appliquer le premier point ainsi que la symétrie du produit scalaire. Propriété Composition Soit ϕ : J I une fonction où J est un intervalle de R. Soit f : I R n une fonction. Si ϕ est dérivable en a J et si f est dérivable en ϕ(a), alors f ϕ est dérivable en a et (f ϕ) (a) = ϕ (a)(f ϕ)(a). Démonstration On raisonne à l aide d un développement limité à l ordre 1 de ϕ en a, et de f en ϕ(a), ϕ(x) = ϕ(a) + ϕ (a)(x a) + (x a)ε(x), f(y) = f(ϕ(a)) + f (ϕ(a))(y ϕ(a)) + (y ϕ(a))η(y). En appliquant cette dernière égalité avec y = ϕ(x), on obtient, pour x J, f(ϕ(x)) = f(ϕ(a)) + f (ϕ(a)) ( ϕ (a)(x a) + (x a)ε(x) ) + ( ϕ (a)(x a) + (x a)ε(x) ) η ( ϕ(a) + ϕ (a)(x a) + (x a)ε(x) ). Lorsque x tend vers a, ϕ(a) + ϕ (a)(x a) + (x a)ε(x) ϕ(a) et donc η ( ϕ(a) + ϕ (a)(x a) + (x a)ε(x) ) 0. En rassemblant les termes, on obtient donc une fonction h : J R n telle que h(x) x a (0,...,0) et f(ϕ(x)) = f(ϕ(a)) + f (ϕ(a))ϕ (a)(x a) + (x a)h(x). On en déduit le résultat. 3. Fonction dérivée Définition Si f est dérivable sur I (c est-à-dire en tout point de I), la fonction x f (x) est appelée fonction dérivée de f, notée f. 310
319 Bien sûr, la propriété de dérivation composante par composante, et les opérations sur les fonctions dérivables en un point se traduisent pour les fonctions dérivables sur un intervalle. En raisonnant composante par composante, on obtient : Propriété Dérivation et fonctions constantes Soit f : I R n une fonction dérivable. Pour que f soit constante sur I, il faut et il suffit que f = 0. II. Dérivées d ordre supérieur Définition Classe C k, dérivées d ordre k Sous réserve d existence, on définit par récurrence les dérivées successives de f par : f (0) = f et f (k+1) = (f (k) ), pour k N. Pour k N, on dit que f est de classe C k sur I si f (k) existe et est continue sur I. On dit que f est de classe C sur I si f est de classe C k sur I pour tout k 1. La fonction f (k) se note aussi dk f dx k. Propriété Classe C k composante par composante Écrivons f = (f 1,...,f n ) où les f i : I R sont les fonctions-coordonnées de f dans la base canonique. Soit k N. Alors, pour que f soit de classe C k (resp. C ) sur I, il faut et il suffit que pour tout i [1,n], f i soit de classe C k (resp. C ) sur I. Dans ce cas, pour tout j [1,k] (resp. j N ), f (j) = (f (j) 1,...,f(j) n ). Propriété Combinaison linéaire Soient f : I R n et g : I R n deux fonctions de classe C k (resp. C ) sur I, et λ R. Alors λf + g est de classe C k (resp. C ) sur I et pour tout j [1,k] (resp. j N ), (λf + g) (j) = λf (j) + g (j). En particulier, l ensemble C k (I,R n ) (resp. C (I,R n )) des fonctions de classe C k (resp. C ) sur I à valeurs dans R n, est un R-espace vectoriel. Propriété Composition par une application linéaire Soient p N et L : R n R p une application linéaire. Si f : I R n est de classe C k (resp. C ) sur I, alors L f est de classe C k (resp. C ) sur I et pour tout j [1,k] (resp. j N ), (L f) (j) = L f (j). Démonstration des trois propriétés précédentes - Elle se fait par récurrences immédiates à partir des propriétés correspondantes de dérivation première, données plus haut. 311
320 Théorème Formule de Leibniz Soient (m,p) (N ) 2, f : I R n et g : I R m deux fonctions, et B : R n R m R p une application bilinéaire. Si f et g sont de classe C k (resp. C ) sur I, alors B(f,g) est de classe C k (resp. C ) sur I et pour tout j [1,k] (resp. j N ), B(f,g) (j) = j i=0 ( ) j B(f (i),g (j i) ). i Démonstration Elle est en tout point semblable à la démonstration de la formule du binôme de Newton; elle se fait par récurrence sur k. Tout d abord, B est bilinéaire sur R n R m, donc continue. Pour k = 1, le résultat est immédiat d après la propriété de dérivation de B(f,g), et car B(f,g) = B(f,g) + B(f,g ) est continue par composition et somme. De plus, on a bien B(f,g) = 1 i=0 ( ) 1 B(f (i),g (1 i) ). i Supposons le résultat vrai pour un certain entier k, et supposons f et g de classe C k+1. Alors par hypothèse de récurrence, k ( ) B(f,g) (k) k = B(f (i),g (k i) ). i i=0 Cette fonction est dérivable sur I par opérations sur les fonctions dérivables. De plus, par linéarité de la dérivation et d après la formule donnant la dérivée d une fonction de la forme B(u,v), B(f,g) (k+1) = = k i=0 k i=0 k+1 = p=1 ( ) k (B((f (i) ),g (k i) ) + B(f (i),(g (k i) ) )) i ( ) k B(f (i+1),g (k i) ) + i k i=0 ( ) k B(f (p),g (k p+1) ) + p 1 ( ) k B(f (i),g (k i+1) ) i k i=0 ( ) k B(f (i),g (k i+1) ) i grâce au changement d indice p = i + 1 dans la première somme. En rassemblant les termes communs aux deux sommes, on a donc B(f,g) (k+1) = B(f (k+1),g) + = B(f (k+1),g) + k i=1 (( ) k + i 1 ( )) k B(f (i),g (k i+1) ) + B(f,g (k+1) ) i k ( ) k + 1 B(f (i),g (k i+1) ) + B(f,g (k+1) ) i i=1 k+1 ( ) k + 1 = B(f (i),g (k+1 i) ), i i=0 qui est une fonction continue par composition et combinaison linéaire. Ceci prouve le résultat au rang k + 1 et termine la démonstration. Remarque En reprenant cette démonstration, il est immédiat que le résultat est vrai pour les fonctions à valeurs complexes, lorsque B désigne le produit : on retrouve la formule connue du programme de première année. 312
321 Propriété Composition Soit ϕ : J I une fonction avec J intervalle de R. Soit f : I R n une fonction. Si ϕ est de classe C k (resp. C ) sur J et si f est de classe C k (resp. C ) sur I, alors f ϕ est de classe C k (resp. C ) sur J. Démonstration À nouveau, c est une récurrence immédiate basée sur la formule donnant la dérivée d une composée. En effet, si ϕ et f sont de classe C k+1 sur I, alors (f ϕ) = ϕ (f ϕ) est de classe C k comme produit et composée d applications de classe C k, et par hypothèse de récurrence. Donc f ϕ est de classe C k+1. Remarque Les propriétés concernant la combinaison linéaire et la composition d applications ont leurs équivalents pour des fonctions à valeurs dans C (lorsque cela a un sens, en ce qui concerne la composition). On peut également donner une propriété analogue sur le quotient de fonctions à valeurs dans C dont le dénominateur ne s annule pas. Pour tous ces résultats, on renvoit au cours de première année. III. Arcs paramétrés 1. Définitions Définition Soit k N. On appelle arc paramétré de classe C k (tracé dans R n ) tout couple Γ = (I,f) où I est un intervalle de R et f : I R n une fonction de classe C k. L image C = f(i) de f est aussi appelée support de l arc paramétré Γ. Dans toute la suite, sauf indication contraire, Γ = (I,f) désigne un arc paramétré de classe C k (k N ), de support C. Sans soulever de question théorique, on notera M(t) le point de R n tel que OM(t) = f(t), où O désigne l origine du repère canonique de R n. On identifie vecteur f(t) et point M(t). Remarque Si le paramètre décrivant l intervalle I est le temps, Γ représente le mouvement d un point dans R n. La courbe C est alors la trajectoire de ce mouvement. Cas particulier Lorsque pour tout t I, f(t) = (t,x(t)) où x : I R est une fonction de classe C k, C est le graphe de la fonction x. Exemple Les deux arcs paramétrés par f : R R ( 2 ) 1 t 2 2t t 1 + t 2, 1 + t 2 et g : { ] π,π[ R 2 θ (cos(θ), sin(θ)) ont pour support le cercle unité de R 2 privé du point ( 1,0). Deux arcs différents peuvent donc avoir le même support. Il faut bien distinguer un arc et son support. Un point M de C peut être associé à plusieurs paramètres : on peut avoir OM = f(t 1 ) = f(t 2 ) avec t 1 t 2. Pour cette raison, on distingue les notions de point de paramètre t, indissociable de son paramètre, et de point géométrique, qui désigne l élément de C correspondant. On parlera plutôt de point de Γ dans le premier cas, et de point de C dans le second. 313
322 Définition Un point M(t) de Γ est dit simple s il existe un unique t I tel que OM(t) = f(t). Sinon, il est dit multiple. L arc Γ est dit simple si tous ses points sont simples, ce qui équivaut au fait que f soit injective. L arc Γ est dit fermé si I est un segment [a,b] et si f(a) = f(b). Définition Point régulier Un point M(t) de Γ est dit régulier si f (t) (0,...,0). Sinon, il est dit stationnaire (ou singulier). Si tous les points de Γ sont réguliers, on dit que Γ est régulier. Attention! Dans le cas d un point multiple, par exemple f(t 1 ) = f(t 2 ) avec t 1 t 2, le point M(t 1 ) peut être régulier sans que M(t 2 ) le soit. Exemple L arc Γ paramétré par f : { [0,2π] R 2 θ (cos(θ), sin(θ)) a pour support le cercle unité de R 2. Il est fermé et régulier. Tous les points de son support excepté (1,0) sont simples. Il est important de comprendre que cet arc est différent de celui paramétré par { [0,4π] R 2 g : θ (cos(θ), sin(θ)) même si ces deux arcs ont le même support (dans le deuxième cas, le cercle est parcouru deux fois). Remarque Un arc (I,f) de classe C 1 avec f de la forme t (t,x(t)) ou t (t,x(t),y(t)) est toujours régulier : t I, f (t) = (1,x (t)) (0,0) (ou f (t) = (1,x (t),y (t)) (0,0,0)). Propriété/Définition : Tangente en un point régulier Soit M(a) un point régulier de Γ et la norme euclidienne usuelle sur R n. Alors M(a)M(t) M(a)M(t) t a t>a f (a) f (a) et M(a)M(t) M(a)M(t) t a t<a f (a) f (a). La droite passant par M(a) et dirigée par le vecteur f (a) (ou par tout vecteur non nul colinéaire à f (a)) est appelée tangente à Γ en M(a). Démonstration Pour t voisin de a, on peut écrire f(t) = f(a) + f (a)(t a) + o(t a) avec f (a) (0,...,0), et donc M(a)M(t) = f(t) f(a) = f (a)(t a) + o(t a) = (t a) ( f (a) + o(1) ). En particulier, pour t > a assez proche de a, M(t) M(a), et en utilisant l homogénéité de la norme, on a M(a)M(t) M(a)M(t) = t a t a f (a) + o(1) f (a) + o(1) = f (a) + o(1) f (a) + o(1) t a t>a 314 f (a) f (a).
323 De même, pour t < a, on a M(a)M(t) M(a)M(t) = t a a t f (a) + o(1) f (a) + o(1) = f (a) + o(1) f (a) + o(1) f (a) t a f (a). t<a Remarques Du point de vue cinématique, f (t) est le vecteur vitesse (instantanée) du point mobile M au temps t. La propriété précédente montre donc qu à un instant t où la vitesse du point mobile est non nulle, la trajectoire admet une tangente en M(t) dirigée par le vecteur vitesse en ce point. De même, si Γ est de classe C 2, f (t) est le vecteur accélération de M au temps t. La démonstration précédente montre que la tangente à Γ en un point régulier M(a) est la «limite» de la droite (M(a)M(t)) lorsque t a avec t a. 2. Étude locale des arcs plans La situation est donc assez simple concernant les points réguliers. On cherche maintenant à décrire plus précisément l allure de la courbe au voisinage d un point. Pour cela il est naturel de pousser le développement limité aux ordres suivants. On suppose que n = 2 (on considère un arc plan). Notons f = (x,y), c est-à-dire que x et y sont les fonctions-coordonnées de f. Alors x et y sont de classe C k sur I de même que f. La formule de Taylor-Young permet d écrire un développement limité de x et y en a I à l ordre k, et donc d obtenir un développement limité de f de la forme f(t) = t a k j=0 où ε : I R 2 a pour limite (0,0) en a. f (j) (a) (t a) j + (t a) k ε(t), j! Supposons maintenant qu il existe deux entiers p et q avec 1 p < q k tels que : Pour tout j [1,p 1], f (j) (a) = (0,0), Pour tout j [p + 1,q 1], (f (p) (a),f (j) (a)) est liée. (f (p) (a),f (q) (a)) est libre. Les entiers p et q sont alors uniques, on dit que p et q sont les entiers caractéristiques de Γ en a. On a alors nécéssairement f (p) (a) (0,0). D après la seconde condition, il existe donc (lorsque p + 1 q 1) des scalaires λ p+1,...,λ q 1 tels que pour tout j [p + 1,q 1], f (j) (a) = λ j f (p) (a). En tronquant le développement limité précédent à l ordre q, on obtient un développement limité de la forme ( ) f(t) = f(a) + f (p) (t a)p q 1 (t a) j p (a) 1 + λ j + f (q) (t a)q (a) + (t a) q η(t); t a p! j! q! j=p+1 } {{ } = o(1) notamment, pour t a proche de a, on a M(t) M(a) car f (p) (a) (0,0). De plus et donc M(a)M(t) (t a) p t a t a M(a)M(t) M(a)M(t) t a t>a f (p) (a), p! f (p) (a) f (p) (a), M(a)M(t) t a p t a t a M(a)M(t) M(a)M(t) t a t<a 315 f (p) (a) p! ( 1) p f(p) (a) f (p) (a).
324 La droite passant par M(a) et dirigée par le vecteur f (p) (a) est ici aussi appelée tangente à Γ en M(a). Le cas d un point régulier correspond au cas où p = 1. De plus, pour tout t I, le vecteur η(t) peut être décomposé sur la base (f (p) (a),f (q) (a)) de R 2. Finalement, dans le repère (M(a),f (p) (a),f (q) (a)), et pour t I proche de a, le point M(t) a pour coordonnées (t a) p ( ) 1 + o((t a) p ) p! (t a) q = (t a) p p! + o(1) ( ) 1 + o((t a) q ) (t a) q q! q! + o(1) Pour t a assez proche de a, la première coordonnée est du signe de (t a) p, la seconde, du signe de (t a) q. Finalement, en déterminant p et q, on peut décrire l allure de la courbe au voisinage de M(a), selon la parité de p et q : Si p est impair, q pair : On dit que M(a) est un point ordinaire. Si p est impair, q impair : On dit que M(a) est un point d inflexion. f (q) (a) f (q) (a) f (p) (a) f (p) (a) Si p est pair, q impair : On dit que M(a) est un point de rebroussement de première espèce. Si p est pair, q pair : On dit que M(a) est un point de rebroussement de deuxième espèce. f (q) (a) f (q) (a) f (p) (a) f (p) (a) Exemple Soit Γ l arc paramétré par f : { R R 2 t ( t 2 + cos(t),t sin(t) ) La fonction f est de classe C sur R. Pour tout t R, f (t) = (2t sin(t),1 cos(t)). On en déduit facilement que tous les points sont réguliers, sauf le point (1,0) de paramètre
325 Effectuons un développement limité des fonctions-coordonnées de f en 0 : ( t 2 ) + cos(t) f(t) = = 2 t2 + o(t 3 ) t sin(t) 1 6 t3 + o(t 3 ) ( ) M(0) = + 2 t t 3 + o(t 3 ). 0 0 ( ) ( 6 1 Les vecteurs 2,0 et 0, 1 ) sont indépendants, donc p = 2 et q = 3. Il s agit d un point de 6 rebroussement de première espèce. Remarque Avec les notations précédentes, supposons que x (p) (a) 0. Le vecteur M(a)M(t) a pour coordonnées (x(t) x(a),y(t) y(a)) avec x (p) (a) x(t) x(a) (t a) p t a p! y (p) (a) y(t) y(a) = (t a) p + o((t a) p ). t a p! On a notamment x(t) x(a) pour t a assez proche de a, et la droite (M(a)M(t)) a pour pente y(t) y(a) x(t) x(a) y (p) (a) t a x (p) (a), qui est la pente de la tangente à Γ en M(a). De même, d après la formule de Taylor-Young, x x (p) (a) (t) (t a)p 1 t a (p 1)! y (t) = t a y (p) (a) (p 1)! (t a)p 1 + o((t a) p 1 ). On a notamment x (t) 0 pour t a assez proche de a, et la tangente à Γ en M(t) a pour pente y (t) x (t) y (p) (a) t a x (p) (a). On retiendra que lorsque les entiers caractéristiques existent avec x (p) (a) 0, la considération de l un des quotients y(t) y(a) y (t) ou x(t) x(a) x (t) permet de déterminer la pente de la tangente à Γ en M(a). Si x (p) (a) = 0 alors y (p) (a) 0 et on peut raisonner de même avec les quotients inverses pour obtenir l inverse de la pente. 3. Branches infinies On suppose que n = 2; on note f = (x,y). On s intéresse aux droites qui donnent la «direction» de la courbe C lorsque le paramètre t tend vers a, point adhérent à I ou ±. Définition Branche infinie On dit que Γ possède une branche infinie en a si f(t) t a +. On peut distinguer t a et t a
326 Premier cas : x ou y a une limite finie en a. Si x(t) m R et y(t) ±, on dit que Γ possède une asymptote verticale t a t a d équation x = m en a. Si x(t) ± et y(t) m R, on dit que Γ possède une asymptote horizontale t a t a d équation y = m en a. Deuxième cas : x et y ont une limite infinie en a. Si y(t) x(t) 0, on dit que Γ possède une branche parabolique de direction (Ox) en a. t a Si y(t) x(t) ±, on dit que Γ possède une branche parabolique de direction (Oy) en a. t a Si y(t) x(t) t a m R : (i) si y(t) m x(t) t a p R, on dit que Γ possède une asymptote d équation y = mx+p en a. (ii) si y(t) m x(t) t a ±, on dit que Γ possède une direction asymptotique d équation y = mx en a. Remarque La liste de cas ci-dessus n est pas exhaustive : il se peut par exemple que y n ait pas de limite en a, comme dans le cas du graphe de la fonction sinus lorsque t +, qui ne rentre dans aucun de ces cas. 4. Construction d arcs plans On se donne un arc plan Γ = (I,f) avec f = (x,y). 1. On commence par déterminer l ensemble de définition de la fonction f et les simplifications éventuelles de l ensemble d étude dues par exemple aux symétries de la courbe. Par exemple : Si x et y sont T-périodiques, il suffit de restreindre l étude à un intervalle de longueur T. Si I est symétrique par rapport à 0, il suffit de restreindre l étude à I R +, puis de compléter la courbe par symétrie, dans les cas suivants : si x et y sont paires : la courbe C est entièrement obtenue à partir de I R +. si x et y sont impaires : la courbe C est symétrique par rapport à l origine. si x est paire et y impaire : la courbe C est symétrique par rapport à l axe (Ox). si x est impaire et y paire : la courbe C est symétrique par rapport à l axe (Oy). si pour tout t I, x( t) = y(t) et y( t) = x(t) : la courbe C est symétrique par rapport à la première bissectrice d équation y = x. 2. On donne la classe de f, on étudie les variations et les limites aux bornes de x et y. On en déduit les tangentes horizontales ou verticales. 3. On identifie les points réguliers, les points stationnaires, et on étudie leur nature. 4. On étudie les branches infinies. Pour connaître la position de la courbe par rapport à une asymptote d équation y = mx + p, il peut être utile d étudier le signe de la différence y(t) mx(t) p. 5. On peut également rechercher les éventuels points doubles, c est-à-dire tels qu il existe t 1 t 2 avec x(t 1 ) = x(t 2 ) et y(t 1 ) = y(t 2 ). 6. On effectue le tracé. 318
327 Exemple Étudions l arc Γ paramétré par x(t) = y(t) = t ln(t) t 2 2(t 1) pour t D = R + \ {1} (on peut le considérer comme réunion de deux arcs). Il n y a pas de symétrie évidente. Les fonctions x et y sont de classe C sur D (y est en fait de classe C sur R \ {1}). De plus, pour tout t D, x (t) = ln(t) 1 ln 2 (t) y (t) = On en déduit le tableau de variations suivant : 2t(t 1) t2 2(t 1) 2 = t(t 2) 2(t 1) 2. t e + x (t) x(t) ց ց ց ր ln(2) e e 2 y(t) ց ց ր ր 2(e 1) 2 y (t) En particulier, Γ est régulier, possède une tangente horizontale au point ( e 2 ) 2, et une tangente verticale au point e, de paramètre e. 2(e 1) ( ) 2 ln(2),2 de paramètre L arc admet trois branches infinies, en 1, 1 + et +, qui ne sont pas des asymptotes horizontales ou verticales, car x et y ont des limites infinies. Pour tout t D, Lorsque t +, y(t) x(t) = t ln(t) 2(t 1). y(t) x(t) 1 ln(t) +, 2 donc Γ admet une branche parabolique de direction (Oy) en +. Pour t 1 proche de 1, posons t = 1 + h, avec h non nul voisin de 0. Alors car ln est dérivable en 1 avec ln (1) = 1. Alors y(t) 1 (1 + h)2 x(t) = 2 2h y(t) x(t) = 1 + h ln(1 + h) 1 2 h h h 2ln(1 + h) = 1 2h h h h h2 2 + h3 3 + o(h3 ).
328 Or d où 1 h h2 2 + h3 3 + o(h3 ) y(t) 1 2 x(t) = 1 2h h h 2h = 1 2h h 2 1 2h = h + o(h). = 1 1 h 1 h 2 + h2 3 + o(h2 ) = 1 ) h2 h2 (1 + h 3 + h2 4 + o(h2 ) = 1 ) h2 h2 (1 + h 12 + o(h2 ), (1 + (1 + ) h2 h o(h2 ) h2 h h + h2 2 + o(h2 ) On en déduit notamment que Γ possède une asymptote d équation y = 1 2 x en 1±. Pour connaître la position de la courbe par rapport à cette asymptote, on étudie le signe de ) y(t) 1 2 x(t) 1 4 qui est donné, pour t voisin de 1, par le développement limité précédent. On en déduit que la courbe est au-dessous de son asymptote pour t < 1 proche de 1, et au-dessus pour t > 1 proche de 1. On remarque l intérêt d avoir effectué le développement limité à un ordre suffisant dès le départ. Lorsque t 0, x(t) 0. On peut prolonger x par continuité en 0 en posant x(0) = 0. En remarquant que x (t) 0 lorsque t 0 +, le théorème de la limite de la dérivée montre que x est de classe C 1 en 0 avec x (0) = 0; de plus y(0) = y (0) = 0. L origine n est pas un point régulier du prolongement de Γ ; mais, en remarquant que y(t) y(0) x(t) x(0) = y(t) x(t) = t ln(t) 2(t 1) 0, t 0 + on voit que le prolongement de Γ a une tangente horizontale au point (0,0) de paramètre 0. J + + I 320
329 5. Longueur d un arc Dans ce paragraphe, désigne la norme euclidienne usuelle sur R n. Définition Soit Γ = (I,f) un arc paramétré de classe C 1. Si I est un segment [a,b], on appelle longueur de Γ le réel Si I est un intervalle quelconque, on appelle longueur de Γ le réel f (t) dt lorsque l intégrale I f (t) dt est convergente. I b a f (t) dt. Remarque On peut considérer les intégrales écrites dans la définition précédente car la fonction f est continue sur I. Exemple On considère la cycloïde paramétrée par { x(t) = t sin(t) y(t) = 1 cos(t) pour t R. Il s agit d un arc de classe C, et on remarque que pour tout t R, { x(t + 2π) = t + 2π sin(t) = x(t) + 2π y(t + 2π) = 1 cos(t) = y(t) Il suffit donc d étudier la portion (appelée arche) de l arc correspondant à t [0,2π], puis de compléter le tracé par translations horizontales. La longueur de cette arche est donnée par L = 2π 0 2π (x ) 2 (t) + (y ) 2 (t) dt = (1 cos(t)) 2 + (sin(t)) 2 dt = = 2 = 2 0 2π (on a utilisé que pour tout t [0,2π], sin(t/2) 0). 0 2π 0 2π 0 2(1 cos(t)) dt sin 2 (t/2) dt sin(t/2)dt = 8 Le support de la cycloïde est la courbe décrite par un point fixe sur un cercle qui roule sans glisser sur une droite, par exemple un point d une roue de vélo. La longueur d une arche de cycloïde est égale à quatre fois le diamètre du cercle correspondant (ci-dessus ce diamètre vaut 2 car le périmètre du cercle correspondant est 2π). En revanche, évidemment, l arc «complet» n est pas de longueur finie. 321
330 322
331 Chapitre 17 Équations différentielles Dans ce chapitre, I désigne un intervalle de R, non vide et non réduit à un point, K désigne R ou C, et n N. Les notions de fonction dérivable, de dérivation composante par composante, de classe C k, définies pour les fonctions de I dans R n dans le chapitre Fonctions vectorielles Arcs paramétrés, s adaptent de façon évidente aux fonctions de I dans M n,1 (K). I. Résultats théoriques sur les systèmes différentiels Un système différentiel de n équations à n inconnues x 1 (t) = a 1,1(t)x 1 (t) + + a 1,n (t)x n (t) + b 1 (t). x n (t) = a n,1(t)x 1 (t) + + a n,n (t)x n (t) + b n (t) peut se mettre sous la forme d une seule équation, X (t) = A(t)X(t)+B(t), dans M n,1 (K), avec X(t) = x 1 (t). x n (t), A(t) = a 1,1 (t).... a n,1 (t)... a 1,n (t). a n,n (t) et B(t) = b 1 (t).. b n (t) Une telle équation est appelée équation différentielle linéaire. La fonction inconnue X et le second membre B sont définis sur I et à valeurs dans M n,1 (K), la fonction A est définie sur I à valeurs dans M n (K). Pour n = 1, on retrouve les équations linéaires scalaires d ordre 1, x (t) = a(t)x(t) + b(t). Pour n 2, on identifie souvent le système différentiel et l équation différentielle qui lui est associée. Notation Une équation différentielle du type précédent est souvent notée X = A(t)X +B(t). On ne note la variable t que pour les coefficients de l équation, pas pour la fonction inconnue. Ce n est qu une notation, qui désigne l équation que l on cherche à résoudre. Définition Soient A : I M n (K) et B : I M n,1 (K) deux fonctions continues. Une solution sur I de l équation différentielle linéaire est une fonction X : I M n,1 (K) dérivable sur I telle que X = A(t)X + B(t) (L ) t I, X (t) = A(t)X(t) + B(t). 323
332 Remarques Si K = R et X = t( x 1 x n ) est une solution sur I de (L ), l arc paramétré (I,(x1,...,x n )) (qui est tracé dans R n ) est une courbe intégrale de (L ). Une solution sur I de (L ) est nécessairement de classe C 1 ; en effet, pour tout t I, on a X (t) = A(t)X(t) + B(t). Or, l application B est continue, ainsi que l application t A(t)X(t), en raisonnant composante par composante et par opérations sur des fonctions continues. Par somme, X est continue, donc X est de classe C 1, sur I. Théorème de Cauchy linéaire (admis : démonstration hors programme) Soient A : I M n (K) et B : I M n,1 (K) deux fonctions continues. Alors l équation différentielle linéaire possède des solutions sur I. (L ) : X = A(t)X + B(t) Pour tout t 0 I et X 0 M n,1 (K), le problème de Cauchy { X (t) = A(t)X(t) + B(t) t I possède une unique solution. X(t 0 ) = X 0 Conséquence importante Si B = 0 (on parle d équation sans second membre), il est immédiat que la fonction nulle est solution sur I de l équation différentielle X = A(t)X. L unicité du théorème précédent montre alors qu aucune autre solution de cette équation ne peut s annuler sur I. Exemple Soit a K. L unique solution sur I de l équation différentielle x = ax qui prend la valeur x 0 K en t 0 I est la fonction x : t x 0 e a (t t 0). Bien sûr, en général, la résolution n est pas aussi simple et se pose le problème de la recherche des solutions, ou de la solution du problème de Cauchy (que la démonstration du théorème ne donne pas explicitement). Supposons que l on dispose d une solution particulière X p de (L ). Soit X : I M n,1 (K) une fonction; X est dérivable sur I si et seulement si X X p est dérivable sur I et dans ce cas, X est solution sur I de (L ) si et seulement si ce qui équivaut à ce qui équivaut à t I, X (t) = A(t)X(t) + B(t) t I, X (t) = A(t)X(t) + [X p(t) A(t)X p (t)] t I, [X X p ] (t) = A(t)[X X p ](t). Ainsi, X est solution sur I de (L ) si et seulement si X X p est solution sur I de l équation différentielle Y = A(t)Y. (H) Définition L équation (H) est dite équation homogène associée à (L ). Propriété Forme des solutions de (L ) On obtient toutes les solutions de (L ) sous la forme «Solution particulière de (L ) + solution générale de l équation homogène (H)» 324
333 Il est donc judicieux de s intéresser à la fois à la recherche de solutions particulières de (L ), et à l ensemble des solutions de (H). En ce qui concerne les solutions particulières, commençons par rappeler le principe de superposition, très utile pour simplifier leur recherche lorsque le second membre est somme de plusieurs termes : Propriété Soient B 1,...,B k des fonctions continues sur I à valeurs dans M n,1 (K), et soit B = B B k. Soit, pour tout i [1,k], X i une solution sur I de l équation différentielle linéaire X i = A(t)X i + B i. Alors X = X 1 + +X k est solution de l équation différentielle linéaire X = A(t)X+B sur I. Démonstration La fonction X est dérivable sur I comme somme de fonctions dérivables, et B est continue sur I comme somme de fonctions continues. Pour tout t I, en sommant les relations X i (t) = A(t)X i(t) + B i (t), on obtient X (t) = A(t)X 1 (t) + + A(t)X k (t) + B 1 (t) + + B k (t) = A(t)X(t) + B(t) par définition de B. D où le résultat. Donnons maintenant la structure de l ensemble des solutions de l équation homogène (H) : Théorème L ensemble S des solutions sur I de l équation homogène (H) est un K-espace vectoriel. Pour tout t 0 I fixé, l application φ t0 : { S Mn,1 (K) X X(t 0 ) est un isomorphisme. En particulier, S est de dimension finie égale à n. Démonstration Nous avons remarqué plus haut que S est un sous-ensemble de l ensemble des fonctions de classe C 1 sur I à valeurs dans M n,1 (K), qui est clairement un K-espace vectoriel. De plus, S est non vide car la fonction nulle est solution de (H). La stabilité de S par combinaison linéaire est un calcul immédiat. Soit t 0 I ; il est évident que φ t0 est linéaire. De plus, le théorème d existence et unicité d une solution au problème de Cauchy associé à (H) et t 0 montre que φ t0 est bijective. Donc φ t0 est un isomorphisme. Les isomorphismes préservent la dimension, donc S est de dimension finie avec dim(s) = dim(m n,1 (K)) = n. Exemple Considérons le système différentiel sans second membre { x = y d équation différentielle linéaire associée X = y = x ( ) 0 1 X
334 On vérifie facilement que X 1 = ( ) cos sin et X 2 = ( ) sin cos sont deux solutions sur R de cette équation. Elles sont linéairement indépendantes car les fonctions cos et sin ne sont pas proportionnelles. Ainsi, (X 1,X 2 ) est une base de l espace vectoriel des solutions ; on obtient donc toutes les solutions de l équation sous la forme ( ) λcos(t) µ sin(t) t λx 1 (t) + µx 2 (t) = λsin(t) + µ cos(t) où (λ,µ) K 2. II. Systèmes à coefficients constants sans second membre Lorsque A : R M n (K) est une fonction constante, on peut l identifier à une matrice A M n (K), et on obtient ce que l on appelle un système différentiel (ou équation différentielle) linéaire à coefficients constants X = AX. Le théorème de Cauchy, dans ce cas, assure l existence et l unicité d une solution au problème de Cauchy sur R tout entier. Commençons par une remarque générale : Propriété Soit A M n (K) et λ Sp(A) une valeur propre de A. Alors, pour tout X 0 E λ (A), la fonction X : t e λt X 0 est solution sur R du système différentiel X = AX. Démonstration La fonction X est dérivable sur R (ses composantes sont des fonctions exponentielles). Pour tout t I, X (t) = λe λt X 0 = e λt (λx 0 ) = e λt AX 0 = A(e λt X 0 ) = AX(t). L étude du système différentiel X = AX est donc liée à la réduction de la matrice A. Premier cas : A est diagonalisable Il existe alors une matrice inversible P Gl n (K) et une matrice diagonale D dont les coefficients diagonaux sont les valeurs propres de A, notées λ 1,...,λ n, telles que A = PDP 1. Soit X : R M n,1 (K) une fonction et Y = P 1 X; X est dérivable sur R si et seulement si Y est dérivable sur R et dans ce cas, on a les équivalences suivantes : X = AX X = PDP 1 X P 1 X = DP 1 X (P 1 X) = D(P 1 X) Y = DY. Dans ce raisonnement, il est essentiel que P ne dépende pas de t. En notant y 1,...,y n les fonctions-coordonnées de Y, la dernière égalité équivaut à i [1,n], y i = λ i y i, ce qui équivaut à : i [1,n], k i K; t R, y i (t) = k i e λ it. On retrouve alors très simplement X par la relation X = PY. On remarquera que l on a pas besoin d expliciter P 1, qui n intervient que théoriquement. 326
335 On a donc démontré le résultat suivant : Théorème Résolution de X = AX avec A diagonalisable Avec les notations précédentes, si A est diagonalisable, la solution générale du système différentiel à coefficients constants X = AX sur R s écrit k 1 e λ 1t t P. k n e λnt où (k 1,...,k n ) K n. Remarque Le signe de la partie réelle des λ i permet d étudier le comportement asymptotique des solutions du système différentiel : pour qu une solution X ait une limite en + par exemple, il faut et il suffit que pour tout i [1,n], t k i e λit ait une limite dans K en +. En particulier, si Re(λ i ) < 0 pour tout i, alors e λit = e Re(λ i) t 0 t + et X(t) t + 0 dans M n,1(k). Deuxième cas : A est réelle, diagonalisable dans M n (C) En appliquant la méthode précédente, on obtient les solutions complexes de l équation. Pour en retrouver les solutions réelles, on cherche, parmi les solutions complexes, les solutions qui sont égales à leur conjuguée, ce qui donne des conditions sur les constantes k i. Troisième cas : A est trigonalisable Il existe alors une matrice inversible P Gl n (K) et une matrice triangulaire supérieure T = (t i,j ) dont les coefficients diagonaux sont les valeurs propres de A, notées λ 1,...,λ n, telles que A = PTP 1. Avec le même changement de fonction inconnue Y = P 1 X, on se ramène au système Y = TY, que l on peut résoudre en commençant par la dernière équation y n = λ ny n, dont la solution générale sur R s écrit t k n e λnt, où k n K. L avant-dernière équation est alors y n 1 = λ n 1 y n 1 + t n 1,n y n (t), i.e. y n 1 = λ n 1 y n 1 + t n 1,n k n e λnt. On est amené à résoudre une équation du type y λy = k e αt, et l on poursuit la résolution «de bas en haut». Exemple On considère le système différentiel x = x + 2z y = x + y 5z z = y + 5z Il est associé à la matrice A = de polynôme caractéristique (X 2) 2 (X 3). On détermine facilement 2 1 E 2 (A) = Vect 3 et E 3 (A) = Vect
336 En particulier, dim(e 2 (A)) m(2), donc A n est pas diagonalisable (ni dans M 3 (R) ni dans M 3 (C)). Elle est en revanche trigonalisable dans M 3 (R) car son polynôme caractéristique est scindé dans R. Cherchons une matrice semblable à A de la forme 2 α 0 T = Pour construire une base de M 3,1 (R) dans laquelle la matrice de u A soit T, on choisit e 1 = et e 3 = 2. Pour le choix de e 2, il suffit que (e 1,e 2,e 3 ) soit libre et que : 1 α R; (A 2I 3 )e 2 = αe 1 i.e. (A 2I 3 )e 2 Vect(e 1 ) = E 2 (A) i.e. (A 2I 3 ) 2 e 2 = 0. 2 On montre facilement que e 2 = 1 convient, avec (A 2I 3 )e 2 = e 1. En posant 0 on a donc y P = 3 1 2, A = P P En posant Y = P 1 X = y 2, le système original équivaut donc à y 3 y 1 = 2y 1 + y 2 y 2 = 2y 2 y 3 = 3y 3 Les deux dernières équations équivalent à l existence de (k 2,k 3 ) K 2 tels que pour tout t R, y 2 (t) = k 2 e 2t et y 3 (t) = k 3 e 3t. La première équation s écrit alors y 1 = 2y 1 + k 2 e 2t ; en posant y : t y 1 (t)e 2t, cette équation équivaut à : y = k 2, donc à l existence de k 1 K tel que pour tout t R, y 1 (t) = (k 2 t + k 1 )e 2t. Les solutions du système différentiel X = AX sont donc données par t R, où k 1,k 2 et k 3 sont des scalaires quelconques. x 1 (t) (k 2 t + k 1 )e 2t x 2 (t) = P x 3 (t) k 2 e 2t k 3 e 3t 328
337 III. Équations scalaires d ordre 1 On s intéresse au cas d une équation de la forme x + a(t)x = b(t) où a et b sont deux fonctions continues sur I à valeurs dans K. C est bien sûr un cas particulier de la théorie précédente avec n = 1, mais on peut être plus explicite dans ce cas. Équation homogène Fixons t 0 I et considérons la fonction x 0 : t exp ( t ) a(s)ds. t 0 La fonction a est continue sur I donc x 0 est bien définie et dérivable sur I avec, pour tout t I, t ) x 0 ( (t) = a(t)exp a(s)ds = a(t)x 0 (t), t 0 donc x 0 est une solution sur I de l équation x + a(t)x = 0. De plus, x 0 ne s annule pas sur I. Pour qu une fonction x dérivable sur I soit solution de cette équation, il faut et il suffit que x + ax = 0, i.e. x x 0 + axx 0 x 2 0 = 0, i.e. ( ) x = 0. x 0 Ceci équivaut à l existence d une constante γ K telle que x = γ x 0. L ensemble des solutions de l équation homogène est donc la droite vectorielle engendrée par x 0. Équation complète : la méthode de variation de la constante On obtient toutes les solutions de (H) sous la forme γ x 0 où γ K. Pour résoudre l équation complète (L ), l idée est de faire «varier la constante» γ, c est-à-dire de voir γ comme une fonction de I dans K, et de chercher à quelle condition la fonction γ x 0 est solution de (L ). Tout d abord, toute fonction x : I K peut s écrire sous la forme γ x 0, car x 0 ne s annule pas sur I. De plus, sur I, x 0 étant dérivable, x est dérivable si et seulement si γ est dérivable. Dans ce cas, on a x = γ x 0 + γx 0, et donc, pour que x soit solution de (L ) sur I, il faut et il suffit que [γ x 0 + γ x 0 ] + a[γ x 0] = b, i.e. γ x 0 + γ [x 0 + ax 0] = b. Or x 0 est solution de (H), donc x 0 + ax 0 = 0. Ainsi, x est solution de (L ) si et seulement si pour tout t I, γ (t)x 0 (t) = b(t). La méthode de variation de la constante se résume donc ainsi : les solutions de l équation complète x + a(t)x = b(t) sur I sont exactement les fonctions γ x 0, où γ : I K est dérivable et vérifie γ x 0 = b. Il sufit donc de déterminer une primitive γ de la fonction b/x 0 sur I. Finalement, on obtient toutes les solutions de l équation complète sous la forme ( t ) ( b(s) t ) x : t x 0 (s) ds + k exp a(s)ds, t 0 t 0 où k K. Une condition initiale (problème de Cauchy) détermine entièrement k. Remarque La solution générale de (L ) se met donc sous la forme γ x 0 + k x 0 où γ est une primitive de b/x 0 sur I, et k K. Le premier terme correspond à une solution particulière de l équation complète (L ), le second, à la solution générale de l équation homogène. On retrouve donc la structure de l ensemble des solutions de (L ) ; la méthode de variation de la constante permet de trouver des solutions particulières non évidentes. 329
338 Exemple Résolvons, sur I = R +, l équation différentielle x = 2 t x + 1 t. Pour résoudre l équation homogène, on détermine une primitive sur I de la fonction continue t 2/t, par exemple t 2ln(t). La solution générale de l équation homogène s écrit donc où γ K. x 0 : t γ exp (2ln(t)) = γ t 2 Pour résoudre l équation complète, on peut remarquer que la fonction constante égale à 1/2 en est solution. C est une vérification qu il faut penser à faire en général : si l équation ordinaire t I, a(t)x + b(t) = 0 possède une solution (indépendante de t), alors la fonction constante y : t x vérifie l équation complète (L ) car dans ce cas on a y (t) = 0 = a(t)y(t) + b(t) pour tout t I. Dans notre cas, la solution générale de l équation complète s écrit où k K. x : t kt2 Si l on ne remarque pas qu il existe une solution constante, on peut bien sûr appliquer la méthode variation de la constante : on obtient toutes les solutions de l équation complète sous la forme t γ(t)t 2 où γ : R + K est une fonction dérivable telle que t > 0, γ (t)t 2 = 1 t, ce qui équivaut à : t > 0, γ (t) = 1 t 3, et donc à l existence d une constante k K telle que pour tout t > 0, γ(t) = 1 + k, et l on 2t2 obtient la solution générale de l équation complète sous la forme ( x : t 1 ) 2t 2 + k t 2 = k t2, ce qui donne bien sûr le même résultat. Remarque Comme nous l avons remarqué à l occasion de la résolution des systèmes différentiels à coefficients constants X = AX, on est souvent amené à résoudre des équations scalaires du premier ordre de la forme y λy = P(t)e αt où (λ,α) K 2 et P est une fonction polynomiale. La solution générale de l équation homogène s écrit sous la forme t γ e λt. La méthode de variation de la constante conduit à chercher les fonctions dérivables γ : I K telles que ce qui équivaut à t I, γ (t)e λt = P(t)e αt, t I, γ (t) = P(t)e (α λ)t. Si α = λ, on peut choisir pour γ la primitive de P qui s annule en 0; elle se met sous la forme t tq(t) avec Q de même degré que P. Si α λ, on peut trouver γ sous la forme t Q(t)e (α λ)t où Q est une fonction polynomiale de même degré que P. Finalement, la solution générale de l équation complète s écrit t ke λt + t m(α) Q(t)e αt où k K, avec Q une fonction polynomiale de même degré que P, et m(α) = 0 si α λ, m(α) = 1 si α = λ. 330
339 IV. Équations scalaires d ordre 2 On s intéresse ici au cas d une équation différentielle linéaire scalaire d ordre 2, de la forme où a, b et c sont trois fonctions continues sur I à valeurs dans K. 1. Système différentiel d ordre 1 associé x + a(t)x + b(t)x = c(t), (L 2 ) Nous allons montrer comment se ramener au cadre d application de la théorie précédente. Tout d abord, on appelle solution sur I de (L 2 ) toute fonction x : I K deux fois dérivable sur I, telle que pour tout t I, x (t) + a(t)x (t) + b(t)x(t) = c(t). Une telle solution est alors nécessairement de classe C 2 sur I. Soit x : I K une solution de (L 2 ) sur I et ( ) x(t) X : t x. (t) Alors X est dérivable sur I, à valeurs dans M 2,1 (K), et vérifie : pour tout t I, ( X x (t) = ) ( (t) x x = ) ( )( ) (t) 0 1 x(t) (t) a(t)x = (t) b(t)x(t) + c(t) b(t) a(t) x (t) Posons, pour tout t I, ( ) 0 1 A(t) = M b(t) a(t) 2 (K) et B(t) = ( ) 0 M c(t) 2,1 (K); les fonctions A et B sont continues sur I, et X est solution du système différentiel ( ) 0 +. c(t) X = A(t)X + B(t). ( ) x Réciproquement, soit X = une solution de X y = A(t)X + B(t) sur I. Alors on a, pour tout t I, ( x ) ( )( ) ( ) ( ) (t) 0 1 x(t) 0 y(t) y = + =. (t) b(t) a(t) y(t) c(t) a(t)y(t) b(t)x(t) + c(t) D après la première égalité, on a y = x ; en particulier x est deux fois dérivable sur I. De plus, pour tout t I, x (t) = a(t)x (t) b(t)x(t) + c(t). Finalement, x est solution de x + a(t)x + b(t)x = c(t) sur I. On a donc montré le résultat suivant : Propriété Avec les notations précédentes, les solutions sur I du système différentiel X = A(t)X + B(t) sont exactement les fonctions de la forme ( ) x x où x est solution de x + a(t)x + b(t)x = c(t) sur I. En particulier, on obtient exactement les solutions de (L 2 ) en prenant la première fonction-coordonnée des solutions de X = A(t)X + B(t). 331
340 On se ramène ainsi, quitte à passer dans M 2,1 (K), à un système différentiel du premier ordre. Exemple L équation différentielle linéaire scalaire d ordre 2 x + t x + t 2 x = t 3 se met sous la forme du système différentiel ( ) X 0 1 = t 2 X + t ( ) 0 t 3 où X = ( ) x x. La théorie de la première partie (le théorème de Cauchy linéaire et ses conséquences) s applique et donne le résultat suivant : Théorème Soient a, b et c trois fonctions continues sur I à valeurs dans K. Alors l équation différentielle linéaire scalaire d ordre 2 possède des solutions. (L 2 ) : x + a(t)x + b(t)x = c(t) Pour tout t 0 I, x 0 K et x 1 K, le problème de Cauchy x (t) + a(t)x (t) + b(t)x(t) = c(t) t I x(t 0 ) = x 0 x (t 0 ) = x 1 possède une unique solution. L ensemble S des solutions de l équation homogène est un plan vectoriel de C 2 (I,K). On obtient toutes les solutions de (L 2 ) sous la forme x + a(t)x + b(t)x = 0 (H 2 ) «Solution particulière de (L 2 ) + solution générale de l équation homogène (H 2 )». Démonstration Avec les notations précédentes, le théorème de Cauchy linéaire s applique à l équation X = A(t)X + B(t) posée dans M 2,1 (K), car les applications A et B sont continues sur I. Il existe des solutions de cette équation, et donc des solutions de x +a(t)x +b(t)x = c(t). Pour ( tout ) t 0 I et (x 0,x 1 ) K 2, il existe ( une ) solution X de X = A(t)X + B(t) telle que x0 x X(t 0 ) = ; X se met alors sous la forme x 1 x avec x solution de x + a(t)x + b(t)x = c(t) et ( ) ( ) x(t0 ) x0 x = (t 0 ) d où l existence ( ) d une ( solution ) au problème de Cauchy. Si x et y en sont deux solutions, alors x y X = et Y = sont deux solutions du problème de Cauchy matriciel correspondant, x y donc par unicité pour ce problème, X = Y, d où x = y. L ensemble S des solutions de l équation homogène x 1 x + a(t)x + b(t)x = 0 332
341 est un sous-espace vectoriel de C 2 (I,K) (vérification immédiate), il est de dimension 2 car, d après l existence et unicité pour le problème de Cauchy (que l on vient de prouver), l application est un isomorphisme, pour tout t 0 I. S M 2,1 (K) φ t0 : ( ) x(t0 ) x x (t 0 ) Contrairement au premier ordre, il n existe pas de méthode générale pour déterminer l ensemble des solutions de l équation (H 2 ) ou (L 2 ). Dans la suite, nous allons indiquer un cas que l on sait traiter, ainsi qu une méthode d aide à la recherche de solutions dans le cas général. 2. Cas où l équation homogène associée est à coefficients constants On considère le cas particulier des équations de la forme où (a,b) K 2. x + ax + bx = c(t) Dans ce cas, le cours de première année permet de déterminer deux solutions indépendantes de l équation homogène via la résolution de l équation caractéristique x 2 + ax + b = 0. (E) Théorème Si (E) possède deux racines distinctes r 1 et r 2 dans K, t e r 1t et t e r 2t constituent une base de l espace des solutions de (H 2 ) sur R. Pour toute solution x de (H 2 ), il existe un unique couple (λ,µ) K 2 tel que, pour tout t R, x(t) = λe r 1t + µ e r 2t. Si (E) possède une racine double r dans K, t e rt et t t e rt constituent une base de l espace des solutions de (H 2 ) sur R. Pour toute solution x de (H 2 ), il existe un unique couple (λ,µ) K 2 tel que, pour tout t R, x(t) = λe rt + µ t e rt = (λ + µt)e rt. Si K = R et (E) possède deux racines complexes conjuguées z et z dans C, alors il existe r R et ω R tels que z = r + iω. Les fonctions t e rt cos(ωt) et t e rt sin(ωt) constituent une base de l espace des solutions de (H 2 ) sur R. Pour toute solution x de (H 2 ), il existe un unique couple (λ,µ) R 2 tel que, pour tout t R, x(t) = λe rt cos(ωt) + µ e rt sin(ωt) = e rt (λcos(ωt) + µ sin(ωt)). La forme matricielle de l équation homogène x + ax + bx = 0 est le système différentiel à coefficients constants X = AX où ( ) 0 1 A =. b a On remarquera que le polynôme X 2 + ax + b apparaissant dans l équation caractéristique est le polynôme caractéristique de la matrice A, phénomène semblable à celui que nous avions observé lors de l étude des suites récurrentes linéaires d ordre
342 Nous avions montré dans le chapitre Réduction des endomorphismes et des matrices carrées que la matrice A est : diagonalisable si (E) possède deux racines distinctes r 1 et r 2 dans K ; il existe P Gl 2 (K) tel que ( ) r1 0 A = P P 1 ; 0 r 2 trigonalisable si (E) possède une racine double r dans K ; il existe P Gl 2 (K) tel que ( ) r 1 A = P P 1. 0 r On résout ce système en posant Y = P 1 X = t( y 1 ( Y r1 0 = 0 r 2 ) Y, i.e. ) y 2, ce qui revient à résoudre le système { y 1 = r 1 y 1 y 2 = r 2 y 2 dans le premier cas, et le système ( ) Y r 1 = Y, i.e. 0 r { y 1 = ry 1 + y 2 y 2 = ry 2 dans le deuxième cas. Après résolution de ce système, en prenant la première coordonnée de X = P Y, on retrouve bien la forme générale des solutions présentée dans le théorème précédent. En ce qui concerne l équation complète : Lorsque le second membre est de la forme P(t)e αt avec P K[X] et α K, on pensera à chercher une solution particulière sous la forme t t m(α) Q(t)e αt où Q K[X] est de même degré que P et m(α) est la multiplicité de α comme racine de l équation caractéristique (E) associée à l équation homogène (m(α) peut valoir 0, 1 ou 2). On pourra aussi utiliser le changement de fonction inconnue consistant à poser y : t x(t)e αt. En particulier, lorsque b 0 et le second membre est polynomial, on pourra chercher une solution particulière polynomiale de même degré. En effet, on est dans la situation précédente avec α = 0 et m(α) = 0. Lorsque K = R et le second membre est de la forme Acos(ωt) ou Asin(ωt) avec (A,ω) R 2 et ω 0, on pourra chercher une solution particulière sous la forme t λ cos(ωt) + µ sin(ωt) où (λ,µ) R 2 si iω n est pas racine de (E), ou sous la forme t t(λcos(ωt) + µ sin(ωt)) sinon. En effet, on se ramène au premier point en considérant l équation x + ax + bx = Ae iωt. Si x p en est une solution particulière, alors Re(x p ) (resp. Im(x p )) est une solution particulière de x + ax + bx = Acos(ωt) (resp. x + ax + bx = Asin(ωt)), car a et b sont réels. Or, ces fonctions sont de la forme indiquée ci-dessus, selon que iω est racine ou non de l équation caractéristique (il ne peut pas en être racine double, car a et b sont réels). Enfin, on pourra utiliser le principe de superposition lorsque le second membre est somme de plusieurs termes. Exemples L évolution d un oscillateur amorti en régime libre est régie par l équation différentielle x + 2λx + ω 2 0 x = 0, qui regroupe par exemple les systèmes masse-ressort, les pendules de torsion, les circuits RLC. Le coefficient λ 0 est le coefficient d amortissement du système, ω 0 > 0 en est la pulsation propre. 334
343 L équation caractéristique associée à cette équation différentielle linéaire du second ordre à coefficients constants sans second membre est de discriminant réduit λ 2 ω 2 0. r 2 + 2λr + ω 2 0 = 0, Si λ = 0 (amortissement nul), on obtient deux solutions indépendantes, t cos(ω 0 t) et t sin(ω 0 t). On écrit la solution générale de l équation sous la forme t C cos(ω 0 t + ϕ), où C est l amplitude des oscillations du système, et ϕ la phase à l origine. On comprend bien ainsi l expression «pulsation propre» : c est la pulsation du système en l absence d amortissement et de force ou signal extérieur. Si 0 < λ < ω 0, les racines de l équation caractéristique sont λ ± i ω 2 0 λ2 ; on obtient deux solutions indépendantes, t e λt cos(ωt) et t e λt sin(ωt), où ω = ω 2 0 λ2 (appelée pseudo-pulsation, lorsque l amortissement est faible). On écrit la solution générale de l équation sous la forme t Ce λt cos(ωt + ϕ), où Ce λt est l amplitude, exponentiellement décroissante, des «oscillations» du système. Si λ > ω 0, les racines de l équation caractéristique sont r ± = λ ± λ 2 ω0 2 ; leur produit vaut ω0 2 > 0, leur somme 2λ < 0 : r + et r sont donc strictement négatifs. On obtient deux solutions indépendantes, t e r +t et t e r t. Il n y a pas d oscillations, on parle de régime apériodique. Si λ = ω 0, la racine double de l équation caractéristique est r = λ. On obtient deux solutions indépendantes, t e λt et t t e λt. On parle de régime critique. C est celui pour lequel le retour à l équilibre est le plus rapide. On peut alors soumettre l oscillateur à une force ou un signal extérieur (régime forcé), par exemple de la forme F 0 cos(ωt) où Ω > 0 est la pulsation et F 0 l amplitude de cette force ou de ce signal : l équation régissant l évolution du système est alors x + 2λx + ω 2 0 x = F cos(ω t), où F est fonction de F 0 et des caractéristiques du système (inductance ou masse, notamment). On a (iω) 2 + 2λ(iΩ) + ω 2 0 = ω 2 0 Ω 2 + 2iλΩ. Si λ > 0 ou Ω ω 0, iω n est pas racine de l équation caractéristique, on peut trouver une solution particulière de l équation complète sous la forme t α cos(ωt + φ). Si λ = 0 et Ω = ω 0, iω est racine de l équation caractéristique, on peut trouver une solution particulière de l équation complète sous la forme t α t cos(ωt + φ). La solution générale de l équation complète est alors somme de la solution générale de l équation homogène et de cette solution particulière. La première est amortie, elle correspond au régime transitoire; la seconde n est pas amortie, elle correspond au régime établi ou permanent. On peut également rechercher pour quelle pulsation Ω la réponse du système a une amplitude maximale; on montre facilement que pour un amortissement assez faible, cette pulsation existe, on parle de phénomène de résonance (pour λ = 0, on a immédiatement Ω = ω 0 ). 335
344 Résolvons sur R l équation différentielle x + 6x + 9x = e 3t 1 + t 2. L équation caractéristique associée à l équation homogène est r 2 +6r +9 = 0, elle admet une racine double r = 3. La solution générale de l équation homogène s écrit donc sous la forme t (at + b)e 3t où (a,b) K 2. On va chercher la solution générale de l équation complète sous la forme t b(t)e 3t (ce qui revient en fait à faire varier la constante b). Cela est possible car e 3t 0 pour tout t R. La fonction x : t b(t)e 3t est deux fois dérivable sur R si et seulement si b l est, et dans ce cas, pour tout t R, Alors, pour tout t R, x (t) = (b (t) 3b(t))e 3t et x (t) = (b (t) 6b (t) + 9b(t))e 3t. x (t) + 6x (t) + 9x(t) = e 3t 1 + t 2 ( b (t) 6b (t) + 9b(t) ) + 6 ( b (t) 3b(t) ) + 9b(t) = t 2 b (t) = t 2. Ainsi, pour que x soit solution de l équation complète sur R, il faut et il suffit qu il existe k 1 K tel que pour tout t R, b (t) = arctan(t) + k 1. On détermine une primitive de arctan sur R par intégration par parties (les fonctions s s et s arctan(s) sont de classe C 1 sur R) : pour tout t R, t 0 arctan(s)ds = [s arctan(s)] t 0 t 0 s 1 + s 2 ds = t arctan(t) 1 2 ln(1 + t2 ). Finalement, pour que x soit solution de l équation complète sur R, il faut et il suffit qu il existe (k 1,k 2 ) K 2 tel que pour tout t R, x(t) = (t arctan(t) 12 ) ln(1 + t2 ) + k 1 t + k 2 e 3t. Remarque La méthode utilisée dans l exemple précédent est inspirée de la méthode de variation de la constante. Équations d Euler Il s agit des équations différentielles de la forme at 2 x + btx + cx = 0 sur R +, où a, b et c sont des constantes (a 0). Le théorème de Cauchy linéaire s applique, car l équation équivaut sur R + à x + b at x + c at2x = 0, qui est une équation différentielle linéaire scalaire d ordre 2 à coefficients continus sur R +. Le changement de variable t = e u (pour t R +) permet de résoudre ces équations, car il les transforme en équations à coefficients constants. En effet, si l on pose y : u x(e u ) pour u R, alors pour tout t > 0, x(t) = y(ln(t)). Pour que x soit deux fois dérivable sur R +, il faut et il suffit que y soit deux fois dérivable sur R et dans ce cas, pour tout t > 0, x (t) = 1 t y (ln(t)), x (t) = 1 t 2 y (ln(t) + 1 t 2 y (ln(t)). 336
345 La fonction x est solution de l équation originale si et seulement si pour tout t > 0, ay (ln(t)) ay (ln(t)) + by (ln(t)) + cy(ln(t)) = 0, L image de la fonction ln est R, donc ceci équivaut au fait que y soit solution sur R de ay + (b a)y + cy = 0. (L ) L équation caractéristique associée à cette équation est ar 2 + (b a)r + c = 0. Soient α 1 et α 2 les racines dans C de cette équation. Si α 1 α 2, la solution générale de (L ) s écrit y : u λe α 1u + µ e α 2u avec (λ,µ) K 2, et donc la solution générale sur R + de l équation d origine s écrit x : t λe α 1 ln(t) + µ e α 2 ln(t) = λt α 1 + µ t α 2. Si α 1 = α 2 = α, la solution générale de (L ) s écrit y : u λe αu + µ ue αu avec (λ,µ) K 2, et donc la solution générale sur R + de l équation d origine s écrit x : t λe α ln(t) + µ ln(t)e α ln(t) = λt α + µ ln(t)t α. En particulier, il est donc judicieux de chercher des solutions sur R + sous la forme t t α avec α C. Soit on trouve de telles solutions pour deux valeurs distinctes de α, soit on en trouve pour une seule valeur de α, et alors t (ln(t))t α est une autre solution de l équation. Dans les deux cas, on en déduit la solution générale par combinaison linéaire des deux solutions obtenues. Enfin, x est solution de l équation sur R + si et seulement si t x( t) en est solution sur R. On en déduit la solution générale de l équation sur R. Exemple Résolvons l équation t 2 x 4tx + 6x = 0 sur R + par la méthode précédente, qui conduit à l équation α(α 1) 4α + 6 = 0 α 2 5α + 6 = 0 α = 2 ou α = 3. La solution générale de l équation précédente s écrit donc t λt 2 + µt 3 où (λ,µ) K Utilisation des séries entières Pour une équation différentielle linéaire scalaire d ordre 2 (la méthode peut s appliquer aussi pour l ordre 1) x + a(t)x + b(t)x = c(t) dont les coefficients a, b, et c sont polynomiaux ou développables en séries entières, il est intéressant de chercher les solutions de ces équations qui sont développables en série entière. Donnons un exemple de telle résolution. On cherche à résoudre l équation différentielle (1+t 2 )x +4tx +2x = 0. Cette équation entre dans le cadre de ce chapitre, car pour tout t R, 1 + t 2 0, et donc l équation équivaut à x + 4t 1 + t 2x t2x = 0, qui est à coefficients continus (et elle est sans second membre). En particulier, le théorème de Cauchy linéaire s applique et montre que l ensemble des solutions sur R est un plan vectoriel. Pour le déterminer, on va chercher les solutions développables en série entière. 337
346 Soit n 0 a nt n une série entière de rayon de convergence R > 0. On pose, pour tout t ] R,R[, On a les équivalences suivantes : f(t) = + n=0 a n t n. La fonction f est solution de l équation (1 + t 2 )x + 4tx + 2x = 0 sur ] R,R[ t ] R,R[, (1 + t 2 ) t ] R,R[, t ] R,R[, t ] R,R[, + n=2 + n=0 + n=0 + n=2 n(n 1)a n t n 2 + 4t n(n 1)a n t n n=2 (n + 2)(n + 1)a n+2 t n + + n=1 n(n 1)a n t n + + n=0 na n t n n=1 n(n 1)a n t n + + n=0 4na n t n n=0 a n t n = 0 + n=0 4na n t n + 2 [(n + 2)(n + 1)a n+2 + (n(n 1) + 4n + 2)a n ]t n = 0. Par unicité du développement en série entière (sachant que R > 0), ceci équivaut à n N, (n + 2)(n + 1)a n+2 + (n 2 + 3n + 2)a n = 0 i.e. n N, a n+2 = a n. Ceci équivaut au fait que pour tout p N, a 2p = ( 1) p a 0 et a 2p+1 = ( 1) p a 1. a n t n = 0 + n=0 a n t n = 0 Définissons la suite (a n ) n N par les relations précédentes, a 0 et a 1 étant des scalaires quelconques. Pour tout t ] 1,1[ et p N, a 2p t 2p = a 0 (t 2 ) p et a 2p+1 t 2p+1 = a 1 t (t 2 ) p, la série géométrique de raison t 2 [0,1[ étant convergente. Ainsi, les deux séries entières a 2p t 2p p 0 et a 2p+1 t 2p+1 convergent, et par somme, n 0 a nt n converge. Donc le rayon de convergence R de cette série entière vérifie R 1. De plus, pour tout t ] 1,1[, + n=0 a n t n = + p=0 a 2p t 2p + + p=0 p 0 + a 2p+1 t 2p+1 = a 0 ( 1) p t 2p + a 1 t p=0 + p=0 ( 1) p t 2p = a 0 + a 1 t 1 + t 2. D après la série d équivalences ci-dessus, les solutions développables en série entière autour de 0 de (1 + t 2 )x + 4tx + 2x = 0 sont exactement les fonctions de la forme t at + b t avec (a,b) K 2. On vérifie immédiatement qu une telle fonction est en fait solution sur R tout entier, même si son développement en série entière n est pas toujours valable sur R. 338
347 Les deux fonctions t t t et t 1 t sont clairement linéairement indépendantes ; on a donc obtenu un plan vectoriel de solutions, et d après le théorème de Cauchy linéaire, on a en fait la solution générale de l équation. Remarques Dans l exemple précédent, on a pu résoudre entièrement l équation car toutes ses solutions sont développables en série entière, mais ce n est pas toujours le cas. La démarche précédente fait souvent apparaître des relations de récurrence entre les coefficients a n. On peut parfois en déduire explicitement les coefficients a n, voire une forme simple pour f comme dans l exemple précédent, mais à nouveau, ce n est pas toujours le cas. En revanche, la règle de d Alembert peut permettre de déterminer le rayon de convergence R à partir d une relation de récurrence entre les a n, même si ces coefficients ne sont pas connus explicitement. Par exemple, en imaginant une équation différentielle qui aboutisse à la relation a 0 = 1 et : n N, a n+1 = n2 + n + 1 2(n + 1)(n + 2) a n, il n est pas du tout évident d obtenir une formule explicite pour a n. Pourtant, pour tout n N, a n 0 et a n+1 a n = n2 + n + 1 n 2 2(n + 1)(n + 2) n + 2n 2 = 1 2. La série entière n 0 a nt n a donc un rayon de convergence égal à 2 d après la règle de d Alembert. 339
348 340
349 Chapitre 18 Fonctions de plusieurs variables Calcul et géométrie différentiels Dans ce chapitre, p désigne un entier naturel non nul et U désigne un ouvert de R p. On notera une norme quelconque sur R p et B = (e 1,...,e p ) la base canonique de R p. Dans le chapitre Espaces vectoriels normés, nous nous sommes intéressés notamment à la continuité des applications de R p dans R. Dans ce chapitre, nous nous intéressons à l aspect différentiel. Bien sûr, on ne peut pas procéder comme pour les fonctions de la variable réelle, car la notion de taux d accroissement n a pas de sens si p 2. On souhaite malgré tout généraliser la notion de dérivée, qui permet notamment l approximation f(a + h) = f(a) + f (a)h + o(h). L une des principales difficultés est la généralisation du terme f (a)h lorsque p 2. I. Fonctions de classe C 1 1. Dérivées partielles Soit f : U R une fonction. On peut facilement se ramener à des fonctions d une variable en considérant les fonctions obtenues à partir de f en «fixant» toutes les variables sauf une. Plus précisément, fixons a = (a 1,...,a p ) R p et i [1,p]. La fonction f a,i : t f (a 1,...,a i 1,t,a i+1,...,a p ) est appelée i-ième application partielle de f en a. On remarquera qu en fait elle ne dépend pas de a i. Pour tout a U, pour tout i [1,p], soit U a,i l ensemble des réels t tels que (a 1,...,a i 1,t,a i+1,...,a p ) U. L application partielle f a,i est alors définie sur U a,i. x 2 U a,2 U a 2 a a 1 U a,1 x 1 341
350 Montrons que U a,i est un ouvert de R : soit t 0 U a,i ; alors (a 1,...,a i 1,t 0,a i+1,...,a p ) U. Comme U est ouvert, il existe r > 0 tel qu on ait l implication [ t t 0 < r et k i, x k a k < r ] (x 1,...,x i 1,t,x i+1,...,x p ) U. En particulier, en choisissant x k = a k pour tout k i, on a montré que ]t 0 r,t 0 + r[ U a,i, d où le résultat, qui est illustré sur la figure ci-dessus. Par un raisonnement analogue, on montre facilement le résultat suivant : Propriété Si f est continue sur U, alors pour tout a U, toutes les applications partielles de f en a sont continues : pour tout i [1,p], f a,i est continue sur U a,i. Attention! La réciproque est fausse : toutes les applications partielles de f peuvent être continues sans que f le soit. Ceci tient au fait que la continuité de f signifie que pour tout a U, f(x) f(a) lorsque x tend vers a de façon arbitraire. La continuité de la i-ième application partielle de f en a signifie que f(x) f(a) lorsque x tend vers a le long de la droite a + R e i, ce qui est plus restrictif, même lorsque cela a lieu pour tout i. Par exemple, soit f : R 2 R définie par xy f(x,y) = x 2 + y 2 si (x,y) (0,0) 0 si (x,y) = (0,0) Les deux applications partielles f a,1 et f a,2 de f sont continues sur R pour tout a R 2. Pourtant, f n est pas continue en 0 car pour x 0, qui ne tend pas vers f(0,0) lorsque x 0. f(x,x) = x2 2x 2 = 1 2, L étude des applications partielles de f ne suffit donc pas à faire l étude de f. Définition Dérivées partielles Soient a = (a 1,...,a p ) U et i [1,p]. On dit que f admet une dérivée partielle en a par rapport à la i-ième variable si l application partielle est dérivable en a i, c est-à-dire, si f a,i : t f (a 1,...,a i 1,t,a i+1,...,a p ) h 1 h (f (a 1,...,a i 1,a i + h,a i+1,...,a p ) f (a 1,...,a i 1,a i,a i+1,...,a p )) a une limite finie lorsque h 0 avec h 0. Dans ce cas, cette limite, qui est le nombre dérivé f a,i (a i), est notée f x i (a) ou i f(a). Elle est appelée dérivée partielle de f en a par rapport à la i-ième variable. 342
351 Remarque Pour p = 2 ou p = 3, les variables sont souvent notées x, y ou x, y, z. Exemple Considérons l application Les trois applications f : { R 3 R (x,y,z) (x 2 + y 2 )sin(z) x f(x,y,z), y f(x,y,z), z f(x,y,z) sont dérivables sur R. La fonction f admet donc des dérivées partielles par rapport à ses trois variables en tout point de R 3 ; pour tout (x,y,z) R 3, f f (x,y,z) = 2xsin(z), x f (x,y,z) = 2y sin(z), y z (x,y,z) = (x2 + y 2 )cos(z). Définition Fonctions dérivées partielles Si f admet une dérivée partielle sur U (i.e., en tout point de U) par rapport à la i-ième variable, alors la fonction a f x i (a) (qui est définie sur U, à valeurs dans R) est appelée dérivée partielle de f par rapport à la i-ième variable. 2. Classe C 1 Définition Soit f : U R une fonction. On dit que f est de classe C 1 sur U si f admet des dérivées partielles sur U par rapport à toutes ses variables, et si toutes ces dérivées partielles sont continues sur U. Attention! Si f est de classe C 1 sur U, alors pour tout a U, toutes les applications partielles de f en a sont de classe C 1 (chacune sur l ouvert U a,i de R correspondant); la réciproque est fausse, le même contre-exemple que dans le cas de la continuité le prouve. Théorème (admis : démonstration non exigible) Soit f : U R une fonction de classe C 1. Alors f admet en tout point a U le développement limité à l ordre 1 f(a + h) = f(a) + f x 1 (a)h f x p (a)h p + o( h ), lorsque h = (h 1,...,h p ) (0,...,0). Remarque La notation précédente signifie que l on peut écrire, pour h tel que a + h U, où ε a pour limite 0 en (0,...,0). f(a + h) = f(a) + f x 1 (a)h f x p (a)h p + h ε(h), 343
352 Définition Différentielle Soient f : U R de classe C 1 et a U. On appelle différentielle de f en a la forme linéaire R p R df(a) : (h 1,...,h p ) f (a)h f (a)h p x 1 x p L image de h R p par l application df(a) sera notée df(a) h. Remarque Le théorème précédent se réinterprète donc ainsi : si f : U R est de classe C 1, alors pour tout a U, f(a + h) = f(a) + df(a) h + o( h ). h 0 Ceci est bien sûr à mettre en relation avec le développement limité g(a + h) = h 0 g(a) + g (a)h + o(h) pour une fonction g : I R R de classe C 1. Ici, le terme df(a) h = f x 1 (a)h f x p (a)h p correspond au terme g (a)h, mais il prend en compte, du fait de la présence de plusieurs variables, les accroissements de f dans toutes les directions. Propriété Si f est de classe C 1 sur U, elle est continue sur U. Démonstration La fonction f est de classe C 1 sur U, donc pour tout point a U, car df(a) est continue. D où le résultat. f(a + h) = f(a) + df(a) h + o( h ) h 0 f(a) h (0,...,0) Propriété Toute application polynomiale définie sur un ouvert est de classe C 1. En particulier, toute application linéaire de R p dans R est de classe C 1. Toute fraction rationnelle dont le dénominateur ne s annule pas est de classe C 1. Démonstration On considère les applications partielles et on applique les résultats analogues pour les fonctions d une variable, d où l existence des dérivées partielles ; elles sont elles-mêmes soit polynomiales soit des fractions rationnelles dont le dénominateur ne s annule pas, donc continues. 3. Opérations sur les fonctions de classe C 1 Propriété Combinaison linéaire Soient f : U R et g : U R deux fonctions de classe C 1, et λ R. Alors λf + g est de classe C 1 sur U et pour tout a U, et : i [1,p], d(λf + g)(a) = λdf(a) + dg(a), (λf + g) (a) = λ f (a) + g (a). x i x i x i 344
353 Corollaire L ensemble C 1 (U,R) des fonctions de classe C 1 sur U à valeurs dans R est un R-espace vectoriel. Propriété Produit Soient f : U R et g : U R deux fonctions de classe C 1. Alors fg est de classe C 1 sur U et pour tout a U, et : i [1,p], d(fg)(a) = (df(a))g(a) + f(a)(dg(a)), (fg) x i (a) = f x i (a)g(a) + f(a) g x i (a). Propriété Inverse Soit f : U R une fonction de classe C 1. Alors 1/f est de classe C 1 sur U et pour tout a U, et : i [1,p], d(1/f)(a) = 1 f 2 (a) df(a), (1/f) (a) = 1 f x i f 2 (a). (a) x i Démonstration des trois propriétés C est immédiat en considérant les applications partielles : les résultats sur les fonctions de la variable réelle prouvent l existence des dérivées partielles ; elles sont continues par opérations sur les fonctions continues. 4. Composition : règle de la chaîne Théorème Règle de la chaîne Soient I un intervalle de R et x 1,...,x p des fonctions de classe C 1 sur I, à valeurs dans R. Soit f : U R de classe C 1. On suppose que pour tout t I, Alors la fonction (x 1 (t),...,x p (t)) U. g : t f(x 1 (t),...,x p (t)) est définie et de classe C 1 sur I, avec, pour tout t I, g (t) = p i=1 f x i (x 1 (t),...,x p (t))x i(t). Démonstration La fonction g est bien définie car (x 1,...,x p ) est à valeurs dans U. Soit t I ; pour tout i [1,p], x i : I R est de classe C 1, donc il existe une fonction η i qui a pour limite 0 en 0, telle que x i (t + h) = x i (t) + x i (t)h + hη i(h) lorsque t + h I. De plus, f est de classe C 1 sur U, donc en notant a = (x 1 (t),...,x p (t)), il existe une fonction ε qui a pour limite 0 en (0,...,0), tel que f(a + k) = f(a) + n i=1 345 f x i (a)k i + k ε(k)
354 pour k = (k 1,...,k p ) tel que a + k U. On écrit cette égalité avec k = ( x 1 (t)h + hη 1(h),...,x p (t)h + hη p(h) ) lorsque h 0 avec t + h I ; on a alors k (0,...,0), donc a + k U pour h assez proche de 0, d où : g(t + h) = f(x 1 (t + h),...,x p (t + h)) = f(x 1 (t) + x 1 (t)h + hη 1(h),...,x p (t) + x p (t)h + hη p(h)) n f = f(x 1 (t),...,x p (t)) + (a) ( x i x (t)h + hη i(h) ) + k ε(k) i=1 i ( n ) ( n ) f = g(t) + (a)x f x i(t) h + (a)hη i (h) + k ε(k) i x i i=1 Pour conclure, il suffit donc de prouver que le terme dans la dernière parenthèse est un o(h) lorsque h 0. Or, en choisissant la norme 1 ( = 1 ), on a, pour h 0, i=1 i=1 1 n f (a)hη h i (h) + k ε(k) x i=1 i p ( ) f (a)η i (h) x i + x i(t) + η i (h) ε(k) 0. h 0 On en déduit que g est dérivable sur I avec la formule annoncée pour g ; de plus, cette formule montre que g est continue sur I, car f et tous les x i sont de classe C 1. D où le résultat. Remarques Si I est semi-ouvert ou fermé, la formule précédente doit être interprétée, aux extrémités de I, en termes de dérivées de g à gauche ou à droite. Dans la formule donnant g (t), x i apparaît avec deux sens différents qu il ne faut pas confondre : f x i est une notation qui désigne la dérivée partielle de f par rapport à sa i-ième variable; x i apparaissant dans x i (t) ou x i (t) désigne la fonction x i. Il n y a pas de confusion possible si l on écrit, de façon équivalente, g (t) = p i f(x 1 (t),...,x p (t))x i (t). La formule précédente s écrit aussi, par définition de la différentielle, où γ = (x 1,...,x p ). i=1 t I, g (t) = df(γ(t)) γ (t), Avec les notations précédentes, (I,γ) est un arc paramétré de classe C 1, et g représente la dérivée de f le long de cet arc. Dans la propriété suivante, on s intéresse au cas de la composition g : { V R 2 (x,y) U R 2 f R (u,v) (x(u,v),y(u,v)) f(x(u,v),y(u,v)) 346
355 Propriété Application aux fonctions de deux variables Soient V un ouvert de R 2, x et y deux fonctions définies sur V, à valeurs dans R, de classe C 1 sur V. Soient U un ouvert de R 2 et f : U R de classe C 1. On suppose que pour tout (u,v) V, (x(u,v),y(u,v)) U. Alors l application g : (u,v) f(x(u,v),y(u,v)) est définie et de classe C 1 sur V, avec, pour tout (u,v) V, g u g v (u,v) = f x (u,v) = f x (x(u,v),y(u,v)) x u (x(u,v),y(u,v)) x v f y (u,v) + (x(u,v),y(u,v)) y u (u,v), f y (u,v) + (x(u,v),y(u,v)) y v (u,v). Démonstration Il suffit d appliquer le théorème précédent en faisant jouer à t le rôle de u à v fixé, puis celui de v à u fixé. La variable t décrit alors un ouvert de R (pas nécessairement un intervalle) comme on l a montré au début de ce chapitre. On peut appliquer le théorème au voisinage de chaque point de cet ouvert. Exemple Passage en coordonnées polaires Pour tout (x,y) R 2, il existe r R + et θ R tels que (x,y) = (r cos(θ),r sin(θ)). On dit que r,θ sont des coordonnées polaires de (x,y). Il n y a pas unicité de telles coordonnées : par exemple si (x,y) = (0,0), r = 0 et tout θ R conviennent. De même, si r,θ sont des coordonnées polaires de (x,y), alors pour tout k Z, r et θ + 2kπ en sont également. On définit, pour (r,θ) R 2, x(r,θ) = r cos(θ) et y(r,θ) = r sin(θ). Si f : R 2 R est une fonction de classe C 1, on pose g(r,θ) = f(x(r,θ),y(r,θ)) = f(r cos(θ),r sin(θ)). Par exemple, g( 2, π/4) = f(1, 1). D après la propriété précédente, g est de classe C 1 sur R 2 et pour tout (r,θ) R 2, g r g θ (r,θ) = f x = f x (r,θ) = f x (r cos(θ),r sin(θ)) x r f (r,θ) + (r cos(θ),r sin(θ)) y y r (r,θ) f (r cos(θ),r sin(θ))cos(θ) + (r cos(θ),r sin(θ))sin(θ) y (r cos(θ),r sin(θ)) x θ f (r,θ) + (r cos(θ),r sin(θ)) y y θ (r,θ) = f f (r cos(θ),r sin(θ))( r sin(θ)) + (r cos(θ),r sin(θ))r cos(θ). x y Propriété Caractérisation des fonctions constantes Soit f : U R une fonction de classe C 1 sur un ouvert U convexe. Pour que f soit constante, il faut et il suffit que pour tout i [1,p], f x i =
356 Démonstration Évident, car toutes les applications partielles de f, qui sont des fonctions d une variable, sont constantes et de classe C 1. Soient a = (a 1,...,a p ) U, b = (b 1,...,b p ) U et g : { [0,1] R t f(a + t (b a)) = f(a 1 + t (b 1 a 1 ),...,a p + t (b p a p )) Cette application est bien définie, car lorsque t parcourt [0,1], a + t(b a) parcourt le segment [a,b], qui est contenu dans U car U est convexe. D après la règle de la chaîne, g est de classe C 1 sur l intervalle [0,1] et pour tout t [0,1], g (t) = n i=1 f x i (a + t(b a))(b i a i ) = 0. La fonction d une variable g est donc constante, et en particulier g(0) = g(1), i.e. f(a) = f(b). Ceci étant vrai pour tout (a,b) U 2, f est constante. Plus généralement, on a le résultat suivant : Propriété Soit f : U R une fonction de classe C 1 sur un ouvert U convexe, avec p 2. On suppose que f x 1 = 0. Alors f ne dépend pas de sa première variable : il existe un ouvert convexe V de R p 1 et une fonction g : V R de classe C 1 telle que pour tout (x 1,...,x p ) U, (x 2,...,x p ) V et f(x 1,...,x p ) = g(x 2,...,x p ). Bien sûr, on peut généraliser ce résultat aux autres variables. x 2 V U a 2 a a 1 U a,1 x 1 Démonstration Fixons a = (a 1,...,a p ) U et considérons la première application partielle f a,1 de f en a, définie sur l ouvert non vide U a,1 = {t R; (t,a 2,...,a p ) U}. On sait déjà que U a,1 est ouvert, en fait c est un intervalle : si t 0 et t 1 sont deux éléments de U a,1 avec t 0 t 1 et si t [t 0,t 1 ], alors le point (t,a 2,...,a p ) appartient au segment joignant 348
357 (t 0,a 2,...,a p ) et (t 1,a 2,...,a p ). Comme U est convexe et que ces deux points appartiennent à U, on a (t,a 2,...,a p ) U, d où : t U a,1. Ceci prouve que U a,1 est un intervalle ouvert. De plus, f étant de classe C 1 sur U, f a,1 est de classe C 1 sur U a,1, avec, pour tout t U a,1, f a,1 f (t) = (t,a 2,...,a p ) = 0. x 1 On en déduit que f a,1 est constante sur U a,1. Notons g(a 2,...,a p ) l unique valeur prise par f a,1 sur U a,1. On a donc f(x 1,x 2,...,x p ) = g(x 2,...,x p ), et ce, pour tout (x 2,...,x p ) tel qu il existe au moins une valeur x 1 telle que (x 1,x 2,...,x p ) U. Notons V l ensemble de ces (p 1)-uplets (x 2,...,x p ). V est un ouvert de R p 1 : soient (x 2,...,x p ) V et x 1 R tel que (x 1,x 2,...,x p ) U. Comme U est ouvert, il existe r > 0 tel que pour tout y = (y 1,...,y p ) R p vérifiant y i x i < r pour tout i, on ait y U. Alors, pour tout (y 2,...,y p ) R p 1 vérifiant y i x i < r pour tout i, (x 1,y 2,...,y p ) U et donc (y 2,...,y p ) V, d où le résultat. V est convexe : soient (x 2,...,x p ) et (y 2,...,y p ) dans V et λ [0,1]. Il existe x 1 R et y 1 R tels que (x 1,...,x p ) U et (y 1,...,y p ) U. Alors, par convexité de U, (λx 1 + (1 λ)y 1,λx 2 + (1 λ)y 2,...,λx p + (1 λ)y p ) = λ(x 1,...,x p ) + (1 λ)(y 1,...,y p ) U, et donc λ(x 2,...,x p ) + (1 λ)(y 2,...,y p ) = (λx 2 + (1 λ)y 2,...,λx p + (1 λ)y p ) V. Enfin, comme f est de classe C 1 sur U, la formule définissant g montre que g est de classe C 1 sur V, ce qui conclut la démonstration. 5. Gradient Si f : U R est de classe C 1, alors pour tout a U, on a le développement limité avec, pour tout h = (h 1,...,h p ) R p, f(a + h) = f(a) + df(a) h + o( h ), h 0 df(a) h = p i=1 f x i (a)h i. Dans R p muni du produit scalaire canonique, ce terme se réinterprète comme un produit scalaire : Propriété/Définition : Gradient Soient f : U R une fonction de classe C 1 et a U. Le vecteur ( f f(a) = (a),..., f ) (a) x 1 x p est appelé gradient de f en a. L application f : U R p est appelée gradient de f. Pour tout h = (h 1,...,h p ) R p, on a pour le produit scalaire canonique sur R p. df(a) h = ( f(a) h) 349
358 Remarque La règle de la chaîne se réécrit, en notant γ = (x 1,...,x p ) : Exemples t I, g (t) = ( f(γ(t)) γ (t) ). D après la loi de Fourier, la densité de flux de chaleur dans un matériau s écrit λ T, où T est la température et λ > 0 est la conductivité thermique. On note la norme euclidienne canonique sur R p. L application { R p R f : x x 2 est de classe C 1 sur R p. En effet, pour tout x = (x 1,...,x p ) R p, f(x) = (x x) = x x 2 p; l application f est donc polynomiale. On a de plus, pour tout a = (a 1,...,a p ) R p, ( f f(a) = (a),..., f ) (a) = (2a 1,...,2a p ) = 2a. x 1 x p Revenons sur le calcul fait plus haut pour g : (r,θ) f(r cos(θ),r sin(θ)). Le calcul des dérivées partielles de g peut se mettre sous la forme g r (r,θ) ( ) f (r cos(θ),r sin(θ)) cos(θ) sin(θ) g = x θ (r,θ) r sin(θ) r cos(θ) f. (r cos(θ),r sin(θ)) y Or, pour tout (r,θ) R 2, det ( ) cos(θ) sin(θ) = r(cos(θ) 2 + sin(θ) 2 ) = r r sin(θ) r cos(θ) donc, si r > 0, la matrice précédente, notée J(r,θ), est inversible et on vérifie facilement que J(r,θ) 1 cos(θ) 1 = r sin(θ) 1. sin(θ) r cos(θ) On a donc, pour tout (x,y) = (r cos(θ),r sin(θ)) tel que r > 0, f (r cos(θ),r sin(θ)) x cos(θ) 1 f = r sin(θ) g 1 r (r,θ) (r cos(θ),r sin(θ)) sin(θ) y r cos(θ) g θ (r,θ) g g (r,θ)cos(θ) = r θ (r,θ)sin(θ) r g g. (r,θ)sin(θ) + r θ (r,θ)cos(θ) r Notons alors, pour tout θ R, u(θ) = (cos(θ),sin(θ)), v(θ) = ( sin(θ),cos(θ)). La famille ( u(θ), v(θ)) est une base orthonormée de R 2 pour tout θ (la famille de fonctions ( u, v) est appelée repère polaire de R 2 ). On remarque que pour tout θ R, u (θ) = v(θ), v (θ) = u(θ). Le calcul ci-dessus s écrit alors : pour tout (r,θ) R + R et (x,y) = (r cos(θ),r sin(θ)), f(x,y) = g r (r,θ) u(θ) + 1 g r θ (r,θ) v(θ). On parle de formule du gradient en coordonnées polaires. 350
359 II. Problèmes d extrema On recherche les extrema (c est-à-dire la plus grande et/ou la plus petite valeur) d une fonction f : U R. Pour une fonction d une variable réelle dérivable sur un intervalle I, on sait qu en un point a où f atteint un extremum, si a est intérieur à I, on doit avoir f (a) = 0. Qu en est-il pour les fonctions de plusieurs variables? Définition Extremum Soit a U. On dit que f admet un minimum local en a s il existe r > 0 tel que B(a,r) U et pour tout x B(a,r), f(x) f(a). On dit que f admet un minimum global en a si pour tout x U, f(x) f(a). On dit que f admet un maximum local en a s il existe r > 0 tel que B(a,r) U et pour tout x B(a,r), f(x) f(a). On dit que f admet un maximum global en a si pour tout x U, f(x) f(a). Enfin, un extremum est, par définition, un minimum ou un maximum. Remarque Évidemment, un extremum global est un extremum local du même type, et la réciproque est fausse. Supposons que f soit de classe C 1 et qu elle ait par exemple un minimum local en a U. Soit (e 1,...,e p ) la base canonique de R p ; pour tout i [1,p] et h assez petit, on a donc et donc f(a + he i ) f(a) h 0 si h > 0, f(a + he i ) f(a), Lorsque h tend vers 0, on obtient respectivement f tout i [1,p], f x i (a) = 0. On obtiendrait le même résultat avec un maximum local. Définition Point critique f(a + he i ) f(a) 0 si h < 0. h (a) 0 et f (a) 0. Finalement, pour x i x i Soient f : U R de classe C 1 et a U. On dit que a est un point critique de f si f(a) = (0,...,0). Ceci équivaut à i [1,p], f x i (a) = 0, ou encore à : df(a) = 0 L (R p,r). Nous venons donc de montrer le résultat suivant : Théorème Condition nécessaire d existence d un extremum local Si f : U R est de classe C 1 sur U et admet un extremum local en a U, alors a est un point critique de f : f(a) = 0. Comme pour les fonctions d une variable, cette condition n est pas suffisante. Par exemple, f : { R 2 R (x,y) x 2 + y 2 4xy 351
360 est de classe C 1 car polynomiale, et admet (0,0) comme point critique, car (x,y) R 2, f x (x,y) = 2x 4y et f (x,y) = 2y 4x. y Pourtant f n a pas d extremum local en (0,0). En effet, pour tout x R, f(x,0) = x 2 > 0 = f(0,0) tandis que f(x,x) = 2x 2 < 0. Remarque Si K est une partie fermée, bornée et non vide de R p, et si f : K R est continue, alors on sait que f est bornée et atteint ses bornes : en d autres termes, f admet un minimum global et un maximum global sur K. Mais en général, le théorème des bornes atteintes ne permet pas de savoir en quels points de K ces bornes sont atteintes. La condition nécessaire ci-dessus permet de savoir, lorsque f est de classe C 1 sur K (intérieur de K, qui est un ouvert), en quels points de K la fonction f est susceptible d atteindre ses bornes. Mais il ne faut pas oublier qu elles peuvent aussi être atteintes sur la frontière Fr(K) de K. Il peut alors suffire de tester la valeur de f sur la frontière de K ainsi qu aux éventuels points critiques de f dans K, pour déterminer les points en lesquels f atteint ses bornes. On pourra garder en tête l exemple très simple de la fonction f : x x, continue sur le fermé borné non vide [0,1] de R. Elle atteint ses bornes en 0 et 1, qui ne sont pas des points critiques de f. Il n y a pas de contradiction, car [0,1] n est pas ouvert, 0 et 1 sont sur sa frontière. Exemple On souhaite conditionner un produit en cartons d une contenance de 1 litre. On se demande quelles sont les dimensions à donner à l emballage afin d utiliser le moins de carton possible (l épaisseur du carton étant fixée). Soient x, y et z les longueurs (exprimées en décimètres) des trois côtés du carton, évidemment strictement positives. La contrainte sur le volume de l emballage s écrit De plus, la surface utilisée est égale à 2(xy + yz + xz) = 2 xyz = 1. ( xy + 1 x + 1 ) = 2S(x,y). y Le problème revient donc à déterminer l éventuel minimum de S sur U = (R +) 2. La fonction S est de classe C 1 sur U et pour tout (x,y) U, S x (x,y) = y 1 x 2, S y (x,y) = x 1 y 2. Il s ensuit immédiatement que S possède un unique point critique sur U, égal à (1,1). On va montrer que S possède un minimum global sur U en (1,1). On remarque que S(1,1) = 3 et que l on a S(x,y) > 3 si x < 1/3 ou y < 1/3 ou xy < 3. Définissons K = {(x,y) (R +) 2 ; x 1/3, y 1/3, xy 3}, de sorte que S(x,y) > 3 si (x,y) / K. De plus, K est non vide, fermé (intersection de trois fermés, par continuité des applications (x,y) x 1/3, (x,y) y 1/3 et (x,y) 3 xy) et K est borné : si (x,y) K, 1 3 x 3 y 9 et de même pour y. La fonction S a donc un minimum global sur K ; de plus, si (x,y) / K, S(x,y) > 3 = S(1,1), donc S admet un minimum global sur U, qui doit être un point critique de S, c est-à-dire (1,1). Finalement, la fonction S a un minimum global sur U en (1,1), i.e. pour x = y = z = 1. L emballage le plus économique répondant aux contraintes données est le cube de côté 10 cm. La surface utilisée correspond à 2S(1,1) = 6 (elle vaut donc 6dm 2 ). 352
361 III. Dérivées partielles d ordre 2 Définition On dit que f est de classe C 2 sur U si f est de classe C 1 sur U et si les dérivées partielles f x i, pour i [1,p], sont de classe C 1 sur U. Si f est de classe C 2 sur U, alors pour tout (i,j) [1,p] 2, x i ( ) f x j Lorsque i = j, on écrit simplement est notée 2 f x i x j ou 2 i,jf. 2 f x i 2 au lieu de 2 f x i x i. Ces fonctions sont appelées dérivées partielles d ordre 2 de f. Remarque On généralisera sans difficulté les résultats concernant les opérations sur les fonctions de classe C 1 (combinaison linéaire, produit, quotient) aux fonctions de classe C 2. De plus, les applications linéaires, polynomiales, et les fractions rationnelles dont le dénominateur ne s annule pas, sont de classe C 2. Théorème de Schwarz (admis : démonstration hors programme) Si f est de classe C 2 sur U, alors pour tout (i,j) [1,p] 2, 2 f x i x j = 2 f x j x i. Exemple Soit f : { R 2 R (x,y) x 4 + y 3 5x 2 y La fonction f est de classe C sur R 2 car elle est polynomiale. Pour tout (x,y) R 2, f x (x,y) = 4x3 10xy, f y (x,y) = 3y2 5x 2, et en ce qui concerne les dérivées d ordre 2 : 2 f x 2 (x,y) = 12x2 10y, 2 f y 2 (x,y) = 6y et 2 f x y (x,y) = 2 f (x,y) = 10x. y x IV. Résolution d équations aux dérivées partielles De très nombreux phénomènes physiques, chimiques, biologiques, économiques sont modélisables par des équations aux dérivées partielles, c est-à-dire, par une relation entre les différentes dérivées partielles (d ordre 1 ou 2 très souvent) d une certaine quantité. Elles sont souvent associées à une condition initiale et/ou une condition «au bord», c est-à-dire sur la frontière du domaine d espace. Exemples L équation de Poisson f(x) = g(x) pour x U R p 353
362 où f = p 2 f x 2 i=1 i est le laplacien de f, intervient par exemple en électrostatique; g correspond à la distribution de charges, et f est le potentiel associé. L équation des ondes 2 f t 2 (t,x) = c2 f(t,x) pour (t,x) U R R p, modélise la propagation d une onde (par exemple, sonore ou électromagnétique) dans R p (c > 0 est la vitesse ou célérité). Ici, f désigne le laplacien de f par rapport aux variables d espace représentées par x. Lorsque p = 1, on obtient l équation 2 f t 2 = c2 2 f x 2, qui modélise par exemple la vibration unidirectionnelle d une corde infinie, f(t,x) représentant le déplacement au temps t du point de la corde d abscisse x. L équation du transfert thermique, ou équation de la chaleur, f t (t,x) = D f(t,x) pour (t,x) U R Rp, modélise l évolution de la température f dans un milieu (D > 0 est le coefficient de diffusivité thermique). Ici aussi, f désigne le laplacien de f par rapport aux variables d espace. L équation du transport où c : U R est continue. f f (t,x) + c(t,x) t x (t,x) = 0 pour (t,x) U R Rp, Un principe important de résolution d équations aux dérivées partielles est d effectuer un changement de variable; si f : U R p R est une fonction de classe C 1 (ou C 2 pour une équation d ordre 2) solution d une équation aux dérivées partielles, on écrit, pour x = (x 1,...,x p ) U, f(x) = g(u 1 (x),...,u p (x)) où u 1,...,u p sont des fonctions définies sur U, à valeurs dans un ouvert V de R p, et g : V R. Pour que cela définisse correctement la fonction g, on choisit les fonctions u 1,...,u p et l ouvert V de sorte que { U V φ : x (u 1 (x),...,u p (x)) soit bijective. Ainsi, la relation f = g φ que l on veut utiliser équivaut à g = f φ 1. On souhaite également que g et φ soient de classe C 1 (resp. C 2 pour l ordre 2), ce qui est le cas si toutes les fonctions coordonnées de φ et φ 1 sont de classe C 1 (resp. C 2 ), par application de la règle de la chaîne. Le changement de variable est choisi pour que g vérifie une équation aux dérivées partielles la plus simple possible. Lorsque p = 2, on se ramène par exemple à l une des équations suivantes (les variables de la fonction g sont notées y 1 et y 2 ) : g y 1 = 0 sur V ; si V est convexe, on sait que cela entraîne que g ne dépend pas de sa première variable, et qu il existe F de classe C 1 sur un intervalle ouvert de R tel que, pour tout (y 1,y 2 ) V, g(y 1,y 2 ) = F(y 2 ). On peut bien sûr adapter avec la deuxième variable. 2 g = 0 sur V ; de même, si V est convexe, ceci entraîne l existence de y 1 y G de classe C 1 sur 2 un intervalle ouvert de R tel que, pour tout (y 1,y 2 ) V, g y 2 (y 1,y 2 ) = G(y 2 ). 354
363 En notant G une primitive de G sur cet intervalle, la fonction g : (y 1,y 2 ) g(y 1,y 2 ) G(y 2 ) vérifie g y 2 = 0 sur V. D après le premier point, la fonction g ne dépend pas de sa deuxième variable, et finalement g se met sous la forme g : (y 1,y 2 ) F(y 1 ) + G(y 2 ) où F et G sont de classe C 2 sur des intervalles ouverts de R. Dans chaque cas, on en déduit f par la relation f = g φ, puis on vérifie la réciproque. Voici deux exemples fondamentaux de changements de variables qu il faut savoir utiliser, avec, dans chaque cas, un exemple détaillé : Transformation affine Soit ψ un isomorphisme de R p sur R p. Une transformation affine consiste à choisir φ : x U ψ(x) + a, où a R p. Dans ce cas, φ est une bijection, et φ 1 : y ψ 1 (y a), dont chaque fonction coordonnée est de classe C 1 (et même C 2 ) sur V = φ(u), car linéaire. Par exemple, dans R 2, une transformation affine convenable pour effectuer un changement de variable est une application de la forme avec αδ βγ 0. (x 1,x 2 ) (αx 1 + βx 2 + a 1,γx 1 + δx 2 + a 2 ) Exemple On cherche à déterminer toutes les fonctions f de classe C 2 sur R 2 telles que pour tout (x,y) R 2, Soit f une telle fonction et soit 2 f x 2 (x,y) 3 2 f x y (x,y) + f 2 2 (x,y) = 0. y2 (E) φ : { R 2 R 2 (x,y) (x + y,2x + y) La fonction φ est linéaire, c est une bijection de R 2 sur R 2 car, pour tout (u,v) R 2, φ(x,y) = (u,v) { x + y = u 2x + y = v { x = v u y = u x = 2u v Ainsi, φ est un isomorphisme de R 2 sur R 2, et pour tout (u,v) R 2, φ 1 (u,v) = ( u+v,2u v). Définissons alors g : (u,v) (f φ 1 )(u,v) = f( u + v,2u v), de sorte que pour tout (x,y) R 2, f(x,y) = (g φ)(x,y) = g(x + y,2x + y). 355
364 D après la règle de la chaîne pour les fonctions de deux variables, g est de classe C 2 sur R 2, et pour tout (x,y) R 2, f g (x,y) = x u (x+y,2x+y)+2 g v (x+y,2x+y), f g g (x,y) = (x+y,2x+y)+ y u v (x+y,2x+y), et, en tenant compte du théorème de Schwarz, 2 f x 2 (x,y) = 2 g u 2(x + y,2x + y) g v u (x + y,2x + y) g u v (x + y,2x + y) + g 4 2 (x + y,2x + y) v2 = 2 g u 2(x + y,2x + y) g u v (x + y,2x + y) + g 4 2 (x + y,2x + y), v2 2 f x y (x,y) = 2 g u 2(x + y,2x + y) g v u (x + y,2x + y) + 2 g u v (x + y,2x + y) + g 2 2 (x + y,2x + y) v2 = 2 g u 2(x + y,2x + y) g u v (x + y,2x + y) + g 2 2 v2(x + y,2x + y), 2 f y 2 (x,y) = 2 g u 2(x + y,2x + y) + 2 g v u (x + y,2x + y) + 2 g u v (x + y,2x + y) + 2 g v2(x + y,2x + y) = 2 g u 2(x + y,2x + y) g u v (x + y,2x + y) + 2 g v2(x + y,2x + y). Si f est solution de (E) sur R 2, alors après simplifications, pour tout (x,y) R 2, 2 g (x + y,2x + y) = 0. u v L image de φ étant R 2 2 g, on a donc u v = 0. Comme R2 est convexe, on en déduit en refaisant le raisonnement du deuxième point ci-dessus qu il existe deux fonctions F et G de R dans R de classe C 2 telles que pour tout (u,v) R 2, Alors, pour tout (x,y) R 2, g(u,v) = F(u) + G(v). f(x,y) = (g φ)(x,y) = F(x + y) + G(2x + y). On vérifie la réciproque par un calcul direct. Les solutions de (E) sur R 2 sont donc exactement les fonctions de la forme (x,y) F(x + y) + G(2x + y) où F et G sont de classe C 2 sur R à valeurs dans R. Coordonnées polaires Soit θ 0 [ π,π[. Notons U = R 2 \ D, où D est la demi-droite {(x,y) R 2 ; arg(x + iy) = θ 0 } (en considérant que 0 D). Si (x,y) U, il existe un unique r > 0 et un unique θ ]θ 0,θ 0 + 2π[ tels que (x,y) = (r cos(θ),r sin(θ)). L application ψ : { ]0, + [ ]θ0,θ 0 + 2π[ U (r,θ) (r cos(θ), r sin(θ)) est bijective, de classe C 1 sur l ouvert V = ]0, + [ ]θ 0,θ 0 + 2π[. 356
365 Pour tout (r,θ) V, l égalité (x,y) = ψ(r,θ) entraîne que r = x 2 + y 2 et donc cos(θ) = x r = x x 2 + y 2, sin(θ) = y r = y x 2 + y 2. Par exemple, lorsque θ 0 = π, soit (x,y) = ψ(r,θ) U avec (r,θ) V. En se restreignant à x > 0, on a tan(θ) = y x avec θ ] π 2,π 2 [, donc ( ( y ψ 1 (x,y) = x 2 + y 2,arctan, x)) ce qui montre que chaque fonction-coordonnée de φ = ψ 1 est de classe C 1 sur R + R. Selon les situations, on pourra considérer une autre valeur de θ 0 et/ou adapter les formules précédentes. Le passage en coordonnées polaires, c est-à-dire le changement de variable défini par la fonction φ précédente (ou une forme analogue selon l ouvert sur lequel on travaille), permet de résoudre un certain nombre d équations aux dérivées partielles. Remarque La formule donnant φ = ψ 1 dépend de l ouvert sur lequel on travaille. Il est parfois plus simple de travailler avec la fonction ψ, c est-à-dire, à partir de la relation g(r,θ) = (f ψ)(r,θ) = f(r cos(θ),r sin(θ)). Exemple Soit U = R + R. On recherche toutes les fonctions f : U R de classe C 1 telles que, pour tout (x,y) U, f(x,y) soit colinéaire à (x,y). Cette condition équivaut au fait que pour tout (x,y) U, f x (x,y) x f y (x,y) y = 0, i.e., y f x (x,y) x f (x,y) = 0. y On résout cette équation aux dérivées partielles en passant en coordonnées polaires : avec les notations ci-dessus, on pose, pour f solution du problème, g(r,θ) = f(r cos(θ),r sin(θ)) pour tout (r,θ) V = ]0, + [ ] π 2,π 2 [. D après la règle de la chaîne, la fonction g est de classe C 1 sur V et pour tout (r,θ) V, g θ (r,θ) = f x f (r cos(θ),r sin(θ))( r sin(θ)) + (r cos(θ),r sin(θ))(r cos(θ)) = 0; y V étant convexe, la fonction g est donc indépendante de θ : il existe F :]0, + [ R de classe C 1 telle que, pour tout (r,θ) V, g(r,θ) = F(r). La fonction ψ étant une bijection de V sur U, pour tout (x,y) U, il existe (r,θ) V tel que (x,y) = ψ(r,θ), et alors f(x,y) = (g φ)(x,y) = F( x 2 + y 2 ) = F(x 2 + y 2 ), où F : r F( r ) est de classe C 1 sur ]0, + [ par composition. Réciproquement, soit f une fonction de la forme précédente. Alors f est de classe C 1 sur U par composition et, pour tout (x,y) U, y f (x,y) x f x y (x,y) = y 2xF (x 2 + y 2 ) x 2y F (x 2 + y 2 ) = 0. Les solutions du problème sont donc exactement les fonctions de la forme (x,y) F(x 2 + y 2 ) avec F :]0, + [ R de classe C 1. Ce sont des fonctions «isotropes», c est-à-dire, dépendant de (x,y) uniquement via sa norme euclidienne usuelle. 357
366 V. Courbes et surfaces Dans le chapitre Fonctions vectorielles Arcs paramétrés, nous avons étudié les courbes données par une représentation paramétrique, et nous avons notamment décrit l allure locale d une telle courbe, en lien avec la notion de tangente. Dans cette partie, nous allons étudier le cas d une courbe ou surface définie par une équation cartésienne de la forme f(x,y) = 0 ou f(x,y,z) = 0. On travaillera dans R 2 ou R 3 munis de leur structure euclidienne canonique. 1. Courbes du plan données par une équation cartésienne Dans ce paragraphe, p = 2. Dans de nombreuses situations, une courbe C du plan n est pas donnée par un paramétrage, mais par une équation cartésienne, c est-à-dire que C est l ensemble des points (x,y) de U tels que f(x,y) = 0 où f : U R est de classe C 1. Il se peut que ceci définisse la courbe de façon implicite, car il faut a priori résoudre une équation pour tracer cette courbe. On peut citer l exemple des courbes équipotentielles, isoclines, de même altitude, etc... Exemples Si φ : I R est de classe C 1 sur un intervalle ouvert I de R, le graphe de φ est la courbe C d équation y = φ(x), c est-à-dire f(x,y) = 0 avec f : (x,y) φ(x) y, de classe C 1 sur l ouvert U = I R. Dans ce cas, la représentation est explicite car y est fonction de x. La courbe C est en fait l image de l arc paramétré (I,γ) où, pour tout x I, γ(x) = (x,φ(x)). Le cercle unité C de R 2 a pour équation x 2 +y 2 = 1. On peut choisir f(x,y) = x 2 +y 2 1 pour tout (x,y) R 2. Dans l exemple précédent, on remarquera que l on peut entièrement résoudre l équation, mais ce n est pas toujours possible. On souhaite trouver un moyen de décrire, malgré cela, la courbe C. On sait notamment le faire pour les arcs paramétrés : si Γ = (I,γ) est un arc de classe C 1, Γ possède, en chaque point régulier M(t 0 ), une tangente dirigée par γ (t 0 ) (on rappelle que M(t 0 ) est un point régulier de Γ si et seulement si γ (t 0 ) 0). On souhaite se ramener à cette situation. Définition Point régulier Soit f : U R de classe C 1 et C la partie de R 2 d équation f(x,y) = 0. On appelle point régulier de C tout point (x 0,y 0 ) C tel que f(x 0,y 0 ) (0,0), c est-à-dire, tel que f x (x 0,y 0 ) 0 ou f y (x 0,y 0 ) 0. En d autres termes, il s agit des points de C qui ne sont pas des points critiques de f. Théorème (admis) Avec les notations précédentes, soit (x 0,y 0 ) un point régulier de C. Alors il existe r > 0, η > 0 et γ :] η,η[ U de classe C 1, tels que : (x 0,y 0 ) = γ(0); (] η,η[,γ) soit un arc paramétré simple et régulier; B((x 0,y 0 ),r) U et pour tout (x,y) B((x 0,y 0 ),r), on a l équivalence : f(x,y) = 0 t ] η,η[; (x,y) = γ(t). On dit que (] η,η[,γ) est un paramétrage local de C au voisinage de (x 0,y 0 ). 358
367 Exemple Soit C le cercle unité d équation f(x,y) = 0 avec f : (x,y) x 2 + y 2 1. La fonction f est de classe C 1 sur R 2 et pour tout (x,y) R 2, f(x,y) = (2x,2y), qui est non nul sauf à l origine, qui n est pas un point de C. Tous les points de C sont donc réguliers. En fait, dans ce cas, on peut construire explicitement un paramétrage de C au voisinage de chaque point. Par exemple, au voisinage d un point (a,b) de C tel que b > 0, on peut paramétrer C par γ 1 : { [ a 1, a + 1] R 2 t (a + t, 1 (a + t) 2 ) Au voisinage de (1,0), on peut paramétrer C par γ 2 : { [ 1,1] R 2 t ( 1 t 2,t) On peut procéder de même dans les autres cas. Il est important de bien comprendre les différentes notions de point régulier selon le type de courbe considéré, et les liens entre ces notions : Bilan Si la courbe est donnée par un paramétrage (I,γ) où γ : I R 2 est de classe C 1, un point M(t) est régulier si et seulement si γ (t) 0. Si la courbe est donnée par une équation cartésienne f(x,y) = 0 où f : U R est de classe C 1, un point (x 0,y 0 ) de C est régulier si et seulement si f(x 0,y 0 ) (0,0). Le résultat admis ci-dessus montre que si l on est dans la situation du deuxième point, on est également dans la situation du premier : au voisinage d un point régulier au sens du deuxième point, une courbe donnée de façon implicite peut être «explicitée», et être vue comme l image d un arc paramétré régulier (on peut écrire x et y comme fonctions d un paramètre t). Soit maintenant C une partie de R 2 donnée par une équation cartésienne f(x,y) = 0, et supposons que l on soit dans le cadre d application du théorème précédent en un point (x 0,y 0 ), c est-à-dire que f est de classe C 1 sur U avec f(x 0,y 0 ) (0,0). Avec les notations du théorème, et en notant γ = (x,y), on a par définition même, pour tout t ] η,η[, f(x(t),y(t)) = 0. D après la règle de la chaîne, ceci définit une fonction de classe C 1 sur ] η,η[ et, pour tout t ] η,η[, f x (x(t),y(t))x (t) + f y (x(t),y(t))y (t) = 0, i.e. ( f(γ(t)) γ (t) ) = 0, et donc, pour t = 0, f x (x 0,y 0 )x (0) + f y (x 0,y 0 )y (0) = 0, i.e. ( f(x0,y 0 ) γ (0) ) = 0. La tangente à la courbe C au point (x 0,y 0 ) (en tant que support d un arc paramétré simple et régulier au voisinage de ce point) est la droite passant par (x 0,y 0 ) et dirigée par γ (0). Or, l égalité précédente montre que le vecteur (non nul) f(x 0,y 0 ) est orthogonal à γ (0) : f(x 0,y 0 ) est un vecteur normal à la tangente. La tangente à la courbe C au point (x 0,y 0 ) est donc l ensemble des points (x,y) R 2 tels que On a ainsi démontré le résultat suivant : ( f(x 0,y 0 ) (x x 0,y y 0 )) =
368 Propriété/Définition : Tangente en un point régulier Soit f : U R de classe C 1 et C la partie de R 2 d équation f(x,y) = 0. Soit (x 0,y 0 ) un point régulier de C. La courbe C possède une tangente en (x 0,y 0 ), d équation f x (x 0,y 0 )(x x 0 ) + f y (x 0,y 0 )(y y 0 ) = 0. Si f x (x 0,y 0 ) = 0, il s agit d une tangente horizontale, si f y (x 0,y 0 ) = 0, il s agit d une tangente verticale. On appelle normale à C au point (x 0,y 0 ), la droite passant par (x 0,y 0 ) et dirigée par le vecteur ( f f(x 0,y 0 ) = x (x 0,y 0 ), f ) y (x 0,y 0 ). On dit que f(x 0,y 0 ) est orthogonal à C au point (x 0,y 0 ). Exemple Soit C la partie de R 2 d équation x 3 + 3y 2 + 6xy + 4 = 0. Elle a pour équation cartésienne f(x,y) = 0 où f : (x,y) x 3 + 3y 2 + 6xy + 4 est de classe C 1 sur R 2. Pour tout (x,y) R 2, On a les équivalences { 3x 2 + 6y = 0 6y + 6x = 0 f x (x,y) = 3x2 + 6y { x 2 + 2y = 0 y = x et f (x,y) = 6y + 6x. y { x 2 2x = 0 y = x (x,y) = (0,0) ou (x,y) = (2, 2). Les points critiques de f sont donc (0,0) et (2, 2). De ces deux points, seul (2, 2) appartient à C. Tout autre point de C est donc régulier, et l équation de la tangente à C en l un de ses points réguliers (x 0,y 0 ) est f x (x 0,y 0 )(x x 0 ) + f y (x 0,y 0 )(y y 0 ) = 0 i.e. (x y 0)(x x 0 ) + 2(x 0 + y 0 )(y y 0 ) = 0. Cas particulier Si φ est une fonction de classe C 1 sur un intervalle ouvert I, son graphe C est la courbe d équation f(x,y) = 0 avec f : (x,y) φ(x) y, de classe C 1 sur U = I R. Tout point de C est régulier car f(x,y) = (φ (x), 1) (0,0) pour tout (x,y) C. La tangente à C en un point (x 0,y 0 ) a pour équation f x (x 0,y 0 )(x x 0 ) + f y (x 0,y 0 )(y y 0 ) = 0, i.e. φ (x 0 )(x x 0 ) (y y 0 ) = 0. Sachant que y 0 = φ(x 0 ), on retrouve bien sûr l équation y = φ (x 0 )(x x 0 ) + φ(x 0 ). 360
369 Définition Ligne de niveau Soit f : U R et λ R. On appelle ligne de niveau λ de f la partie de U d équation f(x,y) = λ. Remarque Bien sûr, l étude des lignes de niveau de f entre dans le cadre précédent, via l étude de l équation f(x,y) λ = 0. Les points réguliers de cette ligne de niveau sont ses points en lesquels f ne s annule pas, puisque (f λ) = f. Propriété Gradient et lignes de niveau Soit f : U R de classe C 1 et λ R. Soit (x 0,y 0 ) un point régulier de la ligne de niveau λ de f, c est-à-dire que f(x 0,y 0 ) = λ et f(x 0,y 0 ) (0,0). Alors f(x 0,y 0 ) est orthogonal à la ligne de niveau λ de f, et orienté dans le sens des valeurs croissantes de f, c est-à-dire qu il existe η > 0 tel que la fonction ( t f((x 0,y 0 ) + t f(x 0,y 0 )) = f x 0 + t f x (x 0,y 0 ),y 0 + t f ) y (x 0,y 0 ) soit strictement croissante sur ] η,η[. Démonstration La première conclusion est déjà connue, d après la propriété et la remarque précédentes. Pour la seconde conclusion, la fonction f est de classe C 1 sur U et les fonctions x : t x 0 + t f x (x 0,y 0 ) et y : t y 0 + t f y (x 0,y 0 ) sont de classe C 1 sur R et ont pour limites respectives x 0 et y 0 en 0, le point (x 0,y 0 ) appartenant à l ouvert U. La fonction g : t f((x 0,y 0 ) + t f(x 0,y 0 )) = f(x(t),y(t)) est donc bien définie au voisinage de 0, et d après la règle de la chaîne, elle est de classe C 1 au voisinage de 0 avec, pour tout t R assez proche de 0, et en particulier g (t) = f x (x(t),y(t))x (t) + f y (x(t),y(t))y (t) g (0) = = f f (x(t),y(t)) x x (x 0,y 0 ) + f y (x(t),y(t)) f y (x 0,y 0 ), ( ) f 2 ( ) f 2 x (x 0,y 0 ) + y (x 0,y 0 ) = f(x 0,y 0 ) 2. Sachant que f(x 0,y 0 ) (0,0), on a donc g (0) > 0. La fonction g étant de classe C 1 au voisinage de 0, il existe η > 0 tel que g (t) > 0 pour tout t ] η,η[, d où le résultat. Exemple Soit f : (x,y) x 2 + y 2. Les lignes de niveau de f sont les sous-ensembles de R 2 d équation x 2 + y 2 = λ où λ R. Si λ < 0, cet ensemble est vide, si λ = 0, il est réduit au point (0,0), et si λ > 0, il s agit du cercle de centre (0,0) et de rayon λ. La fonction f est de classe C 1 sur R 2 et pour tout (x,y) R 2, f(x,y) = 2(x,y), il est donc colinéaire à (x,y) (ce qui est cohérent avec le deuxième exemple d équation aux dérivées partielles que nous avons traité). Pour tout (x 0,y 0 ) (0,0), f(x 0,y 0 ) est non nul et orthogonal 361
370 à la ligne de niveau λ = x 2 0 +y2 0 de f, orienté dans le sens des valeurs croissantes de f, c est-à-dire, «s éloignant» de l origine. Remarque En électrostatique par exemple : Si une fonction V représente un potentiel électrique V, les lignes de niveau de V sont appelées lignes équipotentielles. Si le champ électrostatique E dérive de V, c est-à-dire vérifie E = V, on appelle ligne de champ de E toute courbe C régulière telle que pour tout (x,y) C, E(x,y) soit un vecteur tangent à C en (x,y). D après ce qui précède, les lignes de champ de E sont orthogonales aux lignes équipotentielles de V. De plus, E est dirigé dans le sens des potentiels décroissants. 2. Surfaces données par une équation cartésienne Dans ce paragraphe, p = 3. On souhaite étudier les surfaces données par une équation cartésienne de la forme f(x,y,z) = 0, où f : U R est de classe C 1. Exemples La sphère unité de R 3 a pour équation cartésienne x 2 + y 2 + z 2 = 1. Si g : V R est une fonction de classe C 1 sur un ouvert V de R 2, la surface représentative de g a pour équation cartésienne z = g(x,y), ce qui entre dans le cadre précédent, en posant f(x,y,z) = g(x,y) z pour tout (x,y,z) R 3 tel que (x,y) V. Dans ce cas, il s agit d une représentation explicite car z est directement donné en fonction de x et y. Définition Point régulier, plan tangent Soit f : U R de classe C 1 et S la partie de R 3 d équation f(x,y,z) = 0. On appelle point régulier de S tout point (x 0,y 0,z 0 ) S tel que f(x 0,y 0,z 0 ) (0,0,0) c est-à-dire, tel que f x (x 0,y 0,z 0 ) 0 ou f y (x 0,y 0,z 0 ) 0 ou f z (x 0,y 0,z 0 ) 0. Si (x 0,y 0,z 0 ) est un point régulier de S, on appelle plan tangent à S en (x 0,y 0,z 0 ) le plan orthogonal à f(x 0,y 0,z 0 ) et passant par (x 0,y 0,z 0 ), c est-à-dire, le plan de R 3 d équation ( f(x 0,y 0,z 0 ) (x x 0,y y 0,z z 0 )) = 0, i.e. f x (x 0,y 0,z 0 )(x x 0 ) + f y (x 0,y 0,z 0 )(y y 0 ) + f z (x 0,y 0,z 0 )(z z 0 ) = 0. Exemple Soit g : V R une fonction de classe C 1 sur un ouvert V de R 2 et soit S la surface représentative de g, c est-à-dire, la surface d équation z = g(x,y). Comme on l a expliqué ci-dessus, c est un cas particulier de surface donnée par une équation cartésienne f(x,y,z) = 0 avec f : (x,y,z) g(x,y) z définie sur l ouvert de R 3 U = {(x,y,z) R 3 ; (x,y) V }. La fonction f est de classe C 1 sur U de même que g sur V, et pour tout (x,y,z) U, f(x,y,z) = ( ) g x (x,y), g y (x,y), 1 (0,0,0). 362
371 En particulier, chaque point de S est régulier. Si (x 0,y 0,z 0 ) S, le plan tangent à S en (x 0,y 0,z 0 ) a pour équation g x (x 0,y 0 )(x x 0 ) + g y (x 0,y 0 )(y y 0 ) (z z 0 ) = 0, i.e. z = g x (x 0,y 0 )(x x 0 ) + g y (x 0,y 0 )(y y 0 ) + g(x 0,y 0 ). 3. Courbes tracées sur une surface Définition Soit f : U R de classe C 1 et S la partie de R 3 d équation f(x,y,z) = 0. On appelle courbe tracée sur la surface S tout arc paramétré (I,γ) où I est un intervalle de R et γ = (x,y,z) : I R 3 vérifie, pour tout t I, (x(t),y(t),z(t)) S. Par définition même, on a, avec les notations précédentes : pour tout t I, f(x(t),y(t),z(t)) = 0. Si γ est de classe C 1, alors d après la règle de la chaîne, t f(x(t),y(t),z(t)) est de classe C 1 sur I. Comme cette fonction est nulle, on a, pour tout t I, f x (x(t),y(t),z(t))x (t) + f y (x(t),y(t),z(t))y (t) + f z (x(t),y(t),z(t))z (t) = 0 i.e. ( f(γ(t)) γ (t) ) = 0, et donc f(γ(t)) est orthogonal à γ (t), qui dirige la tangente à la courbe en chacun de ses points réguliers. On en déduit le résultat suivant : Propriété Tangente à une courbe tracée sur une surface Soit Γ = (I,γ) une courbe tracée sur la surface S d équation f(x,y,z) = 0 où f : U R est de classe C 1. On note C le support de Γ. Soit (x 0,y 0,z 0 ) = M(t 0 ) S un point régulier en tant qu élément de S et en tant que point de Γ. Alors la tangente à Γ en M(t 0 ) est contenue dans le plan tangent à S en (x 0,y 0,z 0 ). Cas particulier Soit S la surface représentative d une fonction g : V R de classe C 1, c est-à-dire, la surface d équation z = g(x,y). Fixons l une des coordonnées x ou y, ce qui revient à considérer l intersection de S avec des plans parallèles aux plans de coordonnées (yoz) ou (xoz). Par exemple, fixons y = y 0 et considérons le sous-ensemble {(x,y 0,g(x,y 0 )); (x,y 0 ) V }. C est le support d une courbe tracée sur S, que l on peut paramétrer par x (x,y 0,g(x,y 0 )); elle est régulière. La situation est analogue si l on fixe x = x 0. Les courbes de cette forme sont appelées courbes coordonnées de S. Enfin, si l on fixe z = z 0, on obtient le sous-ensemble {(x,y,z 0 ) U; g(x,y) = z 0 }, 363
372 qui s identifie à la ligne de niveau z 0 de g. Si g(x,y) (0,0) pour tout (x,y) V tel que g(x,y) = z 0, l ensemble considéré est une courbe régulière et le théorème admis au paragraphe précédent permet de la paramétrer localement par des fonctions de la forme à nouveau, on obtient une courbe tracée sur S. t (x(t),y(t),z 0 ); Remarque Contrairement aux courbes coordonnées, qui sont toujours régulières, le sous-ensemble {(x,y,z 0 ) U; z 0 = g(x,y)} peut ne pas être une courbe régulière; il peut même ne pas être une courbe, si par exemple g prend la valeur z 0 sur une partie de surface non nulle, comme un disque, une couronne... Pourtant, S est toujours une surface dont tous les points sont réguliers, elle possède bien un plan tangent en chacun de ses points! Exemple Soit g : (x,y) x 2 y 2. La fonction g est de classe C 1 sur R 2. À y = y 0 fixé, on obtient le sous-ensemble {(x,y 0,x 2 y0 2 ); x R}, qui est une parabole dont les branches sont tournées «vers le haut». À x = x 0 fixé, on obtient le sous-ensemble {(x 0,y,x 2 0 y2 ); y R} qui est une parabole dont les branches sont tournées «vers le bas». À z = z 0 fixé, on obtient le sous-ensemble {(x,y,z) R 3 ; x 2 y 2 = z 0 }. Si z 0 = 0, il s agit de la réunion de deux droites sécantes, sinon, il s agit d une hyperbole. Voici la représentation graphique de la fonction g, sur laquelle on peut visualiser les courbes coordonnées :
373 0.000 Sur la figure suivante, on visualise certaines lignes de niveau de la fonction g :
374 366
375 Annexe 1 : Relations de comparaison Sauf précision, les suites et fonctions considérées ici sont à valeurs dans K = R ou C. I. Le cas des suites Définition Relations de négligeabilité et de domination Soient (u n ) et (v n ) deux suites d éléments de K. On suppose qu il existe N N tel que pour tout n N, v n 0. On dit que (u n ) est négligeable devant (v n ) (ou que (v n ) est prépondérante devant (u n )) si u n v n 0, ce quotient étant bien défini pour n N. Ceci équivaut à chacune des propriétés suivantes (que l on peut prendre comme définition dans le cas plus général où v n peut s annuler pour des valeurs de n arbitrairement grandes) : Il existe une suite (ε n ) qui converge vers 0 telle que, pour tout n N, u n = ε n v n. ε > 0, n 0 N; n n 0, u n ε v n. On écrit alors u n = o(v n ) (se lit «u n est un petit o de v n»). On dit que (u n ) est dominée par (v n ) (ou que (v n ) domine (u n )) si la suite ) ( un v n n N est bornée. Ceci équivaut à l existence d un réel M 0 tel que, pour tout n N, u n M v n. On peut prendre cette propriété comme définition dans le cas plus général où v n peut s annuler pour des valeurs de n arbitrairement grandes. On écrit alors u n = O(v n ) (se lit «u n est un grand O de v n»). ( ) ( ) Exemple Pour tout n N, soit u n = ein 1 1 n 2. Alors u n = o et u n = O n n 2. Remarques Si (u n ) est négligeable devant (v n ), alors elle est dominée par (v n ). u n = o(1) signifie que (u n ) converge vers 0, u n = O(1) signifie que (u n ) est bornée. 367
376 Propriété Une suite bornée est négligeable devant une suite (v n ) vérifiant v n +. En particulier, une suite convergente est négligeable devant une suite (v n ) vérifiant v n +. Opérations sur les «o» et les «O» Soient (u n ), (v n ), (w n ) et (t n ) quatre suites d éléments de K. { un = o(v Transitivité : n ) u v n = o(w n ) n = o(w n ). Produit par un scalaire : Si u n = o(v n ), alors, pour tout λ K, u n = o(λv n ). { un = o(w Somme : n ) v n = o(w n ) u n + v n = o(w n ). { un = o(w Produit : n ) v n = o(t n ) u n v n = o(w n t n ). Puissance : Si k > 0 et si (u n ) et (v n ) sont à termes réels strictement positifs, alors u n = o(v n ) u k n = o(vk n ). Tous ces résultats sont vrais en remplaçant «o» par «O». Croissances comparées classiques Si (α,β) R 2 et α < β, alors n α = o(n β ). Si (a,b) C 2 et a < b, alors a n = o(b n ). Si α > 0 et β R, (ln n) β = o(n α ). Si a C vérifie a > 1 et si α C, n α = o(a n ), a n = o(n!). ( ) 1 Si a C vérifie a < 1 et si α C, a n = o n α. n! = o(n n ). Définition Relation d équivalence Soient (u n ) et (v n ) deux suites d éléments de K. On suppose qu il existe N N tel que pour tout n N, v n 0. On dit que (u n ) est équivalente à (v n ) si ce quotient étant bien défini pour n N. u n v n 1, Ceci équivaut à l existence d une suite (ε n ) qui converge vers 0 telle que, pour tout n N, u n = (1 + ε n )v n. On peut prendre cette propriété comme définition dans le cas plus général où v n peut s annuler pour des valeurs de n arbitrairement grandes. On écrit alors u n v n (se lit «u n est équivalent à v n»). 368
377 Remarques u n v n u n = v n + o(v n ) u n v n = o(v n ). Si u n v n, alors pour tout n assez grand, u n 0 et v n u n 1. On en déduit que u n v n v n u n. On peut donc dire que (u n ) et (v n ) sont équivalentes. Exemples Tout polynôme en n est équivalent à son terme de plus haut degré. Toute fraction rationnelle en n est équivalente au quotient des termes de plus haut degré. Propriété Signe de deux suites équivalentes Si (u n ) et (v n ) sont à termes réels, si u n v n et si les termes de l une des deux suites sont strictement positifs à partir d un certain rang, alors il en est de même pour l autre (de même pour un signe strictement négatif). Propriété Si l 0, alors u n l si et seulement si u n l. Théorème Si (u n ) et (v n ) sont deux suites équivalentes, alors : (u n ) et (v n ) sont de même nature (convergente ou divergente). Si u n l K, alors v n l. Si (u n ) et (v n ) sont à termes réels, et si u n + (resp. ) alors v n + (resp. ). Attention! En revanche, lim u n = lim v n u n v n. Par exemple, si pour tout n N, u n = n et v n = n 2, alors u n +, v n + mais u n n est pas équivalent à v n. Équivalents classiques Si u n 0, alors : ln(1 + u n ) u n e un 1 u n (1 + u n ) α 1 α u n (α R) sin(u n ) u n cos(u n ) 1 u2 n 2 tan(u n ) u n. Si P(x) = a p x p + + a q x q, (avec p q, a p 0, a q 0), alors : si u n 0, P(u n ) a q u q n; si u n + (ou ), P(u n ) a p u p n. 369
378 Opérations sur les équivalents { un v Transitivité : n u v n w n w n. n { un w Produit : n u v n t n v n w n t n. n Inverse : u n v n 1 1. u n v n { un w Quotient : n u n w n. v n t n v n t n Valeur absolue ou module : u n v n u n v n. Puissance : Si k R et si (u n ) et (v n ) sont à termes réels strictement positifs, alors u n v n (u n ) k (v n ) k. Remarque La relation est une relation d équivalence. Opérations à ne pas faire en général sur les équivalents La somme : on peut multiplier et diviser les équivalents, mais pas les sommer. { un w n v n t n u n + v n w n + t n. Par exemple, on a { n 2 + n n 2 n 2 n 2, mais n 0. La composition : en général, on ne peut pas composer un équivalent par une fonction. u n v n f(u n ) f(v n ). Par exemple, on a n 2 + n n 2, mais e n2 +n e n2. En dehors du cas de l élévation à une puissance, il existe toutefois un cas où la composition est possible, mais à démontrer à chaque usage, car il ne figure pas au programme : Propriété (Hors-programme) Soient (u n ) et (v n ) deux suites à termes réels strictement positifs telles que u n v n et l (avec l > 0 et l 1) u n ou + Alors ln(u n ) ln(v n ). Contre-exemple si u n 1 : considérer u n = n et v n = n. 370
379 II. Le cas des fonctions Soit I un intervalle de R et a adhérent à I, avec éventuellement a = ±. Définition Relations de comparaison pour les fonctions Soient f et g deux applications définies sur I \ {a} à valeurs dans K. On suppose qu il existe η > 0 tel que pour tout x I \ {a} tel que x a η, on ait g(x) 0. On dit que f est négligeable devant g (ou que g est prépondérante devant g) en a si f(x) g(x) 0, x a x =a ce quotient étant bien défini pour x I \ {a} tel que x a η. On écrit alors f(x) = x a o(g(x)) (se lit «f(x) est un petit o de g(x) lorsque x tend vers a»). On dit que f est dominée par g (ou que g domine f) s il existe δ ]0,η] tel que la fonction f soit bornée sur {x I \ {a}; x a δ}. g On écrit alors f(x) = O(g(x)) (se lit «f(x) est un grand O de g(x) lorsque x tend x a vers a»). On dit que f est équivalente à g en a si f(x) g(x) 1, x a x =a On écrit alors f(x) x a g(x) (se lit «f(x) est équivalent à g(x) lorsque x tend vers a»). On établira aisément les propriétés et opérations possibles et impossibles sur les relations de comparaison. 371
380 372
381 Annexe 2 : Intégrales de Wallis On s intéresse aux intégrales I n = π/2 0 sin n (x)dx et J n = π/2 0 cos n (x)dx, où n N. Ces intégrales sont appelées intégrales de Wallis (John Wallis ( ) était un mathématicien anglais. On lui doit notamment le symbole, mais également des travaux en phonétique et orthophonie). Le but de cette annexe est de rassembler divers résultats sur ces intégrales, notamment en rapport avec la démonstration de la formule de Stirling. L étude des intégrales de Wallis ne figure pas au programme. 1. Montrons que pour tout n N, I n = J n. Pour cela, on fait dans l expression de J n le changement de variable x = π/2 u pour u [0,π/2], la fonction cos n étant continue sur [0,π/2] et la fonction u π/2 u étant de classe C 1 sur [0,π/2]. Alors J n = π/2 0 cos n (x)dx = 0 π/2 Dans la suite, on ne s intéressera donc qu à I n. cos n ( π 2 u ) du = 0 π/2 sin n (u)du = I n. 2. Pour tout n, x sin n (x) est continue, positive et non identiquement nulle sur [0,π/2]. On en déduit que I n > 0 pour tout n. 3. Pour tout x [0,π/2], on a 0 sin(x) 1, donc 0 sin n (x) 1 quel que soit n N. Par croissance de l intégrale, on en déduit que 0 I n π 2. En particulier, la suite (I n ) est bornée. De plus, pour tout n N, I n+1 I n = π/2 0 (sin n+1 (x) sin n (x))dx = π/2 0 sin n (x)(sin(x) 1)dx. Or, pour tout x [0,π/2], sin n (x)(sin(x) 1) 0, ce qui implique que I n+1 I n 0. On en déduit que la suite (I n ) est décroissante. 4. Limite de (I n ) : nous allons montrer que I n 0. Pour cela, fixons un réel ε > 0 et soit n + δ ]0,π/2[ à déterminer. On peut supposer sans perte de généralité que ε < π. a. Pour tout x [0,π/2] et n N, sin n (x) 1, et donc π/2 δ sin n (x)dx Si l on choisit δ = π ε, on obtient donc 2 π/2 δ π/2 δ 1dx = π 2 δ. sin n (x)dx π 2 δ ε 2, 373
382 avec une majoration indépendante de n. On a de plus δ ]0,π/2[ car ε ]0,π[. b. Pour tout x [0,δ] et n N, sin n (x) sin n (δ), car la fonction sin n est croissante sur [0,π/2]. On en déduit que δ 0 sin n (x)dx δ 0 sin n (δ)dx = δ sin n (δ). Or δ ]0,π/2[, donc sin(δ) ]0,1[. En particulier, δ sin n (δ) 0 (suite géométrique). Il existe n + donc n 0 N tel que pour tout entier n n 0, δ sin n (δ) ε 2. c. D après la relation de Chasles et le point 3, 0 I n = δ 0 sin n (x)dx + π/2 δ sin n (x)dx. En utilisant alors les résultats des points a et b, on obtient, pour tout entier n n 0, I n ε. Finalement, pour tout réel ε ]0,π[, on a montré l existence d un entier n 0 tel que pour tout entier n n 0, 0 I n ε : la suite (I n ) tend vers 0 lorsque n tend vers +. Remarque On peut aussi utiliser le théorème de convergence dominée, puisque sin n est continue pour tout n N, sin n (x) 0 pour tout x [0,π/2[ et n + sinn (x) 1 pour tout x [0,π/2[ et n N. 5. Relation de récurrence Pour tout n N, I n+2 = π/2 0 sin n+2 (x)dx = π/2 0 sin(x)sin n+1 (x)dx. On intègre alors par parties (u = cos et v = sin n+1 étant de classe C 1 sur [0,π/2]) : I n+2 = [ cos(x)sin n+1 (x) ] π/2 = (n + 1) = (n + 1) = (n + 1) π/2 0 π/2 0 π/2 = (n + 1)(I n I n+2 ). 0 π/ cos 2 (x)sin n (x)dx (1 sin 2 (x))sin n (x)dx (sin n (x) sin n+2 (x))dx cos(x)(n + 1)cos(x)sin n (x)dx On en déduit que (n + 2)I n+2 = (n + 1)I n, d où : pour tout n N, I n+2 = n + 1 n + 2 I n. Sachant que I 0 = par exemple 6. Formule explicite π/2 0 1dx = π 2 et I 1 = π/2 0 I 2 = π 4, I 3 = 2 3, I 4 = 3π 16, I 5 = Montrons par récurrence sur p que pour tout p N, on a : I 2p = Initialisation : pour p = 0, on a I 2 0 = I 0 = π 2 (2p)! 2 2p+1 (p!) 2 π et I 2p+1 = 22p (p!) 2 (2p + 1)!. sin(x)dx = [ cos(x)] π/2 0 = 1, on en déduit = (2 0)! (0!) 2 π et I = I 1 = 1 = 22 0 (0!) 2 ( )!. 374
383 Hérédité : supposons la propriété vraie pour un certain p N. Montrons qu elle est alors vraie pour p + 1 : on a I 2(p+1) = I 2p+2, donc, d après le point 5 (avec n = 2p), Avec l hypothèse de récurrence, on en déduit : I 2(p+1) = 2p + 1 2p + 2 I 2p. I 2(p+1) = 2p + 1 2p + 2 (2p)! 2 2p+1 (p!) 2π (2p + 1)! = (2p + 2)2 2p+1 (p!) 2π (2p + 2)! = (2p + 2) 2 2 2p+1 (p!) 2π (2p + 2)! = 4(p + 1) 2 2 2p+1 (p!) 2π = (2p + 2)! 2 2p+3 (p + 1)! 2 π, ce qui est bien le résultat souhaité. De même, avec le point 5 (avec n = 2p + 1), D où : I 2(p+1)+1 = 2p + 2 2p + 3 I 2p+1. I 2(p+1)+1 = 2p + 2 2p p (p!) 2 (2p + 1)! (2p + 2) 2 2 2p (p!) 2 = (2p + 2)(2p + 3)(2p + 1)! = 4(p + 1)2 2 2p (p!) 2 (2p + 3)! = 22p+2 (p + 1)! 2, (2p + 3)! ce qui prouve l hérédité. Les deux égalités sont donc vraies pour tout p N. 7. Comportement asymptotique a. Par décroissance de la suite (I n ) et d après le point 5, pour tout n N, on a c est-à-dire I n+2 I n+1 I n, n + 1 n + 2 I n I n+1 I n. En divisant par I n, qui est strictement positif d après le point 2, on en déduit n + 1 n + 2 I n+1 I n 1. Par encadrement, on a donc I n+1 I n 1, i.e. I n+1 I n. b. Démontrons par récurrence que pour tout n N, (n + 1)I n I n+1 = π 2. Pour n = 0, on a bien (1 + 0)I 0 I 1 = 1 π 2 1 = π
384 Supposons maintenant l égalité vraie pour un certain n N et montrons qu elle est alors vraie au rang n + 1. D après le point 5 : (n + 2)I n+1 I n+2 = (n + 2)I n+1 n + 1 n + 2 I n = (n + 1)I n I n+1. Or, par hypothèse de récurrence, (n + 1)I n I n+1 = π 2. Donc (n + 2)I n+1i n+2 = π, ce qui termine 2 la récurrence. c. Sachant que n + 1 n et I n+1 I n lorsque n tend vers + (point 7. a), on en déduit que (n + 1)I n I n+1 nin 2. Donc, d après le point précédent, ni2 n π 2, ce qui implique I2 n π 2n et finalement, sachant que I n > 0 : π I n 2n. ( ) 2n d. Application : équivalent de n D après le point 6, on a I 2n = π 2 2n+1 ( ) 2n n pour tout n N. Or, d après le point précédent, I 2n π 2 2n+1 ( ) 2n n π n + 4n. π 4n. Ainsi On en déduit que ( ) 2n 4n. n πn Remarque Comme nous l avons montré dans le cours, les intégrales de Wallis permettent d obtenir un équivalent de n! : il s agit de la formule de Stirling ( n ) n n! 2πn. e 376
Image d un intervalle par une fonction continue
DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours
Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****
I. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Continuité et dérivabilité d une fonction
DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité
Chapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Fonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
CCP PSI - 2010 Mathématiques 1 : un corrigé
CCP PSI - 00 Mathématiques : un corrigé Première partie. Définition d une structure euclidienne sur R n [X]... B est clairement symétrique et linéaire par rapport à sa seconde variable. De plus B(P, P
Limites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Continuité en un point
DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à
Théorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Cours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Chapitre 7 : Intégration sur un intervalle quelconque
Universités Paris 6 et Paris 7 M1 MEEF Analyse (UE 3) 2013-2014 Chapitre 7 : Intégration sur un intervalle quelconque 1 Fonctions intégrables Définition 1 Soit I R un intervalle et soit f : I R + une fonction
De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Continuité d une fonction de plusieurs variables
Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs
Développement décimal d un réel
4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au
Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Suites numériques 3. 1 Convergence et limite d une suite
Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n
Exercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
EXERCICE 4 (7 points ) (Commun à tous les candidats)
EXERCICE 4 (7 points ) (Commun à tous les candidats) On cherche à modéliser de deux façons différentes l évolution du nombre, exprimé en millions, de foyers français possédant un téléviseur à écran plat
Capes 2002 - Première épreuve
Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : [email protected] Mots-clés : équation fonctionnelle, série
Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Problème 1 : applications du plan affine
Problème 1 : applications du plan affine Notations On désigne par GL 2 (R) l ensemble des matrices 2 2 inversibles à coefficients réels. Soit un plan affine P muni d un repère (O, I, J). Les coordonnées
Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :
Chapitre Chapitre. Séries de Fourier Nous supposons connues les formules donnant les coefficients de Fourier d une fonction - périodique : c c a0 f x dx c an f xcosnxdx c c bn f xsinn x dx c L objet de
La fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Intégration et probabilités TD1 Espaces mesurés Corrigé
Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Rappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015
Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k
Développements limités, équivalents et calculs de limites
Développements ités, équivalents et calculs de ites Eercice. Déterminer le développement ité en 0 à l ordre n des fonctions suivantes :. f() e (+) 3 n. g() sin() +ln(+) n 3 3. h() e sh() n 4. i() sin(
3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.
Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).
Calcul fonctionnel holomorphe dans les algèbres de Banach
Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte
Résolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Programmes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
www.h-k.fr/publications/objectif-agregation
«Sur C, tout est connexe!» www.h-k.fr/publications/objectif-agregation L idée de cette note est de montrer que, contrairement à ce qui se passe sur R, «sur C, tout est connexe». Cet abus de langage se
n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v 1 1 2 t
3.La méthode de Dirichlet 99 11 Le théorème de Dirichlet 3.La méthode de Dirichlet Lorsque Dirichlet, au début des années 180, découvre les travaux de Fourier, il cherche à les justifier par des méthodes
Exercices Corrigés Premières notions sur les espaces vectoriels
Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3
Cours de mathématiques
DEUG MIAS premier niveau Cours de mathématiques année 2003/2004 Guillaume Legendre (version révisée du 3 avril 2015) Table des matières 1 Éléments de logique 1 1.1 Assertions...............................................
Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme
Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet
Correction de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
Le produit semi-direct
Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.
Planche n o 22. Fonctions de plusieurs variables. Corrigé
Planche n o Fonctions de plusieurs variables Corrigé n o : f est définie sur R \ {, } Pour, f, = Quand tend vers, le couple, tend vers le couple, et f, tend vers Donc, si f a une limite réelle en, cette
Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Calcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Introduction à l étude des Corps Finis
Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur
Texte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
Leçon 01 Exercices d'entraînement
Leçon 01 Exercices d'entraînement Exercice 1 Etudier la convergence des suites ci-dessous définies par leur terme général: 1)u n = 2n3-5n + 1 n 2 + 3 2)u n = 2n2-7n - 5 -n 5-1 4)u n = lnn2 n+1 5)u n =
Structures algébriques
Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe
Suites numériques 4. 1 Autres recettes pour calculer les limites
Suites numériques 4 1 Autres recettes pour calculer les limites La propriété suivante permet de calculer certaines limites comme on verra dans les exemples qui suivent. Propriété 1. Si u n l et fx) est
Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E
Exo7 Espaces vectoriels Vidéo partie 1. Espace vectoriel (début Vidéo partie 2. Espace vectoriel (fin Vidéo partie 3. Sous-espace vectoriel (début Vidéo partie 4. Sous-espace vectoriel (milieu Vidéo partie
I. Ensemble de définition d'une fonction
Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux
Raisonnement par récurrence Suites numériques
Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.
Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument
Formes algébriques et trigonométriques, module et argument Exercice - - L/Math Sup - On multiplie le dénominateur par sa quantité conjuguée, et on obtient : Z = 4 i 3 + i 3 i 3 = 4 i 3 + 3 = + i 3. Pour
Dérivation : cours. Dérivation dans R
TS Dérivation dans R Dans tout le capitre, f désigne une fonction définie sur un intervalle I de R (non vide et non réduit à un élément) et à valeurs dans R. Petits rappels de première Téorème-définition
* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable
Eo7 Fonctions de plusieurs variables Eercices de Jean-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-francefr * très facile ** facile *** difficulté moenne **** difficile ***** très difficile I
Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques
Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de
Moments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Chapitre 3. Mesures stationnaires. et théorèmes de convergence
Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur
Dualité dans les espaces de Lebesgue et mesures de Radon finies
Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention
Correction du Baccalauréat S Amérique du Nord mai 2007
Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n
Amphi 3: Espaces complets - Applications linéaires continues
Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite
Chapitre VI Fonctions de plusieurs variables
Chapitre VI Fonctions de plusieurs variables 6. 1 Fonctions différentiables de R 2 dans R. 6. 1. 1 Définition de la différentiabilité Nous introduisons la différentiabilité sous l angle des développements
Différentiabilité ; Fonctions de plusieurs variables réelles
Différentiabilité ; Fonctions de plusieurs variables réelles Denis Vekemans R n est muni de l une des trois normes usuelles. 1,. 2 ou.. x 1 = i i n Toutes les normes de R n sont équivalentes. x i ; x 2
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES
I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES Théorème - Définition Soit un cercle (O,R) et un point. Une droite passant par coupe le cercle en deux points A et
Chapitre VI - Méthodes de factorisation
Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.
Complément d information concernant la fiche de concordance
Sommaire SAMEDI 0 DÉCEMBRE 20 Vous trouverez dans ce dossier les documents correspondants à ce que nous allons travailler aujourd hui : La fiche de concordance pour le DAEU ; Page 2 Un rappel de cours
Programme de la classe de première année MPSI
Objectifs Programme de la classe de première année MPSI I - Introduction à l analyse L objectif de cette partie est d amener les étudiants vers des problèmes effectifs d analyse élémentaire, d introduire
Exo7. Limites de fonctions. 1 Théorie. 2 Calculs
Eo7 Limites de fonctions Théorie Eercice Montrer que toute fonction périodique et non constante n admet pas de ite en + Montrer que toute fonction croissante et majorée admet une ite finie en + Indication
Intégration et probabilités TD1 Espaces mesurés
Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?
Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Cours d Analyse I et II
ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE Cours d Analyse I et II Sections Microtechnique & Science et génie des matériaux Dr. Philippe Chabloz avril 23 Table des matières Sur les nombres. Les nombres
IV- Equations, inéquations dans R, Systèmes d équations
IV- Equations, inéquations dans R, Systèmes d équations 1- Equation à une inconnue Une équation est une égalité contenant un nombre inconnu noté en général x et qui est appelé l inconnue. Résoudre l équation
Optimisation des fonctions de plusieurs variables
Optimisation des fonctions de plusieurs variables Hervé Hocquard Université de Bordeaux, France 8 avril 2013 Extrema locaux et globaux Définition On étudie le comportement d une fonction de plusieurs variables
Commun à tous les candidats
EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle
Représentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Chapitre 2. Eléments pour comprendre un énoncé
Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données
Chapitre 6. Fonction réelle d une variable réelle
Chapitre 6 Fonction réelle d une variable réelle 6. Généralités et plan d étude Une application de I dans R est une correspondance entre les éléments de I et ceu de R telle que tout élément de I admette
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Exercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
La mesure de Lebesgue sur la droite réelle
Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et
Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions
Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions HQ = He 1 He 2 He 3 He 4 HQ e 5 comme anneaux (avec centre Re 1 Re 2 Re 3 Re 4
Comparaison de fonctions Développements limités. Chapitre 10
PCSI - 4/5 www.ericreynaud.fr Chapitre Points importants 3 Questions de cours 6 Eercices corrigés Plan du cours 4 Eercices types 7 Devoir maison 5 Eercices Chap Et s il ne fallait retenir que si points?
Calcul différentiel. Chapitre 1. 1.1 Différentiabilité
Chapitre 1 Calcul différentiel L idée du calcul différentiel est d approcher au voisinage d un point une fonction f par une fonction plus simple (ou d approcher localement le graphe de f par un espace
Fibonacci et les paquerettes
Fibonacci et les paquerettes JOLY Romain & RIVOAL Tanguy Introduction Quand on entend dire que l on peut trouver le nombre d or et la suite de Fibonacci dans les fleurs et les pommes de pin, on est au
Chapitre 1 : Évolution COURS
Chapitre 1 : Évolution COURS OBJECTIFS DU CHAPITRE Savoir déterminer le taux d évolution, le coefficient multiplicateur et l indice en base d une évolution. Connaître les liens entre ces notions et savoir
Licence Sciences et Technologies Examen janvier 2010
Université de Provence Introduction à l Informatique Licence Sciences et Technologies Examen janvier 2010 Année 2009-10 Aucun document n est autorisé Les exercices peuvent être traités dans le désordre.
MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME
Notre cadre de réflexion MATHÉMATIQUES EN PREMIER CYCLE PRÉSENTATION DU PROGRAMME La proposition de programme qui suit est bien sûr issue d une demande du Premier Cycle : demande de rénovation des contenus
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Nombre dérivé et tangente
Nombre dérivé et tangente I) Interprétation graphique 1) Taux de variation d une fonction en un point. Soit une fonction définie sur un intervalle I contenant le nombre réel a, soit (C) sa courbe représentative
Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.
Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands. Pourquoi un autre catalogue en Suisse romande Historique En 1990, la CRUS (Conférences des
Cours 02 : Problème général de la programmation linéaire
Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =
avec des nombres entiers
Calculer avec des nombres entiers Effectuez les calculs suivants.. + 9 + 9. Calculez. 9 9 Calculez le quotient et le rest. : : : : 0 :. : : 9 : : 9 0 : 0. 9 9 0 9. Calculez. 9 0 9. : : 0 : 9 : :. : : 0
8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2
Chapitre 8 Fonctions de plusieurs variables 8.1 Généralités sur les fonctions de plusieurs variables réelles Définition. Une fonction réelle de n variables réelles est une application d une partie de R
