2 Algèbre linéaire : Espaces vectoriels et applications linéaires

Une bonne connaissance de l’algèbre linéaire est essentielle en Mathématiques appliquées. c’est une théorie sur laquelle repose le calcul différentiel ou encore la résolution de systèmes linéaires, indispensable pour une éventuelle approximation numérique des problèmes de la mécanique. Nous présentons ici les définitions et les résultats principaux. Nous renvoyons par exemple à (Queysanne 1964) ou n’importe quel cours d’algèbre de premier cycle universitaire ou de classes préparatoires tel que (Dixmier?).

2.1 Espaces vectoriels

Nous commençons par la notion d’espace vectoriel sans introduire des notions usuelles d’algèbre telles que les groupes, les anneaux ou encore les corps. Elles seront tout de même rappellées, nous préférons une présentation intuitive basée sur l’ensemble des nombres réels \(\mathbb{R}\) ou des nombres complexes \(\mathbb{C}\), qui sont des exemples particuliers de corps.

2.1.1 Espace vectoriel : une présentation intuitive

Un espace vectoriel est un ensemble d’éléments \({\mathbf{x}},{\mathbf{y}},\dots\), appelés vecteurs, sur lequel sont définis les opérations linéaires : une addition et une multiplication par un scalaire (un nombre réel ou complexe), avec les règles usuelles liées à la notion d’addition et de multiplication :associativité, commutativité, élément neutre, transitivité,...

Dans le jargon mathématicien l’addition désigne une opération interne entre deux vecteurs donnant un vecteur, tandis que la multiplication est une opération externe entre un scalaire et un vecteur donnant encore un vecteur.

On parle d’espace vectoriel réel si les scalaires sont les nombres réels. De même, on parle d’espace vectoriel complexe si les scalaires sont les nombres complexes. Dans toute la suite, sauf mention contraire, les espaces vectoriels seront réels.

2.1.2 Exemples d’espace vectoriel

Exemple

Le premier exemple d’espace vectoriel réel est l’ensemble des nombres réels \(\mathbb{R}\) lui-même, avec évidemment les addition et multiplication usuelles. Dans ce cas particulier, les nombres réels sont à la fois considérés comme des scalaires et comme des vecteurs en tant qu’éléments de l’espace vectoriel.

Il en va de même pour l’ensemble des nombres complexes \(\mathbb{C}\). Cependant, dans ce cas, on peut distinguer deux possibilités : \(\mathbb{C}\) en tant qu’espace vectoriel complexe, ou bien \(\mathbb{C}\) en tant qu’espace vectoriel réel (on parle de plan complexe pour cette dernière).

Exemple

L’ensemble des fonctions définies sur un intervalle de \(I\subset\mathbb{R}\) à valeur réelle: on définit naturellement l’addition de deux fonctions \(f\) et \(g\) par : \[h = f + g \quad \Leftrightarrow \quad h(x) = f(x) + g(x) \quad \forall x\in I.\]

La multiplication d’une fonction \(f\) par un scalaire \(\lambda\) est définie par \[h = \lambda f \quad \Leftrightarrow \quad h(x) = \lambda f(x) \quad \forall x\in I.\]

En fait dans ces exemples, un point crucial est que l’addition est une opération interne : autrement dit, l’addition de deux fonctions doit encore être une fonction définie sur \(I\) à valeur réelle. Il en va de même pour la multiplication. C’est ce qu’on appelle la stabilité linéaire.

Une conséquence est qu’un espace vectoriel contient nécessairement un élément neutre pour l’addition, à savoir le vecteur nul.

Ainsi, le sous-ensemble des fonctions valant 1 en 0, n’est pas un espace vectoriel pour l’addition et la multiplication usuelle, puisque la fonction nulle n’en fait pas partie.

2.1.3 Espace vectoriel : la définition

Pour information et par souci de complétude, donnons la définition exacte, précise et abstraite¹ de la notion d’espace vectoriel:

Definition 2.1 Soit \(E\), un ensemble abstrait, muni d’une opération interne notée ‘+’ et d’une opération externe notée ‘.’ avec un scalaire réel (resp. complexe).

On dit que \((E,'+','.')\) possède une structure d’espace vectoriel sur \(\mathbb{R}\) (resp. sur \(\mathbb{C}\)) si les conditions suivantes sont satisfaites :

\(\forall {\mathbf{x}}, {\mathbf{y}} \in E,\) \({\mathbf{x}}+{\mathbf{y}}\in E\)
\(\forall {\mathbf{x}} \in E,\) \(\forall \lambda \in \mathbb{R}\) (resp. \(\in \mathbb{C}\)), \(\lambda . {\mathbf{x}} \in E\)
\(\forall {\mathbf{x}}, {\mathbf{y}}, {\mathbf{z}} \in E,\) \(({\mathbf{x}}+{\mathbf{y}})+{\mathbf{z}} = {\mathbf{x}} + ({\mathbf{y}}+{\mathbf{z}})\)
\(\forall {\mathbf{x}}, {\mathbf{y}} \in E,\) \({\mathbf{x}}+{\mathbf{y}}= {\mathbf{y}}+{\mathbf{x}}\)
\(\forall {\mathbf{x}} \in E,\) \(\forall \lambda,\mu \in \mathbb{R}\) (resp. \(\in \mathbb{C}\)), \((\lambda\mu) . {\mathbf{x}} = \lambda.(\mu.{\mathbf{x}})\)
\(\forall {\mathbf{x}},{\mathbf{y}} \in E,\) \(\forall \lambda \in \mathbb{R}\) (resp. \(\in \mathbb{C}\)), \(\lambda.({\mathbf{x}}+{\mathbf{y}})= \lambda . {\mathbf{x}}+ \lambda . {\mathbf{y}}\)
\(\forall {\mathbf{x}} \in E,\) \(\forall \lambda,\mu \in \mathbb{R}\) (resp. \(\in \mathbb{C}\)), \((\lambda+\mu).{\mathbf{x}} = \lambda . {\mathbf{x}}+ \mu .{\mathbf{x}}\)
Il existe \(0_{E}\in E\) tel que \(\forall {\mathbf{x}} \in E,\) \({\mathbf{x}}+ 0_{E}=0_{E}+{\mathbf{x}}={\mathbf{x}}\)
\(\forall {\mathbf{x}} \in E,\) \(\exists {\mathbf{y}} \in E\) tel que \({\mathbf{x}}+{\mathbf{y}}= 0_{E}\)

A la première lecture, cela fait beaucoup de choses à apprendre et à connaitre, mais il est facile de ne retenir que l’essentiel : : l’addiction doit être commutative (2), associative (3), posséder un élément neutre (8) et pour chaque élément de \(E\) il existe un symétrique pour l’addition (9); on parle également d’élément opposé. On y ajoute l’opération externe (produit par un scalaire) possédant les propriétés de distributivité à gauche (6), d’associativité mixte (5) et de distributivité à droite (7).

Exercice

Montrer que dans tout espace vectoriel \(E\), réel ou complexe: \[\forall {\mathbf{x}}\in E, \quad 0.{\mathbf{x}}= {\mathbf{0}}_E\]

Le point fondamental dans une structure d’espace vectoriel et qui le différentie d’une structure de groupe est l’opération externe, produit par un scalaire. Autrement dit un espace vectoriel, sauf s’il est réduit à un élément neutre, est un ensemble infini.

Il faut noter que l’addition entre deux scalaires (7) est notée de la même façon que l’opérateur interne avec le symbole \(+\), cependant, il ne s’agit pas en général de la même opération. Cet abus d’écriture peut désorienter certains, mais dans la pratique, il n’y a jamais d’ambiguité.

Un élément d’un espace vectoriel est appelé vecteur, et hormis les cas triviaux d’espaces vectoriels tels que \(\mathbb{R}\), nous choisissons de noter les vecteurs de façon soulignée.

Remarquons que la notion espace vectoriel est une notion de structure d’un ensemble muni d’opérateurs. On désigne usuellement de manière abusive (mais sans ambiguïté) l’espace vectoriel \((E,'+','.')\) tout simplement par \(E\), car les opérations interne (addition) et externe (multiplication par un scalaire) sont généralement implicites et ne nécessitent pas d’être rappelées.

C’est bien ce que nous indiquions dans la sous-section précédente: .

Exercice

Montrer que les exemples 1.1.2 sont bien des espaces vectoriels.

2.1.4 Sous-espace vectoriel

Definition 2.2 Soit \(E\) un espace vectoriel réel et soit un sous-ensemble non vide \(X\subset E\). \(X\) est un [sous-]espace vectoriel réel s’il satisfait aux conditions de stabilité linéaire, c’est à dire : \[\begin{array}[c]{rl} {\mathbf{x}}+{\mathbf{y}}& \in X \\ \alpha {\mathbf{x}} &\in X \end{array}\] pour tout \({\mathbf{x}},{\mathbf{y}} \in X\) et pour tout scalaire \(\alpha\in \mathbb{R}\).

Remarque

On a naturellement une définition analogue pour les sous-espaces d’espaces vectoriels complexe.

Par exemple, toute droite de \(\mathbb{R}^{2}\) passant par 0 est un sous-espace vectoriel de \(\mathbb{R}^{2}\) ou encore toute droite ou tout plan de \(\mathbb{R}^{3}\) passant par 0 est un sous-espace vectoriel de \(\mathbb{R}^{3}\).

2.1.5 Indépendance linéaire: vecteurs libres, vecteurs liés

Soit \(E\) un espace vectoriel (réel ou complexe) et soient \(p\) vecteurs \({\mathbf{x}}_{1},{\mathbf{x}}_{2},\dots,{\mathbf{x}}_{p}\). Si \(\alpha_{1},\dots,\alpha_{p}\) sont des scalaires, alors on dit que le vecteur \[\alpha_{1}{\mathbf{x}}_{1}+ \dots +\alpha_{p}{\mathbf{x}}_{p}\] est une combinaison linéaire des vecteurs \({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{p}\).

Definition 2.3 On dit que les vecteurs \({\mathbf{x}}_{1},{\mathbf{x}}_{2},\dots,{\mathbf{x}}_{p}\) forment une famille libres, ou bien qu’ils sont linéairement indépendants si toute combinaison linéaire non nulle de ces vecteurs est nécessairement non nulle: \[\text{Si }\; \alpha_{1}{\mathbf{x}}_{1}+ \dots +\alpha_{p}{\mathbf{x}}_{p} =0 \;\text{ alors, }\;\alpha_{1}= \dots =\alpha_{p}=0.\]

Definition 2.4 On dit que \(p\) vecteurs \({\mathbf{x}}_{1},{\mathbf{x}}_{2},\dots,{\mathbf{x}}_{p}\) sont liés si ils ne sont pas libres.

Proposition 2.1 Soit \({\mathbf{x}}_{1},{\mathbf{x}}_{2},\dots,{\mathbf{x}}_{p}\) une famille de \(p\) vecteurs. Si ces vecteurs sont libres (ou linéairement indépendants), alors la décomposition de \[{\mathbf{x}} = \alpha_{1}{\mathbf{x}}_{1}+ \dots +\alpha_{p}{\mathbf{x}}_{p}\] est unique.

2.1.6 Produit d’espaces vectoriels

Soient \(E_{1}\) et \(E_{2}\) deux espaces vectoriels réels (resp. complexes). On définit l’espace produit par l’ensemble \[E_{1}\times E_{2} =\left\{ ({\mathbf{x_{1}}},{\mathbf{x_{2}}}) \text{ tels que } {\mathbf{x_{1}}}\in E_{1} \text{ et } {\mathbf{x_{2}}}\in E_{2} \right\}.\] On munit cet espace produit d’une addition et d’une multiplication induite par celles de \(E_{1}\) et de \(E_{2}\) : \[\begin{aligned} ({\mathbf{x_{1}}},{\mathbf{x_{2}}}) + ({\mathbf{y_{1}}},{\mathbf{y_{2}}}) &= ({\mathbf{x_{1}}}+ {\mathbf{y_{1}}},{\mathbf{x_{2}}}+{\mathbf{y_{2}}} )\\ \lambda({\mathbf{x_{1}}},{\mathbf{x_{2}}}) &= (\lambda{\mathbf{x_{1}}},\lambda{\mathbf{x_{2}}}) \end{aligned}\] Munis de ces opérations linéaires, l’espace produit \(E_{1}\times E_{2}\) est encore un espace vectoriel réel (resp. complexe).

Ainsi, par exemple on note \(\mathbb{R}^{2} = \mathbb{R}\times \mathbb{R}\) et par récurrence : \[\mathbb{R}^{n} = \mathbb{R}\times \mathbb{R}^{n-1} \quad \forall n=2,3,\dots\]

2.1.7 Cas des espaces vectoriels réels de dimension finie

Definition 2.5 On dit qu’un espace vectoriel \(E\) est de dimension \(n\) s’il possède une famille libre de \(n\) vecteurs et que toute famille de \(n+1\) vecteurs est lié.

Definition 2.6 On dit qu’une famille \(B\) de vecteurs de \(E\) est génératrice ou encore que cette famille engendre \(E\) si tout vecteur de \(E\) est une combinaison linéaire des vecteurs de \(B\).

Definition 2.7 Une base d’un espace vectoriel \(E\) est une famille libre et génératrice, c’est-à-dire qu’une base est constituée d’une famille de vecteurs linéairement indépendants et qui engendre \(E\).

Ainsi, si \(B=({\mathbf{b}}_{1},\dots,{\mathbf{b}}_{n})\) est une base de \(E\) alors tout vecteur \({\mathbf{x}}\) de \(E\) se décompose de manière unique en une combinaison linéaire des vecteurs de la base \(B\) : \[{\mathbf{x}}= \sum_{i=1}^{i=n} x_{i}{\mathbf{b}}_{i}.\] Les coefficients \(x_{1},\dots,x_{n}\) sont les coordonnées de \({\mathbf{x}}\) dans la base \(B\).

Theorem 2.1 Soit \(E\) un espace vectoriel de dimension \(n\).

Une famille de \(n\) vecteurs de \(E\) engendre \(E\) si et seulement si c’est une famille libre.
\(E\) possède au moins une base et toute base est constitué de \(n\) vecteurs.
Si \(Y=({\mathbf{y}}_{1},\dots,{\mathbf{y}}_{m})\) (\(1\leq m\leq n\)) est un système libre de \(E\), alors il existe une base de \(E\) contenant ce système. Autrement dit, on peut toujours compléter une famille libre en une base.

2.2 Cas des espaces \(\mathbb{R}^{n}\)

Générallement, les vecteurs de \(\mathbb{R}^n\) sont notés par une représentation dite matricielle : \[{\mathbf{x}} \longleftrightarrow \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = [x_{1},\dots,x_{n}]^\top,\] où le symbole \([...]^\top\) indique une matrice transposée (i.e les lignes sont remplacées par des colonnes).

La base canonique de \(\mathbb{R}^{n}\) est constituée des vecteurs \({\mathbf{e}}_{i}=[0,\dots,1,\dots,0]^\top\), dont toutes les coordonnées sont nulles sauf la \(i^{eme}\) qui vaut 1.

Si \({\mathbf{x}}\in \mathbb{R}^{n}\) avec \({\mathbf{x}}=[x_{1},\dots,x_{n}]^\top\), alors \[{\mathbf{x}}= \sum_{i=1}^{i=n}x_{i} {\mathbf{e}}_{i}\] La base \(({\mathbf{e}}_{1},\dots, {\mathbf{e}}_{n})\) est appelée base canonique de \(\mathbb{R}^{n}\).

On a alors de cette façon :

Theorem 2.2 L’espace \(\mathbb{R}\) est de dimension \(n\). On note dim \(\mathbb{R}^{n}=n\).

Theorem 2.3 Tout espace vectoriel de dimension \(n\) est isomorphe à \(\mathbb{R}^{n}\).

2.2.1 Produit scalaire Euclidien et norme Euclidienne dans \(\mathbb{R}^n\)

Soit \(E=\mathbb{R}^n\) et soit Pour tout \({\mathbf{x}}\) et \({\mathbf{y}}\) appartenant à \(E\) et dont les composantes dans la base canonique \(\{{\mathbf{e}}_i\}\) de \(E\) sont notées respectivement \(x_i\) et \(y_i\) : \[{\mathbf{x}} = \sum_{i=1} x_i {\mathbf{e}}_i, \quad {\mathbf{y}} = \sum_{i=1} y_i {\mathbf{e}}_i.\] On définit le produit scalaire (Euclidien) de \({\mathbf{x}}\) par \({\mathbf{y}}\) dans \(\mathbb{R}^n\)

\[({\mathbf{x}},{\mathbf{y}})_{\mathbb{R}^n} = \sum_{i=1}^n x_i y_i.\]

Il s’agit donc d’une application qui associe à deux éléments \({\mathbf{x}}\) et \({\mathbf{y}}\) de \(\mathbb{R}^n\), un nombre réel (un scalaire) qu’on note dans ce document \(({\mathbf{x}},{\mathbf{y}})_{\mathbb{R}^n}\).

Il y a beaucoup de notations possibles pour le produit scalaire de deux vecteurs. C’est une source importante de confusion chez certains étudiants :

\[\begin{aligned} ({\mathbf{x}},{\mathbf{y}})_{\mathbb{R}^n} & = ({\mathbf{x}},{\mathbf{y}})\\ & = < {\mathbf{x}},{\mathbf{y}}>\\ &= \langle{\mathbf{x}},{\mathbf{y}}\rangle\\ &= [x]^\top[y]\\ &= {\mathbf{x}}.{\mathbf{y}}. \end{aligned}\]

Les notations les plus courantes sont \(\langle{\mathbf{x}},{\mathbf{y}}\rangle\) et \(({\mathbf{x}},{\mathbf{y}})\), adoptée dans ce document, où la notion de produit scalaire Euclidien dans \(\mathbb{R}^n\) est implicite (encore un abus de notation).

On vérifie aisément les propriétés de bilinéarité et de symétrie :

Proposition 2.2 Soient \({\mathbf{x}},{\mathbf{y}},{\mathbf{z}} \in \mathbb{R}^n\) et soit un réél \(\lambda\). On a \[\begin{aligned} ({\mathbf{x}},{\mathbf{y}}) &= ({\mathbf{y}},{\mathbf{x}})\\ ({\mathbf{x}}+{\mathbf{z}},{\mathbf{y}})&= ({\mathbf{x}},{\mathbf{y}}) +({\mathbf{z}},{\mathbf{y}})\\ (\lambda{\mathbf{x}},{\mathbf{y}})&= \lambda({\mathbf{x}},{\mathbf{y}}) \end{aligned}\]

Le produit scalaire induit une forme quadratique et nous avons trivialement la propriété de positivité:

Proposition 2.3 Soit \({\mathbf{x}}\in\mathbb{R}^n\), alors \(({\mathbf{x}},{\mathbf{x}})\geq 0.\)

Theorem 2.4 Inégalité de Cauchy-Schwarz – \(\forall {\mathbf{x}},{\mathbf{y}} \in \mathbb{R}^n\), \[\label{ineq:CS} \left|{({\mathbf{x}},{\mathbf{y}})}\right| \leq ({\mathbf{x}},{\mathbf{x}})^{\frac{1}{2}}({\mathbf{y}},{\mathbf{y}})^{\frac{1}{2}}\]

Preuve

Proof. La preuve de cette inégalité repose sur une astuce classique utilisée dans un grand nombre de démostration mathématiques utilisant un paramètre scalaire \(\lambda\in\mathbb{R}\) : Considérons la quantité, nécessairement positive, quel que soit \(\lambda\) \[\begin{aligned} ({\mathbf{x}}+\lambda{\mathbf{y}},{\mathbf{x}}+\lambda{\mathbf{y}})&\geq 0 \end{aligned}\] En développant, on obtient \[({\mathbf{x}},{\mathbf{x}}) + 2\lambda({\mathbf{x}},{\mathbf{y}}) + \lambda^2({\mathbf{y}},{\mathbf{y}})\geq 0.\] On recconnait donc un polynôme en \(\lambda\) du second degré qui est toujours positif. Cela signifie que le discriminant de ce polynôme est nécessairement négatif, c’est à dire \[4({\mathbf{x}},{\mathbf{y}})^2-4 ({\mathbf{x}},{\mathbf{x}})({\mathbf{y}},{\mathbf{y}}) \leq 0\] d’où \[({\mathbf{x}},{\mathbf{y}})^2\leq ({\mathbf{x}},{\mathbf{x}})({\mathbf{y}},{\mathbf{y}}).\] ◻

Definition 2.8 Le produite scalaire dans \(\mathbb{R}^n\) induit la norme Euclidienne : \[\forall {\mathbf{x}}\in\mathbb{R}^n, \quad {\|{{\mathbf{x}}}\|}_{\mathbb{R}^n}= \left[\sum_{i=1}^{n}x_i^2 \right]^{\frac{1}{2}}.\]

On notera, sans ambiguité : \[{\|{{\mathbf{x}}}\|}_{}={\|{{\mathbf{x}}}\|}_{\mathbb{R}^n}.\] Grâce à l’inégalité de Cauchy-Schwarz, on montre facilement que la norme Euclidienne est bien une norme, c’est à dire qu’elle satisfait aux conditions, \(\forall {\mathbf{x}},{\mathbf{y}}\in\mathbb{R}^n\) et \(\forall \lambda\in\mathbb{R}\) : \[\begin{aligned} {\|{{\mathbf{x}}}\|}_{} = 0 &\Leftrightarrow {\mathbf{x}}=0\\ {\|{\lambda{\mathbf{x}}}\|}_{}&\leq\left|{\lambda}\right|{\|{{\mathbf{x}}}\|}_{}\\ {\|{{\mathbf{x}}+{\mathbf{y}}}\|}_{}&\leq {\|{{\mathbf{x}}}\|}_{}+{\|{{\mathbf{y}}}\|}_{}. \end{aligned}\]

2.3 Application linéaire

Dans toute la suite, sauf indication contraire, un espace vectoriel désignera un espace vectoriel réel.

Definition 2.9 Une application \(A\) d’un espace vectoriel \(E\) vers un espace vectoriel \(F\) est une application linéaire si

\(A({\mathbf{x}}_{1}+{\mathbf{x}}_{2}) = A({\mathbf{x}}_{1}) + A({\mathbf{x}}_{2})\) pour tout \({\mathbf{x}}_{1},{\mathbf{x}}_{2}\in E\).
\(A(\alpha{\mathbf{x}})= \alpha A({\mathbf{x}})\) pour tout \({\mathbf{x}}\in E\) et tout scalaire \(\alpha\).

Pour désigner une application linéaire, on lit parfois homomorphisme, dans un langage plus savant².

On note souvent \(A{\mathbf{x}}\), l’image d’un vecteur \({\mathbf{x}}\) par une application linéaire \(A\), au lieu de \(A({\mathbf{x}})\). C’est essentiellement parce qu’en représentation matricielle (voir plus loin) l’application ou la composition s’assimile à un produit de matrice.

Remarquons que si \(A\) est une application linéaire alors on a nécessairement \[A({\mathbf{0}}) = {\mathbf{0}}.\]

Proposition 2.4 Une application linéaire est entièrement déterminée par les images des vecteurs d’une base.

En effet, si \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) est une base de \(E\) alors tout vecteur \({\mathbf{x}}\) se décompose de manière unique \[{\mathbf{x}}= \sum_{i=1}^{i=n} \alpha_{i}{\mathbf{x}}_{i}.\] Alors la linéarité de \(A\) permet de calculer \(A({\mathbf{x}})\) à partir des vecteurs \(A({\mathbf{x}}_{i})\) : \[A({\mathbf{x}})= \sum_{i=1}^{i=n} \alpha_{i}A({\mathbf{x}}_{i}).\]

2.3.1 Opérateurs linéaires

Une application linéaire d’un espace vectoriel \(E\) à image dans \(E\) est appelée opérateur linéaire sur \(E\) (on lit aussi endomorphisme sur \(E\)).

Definition 2.10 Si \(A\) est un opérateur linéaire sur \(E\) qui établit une bijection de \(E\) vers \(E\), on dit que \(A\) est inversible. On peut alors définir l’application réciproque \(A^{-1}\) de \(E\) vers \(E\) par la relation \[A^{-1}( A{\mathbf{x}})= {\mathbf{x}}.\]

On a également \(A ( A^{-1}{\mathbf{x}})= {\mathbf{x}}\) et \(A^{-1}\) est linéaire.

Theorem 2.5 Soit \(A\) un opérateur linéaire sur un espace vectoriel de dimension finie \(E\), alors les conditions suivantes sont équivalentes

A est injectif
A est surjectif
A est bijectif

Preuve en annexe 1.9.1.

Signalons tout de même que ce théorème n’est plus vrai si \(E\) est de dimension infinie: pensez à l’espace vectoriel des suites numériques et l’application qui enlève le premier élément de la suite³ qui est une application surjective de l’espace des suites vers lui même mais qui n’est pas injective puisque le noyau n’est pas réduit à 0, c’est à dire la suite infinie de 0..

Encore quelques définitions :

Definition 2.11 On note \({\mathscr L}(E,F)\) l’ensemble des applications linéaires d’un espace vectoriel \(E\) vers une espace vectoriel \(F\).

Dans le cas des opérateurs linéaires, au lieu de \({\mathscr L}(E,E)\) on écrit plus simplement \({\mathscr L}(E)\).

Si \(A_{1}\) et \(A_{2}\) sont dans \({\mathscr L}(E,F)\) et si \(\alpha_{1}\) et \(\alpha_{2}\) sont deux scalaires, on définit l’application \(\alpha_{1}A_{1} + \alpha_{2}A_{2}\) par

\[(\alpha_{1}A_{1} + \alpha_{2}A_{2}) {\mathbf{x}} = \alpha_{1}A_{1} {\mathbf{x}} + \alpha_{2}A_{2}{\mathbf{x}}, \qquad {\mathbf{x}}\in E.\]

Naturellement on a \((\alpha_{1}A_{1} + \alpha_{2}A_{2})\in {\mathscr L}(E,F)\).

Definition 2.12 Si \(E\), \(F\) et \(Z\) sont trois espaces vectoriels et si \(A\in {\mathscr L}(E,F)\), \(B\in {\mathscr L}(F,Z)\), on définit leur produit \(BA\) comme étant la composée de \(A\) et \(B\) :

\[(BA){\mathbf{x}}= B(A {\mathbf{x}}) \qquad {\mathbf{x}}\in E.\]

On a alors \(BA \in {\mathscr L}(E,Z)\).

Soulignons que même si \(E=F=Z\), le produit d’opérateurs linéaires ne commute pas, i.e. \[AB\neq BA \quad\text{en général.}\]

Definition 2.13 Pour \(A \in{\mathscr L}(\mathbb{R}^{n}, \mathbb{R}^{m})\), on peut définir une norme de \(A\) par le sup de tous les vecteurs \({\|{A{\mathbf{x}}}\|}_{}\) quand \({\mathbf{x}}\) parcourt la boule unité de \(\mathbb{R}^{n}\) centrée en 0 :

\[{\|{A}\|}_{}= \sup_{{\|{{\mathbf{x}}}\|}_{}=1} {\|{A{\mathbf{x}}}\|}_{}.\]

Par linéarité, on a alors toujours l’inégalité :

\[{\|{A{\mathbf{x}}}\|}_{} \leq {\|{A}\|}_{}{\|{{\mathbf{x}}}\|}_{}.\]

Theorem 2.6

Si \(A\in{\mathscr L}(\mathbb{R}^{n}, \mathbb{R}^{m})\) alors \({\|{A}\|}_{} < +\infty\) et \(A\) est une application uniformément continue sur \(\mathbb{R}^{n}\).
Si \(A,B \in{\mathscr L}(\mathbb{R}^{n}, \mathbb{R}^{m})\) et si \(\alpha\) est un scalaire alors

\[{\|{A+B}\|}_{} \leq {\|{A}\|}_{}+ {\|{B}\|}_{} \qquad {\|{\alpha A}\|}_{} = \left|{\alpha}\right|{\|{A}\|}_{}.\]
Si \(A \in{\mathscr L}(\mathbb{R}^{n}, \mathbb{R}^{m})\) et \(B \in{\mathscr L}(\mathbb{R}^{m}, \mathbb{R}^{p})\) alors

\[{\|{BA}\|}_{} \leq {\|{A}\|}_{} {\|{B}\|}_{}.\]

Preuve en annexe 1.9.2.

2.3.2 Quelques exemples d’espaces vectoriels et d’applications linéaires

On note \(\mathbb{R}_{n}[X]\) l’ensemble des polynômes réels de degré \(\leq n\).
L’espace des fonctions définies sur un intervalle de \(\mathbb{R}\) (c’est un e.v. de dimension infinie)
L’ensemble des applications linéaires de \(\mathbb{R}^{n}\) dans \(\mathbb{R}^{m}\).
L’espace des matrices \(n\times m\) (de dimension \(mn\)).
L’ensemble des solutions d’une équation différentielle ordinaire homogène linéaire à coefficients constants ou non (dimension finie).
L’ensemble des solutions d’une équation aux dérivée partielles linéaires homogène.

Exercice : Pour chacun de ces exemples donner un sous-espace vectoriel.

2.4 Matrice d’une application linéaire

Soient \(X\) et \(Y\) deux espaces vectoriels de dimension respective \(n\) et \(m\).
Soient \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) et \(({\mathbf{y}}_{1},\dots,{\mathbf{y}}_{m})\) deux bases respectives de \(X\) et \(Y\). Toute application linéaire \(A\in {\mathscr L}(X,Y)\) détermine un ensemble de coefficients notés \(a_{ij}\) tels que \[\label{eq:1} A ({\mathbf{x}}_{j}) = \sum_{i=1}^{m} a_{ij}{\mathbf{y}}_{i}\qquad (1\leq j\leq n).\] Il est usuel et commode de représenter ces coefficients dans un tableau rectangulaire de \(m\) lignes et de \(n\) colonnes appelé matrice \(m\times n\) noté \(M(A)\)⁴, on parle alors de représentation matricielle de l’application linéaire : \[M(A)= \begin{bmatrix} a_{11}& a_{12} & \dots & a_{1n} \\ a_{21}& a_{22} & \dots & a_{2n} \\ \dots & \dots & \dots & \dots \\ a_{m1}& a_{m2}& \dots & a_{mn} \end{bmatrix}.\] Remarquons que les coordonnées \(a_{ij}\) du vecteur \(A ({\mathbf{x}}_{j})\) apparaissent dans la \(j^\text{ème}\) colonne de la matrice \(M(A)\). Les vecteurs \(A ({\mathbf{x}}_{j})\) sont donc parfois appelés vecteurs colonnes de la matrice \(M(A)\).

On appelle rang de \(A\), la dimension de l’image de \(X\) par \(A\). Il est donc égal à la dimension de l’espace engendré par le vecteurs colonnes de \(M(A)\).

A l’aide des coefficients de la matrice on peut déterminer l’image de tout vecteur \({\mathbf{x}}\) de \(X\) par \(A\). En effet, si \({\mathbf{x}}=\sum \alpha_{i}{\mathbf{x}}_{i}\), on déduit par linéarité de \(A\) que

\[\label{eq:4} A ({\mathbf{x}})= \sum_{i=1}^{m}\left( \sum_{j=1}^{n} a_{ij} \alpha_{j}\right) {\mathbf{y}}_{i}.\]

Réciproquement, donnons nous maintenant une matrice \(m\times n\) de coefficients \(a_{ij}\), notée \(M(A)\). Si on définit l’application \(A\) par la formule [eq:4], on remarque que \(A\in {\mathscr L}(X,Y)\), où nous rappelons que \(X\) et \(Y\) sont des espaces vectoriels de dimension \(n\) et \(m\) respectivement. Ainsi :

Theorem 2.7 Il y a une bijection entre \({\mathscr L}(X,Y)\) et l’ensemble des matrice \(m\times n\),

\(m\) lignes, dimension de l’espace d’arrivée,

\(n\) colonnes, dimension de l’espace de départ.

Exemple : Plaçons nous dans \(\mathbb{R}^{2}\) et \(\mathbb{R}^{3}\), si relativement à des bases \(({\mathbf{e}}_{1},{\mathbf{e}}_{2})\) et \(({\mathbf{f}}_{1},{\mathbf{f}}_{2},{\mathbf{f}}_{3})\), une application linéaire est définie comme

\[\begin{array}{ll} A({\mathbf{e}}_{1})&= {\mathbf{f}}_{1}+{\mathbf{f}}_{2}+{\mathbf{f}}_{3}\\ A({\mathbf{e}}_{2})&= {\mathbf{f}}_{1}-{\mathbf{f}}_{2}. \end{array}\]

Alors, la matrice de l’application linéaire \(A\) dans les bases considérées s’écrit :

\[A= \begin{bmatrix} 1 & 1 \\ 1 & -1 \\ 1 & 0 \end{bmatrix}.\]

Ainsi, si par exemple \[{\mathbf{x}}= \alpha_{1}{\mathbf{e}}_{1} + \alpha_{2}{\mathbf{e}}_{2},\]

alors

\[A({\mathbf{x}})= (\alpha_{1}+\alpha_{2}){\mathbf{f}}_{1} +(\alpha_{1}-\alpha_{2}){\mathbf{f}}_{2} +\alpha_{1}{\mathbf{f}}_{3}.\]

Ce qu’on note également noter sous la forme:

\[A\begin{bmatrix} \alpha_{1}\\ \alpha_{2} \end{bmatrix} = \begin{bmatrix} \alpha_{1}+\alpha_{2} \\\alpha_{1}-\alpha_{2}\\\alpha_{1} \end{bmatrix}.\]

2.4.1 Bijection entre \(\mathscr{L} (X,\mathbb{R})\) et \(X\)

Enchaînons par un résultat fondamental:

Theorem 2.8 Soit \(X\) un espace vectoriel réel de dimension finie. Étant donné une base de \(X\), on peut définir le produit scalaire : \(\forall {\mathbf{x}}=x_{i}{\mathbf{x}}_{i}\quad \forall {\mathbf{y}}=y_{i}{\mathbf{x}}_{i}\)

\[{\mathbf{x}}.{\mathbf{y}}= x_{i}y_{i}.\]

Ainsi pour tout \({\mathbf{x}}\in X\), on défini une forme linéaire sur \(X\). Réciproquement, toute forme linéaire sur \(X\), via sa représentation matricielle, peut être présentée comme un produit scalaire par un vecteur de \(X\).

Il existe donc une bijection entre \({\mathscr {L}}(X,\mathbb{R})\) et \(X\).

Corollary 2.1 Dans le cas où \(X=\mathbb{R}^{n}\) le produit scalaire rapporté à la base canonique définit la bijection naturelle entre \({\mathscr {L}}(\mathbb{R}^{n},\mathbb{R})\) et \(\mathbb{R}^{n}\).

Cette bijection est essentielle pour bien comprendre le calcul différentiel: Ainsi un réel \(a\) peut être identifié à une forme linéaire réelle définit par l’application qui associe à tout réel \(x\), la valeur \(ax\).

De même un vecteur \({\mathbf{a}}\in\mathbb{R}^{2}\) peut être identifié à forme linéaire réelle définit par l’application qui associe à tout vecteur \({\mathbf{x}}\), la valeur réelle \({\mathbf{a}}.{\mathbf{x}}\).

2.4.2 Norme d’une application linéaire

Terminons cette section par une proposition permettant d’obtenir une estimation de la norme d’une application linéaire grâce à sa représentation matricielle

Proposition 2.5 Soit \(a_{ij}\) les coefficients de la matrice de \(A\in{\mathscr L}(X,Y)\) de la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) de \(X\) dans \(({\mathbf{y}}_{1},\dots,{\mathbf{y}}_{n})\) de \(Y\). On a la majoration :

\[{\|{A}\|}_{} \leq \left( \sum_{i,j} a_{ij}^{2}\right)^{1/2}.\]

Preuve en annexe 1.9.3

2.4.3 Produit de deux matrices et composition de deux applications linéaires

Considérons à présent un troisième espace vectoriel \(Z\) de dimension \(p\) avec une base \(({\mathbf{z}}_{1},\dots,{\mathbf{z}}_{p})\). Si \(A\) est définie par [eq:1], définissons de la même manière une application linéaire \(B\in{\mathscr L}(Y,Z)\) à l’aide de coefficients \(b_{ki}\) : \[\label{eq:3} B ({\mathbf{y}}_{i}) = \sum_{k=1}^{p} b_{ki}{\mathbf{z}}_{k}\qquad (1\leq i\leq m).\] On peut alors définir l’application composée \(BA\in{\mathscr L}(X,Z)\) par

\[(BA)({\mathbf{x}}_{j}) =\sum_{k=1}^{p}c_{kj}{\mathbf{z}}_{k}.\]

Mais comme \[\begin{aligned} (BA)({\mathbf{x}}_{j})& =B( A {\mathbf{x}}_{j})\\ &= B\left(\sum_{i=1}^{m} a_{ij} {\mathbf{y}}_{i}\right)\\ &= \sum_{i=1}^{m} a_{ij} B( {\mathbf{y}}_{i})\\ &=\sum_{i=1}^{m} a_{ij}\sum_{k=1}^{p} b_{ki}{\mathbf{z}}_{k}, \end{aligned}\] on a finalement \[(BA)({\mathbf{x}}_{j}) =\sum_{k=1}^{p}\sum_{i=1}^{m} b_{ki} a_{ij} {\mathbf{z}}_{k},\] c’est à dire : \[\label{eq:5}c_{kj} = \sum_{i=1}^{m} b_{ki} a_{ij}.\] On dit aussi que la matrice \(p\times n\), notée \(C\), de coefficients \(c_{kj}\) est le produit de la matrice \(A\) par la matrice \(B\).

La formule [eq:5] donne la règle usuelle du produit de deux matrices.

Terminons par la règle : le produit d’une matrice \(n \times m\) par une matrice \(m \times p\), donne une matrice \(n \times p\). \[(n \times m) (m \times p)= (n\times p).\] Si les dimensions des espaces ne rentrent pas dans le cadre de cette règle, le produit n’est pas défini, les dimensions d’espaces étant incompatibles.

2.4.4 Changement de bases et Matrices de passage

Dans la pratique, et notamment en Mécanique, il apparaît souvent judicieux de passer d’un système de coordonnées à un autre suivant les besoins. Il est donc nécessaire de maîtriser les outils permettant ces passages.

Soit \(X\) un espace vectoriel de dimension \(n\) et soit un vecteur \({\mathbf{x}}\in X\) de coordonnées \(\alpha_{i}\) dans la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\). Soit \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\) une autre base de \(X\). Supposons connues les coordonnées des vecteurs \({\mathbf{x}}^{\prime}_{i}\) dans la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\):

\[{\mathbf{x}}^{\prime}_{j}=\sum_{i=1}^{n}p_{ij}{\mathbf{x}}_{i}.\]

On a donc défini une matrice \(P\) représentant l’application identité de \(X\), muni de la base \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\), dans \(X\), muni de la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\):

\[Id_{X}({\mathbf{x}}^{\prime}_{j})= {\mathbf{x}}^{\prime}_{j}= \sum_{i=1}^{n} p_{ij}{\mathbf{x}}_{i}.\]

Theorem 2.9 La matrice \(P\) ayant pour \(j^\text{ème}\) colonne les coordonnées de \({\mathbf{x}}^{\prime}_{j}\) dans la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) est inversible. On l’appelle la matrice de passage de la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) vers la base \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\).

De plus, si \(\alpha_{i}\) sont les “anciennes” coordonnées de \({\mathbf{x}}\) dans \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\), formant la matrice colonne (\(n\times 1\)) \([{\mathbf{x}}]_{x}\), on peut les exprimer en fonction des “nouvelles” coordonnées \(\alpha^{\prime}_{j}\) de \({\mathbf{x}}\) dans \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\), notées également par une matrice colonne \([{\mathbf{x}}]_{x^{\prime}}\) avec la formule : \[[{\mathbf{x}}]_{x}= P [{\mathbf{x}}]_{x^{\prime}} \quad \iff \quad P^{-1}[{\mathbf{x}}]_{x}=[{\mathbf{x}}]_{x^{\prime}}.\]

En résumé, si \[{\mathbf{x}} = \sum_{j=1}^{n} \alpha_{j}{\mathbf{x}}_{j} =\sum_{j=1}^{n} \alpha^{\prime}_{j}{\mathbf{x}}^{\prime}_{j}, \quad \text{et} \quad {\mathbf{x}}^{\prime}_{j}=\sum_{i=1}^{n}p_{ij}{\mathbf{x}}_{i},\]

alors \[\alpha_{i} = \sum_{j=1}^{n} p_{ij}\alpha^{\prime}_{j}.\]

Autrement dit, pour obtenir les “nouvelles” coordonnées en fonction des anciennes, il faut passer par la matrice de passage \(P^{-1}\) de la base \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\) vers la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\).

La notation \(P^{-1}\) est justifiée par le fait que \(P^{-1}\) est nécessairement la matrice inverse de \(P\). En effet, on doit avoir \[PP^{-1}=P^{-1}P= I_{n},\] où \(I_{n}\) est la matrice identité \(n\times n\).

Considérons maintenant une application linéaire \(A\in {\mathscr L}(X,Y)\) où \(X\) et \(Y\) sont toujours des espaces vectoriels de dimension \(n\) et \(m\) respectivement.

On muni \(X\) des bases \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) et \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\), avec \(P\) la matrice de passage de \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) vers \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\).

On muni de même \(Y\) des bases \(({\mathbf{y}}_{1},\dots,{\mathbf{y}}_{m})\) et \(({\mathbf{y}}^{\prime}_{1},\dots,{\mathbf{y}}^{\prime}_{m})\), avec \(Q\) la matrice de passage de \(({\mathbf{y}}_{1},\dots,{\mathbf{y}}_{m})\) vers \(({\mathbf{y}}^{\prime}_{1},\dots,{\mathbf{y}}^{\prime}_{m})\). Alors, on a la proposition :

Proposition 2.6 Soit \(M\) la matrice de \(A\) de la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) de \(X\) vers la base \(({\mathbf{y}}_{1},\dots,{\mathbf{y}}_{m})\)de \(Y\). Alors la matrice \(M^{\prime}\) de \(A\) de la base \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\) de \(X\) vers la base \(({\mathbf{y}}^{\prime}_{1},\dots,{\mathbf{y}}^{\prime}_{m})\) de \(Y\), se décompose : \[M^{\prime} = Q^{-1} M P.\]

Preuve

Proof. En effet, on a \[\left[A ({\mathbf{x}})\right]_{y^{\prime}} = M^{\prime}\left[{\mathbf{x}}\right]_{x^{\prime}}\]

et \[\left[A ({\mathbf{x}}\right]_{y^{\prime}} = Q^{-1}\left[A({\mathbf{x}})\right]_{y} =Q^{-1}M\left[{\mathbf{x}}\right]_{x} =Q^{-1}MP\left[{\mathbf{x}}\right]_{x^{\prime}}.\] ◻

Dans le cas particulier où \(A\) est un opérateur linéaire (on dit aussi endomorphisme) sur \(X\), si \(P\) est la matrice de passage de la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) vers la base \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\), alors si \(M\) et \(M^{\prime}\) sont les matrices de \(A\) dans \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) et \(({\mathbf{x}}^{\prime}_{1},\dots,{\mathbf{x}}^{\prime}_{n})\) respectivement, alors on a \[M^{\prime}= P^{-1}M P.\]

2.5 Cas des opérateurs linéaires – Matrices carrés

Dans le cas d’un opérateur linéaire (i.e. un endomorphisme) de \(\mathbb{R}^{n}\), la représentation matricielle est une matrice \(n\times n\). Une telle matrice, ayant le même nombre de ligne et de colonne, est dite carrée.

2.5.1 Adjoint d’un opérateur linéaire

Definition 2.14 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\), l’opérateur adjoint \(A^{*}\) est défini par : \[\forall {\mathbf{x}},{\mathbf{y}}\in \mathbb{R}^{n}, \quad \langle{A^{*}{\mathbf{x}}},{{\mathbf{y}}}\rangle=\langle{{\mathbf{x}}},{A{\mathbf{y}}}\rangle.\]

Proposition 2.7 Soit \(M\) la représentation matricielle d’un opérateur linéaire \(A\) de \(\mathbb{R}^{n}\) dans une certaine base orthonormée. Alors la représentation matricielle \(M^{*}\) de l’adjoint \(A^{*}\) dans cette même base est égale à la transposée de \(M\). \[M^{*}= M^{\perp}\quad\text{ ou encore }\quad M^{*}_{ij}=M_{ji}.\]

2.5.2 Partie symétrique et antisymétrique d’un opérateur linéaire de \(\mathbb{R}^{n}\)

Definition 2.15 La partie symétrique d’un opérateur linéaire \(A\) de \(\mathbb{R}^{n}\) est égale à la somme de \(A\) et de \(A^{*}\) divisé par deux: \[A_{sym}=\frac{1}{2}\left(A + A^{*}\right).\]

Definition 2.16 La partie antisymétrique d’un opérateur linéaire \(A\) de \(\mathbb{R}^{n}\) est égale à la somme de \(A\) et de \(-A^{*}\) divisé par deux: \[A_{antisym}=\frac{1}{2}\left(A - A^{*}\right).\]

Proposition 2.8 \[\begin{array}{ccl} A &= &A_{sym} + A_{antisym},\\ A_{sym}^{*}&=&A_{sym},\\ A_{antisym}^{*}&=&- A_{antisym}. \end{array}\]

Proposition 2.9 La partie antisymétrique d’un opérateur linéaire \(A\) de \(\mathbb{R}^{n}\) définit de manière unique un vecteur \({\mathbf{v}}\) de \(\mathbb{R}^{n}\) tel que \[\forall {\mathbf{x}} \in \mathbb{R}^{n},\quad A_{antisym}{\mathbf{x}}= {\mathbf{v}}\wedge {\mathbf{x}}.\]

Par exemple dans \(\mathbb{R}^{3}\), si \({\mathbf{v}}=(v_{1},v_{2},v_{3})\), on a \[{\mathbf{v}}\wedge {\mathbf{x}} = \begin{bmatrix} v_{2}x_{3} - v_{3}x_{2} \\ v_{3}x_{1} - v_{1}x_{3} \\ v_{1}x_{2} - v_{2}x_{1} \end{bmatrix} =\begin{bmatrix} 0 & -v_{3} & v_{2} \\ v_{3} & 0 & -v_{1} \\ -v_{2} & v_{1} & 0 \end{bmatrix} \begin{bmatrix} x_{1} \\ x_{2} \\ x_{3} \end{bmatrix}\]

2.6 Déterminant

2.6.1 Déterminant de \(n\) vecteurs de \(\mathbb{R}^{n}\)

Le théorème suivant est également une définition :

Theorem 2.10 Soit \(E=\mathbb{R}^{n}\), et soit \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) une base de \(E\). Il existe une unique \(n\)-forme alternée définie sur \(E^{n}\) appelée déterminant telle que \[\det_{({\mathbf{x}}_{i})}({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n}) = 1 .\]

\(E^{n}\) désigne le produit d’espace \(E\times E \times \dots \times E\) (\(n\) fois). Le déterminant étant alterné par définition, le déterminant de \(n\) vecteurs de \(E\) change de signe si on permute deux vecteurs : \[\det_{({\mathbf{x}}_{i})}({\mathbf{v}}_{1},\dots,{\mathbf{v}}_{j}, \dots,{\mathbf{v}}_{k},\dots,{\mathbf{v}}_{n}) = - \det_{({\mathbf{x}}_{i})}({\mathbf{v}}_{1},\dots,{\mathbf{v}}_{k}, \dots,{\mathbf{v}}_{j},\dots,{\mathbf{v}}_{n}).\] Par conséquent, le déterminant de \(n\) vecteurs est nul si deux vecteurs sont égaux : \[\det_{({\mathbf{x}}_{i})}({\mathbf{v}}_{1},\dots,{\mathbf{v}}_{j}, \dots,{\mathbf{v}}_{j},\dots,{\mathbf{v}}_{n}) = 0.\]

Plus généralement, si une famille de \(n\) vecteurs est lié, c’est-à-dire que au moins un des vecteurs est une combinaison linéaire des autres, par linéarité le déterminant est nécessairement nul.

Réciproquement, si une famille est libre, son déterminant est une combinaison linéaire non nulle du déterminant de la base. On énonce ainsi un critère pour déterminer si une famille de \(n\) vecteur de \(E\) est une base de ou non :

Theorem 2.11 Une famille \(({\mathbf{v}}_{1},\dots,{\mathbf{v}}_{n})\) de \(n\) vecteurs de \(E= \mathbb{R}^{n}\) , est une base de \(E\) si et seulement si \[\det_{({\mathbf{x}}_{i})} ({\mathbf{v}}_{1},\dots,{\mathbf{v}}_{n}) \neq 0.\]

Dans toute la suite, on définira toujours le déterminant rapporté à la base canonique de \(E\) plutôt qu’une base quelconque. Ainsi le déterminant ne sera désigné que par le symbole \(\det\).

2.6.2 Déterminant d’une matrice carré – Déterminant d’un opérateur linéaire

Soit \(A\) une matrice \(n\times n\), elle est donc constitué de \(n\) colonnes de matrices \(n\times 1\), chacune d’elles représentant un vecteurs de \(\mathbb{R}^{n}\) (ou n’importe quel espace vectoriel de dimension \(n\)). Ainsi on peut définir le déterminant d’une matrice par l’intermédiaire de ses vecteurs colonnes :

Definition 2.17 Le déterminant d’une matrice carré est défini par le déterminant de ses vecteurs colonnes.

Proposition 2.10 Soit \(I\) la matrice identité \(n\times n\), par définition \(\det I =1\).

Proposition 2.11 Soit \(A\) une matrice carré \(n\times n\), \[\det A = \det A^{\top}\]

Proposition 2.12 Soient \(A\) et \(B\) deux matrices \(n\times n\). Bien que \(A\) et \(B\) ne permutent pas en général, on a \[\det(AB)=\det(BA)=\det A \det B .\]

Cette dernière propriété permet de définir d’un opérateur linéaire : Soit \(f\) un opérateur linéaire sur \(E\) et soit \(A\) une représentation matricielle de \(f\) dans une base \(({\mathbf{x}}_{i})\) et \(B\) la représentation matricielle de \(f\) dans une autre base \(({\mathbf{y}}_{i})\). Par conséquent il existe une matrice de passage \(P\) de la base \(({\mathbf{x}}_{i})\) vers la base \(({\mathbf{y}}_{i})\). Si bien que \[\det A = \det (P^{-1} B P) = \det ( P P^{-1} B) = \det B .\] Autrement dit, si on définit le déterminant d’un opérateur linéaire par le déterminant de sa représentation matricielle dans une base, ce déterminant est indépendant du choix de la base.

Definition 2.18 Soit \(f\) un opérateur linéaire sur \(E\) et soit \(A\) une représentation matricielle de \(f\) dans une base \(({\mathbf{x}}_{i})\) \[\det f = \det A .\]

Theorem 2.12 Un opérateur linéaire est bijectif ou inversible si et seulement si son déterminant est non nul.

2.6.3 Règles de calcul d’un déterminant – Développement suivant une ligne ou une colonne

Soit \(A\) une matrice carré \(n\times n\) dont les coefficients sont \(a_{ij}\). On définit des sous-matrices extraites de \(A\) utiles pour le calcul d’un déterminant :

Definition 2.19 On appelle mineur de \(a_{ij}\) dans \(A\), le déterminant de la sous matrice extraite de \(A\) ôtée de la \(i\)-ème ligne et la \(j\)-ème colonne. On le note \(\Delta_{ij}\).

Definition 2.20 On note Com\(A\), la matrice dont les composantes notées \(A_{ij}\) sont les cofacteurs de \(A\) : \[A_{ij} = (-1)^{i+j}\Delta_{ij} .\] On dit que Com\(A\) est la matrice des cofacteurs de \(A\).

Theorem 2.13 Soit \(A\) une matrice carré \(n\times n\) dont les coefficients sont \(a_{ij}\) et soient \(A_{ij}\) ses cofacteurs.

On a alors le développement du déterminant suivant la \(i\)-ème ligne : \[\det A = \sum_{j=1}^{n} a_{ij} A_{ij},\] et le développement suivant la \(j\)-ème colonne : \[\det A = \sum_{i=1}^{n} a_{ij} A_{ij}.\]

Une conséquence immédiate est le calcul très simple du déterminant d’une matrice triangulaire supérieure (resp. inférieure), i.e. une matrice dont les coefficients au dessous (resp. au dessus) de la diagonale sont tous nuls :

Proposition 2.13 Soit \(A\) une matrice carré triangulaire, son déterminant est le produit de ses coefficients diagonaux.

Proposition 2.14 Soit \(A\) une matrice \(2\times 2\) de coefficients \(a_{\alpha\beta}\), \[\det A = \left| \begin{matrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{matrix}\right| = a_{11}a_{22} -a_{12} a_{21}.\]

Preuve : On vérifie aisément que la forme linéaire ainsi définie est alternée et satisfait à \(\det I =1\) où \(I\) désigne la matrice identité. Par définition, c’est le déterminant.

Ainsi pour calculer le déterminant d’une matrice \(3\times 3\) on peut développer suivant la 3-ème colonne (par exemple) : \[\left| \begin{matrix} a_{11} & a_{12} & a_{13}\\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{matrix}\right| = (-1)^{1+3}a_{13} \left| \begin{matrix} a_{21} & a_{22}\\ a_{31} & a_{32}\end{matrix}\right| + (-1)^{2+3}a_{23} \left| \begin{matrix} a_{11} & a_{12}\\ a_{31} & a_{32} \end{matrix}\right| + (-1)^{3+3}a_{33} \left| \begin{matrix} a_{11} & a_{12}\\ a_{21} & a_{22} \end{matrix}\right|.\]

On termine par une formule donnant l’inverse d’une matrice :

Theorem 2.14 Soit \(A\) une matrice carré \(n\times n\) inversible, alors si \(A^{-1}\) désigne son inverse on a \[\label{eq:comat} A^{-1} =\frac{1}{ \det A}\text{Com }A^{\top} .\]

Remarque

La formule [eq:comat] a un intérêt uniquement théorique. En effet, cette formule nécessite un nombre de calculs extrêmement important (\(\thicksim n!\)), elle devient donc rédhibitoire dès que le système n’est pas ridiculement petit : \(n\geq 3\) pour un calcul humain, pour \(n=12\) on atteint quasiment \(10^9\) opérations... Pour inverser une matrice ou plutôt résoudre des systèmes linéaires, on aura recours à divers algorithmes tels que la méthode du pivot de Gauss, la factorisation LU ou des méthodes itératives d’approximation telles que la méthode du Gradient Conjugué, GMRES, voir le chaptitre d’analyse numérique (non-écrit à ce jour ...)

2.7 Éléments de théorie spectrale

2.7.1 Spectre d’un opérateur linéaire

Definition 2.21 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\), un scalaire \(\lambda\in \mathbb{R}^{n}\) est une valeur propre de \(A\) si il existe un vecteur non nul \({\mathbf{x}}\) tel que : \[A {\mathbf{x}} = \lambda{\mathbf{x}}.\]

On dit alors que \({\mathbf{x}}\) est un vecteur propre associé à \(\lambda\).

L’ensemble des valeurs réelles \(\lambda\) pour lesquels l’application \([A - \lambda\text{I}]\) est une bijection, est appelé ensemble résolvant. Le complémentaire sur \(\mathbb{R}\) de l’ensemble résolvant est le spectre de \(A\).

Remarque

Il est clair que l’ensemble des valeurs propres est contenu dans le spectre. Cette inclusion est une égalité dans le cas où \(A\) opère sur un espace de dimension finie, mais est stricte dans le cas général : Pensez à l’opérateur shift dans l’espace vectoriel des suites numériques de carré sommable : 0 est dans le spectre mais n’est pas une valeur propre !

Definition 2.22 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\), le le déterminant \[P_{A}(X)= \det{(A-XI_{n})},\] c’est un polynôme de degré \(n\). On l’appelle polynôme caractéristique de \(A\).

Le polynôme caractéristique est utile dans la détermination des valeurs propres d’un opérateur linéaire :

Proposition 2.15 Les racines du polynôme caractéristique d’un opérateur linéaire \(A\) sont les valeurs propres de \(A\).

Remarquons que les valeurs propres étant des racines d’un polynôme, il est tout à fait possible qu’elles n’existent pas toutes dans \(\mathbb{R}\) (c’est-à-dire que certaines sont complexes).

2.7.2 Réduction d’un opérateur linéaire

Definition 2.23 On dit qu’un opérateur linéaire sur \(\mathbb{R}^{n}\) est diagonalisable si il existe une base de vecteurs propres. Dans une telle base la représentation matricielle de \(A\) est une matrice diagonale composée des valeurs propres de \(A\).

Proposition 2.16 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\), et soient \({\mathbf{v}}_{1},{\mathbf{v}}_{2},\dots,{\mathbf{v}}_{n}\), une base de vecteurs propres associées aux valeurs propres \(\lambda_{i}\). Soit \(D\) la matrice, diagonale, dont tous les coefficients sur la diagonale est constitués des valeurs propres \(\lambda_{1},\lambda_{2},\dots,\lambda_{n}\) et dont tous les autres coefficients sont nuls. Alors \(D\) est la représentation matricielle de \(A\) dans la base de vecteurs propres associée. \[D= \begin{bmatrix} \lambda_{1} & 0 & \dots & 0 \\ 0 & \lambda_{2}& \dots & 0 \\ \vdots & \vdots & \ddots& \vdots \\ 0 & 0 & \dots & \lambda_{n} \end{bmatrix}\] Si de plus \(P\) est la matrice de passage d’une base \({\mathbf{p}}_{1},{\mathbf{p}}_{2},\dots,{\mathbf{p}}_{n}\) vers la base de vecteurs propres \({\mathbf{v}}_{1},{\mathbf{v}}_{2},\dots,{\mathbf{v}}_{n}\), alors la représentation matricielle \(M\) de \(A\) dans la base \({\mathbf{p}}_{1},{\mathbf{p}}_{2},\dots,{\mathbf{p}}_{n}\) est donné par : \[M = P D P^{-1}.\]

En général, un opérateur linéaire (resp. une matrice carrée) n’est pas diagonalisable, il suffit de penser aux cas de valeurs propres complexes. Il est cependant possible d’isoler quelques cas où il est possible de diagonaliser :

Proposition 2.17 Soit \(A\) un opérateur linéaire sur \(E\) un espace vectoriel réel de dimension \(n\). Si les valeurs propres sont toutes distinctes et réelles, alors \(A\) est diagonalisable.

Naturellement la proposition précédente n’est pas du tout une condition nécessaire, est une application peut posséder des valeur propres multiples et être diagonalisable : pensez à l’opérateur identité.

Terminons par deux résultats très importants :

Theorem 2.15 Il est toujours possible de trigonaliser un opérateur linéaire dans \(\mathbb{C}\) (resp. une matrice carrée).

Il s’en suit le théorème

Theorem 2.16 Cayley-Hamilton – Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\) et \(P_{A}\) son polynôme caractéristique, alors \(P_{A}(A)=0\).

En fait, la réduction d’un endomorphisme (un opérateur linéaire), s’applique également lorsqu’on a pas diagonalisation : c’est la décomposition spectrale.

Theorem 2.17 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\). On suppose que le polynôme minimal de \(A\) est scindé (pas de racines complexes). Alors on peut décomposer \(A= D+N\) où \(D\) est diagonale et \(N\) est nilpotente. De plus \(N\) et \(D\) commutent. Cette décomposition est unique.

2.8 Cas des opérateurs auto-adjoint ou matrices symétriques

Le cas des matrices symétriques est très utile en mécanique et en mathématiques pour l’ingénieur en général, puisque la plupart des objets rencontrés comme les formes d’énergie de déformation élastique (tenseur des contraintes, des déformations) pourront être représentées (dans leur version discrétisée) par de telles matrices, voir la méthode des éléments-finis par exemple.

Commençons par un résultat fondamental concernant les matrices symétriques:

Theorem 2.18 []{#th:(ax,x) label=“th:(ax,x)”} Soit \(A\) un opérateur linéaire autoadjoint (i.e, symétrique) de \(\mathbb{R}^{n}\) alors toutes ses valeurs propres sont réelles et \(A\) est diagonalisable. De plus il existe une base orthonormée de vecteurs propres.

Preuve

Proof. Soit \(\lambda\) une valeur propre de \(A\) et soit \({\mathbf{v}}\) un vecteur propre associé. On a alors que \[\begin{aligned} (A{\mathbf{v}},A{\mathbf{v}}) &= \lambda^2 ({\mathbf{v}},{\mathbf{v}}) \end{aligned}\] Autrement dit : \(\lambda^2\geq 0\), ce qui signifie que \(\lambda\) est nécessairement réel. On déduit que toutes les valeurs propres sont réelles et donc que \(A\) est diagonalisable.

Soit deux vecteurs propres \({\mathbf{v}}_1\) et \({\mathbf{v}}_2\) associés respectivement aux valeurs propres \(\lambda_1 \neq \lambda_2\). Alors, on a \[\begin{aligned} ({\mathbf{v}}_1,{\mathbf{v}}_2) &= \frac{1}{\lambda_1}(A{\mathbf{v}}_1,{\mathbf{v}}_2) \\ &= \frac{1}{\lambda_1}({\mathbf{v}}_1,A^\top{\mathbf{v}}_2)\\ &= \frac{1}{\lambda_1}({\mathbf{v}}_1,A{\mathbf{v}}_2)\\ &= \frac{\lambda_2}{\lambda_1}({\mathbf{v}}_1,{\mathbf{v}}_2) \end{aligned}\] Si bien que puisque \(\lambda_1 \neq \lambda_2\), alors nécessairement \(({\mathbf{v}}_1,{\mathbf{v}}_2)\), c’est à dire qu’ils sont orthogonaux. ◻

Definition 2.24 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\).
On dit que \(A\) est positive si \(\forall {\mathbf{x}}\in \mathbb{R}^{n}\), \(A({\mathbf{x}}).{\mathbf{x}}\geq 0\).
On dit que \(A\) est définie positive si il existe \(c>0\) telle que \(\forall {\mathbf{x}}\in \mathbb{R}^{n}\), \(A({\mathbf{x}}).{\mathbf{x}}\geq c {\|{{\mathbf{x}}}\|}_{}\).

Ainsi, soit \({\mathbf{v}}_1, \dots,{\mathbf{v}}_{n}\) une base orthonormée de vecteurs propres associés aux valeurs propres \(\lambda_i\) d’une matrice symétrique \(A\). Alors pour tout \({\mathbf{v}}\in\mathbb{R}^n\), il existe une décomposition unique \[{\mathbf{v}} = \alpha_i{\mathbf{v}}_i\] de sorte que \[(A{\mathbf{v}},{\mathbf{v}}) = \lambda_i\alpha_i^2,\quad \text{et} \quad ({\mathbf{v}},{\mathbf{v}})=\alpha_i\alpha_i = {\|{v}\|}_{}^2\] si bien que, si \(\lambda_{min}\) et \(\lambda_{max}\) désignent respectivment la plus petite et la plus grande des valeurs propres de \(A\), \[\lambda_{min} {\|{v}\|}_{}^2\leq (A{\mathbf{v}},{\mathbf{v}}) \leq \lambda_{max} {\|{v}\|}_{}^2\] d’où

Theorem 2.19 Soit \(A\) un opérateur linéaire sur \(\mathbb{R}^{n}\), \(A\) est définie positive si et seulement si toutes ses valeurs propres sont strictement positives.

Des algorithmes de résolution de systèmes linéaires pour de telles matrices sont particulièrement efficaces à l’exemple de la méthode du gradient conjugué (+ une technique de préconditionnement) basé sur une méthode de descente.

Terminons par un résultat d’optimisation quadratique fondamental :

Theorem 2.20 Soient \(A\in\mathbb{R}^{n\times n}\) une matrice symétrique, \(b\in\mathbb{R}^n\) et soit la fonctionelle \[J({\mathbf{v}}) = \frac{1}{2}(A{\mathbf{v}},{\mathbf{v}}) -(b, {\mathbf{v}}).\] Alors le problème de minimisation \(J\) sur \(\mathbb{R}^{n}\) est équivallent au problème linéaire \[A{\mathbf{v}} =b.\] Si de plus \(A\) est définie positive, alors il existe une unique solution à ces problèmes.

2.9 Annexe : quelques preuves

2.9.1 Preuve du théorème [thm:4]

Supposons que \(X\) soit de dimension égale à \(n\) et soit \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\) une base de \(X\). D’après la linéarité de \(A\), l’image de \(A\) est engendré par le système de \(n\) vecteurs \(S= (A{\mathbf{x}}_{1},\dots,A{\mathbf{x}}_{n})\), on en déduit que \(S\) engendre \(X\) (autrement dit que \(A\) est surjectif) si \(S\) est un système libre.

Montrons que si \(A\) est injectif alors \(A\) est surjectif.

Si \(A\) est injectif, cela signifie que \(A{\mathbf{x}}=0 \Longrightarrow {\mathbf{x}}=0\). Or si \[\sum_{i=1}^{i=n} \alpha_{i}{\mathbf{x}}_{i} =0\] on a par linéarité de \(A\) \[A \left( \sum_{i=1}^{i=n} \alpha_{i}{\mathbf{x}}_{i}\right) =0\Longrightarrow \sum_{i=1}^{i=n} \alpha_{i}{\mathbf{x}}_{i}=0\] mais comme les \({\mathbf{x}}_{i}\) sont une famille libre, on obtient que les coefficients \(\alpha_{i}\) sont nécessairement tous nuls. Autrement dit que le système \(S\) est libre.

Réciproquement, montrons que si \(A\) est surjectif alors \(A\) est injectif.

Si \(A\) est surjectif cela signifie que le système \(S\) est libre. Alors si \({\mathbf{x}}= \sum \alpha_{i}{\mathbf{x}}_{i}\) annule l’opérateur \(A\) : \(A{\mathbf{x}} = 0\), alors par linéarité on a \[0= A({\mathbf{x}}) = A \left(\sum_{i=1}^{i=n} \alpha_{i} {\mathbf{x}}_{i}\right) = \sum_{i=1}^{i=n} \alpha_{i} A ({\mathbf{x}}_{i})\] mais puisque \(S\) est une famille libre, cela signifie que les coefficients \(\alpha_{i}\) sont tous nuls, autrement dit que \({\mathbf{x}}\) est nécessairement nul, ce qui prouve que \(A\) est injectif.

2.9.2 Preuve du théorème [thm:5]

Soit \({\mathbf{x}}\) un vecteur tel que \({\|{{\mathbf{x}}}\|}_{}=1\). \({\mathbf{x}}\) se décompose dans la base canonique sous la forme \[{\mathbf{x}}=\sum_{i=1}^{i=n}\alpha_{i}{\mathbf{e}}_{i}.\] Puisque \({\|{{\mathbf{x}}}\|}_{}=\left({\sum_{i=1}^{i=n}\alpha_{i}^{2}}\right)^{1/2}=1\). On a alors nécessairement \(\left|{\alpha_{i}}\right|\leq 1\), d’où \[{\|{A{\mathbf{x}}}\|}_{}= {\|{\sum_{i=1}^{i=n}\alpha_{i}A({\mathbf{e}}_{i})}\|}_{} \leq \sum_{i=1}^{i=n}\left|{\alpha_{i}}\right|{\|{A{\mathbf{e}}_{i}}\|}_{} \leq \sum_{i=1}^{i=n}{\|{A{\mathbf{e}}_{i}}\|}_{}\leq n < +\infty\] Puisque nous avons pour tout \({\mathbf{x}}\), \({\mathbf{y}}\in \mathbb{R}^{n}\), \({\|{A{\mathbf{x}} - A{\mathbf{y}}}\|}_{}\leq {\|{A}\|}_{}{\|{{\mathbf{x}}-{\mathbf{y}}}\|}_{}\), on en déduit l’uniforme continuité.
De la linéarité de \(A\), nous obtenons facilement \[{\|{(A+B){\mathbf{x}}}\|}_{} \leq {\|{A({\mathbf{x}})+B({\mathbf{x}})}\|}_{} \leq {\|{A({\mathbf{x}})}\|}_{} + {\|{B({\mathbf{x}})}\|}_{} \leq ({\|{A}\|}_{} +({\|{B}\|}_{}){\|{{\mathbf{x}}}\|}_{}\] de même \[{\|{\alpha A({\mathbf{x}})}\|}_{} =\left|{\alpha}\right|{\|{{\mathbf{x}}}\|}_{}.\]
Enfin, on a \[{\|{(BA){\mathbf{x}}}\|}_{} \leq {\|{B(A{\mathbf{x}})}\|}_{} \leq {\|{B}\|}_{}{\|{A{\mathbf{x}}}\|}_{}\leq {\|{B}\|}_{}{\|{A}\|}_{} {\|{{\mathbf{x}}}\|}_{}\]

2.9.3 Preuve de la proposition [prop1]

Soit \({\mathbf{x}}\in X\), de coordonnées \(\alpha_{i}\) dans la base \(({\mathbf{x}}_{1},\dots,{\mathbf{x}}_{n})\), d’après l’inégalité de Schwarz on a \[{\|{A({\mathbf{x}})}\|}_{}^{2} = \sum_{i=1}^{m} \left( \sum_{j=1}^{n} a_{ij}\alpha_{j} \right)^{2} \leq \sum_{i=1}^{m} \left( \sum_{j=1}^{n} a_{ij}^{2} \sum_{k=1}^{n}\alpha_{k}^{2} \right) \leq \sum_{i,j} a_{ij}^{2} {\|{x}\|}_{}^{2}.\]

Queysanne, Michel. 1964. Algèbre – 1er Cycle Scientifique – Préparation Aux Grandes Écoles. Armand Colin – Collectuion U.

Comme on pourra le remarquer, en Mathématique plus on est abstrait et plus on est précis ;-)... C’est comme ça! Et encore: ici, nous nous sommes restreint aux cas réel ou complexe...↩︎
la notion d’application linéaire peut être considérée comme le prolongement d’un homomorphisme de groupe à un espace vectoriel↩︎
c’est l’opérateur shift en anglais↩︎
On le note également d’autres façon telles que \((A)\) ou encore \(M\) ou bien \([A]\), pour être tout à fait rigoureux il faudrait indiquer Mat(A,\(\{{\mathbf{x}}_{j}\},\{{\mathbf{y}}_{i}\}\)); c’est-à-dire indiquer la matrice de l’application linéaire \(A\) de la base de départ\(\{{\mathbf{x}}_{j}\}\) dans la base d’arrivée \(\{{\mathbf{y}}_{i}\}\).↩︎