[MUSIQUE] Bonjour. Dans cette deuxième séance du cours 4, nous allons plus précisément étudier les premiers moments d'un vecteur aléatoire, à savoir définir une notion d'espérance pour le vecteur aléatoire et généraliser la notion de variance que nous avions définie pour une variable aléatoire à valeurs réelles. Nous allons tout d'abord regarder quelques petites propriétés des couples de variables aléatoires et supposer ici que les deux coordonnées grand X et grand Y d'un couple de variables aléatoires sont des variables aléatoires réelles de carré intégrable. Je vous rappelle que cette définition veut dire que X au carré et Y au carré admettent une espérance finie. Dans ces cas-là , premier résultat intéressant, nous pouvons montrer que le couple XY de variables aléatoires est intégrable et pour ce faire, nous allons utiliser cette inégalité bien classique qui est liée à la formule du binome, à savoir que valeur absolue de XY est inférieure ou égale à un demi de X2 plus Y2. Donc, vous voyez que si nous avons cette inégalité-là , eh bien, l'espérance de valeur absolue de XY qui est toujours bien définie puisque valeur absolue de XY est positive et cette espérance va être plus petit que un demi espérance de X2 plus espérance de Y2. Puisque X et Y sont dans L2, les espérances de X2 et de Y2 sont finies et donc l'espérance de valeur absolue de XY est finie, ce qui entraîne que XY est bien une valeur aléatoire réelle intégrable. Donc, nous pouvons calculer l'espérance de XY et je vous renvoie au cours 4 séance 1, c'est à dire à la séance précédente pour savoir par exemple comment on peut calculer l'espérance de XY si le couple XY admet une loi à densité. Ici, nous allons nous intéresser plus particulièrement à une inégalité qui peut servir beaucoup dans la pratique qui s'appelle l'inégalité de Cauchy-Schwarz. Donc, là encore nous allons supposer que grand X et grand Y sont deux variables aléatoires de carré intégrable et l'inégalité nous dit que l'espérance de valeur absolue de XY, nous avons vu juste précédemment qu'elle était finie mais en fait ici, ce qu'on nous dit, c'est qu'elle va être inférieure ou égale à la racine de l'espérance de X2 plus, fois pardon, l'espérance de Y2. La preuve ici entraînait que l'espérance de valeur absolue de XY était inférieure à un demi de espérance de X2 plus espérance de Y2. Vous voyez qu'ici l'inégalité est d'une autre nature. On va majorer l'espérance du produit XY par le produit des écarts-types de racine de espérance de X2 fois espérance de Y2. Alors, nous allons montrer cette inégalité-là et comme toutes les inégalités de Cauchy-Schwarz, l'inégalité provient d'une astuce qui consiste à introduire un réel quelconque, donc je vais introduire un réel lambda et nous allons considérer la variable aléatoire lambda valeur absolue de X plus valeur absolue de Y. Nous allons en prendre son carré et puisque c'est le carré d'une variable aléatoire à valeurs réelles, elle est bien évidemment positive. Donc, je peux en déduire immédiatement que son espérance est positive. Nous savons que l'espérance est un opérateur linéaire et nous allons utiliser cette propriété-là en développant ici le carré lambda X plus Y grâce à la formule du binome. Donc en fait, nous avons espérance de lambda au carré X au carré plus 2 fois lambda valeur absolue de XY plus Y au carré et tout ceci est positif, je vous rappelle, quel que soit lambda dans grand R. Nous utilisons maintenant la linéarité de l'espérance et nous avons lambda au carré espérance de X au carré plus 2 lambda espérance de valeur absolue de XY plus espérance de Y2 qui est positif quel que soit lambda. Si maintenant nous nous fixons sur le point de vue de dépendance de cette expression en lambda, en fait nous remarquons que cette quantité-là , c'est un polynôme du second degré en lambda. Je l'appelle P lambda. Et nous avons des critères pour assurer qu'un polynôme du second degré est toujours de signe constant, toujours ici positif. Et ce critère-là , il est lié au discriminant du polynôme. je vous rappelle, hein, si on regarde le polynôme ax2 plus bx plus c, le discriminant, c'est b2 moins 4 ac ou ici on peut le simplifier un peu parce que le coefficient du terme lambda est pair et donc nous allons regarder ce qu'on appelle le discriminant réduit, c'est-à -dire espérance de valeur absolue de XY, le tout au carré, moins le produit des deux paramètres ici, espérance de X au carré espérance de Y au carré. Et ce que vous savez sans doute depuis longtemps, c'est que le polynôme P va être positif pour tout lambda quel que soit lambda si et seulement si ce discriminant est négatif ou nul. Ecrire que le discriminant est négatif ou nul, c'est exactement écrire que l'espérance de valeur absolue de XY est inférieure ou égale à la racine de espérance de X2 espérance de Y2 et nous avons ainsi montré l'inégalité de Schwarz. Alors, une petite remarque, que veut dire le fait que le discriminant est nul? Eh bien en fait, cela va dire exactement que X et Y sont proportionnels. Je vous rappelle que X et Y sont des fonctions hein, des fonctions de oméga, ça, ça veut dire qu'il existe lambda 0 tel que pour tout oméga de grand oméga, X de oméga, lambda 0 X de oméga plus Y de oméga est égal à 0, hein, le lambda 0 bien sûr est indépendant de oméga. C'est une inégalité fonctionnelle. Donc, pour remarquer ça, eh bien, il suffit d'écrire ce que veut dire le discriminant nul, je vous rappelle que pour un polynôme du second degré, dire que le discriminant est nul est équivalent à dire que le polynôme admet une et une seule racine réelle, hein, que je vais appeler lambda 2 et je vous renvoie à ces études de polynômes du second degré, vous pourrez montrer par exemple que lambda 0 s'écrit sous la forme moins espérance de valeur absolue de XY divisé par espérance de X au carré. Et on peut montrer que nous avons de ce fait que le, P en lambda 0 est égal à 0, ce qui est équivalent à dire que l'espérance de lambda 0 X plus Y au carré égal 0. Hein, et ça, ça implique que pour presque tout oméga, eh bien, lambda 0 X de oméga plus Y de oméga est égal à 0. Alors, je peux obtenir le résultat avec des valeurs absolues ou sans les valeurs absolues. Bien, donc ça, c'est un petit complément de l'inégalité de Schwarz. Alors, nous allons maintenant définir une extension de la notion de variance pour un couple de variables aléatoires. Hein, je vous rappelle, la variance est, c'est une quantité numérique qui caractérise l'écart entre une variable aléatoire et sa moyenne et son espérance. Ici, ce que nous voulons prendre en compte, ce sont les corrélations entre les deux coordonnées du couple de variables X et Y et nous allons définir pour donc toujours des variables aléatoires X et Y de carré intégrable, nous allons définir la notion de covariance de X et Y comme étant le nombre réel donc que je note Cov de XY, hein, ça dépend donc du couple de variables aléatoires et c'est défini donc comme étant l'espérance de X moins E de X, donc la différence entre la variable et sa moyenne facteur de Y moins E de Y. Cette espérance-là peut prendre un signe quelconque comme vous pourrez le voir dans des exemples de calculs, c'est pas toujours positif comme la variance. Alors, ce qu'on peut montrer tout de suite, c'est que on peut l'écrire comme ça, vous voyez que c'est le produit des différences entre les variables aléatoires et leur moyenne et on en prend l'espérance. On peut aussi voir la covariance comme la différence entre l'espérance du produit XY et le produit des espérances, espérance de X fois espérance de Y. Alors, montrer cette égalité-là n'est pas du tout compliqué. Donc je l'ai fait ici, il suffit de développer ce produit à l'intérieur de l'espérance, ce que nous avons fait ici et vous voyez que vous avez espérance de XY moins X fois espérance de Y moins Y fois espérance de X plus espérance de X espérance de Y. Là encore, nous utilisons le fait que l'espérance est un opérateur linéaire et vous voyez que bon ici vous allez avoir espérance de XY moins, alors, je regarde l'espérance de X espérance de Y mais l'espérance de Y est un nombre donc il peut sortir de l'espérance et vous, cette quantité, l'espérance de cette quantité-là va être moins espérance de X espérance de Y. Ensuite, je refais la même chose ici. Je vais encore avoir une fois moins espérance de Y espérance de X. Ca me fait donc moins 2 fois espérance de X espérance de Y et ici, j'ai l'espérance du nombre espérance de X espérance de Y qui est le nombre lui-même. Donc finalement, vous voyez que tout ça regroupé ensemble nous donne espérance de XY moins espérance de X espérance de Y. Alors, une remarque. Que vaut la covariance de X fois X? Eh bien, c'est l'espérance de X moins E de X fois X moins E de X. C'est donc l'espérance de X moins E de X au carré, c'est la variance. Hein, donc sur sa diagonale, la covariance est égale à la variance. De plus, puisque l'espérance comme nous l'avons rappelé est un opérateur linéaire, nous pouvons montrer que la covariance est linéaire en chacune de ses coordonnées. Donc la covariance sur l'espace des variables aléatoires qui appartiennent à L2 est ce qu'on appelle une forme bilinéaire symétrique. Alors, nous allons calculer la covariance pour le couple de variables aléatoires sur lequel nous travaillons depuis le début de ce cours, à savoir les impacts dans notre tir de fléchettes sur une cible de rayon 1. Donc, je vous rappelle qu'on a calculé la densité de chacune des coordonnées du vecteur aléatoire qui a cette forme-là . Hein, sachant que la densité du couple est ici. Alors, une remarque. Nous pouvons remarquer que la densité de grand X et comme X et Y ont même loi, il en sera de même pour celle de Y, la densité de grand X est une fonction paire donc si nous regardons l'espérance de X, hein, ça va être donc l'intégrale de petit X par rapport à cette densité paire. X fois cette quantité sera une fonction impaire et quand on va l'intégrer entre -1 et +1, eh bien ça va nous donner de manière immédiate sans aucun calcul, le fait que l'espérance de X est égale à 0. Hein, je vous rappelle, on avait dit que dans ce cas-là , on disait que grand X est une variable aléatoire centrée. De même, puisque X et Y ont même loi, sans calcul toujours, on peut montrer que l'espérance de Y est nulle. Là maintenant, si je veux calculer la covariance bien sûr comme je connais déjà l'espérance de X et l'espérance de Y, la covariance dans ce cas-là revient uniquement au calcul du produit XY. Je fais donc ce calcul et vous voyez là ce qui est très intéressant, c'est que pour calculer l'espérance du produit XY, vous ne pouvez pas utiliser uniquement la connaissance des densités des coordonnées. Il faut vraiment utiliser la loi du couple de variables aléatoires XY. Hein, donc il faut revenir à la densité du couple et appliquer la formule de calcul que nous avons vue dans la séance 1. Ainsi, l'espérance de XY est égale à l'intégrale donc sur R2 ou l'intégrale de moins l'infini à plus l'infini pour X et de moins l'infini à plus l'infini pour Y de 1 sur pi qui est la, qui est ici hein, fois xy, la fonction que je veux intégrer fois l'indicatrice de x carré plus y carré plus petit que 1, intégré bien sûr en dx dy. Alors, là encore, on a à faire zéro calcul, hein, parce que cet ensemble-là sur lequel nous intégrons, c'est votre cible hein, donc c'est le disque unité dans le plan. Vous pouvez le couper en quatre secteurs angulaires et le jeu entre les secteurs va consister à changer x en -x ou y en -y et je vous laisse réfléchir quelques minutes pour vous assurer donc que par des arguments de symétrie comme on l'a fait dans le cas des calculs d'espérance de X, espérance de Y, eh bien on peut montrer que les quatre intégrales correspondant aux quatres secteurs angulaires définis par le axes x et y de ma cible vont en fait être de signes opposés et la somme de ces quatre intégrales va nous donner 0. Donc, on peut montrer ainsi par des arguments de symétrie sans aucun calcul que l'espérance de XY égale 0. Donc, dans ce cas particulier, la covariance de XY est nulle. Alors maintenant, nous allons généraliser cette étude et définir de manière plus systématique l'espérance d'un vecteur aléatoire de taille n, hein donc d'un vecteur grand X égal X1, X2, Xn, là je reviens aux notations initiales de vecteurs aléatoires et je vais généraliser ma notion de covariance qu'on n'a défini pour l'instant que pour un couple de variables aléatoires. Donc, si j'ai, je considère maintenant un vecteur grand X égal X1, X2, Xn et je suppose que pour toutes les coordonnées, pour tous les indices i de 1 à n, en fait, Xi est intégrable. Eh bien dans ce cas, on dira que le vecteur grand X est intégrable. Donc c'est sa définition. Dans ce cas-là bien sûr, on peut définir l'espérance de X1, l'espérance de X2, etc., l'espérance de Xn et nous allons définir l'espérance de X comme étant le vecteur défini par espérance de X1 etc. espérance de Xn. Donc vous voyez que pour un vecteur aléatoire qui prend ses valeurs dans R puissance n et dont toutes les coordonnées sont intégrables, l'espérance de X est bien définie et sera également un vecteur de R puissance n. Alors, plus délicat, c'est de généraliser une notion de variance puisqu'ici, nous devons tenir compte des corrélations entre les différentes coordonnées du vecteur aléatoire. Donc, nous avons défini une notion qui quantifiait les relations entre les deux coordonnées d'un couple de variables aléatoires, hein, cette notion de covariance. Eh bien nous allons généraliser ça en considérant toutes les covariances possibles que l'on peut construire avec les coordonnées X1, X2, Xn du vecteur aléatoire. Et la bonne notion, ça ne sera pas un vecteur mais ça sera une matrice de covariance ici pour tout couple ij d'indices variant de 1 à n, je vais pouvoir définir la covariance Xi Xj. Je vous rappelle, nous l'avons remarqué que c'est égal à la covariance de Xj Xi, hein par définition et nous allons définir la matrice que je vais noter C indice grand X, la matrice de taille n croix n dont le terme général pour la ligne i et la colonne j est égal à la covariance Xi Xj. Donc, cette matrice est bien définie dès lors que toutes les coordonnées Xi sont supposées de carré intégrable, ce que nous allons faire maintenant. Donc vous voyez que c'est une matrice qui est symétrique hein, puisque covariance de Xi Xj est égale à covariance de Xj Xi et nous allons voir qu'elle est aussi positive au sens des matrices. C'est-à -dire que dès que je prends un vecteur de Rn a1, a2, etc., an, n'importe quel vecteur des petits ai eh bien, on peut montrer que la somme pour i et j variant de 1 à petit n de ai aj fois la covariance de Xi Xj est positive. Ca, c'est comme ça qu'on définit la notion de matrice positive. Alors, la preuve est immédiate. Vous regardez cette quantité-là et on utilise la linéarité de la covariance en chacune de ses coordonnées. Donc, c'est facile de voir que cette quantité est égale exactement à la covariance de la somme de i égal 1 à n de ai Xi et de la somme de j égal 1 à n de aj Xj. Mais, ça c'est, c'est immédiat, hein, en utilisant la bilinéarité de la covariance. Mais vous voyez que du coup ces deux variables-là , ici sont identiques, hein, les deux variables coordonnées et en fait cette quantité, somme des ai aj, covariance de Xi Xj bien n'est rien d'autre que la variance de la variable aléatoire réelle, somme des ai Xi. C'est une variance donc c'est positif. Alors, un résultat intéressant est d'étudier ce qui se passe maintenant où maintenant on a défini l'espérance et la variance pour un vecteur. Qu'est-ce qui se passe si on fait une transformation linéaire du vecteur aléatoire? Hein, plus précisément ici j'ai un vecteur aléatoire de R puissance n, je vais considérer maintenant une matrice de taille m n que j'appelle grand A et donc je peux très bien considérer le vecteur aléatoire grand Y qui est défini comme étant égal à grand A fois X. Ca, c'est le produit matriciel hein de la matrice de taille m n fois le vecteur de taille n, ça va donc me donner pour Y un vecteur aléatoire de taille petit n. Hein, Y est dans Rn. Bien, donc on peut se poser la question ben si je connais l'espérance et la matrice de covariance de grand X, qu'en est-il pour Y? Alors, bien sûr, je ne l'ai pas écrit ici mais je suppose, donc c'est implicite dès que je parle de matrice de covariance que toutes les coordonnées Xi de grand X sont de carré intégrable. Par définition de grand Y, il en sera du coup de même de toutes les coordonnées du vecteur grand Y. Donc ce qu'on peut montrer, c'est que le vecteur espérance de grand Y va être alors obtenu comme a fois le vecteur espérance de X. Celui-ci est de taille n. A est de taille m n et celui-ci est de taille m. Tout est bien cohérent et ce qu'on peut montrer, c'est que la matrice de covariance de Y s'écrit comme le produit matriciel de trois matrices, à savoir grand A, fois la matrice de covariance de grand X fois la transposée de A. Hein, donc, ma notation grand A avec un petit t à gauche est la notation de matrice transposée de grand A. Bien, nous allons maintenant montrer cette propriété. Y égal AX. Alors, je vais noter Y comme le vecteur de coordonnées Yi pour i variant de 1 à m et X sera le vecteur de coordonnées Xj pour j variant de 1 à n. Bien. Donc, nous savons que Yi va être égal à la somme de j égal 1 à n de aij Xj. Donc, l'espérance de Yi est égale par linéarité de l'espérance à la somme de j égal 1 à n de aij, aij, c'est un nombre, espérance de Xj et vous voyez ici qu'immédiatement, cela nous donne l'écriture matricielle que l'espérance de Y est égale à la matrice grand A fois produit du vecteur espérance de X. Bien, donc, ça, c'est immédiat. Plus intéressant, c'est d'étudier donc la covariance, regarder la covariance, cette matrice de covariance du vecteur aléatoire grand Y. Donc, pour i et k appartenant à 1 m, nous allons calculer la covariance de Yi Yk. Oui, une remarque, hein, la matrice de covariance de Y, c'est une matrice de taille m croix m. Alors, par définition, c'est l'espérance de Yi moins espérance de Yi facteur de Yk moins espérance de Yk. Et je vais remplacer Yi et Yk par leur valeur en fonction des Xj. Donc, ça va être l'espérance de alors, Yi, nous avons dit que c'était la somme de j égal 1 à n de aij Xj moins son espérance qui va âtre la somme de j égal 1 à n de aij espérance de Xj fois, je fais la même chose pour Yk qui va être égal à la somme de l égal 1 à n de akl Xl moins son espérance, à savoir la somme de l égal 1 à n de akl E de Xl, espérance de Xl. Bien. Et maintenant, on va regrouper les aij et les akl. Vous voyez que ça me fait espérance de, alors là , il faut que je ferme avec un crochet, voilà , espérance de somme de j égal 1 à n de aij facteur de Xj moins espérance de Xj fois la somme de l égal 1 à n de akl facteur de Xl moins espérance de Xl. J'utilise maintenant les propriétés de linéarité de l'espérance et vous voyez que ceci nous donne la somme sur j et l variant de 1 à n de aij akl fois l'espérance de Xj moins E de Xj facteur de Xl moins E de Xl. Et là , nous sommes contents puisque nous reconnaissons la covariance de Xj Xl hein qui est donc le terme jl de la matrice de covariance de X. Et si vous réfléchissez un peu, là , c'est du calcul matriciel, je vous laisse finir la preuve tout seuls mais vous pouvez montrer que ceci, c'est la matrice A, matrice de covariace de X, transposée de A à la ligne j et à la, pardon, à la ligne i, je somme sur jl et à la colonne k. C'est-à -dire ce qu'on voulait puisqu'on a regardé la covariance de Yi, Yk. Pour finir cette séance et à titre d'exemple, je vous montre un, une densité non triviale de vecteurs aléatoires qui va être une généralisation de la variable aléatoire normale que l'on a définie dans le cours 3 et pour définir cette densité, nous allons introduire un vecteur de R puissance n que je note petit m et une matrice grand C symétrique définie positive hein, donc elle est définie positive donc je vais pouvoir définir son inverse que je note C -1, C indice -1 et on dira que le vecteur aléatoire grand X à valeurs dans Rn est un vecteur aléatoire gaussien si sa densité a la forme suivante. Donc, vous voyez c'est une généralisation de la densité d'une loi normale, c'est, f de x sera 1 sur 2 pi puissance n sur 2 fois racine du déterminant de C, hein, c'et ça la généralisation de l'écart type à la, pour un vecteur de taille n, c'est la racine du déterminant de cette matrice grand C fois l'exponentielle de moins un demi du vecteur transposé de x moins m fois l'inverse de la matrice C fois le vecteur x moins m pour petit x donc un vecteur quelconque de R puissance n. Donc, ici, je vous ai rappellé ce que voulait dire donc cette notation matricielle que j'ai indiquée ici. Donc, si les Cij sont les coordonnées de la matrice grand C ici je regarde C moins 1, l'inverse de C en fait, ici, ce qui intervient donc, cette quantité-là dans l'exponentielle est égale à somme sur tous les ij du coéfficient ij de la matrice inverse de C fois xi moins m fois xj moins m. Eh bien si vous définissez un tel vecteur, le calcul peut vous permettre de montrer que l'espérance de X est égale à cette quantité-là petit m hein qui est un vecteur de Rn et la matrice de covariance de X est égale à cette matrice symétrique définie positive grand C que l'on a introduite a priori. Hein, donc, vous avez une généralisation ici de ce qu'on avait observé pour une lui normale, hein, d'être paramétrée donc par son espérance et sa variance. Donc, je vous ai juste montré une simulation de, d'une telle densité dans le cas n égal 2 où vous voyez que avez une vraie cloche ici qui se dessine et qui représente ici la fonction densité f de x pour X un vecteur de Rn.