[SON] [AUDIO_VIDE] Bonjour. Dans cette séance cinq du cours deux, nous allons introduire la notion de couple de variables aléatoires, et étudier la loi de ce couple et voir les difficultés supplémentaires qui apparaissent quand on considère deux variables aléatoires simultanément ; on verra les questions qu'on peut se poser sur ces variables aléatoires-là , et dans la deuxième partie de cette séance, nous définirons la notion de variable aléatoire indépendante, généralisant ainsi la notion d'indépendance que nous avons déjà vue quand nous avons étudié les événements aléatoires. Bien sûr, tout ceci est toujours dans le cas discret, c'est-à -dire le cas où les variables aléatoires prennent des valeurs dans un ensemble fini ou dénombrable. Donc la question qui nous intéresse maintenant, est d'étudier de manière conjointe, la loi de plusieurs variables aléatoires. Dans le cadre du cours, nous allons étudier des couples de variables aléatoires ; dans les exercices vous pourrez voir des généralisations de ceux-ci, à des triplets de variables aléatoires, ou à des n-uplets de variables aléatoires, donc des vecteurs de variables aléatoires. Un exemple, par exemple, pour juste visualiser ce que je veux dire par couple de variables aléatoires : imaginez que vous voulez essayer de comprendre le lien qu'il peut y avoir entre le nombre d'années d'études de l'aîné des enfants d'une famille, et le nombre de frères et sœurs qu'il a. Donc vous voyez qu'à chaque famille, vous allez regarder l'aîné des enfants, et vous allez lui associer deux nombres, entiers, le premier est le nombre d'années d'études, et le deuxième, le nombre de ses frères et sœurs. Donc, si vous mettez un modèle derrière cette question-là , vous allez avoir, donc, des données, des expériences, et des échantillons petit oméga, ici, c'est, à chaque fois que vous choisissez une famille dans la population du monde, vous lui associez, donc, ces données-là ; et la question que l'on se pose, concerne les corrélations, que l'on peut avoir entre ces informations. Donc vous voyez qu'ici, l'espace des valeurs de X et celui des valeurs de Y sont des ensembles finis, mais on va se placer dans un cadre plus général et abstrait, avec, donc, les hypothèses que l'ensemble des valeurs X de grand Oméga, est dénombrable ; l'ensemble des valeurs Y de grand Oméga, est un ensemble G dénombrable, donc, je ne l'ai pas écrit, mais on a toujours de manière sous-jacente un espace abstrait : Oméga A muni d'une probabilité P, et je vais appeler, donc,Z, le couple de variables aléatoires (X, Y). Si on regarde l'ensemble des valeurs Z de grand Oméga, eh bien, c'est le produit cartésien de F et de G : le produit cartésien de deux ensembles dénombrables est, encore, dénombrable. Donc, nous pouvons encore appliquer tout ce qu'on a vu précédemment, à ce couple de variables aléatoires. En particulier, nous pouvons considérer ce qu'on va appeler la loi jointe du couple, donc on va dire que c'est une probabilité sur notre produit cartésien F x G, que je vais noter P indice (X, Y), cela généralise la notation P indice (X) que nous avions vue dans les séances précédentes, et c'est une probabilité sur un ensemble dénombrable, donc on sait qu'elle est caractérisée par la probabilité de ces singletons. Un singleton de F x G, c'est un singleton, c'est un couple de (x, y) avec x dans F et y dans G. Je dois donc caractériser la loi d'un tel singleton, et par définition de la loi, la loi pour le couple de variables aléatoires (X, Y) du singleton (x, y), est égal à la probabilité d'avoir (X = x ; Y = y). Je vous rappelle qu'en probabilité, le et, qui correspond à l'intersection de manière ensembliste, est traditionnellement noté par ce point-virgule. Bien sûr, la probabilité ici est celle qu'on a mis a priori sur notre espace de probabilité abstrait oméga à P. A partir donc, vous voyez que cette loi intègre, en fait, de manière jointe, le comportement aléatoire de X et celui de Y. C'est pour cela que l'on parle de loi jointe, et on va voir par la suite que la connaissance de cette loi est nécessaire pour connaître le comportement global de ce couple (X, Y). Alors, une première question qu'on peut se poser, c'est : est-ce que, à partir de la loi de ce couple, on peut retrouver les lois de chacune des variables aléatoires X et Y? Donc, c'est ce qu'on va voir maintenant. Et ces lois des coordonnées X et Y sont appelées les lois marginales pour le couple de variables aléatoires (X, Y). Et comme précédemment, je vais les noter : P indice X et P indice Y. Alors. Pour calculer, par exemple, la loi de X, je vous rappelle que l'on doit calculer la probabilité de (X = x) pour tout x dans F ; F est l'espace des valeurs de X. Il suffit donc, pour ce faire, de remarquer que l'événement aléatoire (X = x), s'écrit comme la réunion des événements (X = x) intersecté avec (Y = y), et ceci pour tous les y dans G. Les événements de la forme (X = x) et (Y = y) sont disjoints, si je fais varier Y dans G bien sûr, pour des Y qui sont distincts. Ici, j'ai fixé x. Donc, il est facile d'écrire la probabilité de (X = x), en utilisant la propriété de sigma additivité, nous savons que c'est égal à la somme, pour y dans G, des probabilités de (X = x) et de (Y = y). Et donc vous voyez, que pour trouver la loi de X à partir de celle du couple (X, Y), il suffit de sommer sur toutes les valeurs possibles de y. De même, bien sûr, vous pourrez montrer immédiatement que la loi de Y prise en le singleton y, est égale à la somme, sur toutes les valeurs possibles x que peut prendre la variable aléatoire X, de la loi de (X, Y) pris au singleton (x, y). Donc, il suffit de sommer. Alors, bien sûr ça, c'est la partie simple de notre étude ; la partie plus subtile est de se dire : ben, est-ce que, de connaître les lois des deux coordonnées X et Y suffit à connaître le comportement aléatoire du couple? Je fais un silence, exprès pour que vous réfléchissiez à cette question ; vous voyez qu'il est assez naturel de se dire : ben, ces lois marginales ne dépendent que de X d'une part, et de Y d'autre part, donc elles vont uniquement prendre en compte le comportement aléatoire de X et celui de Y, mais absolument pas les corrélations qu'on peut avoir entre X et Y. Donc, a priori, ces lois marginales ne vont pas suffire à caractériser la loi du couple de variables aléatoires. Alors, pour s'en convaincre, nous allons introduire la notion de loi conditionnelle, sachant que X vaut une certaine valeur. Donc, on suppose que xi est une valeur fixée dans les valeurs possibles de X, donc c'est un élément de F, et, bien sûr, on suppose qu'il peut être réalisé par X c'est-à -dire que la loi de X pris en ce singleton xi est positive. Donc, je vais pouvoir étudier la loi conditionnelle de Y sachant, a priori, que X = xi. Donc, par définition, elle va, donc c'est une loi, c'est une probabilité sur l'ensemble des valeurs de Y, et comme l'ensemble des valeurs de Y est dénombrable, toujours pareil, il suffit de la caractériser sur les singletons de G. G c'est l'ensemble des valeurs de Y. Donc, on va caractériser cette loi sur tous les singletons de la forme (yj). Et je vais m'intéresser, à la probabilité d'avoir (Y = yj) mais, sachant, que (X = xi). Donc ça, cet événement, enfin cette probabilité conditionnelle, on a vu dans le cours un comment on pouvait la décrire, c'est exactement la probabilité d'avoir (Y = yj) et (X = xi) divisée par la probabilité d'avoir X = xi. C'est donc par définition de nos lois, la probabilité pour la loi de (X, Y) de satisfaire le couple (xi, yj) divisée par la probabilité pour la loi de X, pour X, de satisfaire xi. Et c'est cette quantité, que je vais appeler la probabilité conditionnelle de Y sachant (X = xi) prise sur le singleton (yj). Comme l'ensemble des valeurs yj de G est dénombrable, la connaissance de ces quantités-là suffit à caractériser une probabilité sur G, et c'est cette probabilité que j'appelle la loi conditionnelle de Y, sachant (X = xi). Alors vous voyez, que vous avez défini une nouvelle loi de probabilité, donc on va pouvoir définir une espérance associée à cette loi. Et c'est ce qu'on va appeler l'espérance conditionnelle de Y sachant X = petit x i. Et vous voyez que, eh bien, par définition d'une espérance, c'est la somme sur toutes les valeurs possibles de grand Y, sur tous les y j possibles, de cette valeur y j fois la probabilité de réalisation de cette valeur. Et au lieu de prendre la loi marginale de grand Y ici, on va prendre la probabilité conditionnelle de grand Y, sachant X = x i, de réaliser la valeur petit y j. Vous voyez que cela vous donne une nouvelle espérance, qu'on appelle l'espérance conditionnelle. Donc, en exercice, vous verrez des exemples où, de nombreux exemples, où la probabilité conditionnelle de Y sachant une certaine valeur de X est différente de la loi marginale de Y. Je vous renvoie aux exemples qu'on avait vu déjà sur les probabilités conditionnelles d'événements aléatoires, pour vous convaincre que ces notions sont des notions fondamentales de probabilités, et ajoutent beaucoup de richesse à la théorie. Bien. Alors, cette notion d'espérance conditionnelle, on va rester très modeste dans le cadre de ce cours, qui est un cours de probabilités élémentaires sur cette notion. Mais il faut savoir que dans les développements des probabilités modernes, cette espérance conditionnelle, qui, comme on l'avait vu dans le cours 1, prend en compte une information a priori qu'on a sur l'expérience, c'est vraiment une notion fondamentale de probabilités. Alors, premier résultat important qu'on peut voir. Eh bien, c'est que si on connaît la loi conditionnelle de Y, sachant une quelconque des valeurs de grand X, et si on connaît la loi marginale de grand X, nous allons pouvoir reconstruire la loi de X Y. Donc c'est ce qui est écrit ici. Ici, on l'a même fait directement, en faisant un calcul d'espérance d'une fonction h (X, Y). Je vous rappelle qu'on a vu dans une des premières séances de ce cours 2, que la loi d'une variable aléatoire était caractérisée par l'espérance d'une fonction h de, une fonction h bornée de cette variable aléatoire-là . Donc, ici si on prend une fonction h bornée, évidemment on aura toujours que l'espérance de valeur absolue de h (X, Y) est finie. Mais là , j'ai généralisé à une hypothèse, où on suppose a priori, donc, qu'on a une fonction h définie sur le couple grand F croix grand G, telle que l'espérance de valeur absolue de h (X, Y) est finie. Eh bien, dans ce cas-là , nous avons que l'espérance de h (X, Y), s'écrit comme la somme sur toutes les valeurs possibles de grand X, petit x i appartenant à grand F, sur toutes les valeurs possibles de grand Y, petit y j appartenant à grand G, de h (x i, y j), fois la probabilité conditionnelle de Y, sachant X = x i, prise au point y j, fois la probabilité pour la loi grand X du singleton petit x i. Donc, vous voyez, mnémotechniquement, c'est assez facile à retenir, on a la probabilité conditionnelle de Y sachant X, fois la loi de grand X. Donc, montrons rapidement cette petite propriété. On a fait l'hypothèse que l'espérance de valeur absolue de h (X, grand Y) est finie. Et, nous voulons, maintenant, calculer l'espérance de h (X, Y). Par définition, on sait que c'est la somme sur tous les x i de grand F, et les y j de grand G, de h (x i, y j), probabilité d'avoir X = x i, Y = y j. Alors, c'est égal à la somme sur x i, y j, de h (x i, y j), et là je vais uniquement, c'est très simple, c'est presqu'une remarque, diviser, je ne vais pas avoir la place. Donc, alors, je vais diviser par la probabilité d'avoir X = x i. Comme je n'ai pas beaucoup de place, je vais rajouter la suite en vert, pour que cela se voit mieux. Donc, ici comme j'ai divisé par probabilité de X = x i, on va multiplier x i par probabilité de X = x i. Cela ne se voit vraiment pas, donc je vais réécrire en-dessous. Donc, égal somme sur x i, y j de h (x i, y j), probabilité de X = x i, Y = y j, sur probabilité de X = x i, fois probabilité de X = x i. Et, on a exactement démontré notre résultat, puisque l'on reconnaît ici la probabilité conditionnelle de grand Y, sachant X = x i, prise au point y j. Bien. Alors, maintenant une question que l'on peut se poser est : dans quel cas, en fait, il n'est pas nécessaire de faire ce conditionnement, à savoir dans quel cas la loi de Y conditionnelle, conditionnellement à X = x i, coïncide avec la loi de Y. Cela, cela veut dire que la réalisation aléatoire de grand X n'a pas d'influence sur le comportement aléatoire de grand Y. Donc, cela c'est une notion fondamentale. L'information donnée par grand X n'importe pas sur, non pas les valeurs de grand Y, mais sur le comportement aléatoire de grand Y. Donc, on va traduire ce fait par le fait que cette probabilité conditionnelle ici définie, donc, une probabilité sur grand G, va coïncider avec la loi de Y, c'est-à -dire cette quantité-là , à quelle condition cette quantité-là est égale à la probabilité que grand Y soit égal à petit y j. C'est-à -dire, on supprime purement et simplement cette information donnée par X, grand X = x i. Donc, j'ai réécrit là , dans la première partie de cette définition, la propriété qui nous intéresse, c'est que pour toutes les valeurs x i de grand F, et les valeurs y j de grand G, la probabilité conditionnelle de Y sachant X = x i, prise au point petit y j, est égale à la probabilité pour la loi de grand Y, d'avoir y j, c'est-à -dire la probabilité d'avoir grand Y = y j. Eh bien, si on revient au transparent précédent, vous voyez que cela nous dit exactement que la loi de X Y, prise en x i, y j, cela je vous le rappelle que c'est la probabilité d'avoir grand X = x i, et grand Y = y j, est égale au produit de la loi de grand X pris en x i, et ici, je vous rappelle que, dans le cas qui nous intéresse, on a dit que c'était exactement la probabilité d'avoir grand Y = y j. Donc, si vous écrivez proprement les choses, vous verrez que c'est immédiat de montrer que la coïncidence entre cette probabilité conditionnelle et la loi de Y est équivalente à dire que pour tout x i et y j, la probabilité d'avoir grand X = x i, et grand Y = y j, est égale au produit des probabilités de grand X = x i et grand Y = y j. Donc, là on est très content, parce qu'on reconnaît une propriété qu'on a mis en évidence dans le cours 1, à savoir, l'indépendance des événements X = x i et Y = y j. Donc, ce qu'on demande ici, c'est que pour toutes les valeurs de x i, les valeurs x i et y j, on ait l'indépendance des événements aléatoires, grand X = petit x i et grand Y = petit y j. Il est facile de montrer que pour toute sous-partie de grand F et de grand G, la propriété précédente est équivalente au fait que les événements grand X appartenant à grand A et grand X, et pardon, grand Y appartenant à grand B, sont indépendants. Cela, je vous le laisse faire. Il suffit d'écrire grand A comme la réunion de ses singletons, et grand B comme la réunion de ses singletons. Donc, dans ce cas de figure, on dira, d'une manière assez naturelle, que les variables aléatoires sont indépendantes. Donc, une première proposition qu'on peut montrer maintenant, est que si des variables aléatoires sont indépendantes, et si on considère des fonctions petit f définie sur grand F, et petit g définie sur grand G, telles que l'espérance de valeur absolue de f (X) est finie, et l'espérance de valeur absolue de g (Y) est finie, alors, l'espérance de f (X) * g (Y), est égale au produit des espérances de f (grand X), et de g (grand Y). Donc, cela c'est une propriété absolument fondamentale, que l'on va utiliser par la suite. Et, que l'on va démontrer maintenant. Donc, nous allons regarder l'espérance de f (X) * g (Y). Et c'est égal à , donc, la somme sur x i, y j, de f (x i), g (y j), et la probabilité d'avoir X = x i, Y = y j. Cela, c'est la définition de la loi du couple de variables aléatoires. On a vu qu'on doit, pour calculer l'espérance de f (X), g (Y), a priori, connaître la loi du couple de variables aléatoires. Couple de variables aléatoires qui intervient à travers ces données-là . Bien. Alors, maintenant, nous utilisons l'hypothèse d'indépendance. Donc, ceci est égal à la somme sur x i, y j de f (x i), g (y j), fois la probabilité d'avoir X = x i, multiplié par la probabilité d'avoir Y = y j. Alors, vous voyez qu'en fait nous avons deux termes qui ne dépendent que de x i. Celui-ci et celui-ci. Et puis, deux termes qui ne dépendent que de y j, qui sont ces deux-là . Et donc, la tentation est grande d'utiliser un argument de sommation par paquets, et d'écrire cela sous la forme somme sur x i, de f (x i), probabilité d'avoir X = x i, multiplié par la somme sur y j de g (y j), P [grand Y = y j]. Où, nous reconnaissons ici l'espérance de f (grand X), et ici l'espérance de g (grand Y). Une remarque, ceci se fait parce que nous avons supposé que l'espérance de valeur absolue de X est finie, de même que l'espérance de valeur absolue de g (Y). Donc, nous savons que les séries ici qui sont, enfin les sommes des séries qui sont ici, sont absolument convergentes. Et donc, on a le droit d'utiliser cet argument de sommation par paquets. [AUDIO_VIDE] Donc, il y a quand même, il y a un argument mathématique derrière, et toujours cette idée que la convergence, enfin le fait que les espérances des valeurs absolues de variables aléatoires soient finies, est équivalent à des séries absolument convergentes, et nous permet de faire pas mal d'opérations, donc, sur les calculs de sommes de ces séries.