[SON] [AUDIO_VIDE] Bienvenue dans cette séance, qui va être consacrée à la convergence de la fonction de répartition empirique. Quelle est la motivation de la fonction de répartition empirique? C'est bien des statistiques. Imaginez que vous ayez un échantillon X1, X2,... Xn de nombres que vous supposez être une réalisation de variables aléatoires X1, X2,... Xn qui ont même loi, autrement dit imaginez que x1 c'est X1 de petit oméga, x2, X2 de petit oméga etc, donc une réalisation correspond à un oméga dans votre espace de probabilités, vous avez cette suite ; est-ce que vous êtes capable de déterminer à partir de cette suite la fonction de répartition F commune à ces variables aléatoires? L'idée est de définir ce qu'on appelle la fonction de répartition empirique associée à des variables aléatoires. On va prendre des variables aléatoires réelles : X1, X2,... Xn. Cette fonction de répartition empirique n'est rien d'autre que la fonction de répartition de la loi de probabilité, qui attribue une probabilité 1/n à chaque variable aléatoire. L'idée, derrière, est très simple : c'est que si vous ne savez rien sur vos variables aléatoires, vous allez attribuer le même poids à chacune d'entre-elles. C'est tout ce que vous pouvez faire. Plus formellement, à chaque fois que vous prenez un nombre réel x, vous définissez Fn(x) comme la moyenne de ces indicatrices, donc je prends les indicatrices que Xk soit plus petit ou égal à x. Notez que ce n'est rien d'autre que la fonction de répartition d'une loi de probabilité aléatoire qui est donnée par 1/n une masse de Dirac en X1, plus 1/n une masse de Dirac en X2, etc. J'insiste sur le fait que cette fonction de répartition est une variable aléatoire, c'est encore quelque chose qui dépend de l'aléa, puisque tant que je n'ai pas pris une réalisation donnée à petit oméga, ceci est une variable aléatoire. Nous allons supposer que nous avons une suite de variables aléatoires Xn, de même loi, avec fonction de répartition F, ce qui fait que, si vous fixez un réel x, et définissez Zk comme l'indicatrice que Xk soit plus petit ou égal à x, vous obtenez une suite de variables indépendantes et de même loi. Du fait que les Xn sont indépendants. Quelle est l'espérance de Zk? C'est l'espérance que l'indicatrice de Xk est plus petit ou égal à x, c'est donc la probabilité que Xk est plus petit ou égal à x. Ce qui n'est rien d'autre, que F(x). La fonction de répartition évaluée en x. Comme vous l'avez vu en cours, si on se fixe un réel x, la fonction de répartition empirique converge presque sûrement, quand n tend vers l'infini, vers la fonction de répartition F. Vous avez vu que c'est une conséquence directe de la loi des grands nombres. Détaillons un peu ce que signifie cette convergence, cela signifie que chaque fois que vous fixez un réel x, vous regardez l'ensemble des réalisations pour lesquelles la fonction de répartition empirique évaluée en cette réalisation tend vers F(x), l'ensemble de ces réalisations a une probabilité 1. C'est ce que signifie cette convergence. En fait, le théorème précédent a une extension qui s'appelle le théorème fondamental de la statistique, qu'on appelle aussi le théorème de Glivenko-Cantelli, qui date de 1933, et qui vous dit que sous les mêmes hypothèses, si vous prenez le supremum sur tous les x dans R, la différence entre la fonction de répartition empirique, et la fonction de répartition F, ça tend vers O quand n tend vers l'infini presque sûrement. Pour être plus explicite, c'est équivalant à la chose suivante : si vous regardez cette différence, quand à chaque fois que vous prenez une réalisation vous regardez cette différence, et vous prenez le supremum, vous regardez quand cette limite est nulle, l'ensemble des réalisations pour lesquelles c'est vrai a une probabilité de 1. Donc, c'est un renforcement de ce que nous avons vu précédemment, puisqu'ici nous, avons une uniformité sur les points x. Ce théorème est assez délicat à démontrer, donc nous ne le ferons pas, je vais vous l'illustrer sur un exemple numérique. Dans cette expérience numérique, nous avons pris des variables aléatoires normales, de moyenne 3 et de variance 2, et voici ce que donne la fonction de répartition empirique de 10 d'entre elles : c'est cette ligne brisée. Donc nous avons relié entre eux les points qui correspondent aux 10 valeurs, et en rouge, on a la fonction de répartition de la loi normale de paramètre (3 ; 2). Si nous augmentons la taille de l'échantillon, nous allons constater que, petit-à -petit, la fonction de répartition va se mettre à ressembler de plus-en-plus à la bonne fonction de répartition. Par exemple, comme ça : Vous avez la possibilité de recalculer les réalisations, c'est-à -dire, de tirer un autre petit oméga. [AUDIO_VIDE] Voilà ce qui achève cette séance sur la fonction de répartition empirique.