[SON] [AUDIO_VIDE] Bonjour. Dans cette première séance du cours trois, nous allons nous intéresser aux variables aléatoires à valeurs réelles et en particulier, essayer de caractériser leurs lois. Dans le cours deux, nous avons étudié des variables aléatoires à valeurs discrètes, c'est-à-dire dont l'ensemble des valeurs étaient : 1, infini ; ou dénombrables, et nous avons vu que dans ce cas-là, la variable aléatoire se caractérisait de manière simple : par une suite de nombres réels compris entre 0 et 1, et dont la série associée était convergente et de somme 1. Nous allons voir, que si X prend des valeurs dans tout R, ou dans un interval de R, c'est-à-dire dans un ensemble infini non dénombrable, eh bien, il est beaucoup plus difficile de caractériser sa loi, c'est-à-dire une probabilité associée à la variable aléatoire, que l'on définira sur R ou sur un interval de R. Néanmoins, nous allons voir que dans ce cas-là, on peut caractériser cette probabilité, par une fonction réelle de variable réelle, ce qui va bien nous simplifier la vie. Alors, rappellons-nous le modèle probabiliste dans le cas d'une variable aléatoire à valeur réelle, nous avions vu dans le cours un, que R, la tribu associée, ne sera pas la tribu de toutes les parties de R. R est trop gros, donc si l'on regarde la tribu de toutes les parties, ça fera une famille d'ensembles qui est trop grosse, et on va munir R de ce qu'on a appellé la tribu borélienne, que je note B(R), et qui est la tribu engendrée par les intervals de la forme ] moins l'infini, a], où a est un réel quelconque. Je vous rappelle que, ce que l'on a appelé : tribu engendrée par une partie, est la plus petite tribu qui contient comme éléments les ensembles de cette partie. Donc ici les intervalles de la forme ] moins l'infini, a]. Nous avions vu également que nous pouvions caractériser cette tribu borélienne B(R) comme étant la plus petite tribu qui contient tous les intervalles ouverts de R. Donc, nous allons regarder une variable aléatoire, en tant qu'application définie de l'espace abstrait oméga muni de sa tribu A, ronde, à valeur dans R muni de la tribu borélienne B(R) et donc nous allons supposer qu'elle est mesurable, au sens où pour tout B borélien de B(R), l'image réciproque de B, à savoir l'ensemble des oméga tels que X de oméga est dans grand B, est un élément de A. Je vous rappelle que c'est comme ça qu'on a caractérisé dans sa forme la plus générale, la notion de variable aléatoire. Et ce que je vous avais dit, c'est que cette notion de variable aléatoire, c'était la notion d'application mesurable, dans le cas de la théorie de la mesure, donc vous avez une application mesurable d'un espace muni d'une tribu, donc notre espace abstrait oméga, A, à valeur dans R muni de sa tribu borélienne, qu'on est capable de caractériser ici. L'intérêt de cette condition est que, puisque nous avons mis une probabilité sur l'ensemble oméga, A, ronde, on a notre espace de probabilité sous-jacent, on va pouvoir transporter cette probabilité par la variable aléatoire X. En se posant la question : peut-on mesurer la probabilité de B au sens où en fait nous allons mesurer la probabilité de X- 1(B), c'est-à-dire de l'ensemble des oméga, tel que oméga est dans B? Donc, on essaye de savoir la probabilité de réalisation de tels événements aléatoires : ensemble de oméga tel que X de oméga est dans B. Donc, nous avions déjà défini cette notion, c'est cela que nous avons appelé la loi de X : c'est la probabilité sur R caractérisée sur R muni de sa tribu borélienne, qui à chaque borélien, un borélien c'est un élément de la tribu borélienne, à chaque borélien B, associe la probabilité d'avoir : X appartient à B. Je vous rappelle que nous avons montré que Px était une probabilité sur (R, B(R) ). Notre question ici, c'est de savoir, dans le cas où X prend ces valeurs dans R, si l'on peut caractériser, d'une manière simple, la loi de X : P indice x. Alors vous voyez qu'ici on ne peut pas, comme dans le cas discret, caractériser la probabilité par les probabilités de ces singletons, parce que R est constitué d'une famille infinie non dénombrable de singletons, et si l'on veut connaître, par exemple, la probabilité d'un ensemble constitué, ou d'un intervalle qui va être une réunion infinie non dénombrable de singletons, eh bien on ne va pas pouvoir écrire que cette probabilité est égale à la somme des probabilités des singletons, les éléments appartenant à l'intervalle, parce que la somme est non dénombrable. Or, nous avons vu que la propriété de sigma additivité, qui est la propriété fondamentale de la définition d'une probabilité, n'est vraie, n'est satisfaite, que pour une somme ou une réunion d'événements disjoints dénombrables. Donc il faut trouver autre chose. En fait, le autre chose, cela va être une fonction qu'on va appeler la fonction de répartition de la variable aléatoire, et qui est définie de la manière suivante. Nous avons vu que les intervalles de la forme ] moins l'infini, x] jouaient un rôle particulier, puisque c'est eux qui engendrent la tribu borélienne, et donc, nous allons nous intéresser plus spécifiquement à la probabilité de ces intervalles-là. Or, vous voyez, que si vous considérez maintenant que si x peut varier, la fonction qui, à x, associe la probabilité pour la loi de X de l'interval ] moins l'infini, x], c'est-à-dire par définition la probabilité de l'ensemble des oméga tel que X de oméga est inférieur ou égal à x, cela nous définit une fonction qui à un x réel, associe cette probabilité, qui est donc un nombre compris entre 0 et 1. Donc, je définis ainsi ce que j'appelle la fonction de répartition de X qu'on note ainsi traditionnellement : F indice X, prise en un petit x de R, et qui lui associe la probabilité d'avoir X inférieur ou égal à x. Et la proposition suivante est fondamentale, puisqu'elle vous dit, premièrement : que la fonction de répartition F X caractérise la loi de X, et deuxièmement, qu'elle vérifie trois conditions de type propriété de fonction, fonctionnelle, avec une condition de régularité, premièrement elle va être croissante, deuxièmement, elle est continue à droite, et troisièmement, elle admet une limite quand X tend vers moins l'infini, qui est 0, et une limite quand X tend vers + l'infini, qui est 1. On va voir que ces propriétés-là sont caractéristiques d'une fonction de répartition, et donc, on va prendre le temps de les démontrer rigoureusement. Une remarque : j'ai dit que la fonction de répartition était continue à droite, donc de manière sous-entendue cela veut dire que, dans toute sa généralité, elle n'est pas continue, donc, on a des problèmes d'irrégularité de cette fonction de répartition, sur lesquels nous allons revenir ultérieurement. Montrons déjà cette opposition. Nous venons de voir que F X, qui est une fonction définie de R dans ] 0, 1] qui à x associe la probabilité d'avoir X inférieur ou égal à x, c'est-à-dire la probabilité de l'ensemble des oméga, tel que X de oméga est plus petit que x. Montrons tout d'abord que F est croissante. Choisissons donc deux réels x inférieur ou égal à y, et bien évidemment, cela va entraîner que l'ensemble des oméga tel que X de oméga est plus petit que x donc si X de oméga est plus petit que x, il est a fortiori plus petit que y, donc cet ensemble-là est inclu dans X inférieur ou égal à y. Par les propriétés des probabilités, nous en déduisons que la probabilité d'avoir X plus petit que x est inférieure ou égale à la probabilité d'avoir X plus petit que y, et donc, que F de x est inférieure ou égale, à F X de y. Nous avons donc bien montré la propriété de croissance de la fonction de répartition F. Montrons maintenant la propriété de continuité à droite. Deuxièmement : F est continue à droite. [AUDIO_VIDE] Je vous rappelle que cela veut dire que si nous avons une suite Xn de nombres réels, qui décroît vers x, alors, limite, quand n tend vers l'infini, de la fonction de répartition prise en xn est égale à F(X). Alors prenons donc une telle suite, et puisque des xn décroissent vers x, nous pouvons assurer que la suite d'ensembles X plus petit ou égal à xn est décroissante au sens de l'inclusion et elle va décroître vers l'intersection sur n, des X inférieur ou égal à xn. Que vaut cette intersection? Rappelons que xn décroît vers X, donc dire que oméga est dans l'intersection, sur n, des X plus petits que xn, est équivalent à dire que pour tout n, qui de oméga est inférieur ou égal à Xn, bien sûr, puisque Xn décroît vers X, si pour tout n X de oméga est plus petit que Xn, ça va entraîner que X de oméga est inférieur ou égal à X ; mais vous voyez que, si X de oméga est inférieur ou égal à X, comme par hypothèse X est plus petit que tous les Xn, cela va entraîner que X de oméga est inférieur ou égal à Xn. Donc, nous venons de montrer que l'intersection sur n des événements X inférieur ou égal à Xn, est exactement l'événement X inférieur ou égal à X. Comme la suite des événements X inférieur ou égal à Xn est décroissante vers l'événement X inférieur ou égal à X, nous en déduisons le résultat. Donc ce que l'on vient de montrer, c'est que la suite des événements décroît, au sens ensembliste, vers X inférieur ou égal à X et par les propriétés de monotonie, de conservation de la monotonie pour les probabilités, on en déduit que la limite, quand n tend vers l'infini, de la probabilité d'avoir X inférieur ou égal à Xn, égale la probabilité d'avoir X inférieur ou égal à X, c'est-à-dire la continuité à droite, de la fonction F. Marquons bien que là on a bien utilisé que la suite Xn décroissait vers X. Nous allons montrer, maintenant, les comportements asymptotiques de la fonction F. Quand X tend vers plus, ou moins, l'infini, donc premièrement, montrons que la limite, quand X tend vers moins l'infini, de F(x) est égale à 0, de même que précédemment, nous pouvons étudier la limite des ensembles X inférieur ou égal à x quand X décroît vers- l'infini, eh bien cette suite va décroître vers l'ensemble vide, si X tend vers moins l'infini en décroissant. Et ceci va bien nous entraîner, toujours par cette propriété, sur des probabilités, des suites d'événements qui décroissent, au sens de l'inclusion, que, la probabilité d'avoir X plus petit que X tend, quand X tend vers moins l'infini, vers 0. Probabilité du vide égal 0. Deuxième propriété que nous voulons montrer : limite quand X tend vers plus l'infini, de F(x) = 1. Biensûr, là, c'est le même argument, mais pour les complémentaires des événements précédents, enfin, des complémentaires, non, on regarde X qui tend vers plus l'infini, donc on va regarder des ensembles croissants. Maintenant, on va prendre des événements X inférieur ou égal à x, et on va faire tendre en croissant X vers plus l'infini, donc dans ce cas-là, ces événements vont tendre vers l'ensemble Oméga tout entier, donc, quand X tend vers plus l'infini. J'indique par des flèches verticales, le fait que X tende vers plus l'infini en croissant, ou que X décroît vers moins l'infini. Et ceci, bien sûr, entraîne immédiatement, là encore, que la probabilité d'avoir X plus petit ou égal à x, croît vers + 1 quand x tend vers plus l'infini. Alors maintenant, il nous reste à expliquer pourquoi cette fonction caractérise la loi de X, et de ce fait, on va pouvoir voir notre proposition, aussi, comme un résultat d'unicité qui nous certifie que deux v.a. qui ont même fonction de répartition, ont même loi, puisque cette fonction de répartition caractérise la loi de la v.a. Alors, pourquoi donc, avons-nous cette caractérisation? Eh bien, je vous rappelle que la définition de la fonction des données par le fait que la fonction de répartition de X au point x est la probabilité que X soit plus petit que x. Nous pouvons donc en déduire, par exemple, la probabilité d'un intervalle de la forme [x, y), où, biensûr, x est strictement plus petit que y. Nous allons écrire que [x, y] est égal à l'intervalle [- l'infini, y] privé de l'intervalle [- l'infini, x]. Et, par les propriétés immédiates des probabilités, nous avons donc que la probabilité de ]x, y] est égale à la probabilité de ]- l'infini, y] moins la probabilité de [- l'infini, x]. Nous en déduisons donc, que la probabilité de cet ensemble est égale à Fx(y)- Fx(x). Vous voyez que, nous pouvons également montrer maintenant, que si l'on construit un intervalle O, sous la forme Union de i = 1 à n, une union finie d'intervalles de cette forme, d'intervalles xi = i, avec on va supposer que ces intervalles-là sont disjoints, donc, xi inférieur à yi, inférieur strictement à xi + 1 et alors, vous voyez qu'on va pouvoir définir la probabilité de O comme la somme, grâce à nos propriétés d'additivité, la somme de i = 1 à n des probabilités de ces intervalles ]xi, yi], j'applique ce que je viens de remarquer ; donc j'aurai F(-yi)- F(xi). Alors, là, il y a encore une petite étape à faire pour dire que ça suffit à caractériser la loi Px, vous voyez que là, on peut définir la loi Px pour toutes les réunions d'intervalles de la forme O, il y a là un théorème mathématique, qui est un théorème de théorie de la mesure, sur lequel je ne vais pas m'étendre, c'est délicat et ça demande des mathématiques substantielles, donc je vous renvoie à un cours de théorie de la mesure, pour assurer que cela suffit à caractériser la loi Px, de connaître les probabilités de tous ces ensembles de la forme O. Donc, comme je vous ai dit, ce théorème est un théorème d'unicité, au sens où si deux v.a. ont la même fonction de répartition, elles auront la même loi. Maintenant, on va voir un théorème d'existence, qui est un théorème vraiment profond et fondamental de théorie de la mesure, qui est un théorème que nous allons admettre ici, là aussi, je vous renvoie à un cours de théorie de la mesure, et qui va nous permettre de dire, que les propriétés 1, 2, 3 que nous venons de montrer, sont en fait suffisantes, pour dire qu'une fonction est la fonction de répartition d'une probabilité. Donc, le théorème est écrit ici : Si F, donc une fonction, définie de R à valeur dans 0, 1 vérifie les conditions d'être croissante, continue à droite, et les conditions de limite que nous avons évoquées ci-dessus, eh bien, c'est la fonction de répartition d'une unique probabilité sur R, munie de sa tribu borélienne. Donc c'est un théorème d'existence de cette probabilité possédant la fonction de répartition R. Nous allons on voir des exemples après, mais c'est un théorème qui vous donne l'existence de mesures, sous des sous-ensembles de R, bien que ici, R soit un fini non dénombrable. Alors une remarque, la tribu borélienne est moins grosse que la tribu de toutes les parties de R, on peut construire une probabilité qui va mesurer tous les éléments de cette tribu-là, si on cherchait à construire une probabilité sur R, munie de l'ensemble de ces parties associées à la fonction de répartition, eh bien, on n'y arriverait pas, sauf dans des cas simples, qui sont les cas que l'on a vus quand le cours 2, les cas simples de fonctions de répartition, qui correspondent à des mesures discrètes. Donc, ce qu'on a dit dans ce théorème hein, c'est que si on a une fonction qui vérifie 1, 2, 3, il existe une probabilité, que j'ai appelée µ, sur (R, B(R) ), tel que pour tout x réel, F(x) soit égal à µ ( ]- l'infini, x] ). On va voir des propriétés supplémentaires de la fonction de répartition F, et voir comment elles sont associées à la loi de X. Donc, nous avons déjà vu que F était continue à droite, bien sûr la question qu'on va se poser maintenant, c'est : est-ce que F est continue? On a la limite à droite en tout point, on va étudier la limite à gauche de F en tout point. Et c'est ce qu'on va montrer maitenant ; alors, je vais noter la limite à gauche de F, la fonction de répartition de X au point x, par F(x-). On sait que cette limite à gauche existe, car, je vous rappelle qu'une fonction monotone amenait toujours une limite à droite et à gauche en tout point, notre fonction est croissante, donc on sait déjà qu'on a des limites à gauche. Ce qu'il faut, c'est les identifier en fonction de la loi. Donc, nous allons montrer que la limite à gauche de F au point x, est égale à la probabilité d'avoir X inférieur strictement à petit x. C'est-à-dire la probabilité de l'intervalle moins l'infini, petit x. Donc montrons-le maintenant. On cherche une limite à gauche, donc on va prendre une suite Xn qui converge en croissant vers X, et on veut montrer que la limite en n de f de Xn est égale à la probabilité de l'intervalle ouvert moins l'infini, petit x. Alors nous regardons les événements X inférieurs ou égaux à Xn, ces événements-là sont croissants puisque Xn est une suite croissante, et nous savons qu'ils tendent vers la réunion de X plus petit que Xn. Là encore, la question est d'identifier cet événement-là. Alors nous savons que dire que petit oméga est dans l'union sur n des X inférieurs ou égaux à Xn, ça va être équivalent à dire qu'il existe n, tel que X de oméga est inférieur ou égal à Xn. Comme les Xn croissent vers X, si X de oméga est plus petit ou égal à Xn, on peut supposer que la suite n'est pas triviale, il y a un Xn différent de X, ça cela va nous entraîner que X de oméga est strictement inférieur à x. Par ailleurs, si X de oméga est strictement inférieur à x, on va pouvoir coincer entre X de oméga et x, un Xn pour un certain R, puisque Xn converge vers X. Et donc, nous avons la réciproque à cette propriété. Donc je vous laisse finir la preuve. Nous avons caractérisé l'union des X inférieurs ou égaux à Xn comme étant égale à X strictement plus petit que x, et donc nous en déduisons finalement ce que nous voulions, à savoir que, la limite à gauche de la fonction de répartition au point X est égale à la probabilité de l'intervalle ouvert moins l'infini petit x. Comme corollaire de cette propriété, pour cela nous allons étudier le saut de a fonction F en petit x, qui est égale à la valeur de sa limite à droite, à savoir F de x, moins sa limite à gauche, F de x -. Et cette valeur-là, va nous être donnée par la remarque suivante. Nous avons déjà calculé la probabilité de x y ouvert à gauche en x et fermée en y, regardons maintenant ce que vaut la probabilité d'un intervalle x y fermé en x et en y. C'est la probabilité, biensûr, de l'ensemble des oméga tel que x de oméga est inférieur ou égal à y et supérieur ou égal à x. Et l'ensemble x y, vous allez toujours pouvoir l'écrire comme- l'infini y fermé en y auquel j'ai retiré- l'infini x ouvert en x. Donc cette probabilité d'avoir X compris entre x et y, on va pouvoir l'écrire, probabilité d'avoir X inférieur ou égal à y moins probabilité d'avoir X strictement inférieur à x. Je vous conseille d'écrire ce que je suis en train de vous expliquer. C'est-à-dire la preuve du fait que la probabilité d'avoir X compris entre x et y, est égale à f de y moins f de x -, c'est-à-dire de la limite à gauche de f en x. Biensûr, maintenant, si l'on pose y = x, vous allez obtenir que la probabilité du singleton x est égale à f de x moins f de x moins, c'est-à-dire au saut de f. JE vous rappelle qu'une fonction est continue en x si et seulement si ce saut est égal à 0, ce qui vous donnera que la limite à droite est égale à la limite à gauche de f au point x est égale à f de x. Et donc vous voyez que f va être continu en petit x si, et seulement si pour la loi de x, la probabilité du singleton petit x, qui est égale à la probabilité de l'ensemble des oméga tel que x de oméga égale x, est égale à 0. Donc ça c'est un résultat que nous réutiliserons ultérieurement, la fonction de répartition sera continue en des points qui ne sont pas chargés en tant que singletons par la loi de X. Nous allons finir cette séance par deux exemples. Deux exemples de construction de probabilité ou de visualisation de ce que c'est que la fonction de répartition, et qui sont un peu deux exemples extrêmes. Prenons une fonction F, donc la fonction identité, sur l'intervalle [0, 1] et supposons qu'elle vaille 0 pour x négatif et 1 pour x = 1. C'est donc une fonction très simple, que vous pouvez dessiner, et vous pouvez remarquer qu'elle vérifie nos 3 propriétés d'être croissante, continue à droite, avec les limites 0 en moins l'infini, et 1 en plus l'infini. Et donc notre théorème, théorème conséquent, de mathématique d'existence, nous assure qu'il existe une probabilité, appelée probabilité uniforme sur [0, 1] et donc F qui est la fonction de répartition. Donc cette probabilité uniforme [0, 1], on l'appelle encore mesure de Lebesgue sur [0, 1] et vous voyez que ça va être la mesure qui correspond à la longueur des intervalles puisque la probabilité d'un intervalle [x, y] dans ce cas là, pour x y inclus dans 0 1, sera égale exactement à y- x dès lors que F est l'identité. Cette construction ici est fondamentale, la mesure de Lebesgue, on peut en fait la définir sur R, donc sur, même des intervalles non bornés de R, mais déjà ici par notre théorème, on a la construction de cette probabilité uniforme sur l'intervalle [0, 1]. Exemple extrême, c'est l'étude d'une, la fonction de répartition d'une v.a. qui ne prend qu'un nombre fini de valeurs, donc ce qu'on a vu dans le cours 2, et dans ce cas là, on a vu qu'une bonne manière de représenter la loi de X, était son histogramme, donc vous voyez, ici, vous avez l'histogramme, d'une certaine loi qui a un nombre fini de valeurs. Il y a combien de valeurs? Une, deux, trois, quatre, cinq, six, bien. Et ici, je vous rappelle que les bâtons ont des longueurs proportionnelles aux probabilités des réalisations des valeurs de la v.a. Dans ce cas là, nous avons donc vu parce que la v.a. ici charge ses points, ses valeurs et seulement ses points, nous avons vu que la fonction de répartition admet un saut à chacune de ces valeurs, et comme la v.a. ne prend aucune autre valeur, la fonction de répartition ici va être une fonction escalier, qui va être constante entre les valeurs prises par la v.a., et qui va sauter en ces valeurs, d'une amplitude qui est exactement la probabilité de réalisation de chacune des valeurs, je vous le rappelle, c'est écrit ici. Donc cette propriété, ici, qui vous dit que la probabilité du singleton X c'est l'amplitude du saut, cette propriété rouge, se traduit par le fait que ces hauteurs ici sont proportionnelles aux longueurs des bâtons, c'est-à-dire la loi de grand X.