[SON] Bonjour. Dans cette séance 6 du cours 3, nous allons revenir à des arguments assez abstraits, et qui vont peut-être vous sembler très théoriques, mais qui en fait, vont être extrêmement utiles dans la pratique, et vous en verrez un certain nombre de développements en exercices. Nous allons en fait voir comment nous pouvons identifier la loi d'une variable aléatoire, ou v.a., réelle, puisque jusque-là, on a vu quelques v.a. réelles usuelles, dont on a donné la densité, et on a fait des calculs à partir de la connaissance de cette loi. Ce qui nous intéresse ici c'est, étant donnée une certaine v.a., comment trouver sa loi? Nous avons déjà vu un outil, qui nous permettait de trouver la loi d'une v.a. réelle, c'est la fonction de répartition, dont nous avons montré qu'elle caractérisait la loi de la variable, et si elle a suffisamment de régularité, on peut par exemple dire quand la v.a. admet une densité, et trouver cette densité comme dérivée de la fonction de répartition. Néanmoins, vous verrez en exercices que, dans de nombreux cas, ce n'est pas vraiment si évident que ça d'obtenir cette fonction de répartition, en particulier si on regarde des fonction de la forme g(X) pour des fonctions g sophistiquées et une v.a. X donnée a priori, ce n'est pas évident de trouver cette fonction de répartition. Donc, nous allons voir aujourd'hui un théorème, et voir d'une part des idées de sa preuve, et comment on l'utilise, un théorème qui va nous permettre de trouver la loi d'une v.a., et ce théorème va être très général, donc va pouvoir, en particulier, se généraliser, et c'est ce que nous ferons aux cas de vecteurs aléatoires dans le cours 4. Venons-en maintenant au vif du sujet, et je vais vous énoncer ce théorème. Nous considérons une v.a. X réelle, et ce théorème nous dit que si nous pouvons trouver une mesure de probabilité µ sur R, qui vérifie que pour toute fonction h continue bornée de R à valeur dans R, l'espérance de h(X) est égale à l'intégrale sur R de h(x) par rapport à cette mesure de probabilité µ(dx), on peut alors dire que la loi de X est égale à µ. C'est-à-dire que si l'on connaît, si l'on peut identifier cette espérance d'une fonction de X pour une suffisamment grande classe de fonctions h ici, on vous dit que cette classe est la classe des fonctions continues bornées, si l'on peut mettre toutes ces espérances sous cette forme intégrale de h(X) par rapport ici à une probabilité, je vous rappelle qu'une probabilité, c'est une mesure µ(dx), qui a des propriétés de sigma additivité qu'on a vues et qui est d'intégrale 1, intégrale sur tout R = 1, eh bien dans ce cas-là, la loi de X est µ(dx). Ce théorème-là va être en particulier très utile, quand on peut mettre l'espérance de h(X) pour h continue bornée, sous la forme de l'intégrale sur R de h(x)f(x)dx, et qu'on reconnaît en f(x) une densité de probabilité. C'est-à-dire une fonction positive, dont l'intégrale sur tout R est égale à 1. Donc on sait que dans ce cas-là, on peut associer une loi à cette densité f(x), et on pourra identifier la loi de X avec la loi de densité f. Donc, rappelez-vous l'utilisation pratique du théorème très théorique que je viens de vous énoncer, c'est celle-ci bien sûr, et là, en fait, il suffit de regarder ces quantités-là pour les fonctions h qui sont continues et bornées. Alors, la continuité va vous permettre de faire des calculs de type intégrale de Riemann sur vos quantités, et la bornitude nous permet d'assurer, j'aurais déjà dû le dire ici, l'existence de l'espérance de la v.a. h(X). Puisque h(X) est bornée, donc son espérance est trivialement finie. Alors, comment on peut prouver un tel théorème? Je vous rappelle que ce que nous avons vu jusqu'alors, c'est que la loi de X était caractérisée par sa fonction de répartition, c'est-à-dire par des quantités comme ça, espérance de h(X), mais par pour une fonction continue, mais pour des fonctions de la forme indicatrice de ]- l'infini, y]. Donc si j'appelle h indice y l'indicatrice de l'intervalle ]- l'infini, y], je vous rappelle que cela veut dire que h indice y de x est égal à 1 si x est inférieur ou égal à y et est égal à 0 si x > y, eh bien si j'ai une telle fonction, l'espérance de hy(X), c'est la probabilité d'avoir X inférieur ou égal à y, et donc c'est la fonction de répartition de X au point y. C'est-à-dire la loi de X qui est prise sur l'événement ]- l'infini, y]. Donc, nous on sait que la loi de X est caractérisée par les espérances de ces fonctions, si l'on fait varier y. Donc, l'idée de la preuve du théorème, c'est de montrer que, si l'on a nous, connaissance des espérances de h(X) pour les fonctions continues bornées, eh bien par approximation, on va pouvoir en déduire l'espérance de telles fonctions hy qui sont bien sûr bornées, puisqu'elles prennent les valeurs [0, 1], mais pas continues, et on a justement un saut au point ici y. La plupart du temps, je vous l'ai déjà dit et je vous l'ai remis ici en rouge, gardez cela en tête, il faut utiliser ce théorème pour trouver la loi d'une v.a., et c'est beaucoup plus facile d'utiliser ce théorème, que d'essayer de trouver la fonction de répartition d'une v.a. Vous verrez un certain nombre d'exercices, pour vous montrer l'intérêt de ce théorème. Un exemple très simple : on va regarder le lien qui relie une v.a. normale de loi paramétrée par m et sigma², dont nous avons vu, à la séance 5 du cours 3, que m était l'espérance et sigma² la variance de y, et comment relier cette v.a. ici, et une loi normale centrée réduite. Première remarque : nous savons que si y est d'espérance m et de variance sigma², la v.a. X = (y- m) / sigma, où j'ai ce qu'on appelle centré y et réduit y, en retirant l'espérance m et en divisant par l'écart type, nous avons vu que cette variable aléatoire-là, était centrée et de variance 1. Un résultat très important, est de montrer que cette variable aléatoire-là est en fait aussi une loi normale, et donc, va avoir pour loi une loi normale de paramètres 0 et 1. Pour ce faire, on va chercher la loi de X. Donc, par le théorème précédent, nous allons regarder l'espérance de h(X), je ne l'ai pas réécrit, mais ici, h est une fonction continue bornée. Donc par définition de X, c'est l'espérance de h de Y- m sur sigma. Et par définition de ce que c'est que Y, donc en utilisant le fait que Y a la densité 1 sur sigma racine de 2pi e puissance- (y- m)² sur 2sigma², nous avons que l'espérance de h(y- m) / sigma est égale à l'intégrale de h(y- m) / sigma fois la densité de Ydy. Or, il suffit maintenant de pose x = (y- m) / sigma, dans la séance 5 nous avons fait ces calculs et nous avons vu que dy était égal à sigma fois dx, et sigma va se simplifier avec celui qui est ici, et ici nous avons 1 / racine de 2pi, exponentielle- (x² / 2). Donc, nous reconnaissons ici la forme intégrale de h(x) fois la densité d'une loi normale N(0, 1)dx. Et par ce théorème ici, nous pouvons alors identifier la loi de X, comme étant la loi de densité normale 1 / racine de 2pi exponentielle -(x² / 2). Donc, ce que nous avons vu, c'est que si nous faisons une transformation affine de Y, qui est cette transformation-là, y étant une v.a. de loi normale, eh bien nous obtenons une v.a. de loi normale. Donc l'ensemble des v.a. de lois normales est stable par fonction affine, ça c'est un résultat qui est fondamental, en particulier en statistique, il y a toute une théorie de régression linéaire statistique qui est construite sur ces propriétés des v.a. de loi normale. Nous allons maintenant nous poser la question de manière un petit peu différente, et vous verrez dans les exercices, et on le voit dans la pratique, en particulier en modélisation, que c'est une question qui se pose très souvent. On se donne une v.a. X, dont on sait qu'elle a une loi à densité, et je note sa densité f indice X. Maintenant, on est amenés à étudier une v.a. qui est une fonction de de X. Donc Y = g(X). Et la question, c'est : quelle est la loi de Y? Une question secondaire est : est-ce que Y admet une densité, et si oui, quelle est sa densité? Première remarque : Y n'admet pas toujours une loi à densité, même si X admet une loi à densité. Prenons l'exemple d'une fonction g, donc g est une fonction définie de R dans R, et je prends g(x) égal une certaine constante a. Donc g est une constante. Dans ce cas-là, Y, qui est égal à g(X), n'est plus aléatoire. Y c'est la constante a pour toute valeur de oméga. Que vaut, dans ce cas-là, la loi de Y? Utilisons notre théorème, et calculons l'espérance de h(Y). Mais dans ce cas-là, puisque Y vaut toujours a, donc vaut a avec probabilité 1, eh bien, l'espérance de h(Y), c'est juste l'espérance de h(a). Pour identifier la loi de Y, nous avons vu que nous voudrions mettre cette quantité-là sous la forme intégrale de h(y) fois une probabilité mu de (dy). Je vous renvoie au premier transparent de cette séance. Eh bien en fait, nous pouvons identifier la mesure mu, donc c'est une probabilité sur R un peu spécifique, que nous n'avons pas encore vue jusqu'à présent, que l'on appelle la mesure de Dirac au point a. Qu'est-ce que cette mesure de Dirac? Donc a est fixé, c'est une donnée, a priori, c'est un nombre réel fixé, et je vais définir la probabilité, que je note delta indice a sur R, comme étant la probabilité qui sur un borélien, un élément de la tribu borélienne A, associe 1 si a est dans A, et la probabilité par cette mesure de Dirac, de A = 0 si a n'appartient pas à A. Vous voyez en particulier que si vous prenez A égal au singleton a, la mesure de Dirac du singleton a sera égale à 1 et la mesure de Dirac du complémentaire de ce singleton sera égale à 0. Puisque A ne sera pas dans le complémentaire du singleton a. Donc en fait, cette mesure de Dirac, cette probabilité, elle va juste dire si on a un élément complémentaire qui contient A, ou non. Elle va donc juste charger le singleton a. Dès lors que la probabilité du singleton a vaut 1, eh bien elle vaut 0 pour tout événement qui ne contient pas a. Donc nous pouvons écrire h(a), on peut montrer qu'en fait si on intègre une fonction h qui, ici, est supposée continue bornée par rapport à cette mesure de Dirac, eh bien par définition, ça, c'est exactement h au point a. Donc on a bien mis en évidence une probabilité ici, comme le demandait le théorème, et cette probabilité, c'est la mesure de Dirac au point a. Ce qui est une autre manière de dire que Y vaut tout le temps a. Donc la loi de Y ici, c'est cette mesure de Dirac, qui ne charge que le point a. Donc bien-sûr, Y n'est pas une loi à densité, puisqu'on a vu qu'une loi à densité, était une loi qui ne chargeait pas les points. Je vous rappelle que pour une loi à densité X, la probabilité que X soit égal à une constante a, eh bien c'est égal à 0. Alors revenons au cas général, mais en gardant toujours en tête qu'il peut y avoir des pathologies, comme dans l'exemple que l'on vient de regarder. Regardons, pour identifier la loi de Y, comme on l'a vu dans le théorème du début de cette séance, on écrit : espérance de h(Y) pour une fonction continue, bornée sur R. Y c'est g(X). Donc en fait, l'espérance de h(Y) c'est égal à l'espérance de h pour g(X). Donc nous savons que X admet une densité, et donc, espérance de h- g(X), c'est égal à l'intégral de h pour g(x) fois densité de X pris en (x) dx. Nous voulons savoir si Y admet une densité. Si elle admet une densité, j'appellerai F indice Y sa densité, et ma question est : est-ce que je peux écrire cette quantité-là sous la forme intégrale sur R de h(y) fois une certaine densité de probabilité fY de (y) dy? Donc est-ce qu'on peut écrire cette expression, et si oui, peut-on identifier cette densité fY? Donc vous voyez, que si nous écrivons l'espérance de h(Y) sous cette forme ici pour toute fonction h continue bornée, par notre théorème, vraiment, nous en déduirons que Y admet la densité f indice Y. Alors pour ce faire, ici nous avons h pris au point g(X) on veut obtenir h(Y), eh bien l'idée, c'est de faire un changement de variable y = g(X). Et si nous pouvons faire le changement de variable, s'il y a suffisamment de régularité, en particulier si suffisamment de bijectivité, de la fonction du changement de variable g, qui nous relie X à Y, eh bien nous allons pouvoir effectivement faire ce changement de variable, et en déduire, que l'espérance de h(Y) a cette forme ici, et de plus, nous pourrons caractériser la densité de Y. Donc, vraiment, l'idée, c'est, dès que vous êtes confronté à ce problème, une fois que vous avez écrit l'espérance de h(Y) sous sa forme en fonction de la densité de X, eh bien, pensez à faire ce changement de variable : y = g(X). Alors, bien sûr, pour pouvoir le faire proprement, il faut que g soit bijectif. C'est pas toujours le cas sur l'ensemble de toutes les valeurs de X et, souvent, vous allez être amené à découper R en sous-intervalles, sur lesquels g sera bijective et dérivable, pour pouvoir appliquer les formules classiques du changement de variable, donc je vous renvoie au cours d'intégration pour voir comment on applique cette formule du changement de variable. Donc, nous allons maintenant voir sur un exemple, comment nous pouvons faire, dans le cas où nous sommes amenés à découper en intervalles. Nous allons regarder l'exemple suivant, donc, nous savons que X est une variable aléatoire, dont la loi a une densité que j'ai notée f indice X, de x, définie sur tout R, et ma question est donc : comment trouver la loi de Y = X²? [AUDIO_VIDE] Donc je vais prendre une fonction h continue, bornée sur R, et à valeur réelle, et, je vais calculer l'espérance de h(y). Puisque y est égal à X², l'espérance de h(y) est égale à l'espérance de h(X²) et puisque nous savons que X admet une densité, nous allons pouvoir écrire cette expression sous la forme intégrale sur R de h(x²), f indice X de (x) dx. Par définition d'une densité. Donc, ce que nous avons vu là dans le cours, c'est que pour trouver la loi de Y, il faut faire un changement de variable et il faudrait poser donc comme changement de variable, y = x². Mais, nous savons bien que ce changement de variable là, n'est pas bijectif sur tout R. En revanche, il va être sur R+, si on dit que x est dans R+ comme information supplémentaire, ou sur R- si on dit comme information supplémentaire que x est négatif. Donc nous allons découper cette intégrale en deux parties, nous allons écrire donc que l'espérance de h(Y) est égale à l'intégrale de- infini à 0 de h (x²) fx (x.d.x), plus l'intégrale de 0 à + infini, de h(x²) fx (x.d.x). Bien. Alors, la deuxième partie est particulièrement simple, puisque le changement de variable y = x² entre 0 et + infini est très clairement bijectif, et que, nous savons que dans ce cas-là, que y = x² est équivalant à x = racine de y. Je vous rappelle que racine de y, par définition, est un nombre positif. Pour la première intégrale c'est un petit peu plus subtil, puisque, si nous sommes avec un x qui est négatif, ce qui est le cas entre- infini et 0, donc, ici, je vais rappeler que x est positif ; quand x est négatif, y = x² équivaut à x =- racine de y. Donc, nous allons utiliser ces deux propriétés pour écrire les deux intégrales ici présentes. en termes de y. Finalement, nous avons E [h (y)], donc dans la première partie, intégrale de moins l'infini à 0, de h (x 2) * f (petit x) d x. Si je pose donc y = x 2, y va varier entre plus l'infini et 0, quand x variait entre moins l'infini et 0. Donc, je vais avoir h (y) * f X, on a vu que petit x dans ce cas-là était égal à - racine de y. Alors, d x, je ne l'ai pas écrit, on va l'écrire maintenant. Si x =- racine de y, d x va être égal à- 1 / (2 * racine de y). Donc, je remplace d x par sa valeur, d y. Cela, c'est la partie donc qui correspondait aux x négatifs. Et maintenant j'écris la partie qui correspond aux x positifs. Donc, pour x positif, bien sûr, si x varie entre 0 et plus l'infini, y qui vaut x 2, va varier aussi entre 0 et plus d'infini. Et, nous allons avoir h (y) * densité f x, donc ici on a vu que pour les x positifs, x était égal à racine de y. et si x est égal à racine de y, d x dans ce cas va être égal à 1 / (2 * racine de y) d y. Et finalement, donc vous voyez que j'intègre entre plus l'infini et 0, une fonction où intervient le nombre- 1 / (2 * racine de y), donc je vais écrire plutôt la première intégrale sous la forme d'une intégrale de 0 à plus l'infini, de 1 / (2 * racine de y) * h (y) * f X (- racine de y) d y. Et la deuxième intégrale, eh bien, s'écrit exactement de cette forme-là, mais avec f X (+ racine de y). Et donc, vous voyez que finalement, nous avons mis l'espérance de y, sous la forme de intégrale sur R, de h (y) fois, donc je vais l'écrire en rouge. Fois quoi? Alors, on intègre sur 0, plus l'infini, donc indicatrice de y dans ]0, + l'infini[ * (1 / (2 * racine de y) * (f X (- racine de y) + f X (racine de y)) d y. Et nous reconnaissons ici une forme donc d'une fonction f Y (petit y) d y. Donc, vous voyez qu'on a trouvé, donc ce n'était pas du tout évident de deviner a priori, cette loi pour y. On a trouvé que si x avait une densité f indice X, eh bien, y admet une loi qui a densité. Et sa densité est donnée par la fonction que j'ai écrite ici. Donc, on va la réécrire proprement à la page suivante. Donc, ce qu'on vient de montrer, c'est que si X est une variable aléatoire réelle de densité f X, alors Y = X 2 admet une loi de densité f Y définie par f Y (petit y) = 1 / (2 * racine de y) * (f X (racine de y) + f X (- racine de y)), et cela pour les y strictement positifs. Cela, on pouvait s'y attendre, puisque Y = X au carré, donc c'est un carré, c'est une variable aléatoire qui est toujours positive, donc les valeurs que Y charge sont uniquement des valeurs réelles positives, d'où ce Y positif. Je vous rappelle ici que, qu'on mette Y supérieur ou égal à 0, ou Y strictement positif, c'est la même chose puisque justement on vient de montrer que Y est une loi à densité.