Sie sind auf Seite 1von 12

Caractre de vrit possible de quelque chose : La vraisemblance d'une explication.

Probabilit proche de la certitude : Il y a peu de vraisemblance que a se passe ainsi. Conformit la ralit : Respecter la vraisemblance au thtre.
Lestimation des coefficients se fait par la maximisation du Logarithme de la vraisemblance. o La vraisemblance est la probabilit dobserver lchantillon compte tenu du modle et de ses paramtres o Exemple : si binomial avec une probabilit p davoir un rsultat p air alors la probabilit dobserver un chantillon avec 3 pair et 2 impair est p.p.p.(1-p).(1-p) soit p^3.(1-p)^2 o Pour rendre plus facilement manipulable la vraisemblance on passe dun produit une somme en passant par les Log et en prenant le ngatif pour minimiser.

Dans sa forme gnrale, la vraisemblance est la probabilit conditionnelle dobserver les donnes sous un modle particulier. tant donn un modle qui spcifie les probabilits dobserver diffrents vnements, la vraisemblance L dobtenir les donnes observes peut tre calcule : LX = Pr (X | H), o Pr (X | H) est la probabilit conditionnelle dobserver les donnes X sous lhypothse H.

Notion de vraisemblance
Etant donn un chantillon observ et une loi de

probabilit , la vraisemblance quantifie la probabilit que les observations proviennent effectivement d'un chantillon (thorique) de la loi .

Prenons l'exemple de 10 lancers de pice. L'chantillon binaire observ est par exemple :

Pour un chantillon de taille 10 de la loi de Bernoulli de paramtre la probabilit d'une telle ralisation est quelquesvaleurs numriques. 0.2 0.3 0.4 0.5 . Voici

0.6

0.7

0.8

Il est naturel de choisir comme estimation de , celle pour laquelle la probabilit de l' chantillon observ est la plus forte, savoir ici 0.6. Dfinition 2.5 Soit famille de lois de probabilit sur un ensemble fini, , et un entier. une

On appellevraisemblance associe la famille un -uplet d'lments de paramtre associe la quantit :

, la fonction qui du

et une valeur

L'interprtation

est

la

suivante. de la loi

Considrons . Par dfinition,

un chantillon thorique les variables alatoires loi . Donc la

sont indpendantes et de mme probabilit ait pour que ralisation

l'chantillon thorique

l'chantillon observ que prenne la valeur

est le produit des probabilits pour , savoir :

Dans le cas d'un modle continu, la loi a une densit sur , et la probabilit pour que l'chantillon prenne une valeur particulire est toujours nulle. Il faut alors remplacer la probabilit sa densit dans la dfinition de la vraisemblance.
Ads by Video PlayerAd Options

par

Dfinition 2.6 Soit continues sur la loi et

une famille de lois de probabilit un entier. Notons la densit de probabilit de , la

. On appelle vraisemblance associe la famille

fonction qui un -uplet d'lments de valeur du paramtre associe la quantit :

et une

Pour apprendre les probabilits, il est de coutume dutiliser une urne remplie dobjets, et de faire des tirages au hasard dedans. Imaginons donc une urne qui contient 100 objets, pouvant avoir deux formes (carr ou triangle) et deux couleurs (bleu ou rouge). La composition dtaille de lurne dessin ci-contre. est donne sur le

Une main innocente tire un objet au hasard, quel est la probabilit que ce soit un carr ? Facile ! Il y a 100 objets, 60 sont des carrs, donc la rponse est 60%. Jusquici tout va bien. Imaginez maintenant que la main innocente tire un objet, et que vous parveniez distinguer rapidement que cet objet est rouge. Quel est la probabilit que ce soit un carr ? Facile aussi, il y a 45 objets rouges, dont 9 qui sont la fois rouges et carrs, la probabilit dtre un carr sachant quil est rouge est donc 9/45 = 20%. Si vous comparez ces deux situations, vous constatez que la probabilit que lobjet soit un carr est fortement affecte par le fait de savoir quil est rouge. La probabilit que lobjet soit carr nest pas la mme que la probabilit que lobjet soit carr sachant quil est rouge . Les mathmaticiens parlent de probabilits conditionnelles , et utilisent la barre verticale | pour symboliser lexpression sachant que . Dans les exemples prcdents, on a donc P(Carr) = 60% P(Carr | Rouge) = 20% Maintenant je vous invite faire le calcul inverse. Vous tirez un objet les yeux bands, vous sentez dans votre main quil est carr : quel est la probabilit quil soit rouge ? Si vous regardez attentivement la composition de lurne, il y a 60 objets carrs, dont 9 qui sont rouges, donc P(Rouge | Carr ) = 9/60 = 15% Une leon importante dans cette affaire, cest que P(Rouge | Carr ) nest pas la mme chose que P(Carr | Rouge). Nous avons vu dans notre exemple du cancer que notre erreur venait justement de la confusion entre P(Malade | Positif) et P(Positif | Malade). Il est donc important de pouvoir passer de lun lautre dans un calcul. Etcomment connatre P(B|A) si on connait P(A|B) ? Cest l quintervient une formule dcouverte par le rvrend Thomas Bayes au XVIIIme sicle, mais qui hasard de la science na t publie quaprs sa mort.

Linfrence baysienne (Bayes level 2)


Prliminaire : Ce billet est la suite de celui de la semaine dernire, qui portait sur les probabilits conditionnelles et introduisait la formule de Bayes. Si ces notions vous sont familires, vous ntes pas obligs daller le lire. Dans le cas contraire, nhsitez pas vous rafrachir la mmoire !

La semaine dernire, je vous ai prsent la clbre rgle de Bayes, qui permet de relier la probabilit conditionnelle de "A sachant B" celle de "B sachant A"

Nous avions vu un cas simple, o A et B dsignaient respectivement le fait dtre rouge et carr pour un objet que lon tire au hasard dans une urne ("quelle est la probabilit quil soit carr sachant quil est rouge"), ainsi quun cas plus subtil o il tait question de dpistage du cancer. Lide tait de souligner la diffrence entre "la probabilit davoir le cancer sachant quon est dpist positif", note P(C | +), et "la probabilit dtre dpist positif sachant quon a le cancer", note P(+ | C). Daprs la formule de Bayes, on peut relier les deux par :

Aujourdhui, nous allons voir en quoi la formule de Bayes peut sinterprter dans un contexte plus gnral, et devenir un outil formidable pour quantifier la manire dont nous raisonnons, et mme dont notre cerveau fonctionne !

Bayes dans toute sa splendeur


Reconsidrons lexemple du dpistage du cancer. On peut dire que dans ce problme, nous avons

Dun ct, une hypothse : "Jai le cancer" De lautre ct, une observation : "Je suis test positif" Quand on souhaite connatre "la probabilit davoir le cancer sachant quon est positif", on est en train de chercherla probabilit que lhypothse soit vraie tant donne notre observation. Si on rcrit la formule de Bayes de manire plus abstraite, en considrant une hypothse H et une observation O, on a

Voici la formule de Bayes dans toute sa puissance ! Vous avez peut tre limpression que jai crit la mme formule quau dbut, en changeant juste les lettres, mais du point de vue de linterprtation, il y a une grosse diffrence ! Cette formule nous permet en effet de quantifier de quelle manire des observations permettent dajouter du crdit une hypothse. La formule de Bayes, cest loutil idal pour structurer les raisonnements, quil sagisse de diagnostic mdical , dun raisonnement scientifique, ou bien de la recherche du coupable dun crime.

Raisonnement dductif et raisonnement inductif


Dans les exemples que je cite ci-dessus (en sciences, en mdecine ou dans le domaine de la justice), nous pratiquons

trs frquemment des raisonnements inductifs. Rappelons un peu de quoi il sagit.

Considrons la formule habituelle "Tous les hommes sont mortels. Socrate est un homme. Donc Socrate est mortel". Il sagit dun raisonnement dductif, du type "A implique B. A est vrai. Donc B est vrai". Dans un raisonnement dductif, la conclusion est imparable, indiscutable, et ne laisse pas de place au doute. Mais souvent nous avons tendance faire la dmarche dans lautre sens : "Tous les hommes sont mortels. Socrate est mortel. Donc il y a des chances que Socrate soit un homme". Il sagit cette fois dun raisonnement inductif "A implique B. B est vrai. Donc il y a des chances que A soit vrai". Comme vous le voyez, le raisonnement inductif ne donne pas des certitudes absolues. Il ne fait que donner des indices qui poussent une conclusion. On peut dailleurs se tromper en faisant un raisonnement inductif. Comme dans le fameux exemple "Tous les chats sont mortels. Socrate est mortel. Donc Socrate est un chat".

Lexemple du chat et de Socrate semble fait pour ridiculiser le raisonnement inductif, mais en ralit le raisonnement inductif est partout ! En sciences pour valider une thorie partir des expriences, dans le domaine de la justice pour dcider dun coupable partir de preuves, ou en mdecine pour faire un diagnostic partir de symptmes. Le point faible du raisonnement inductif, cest quil laisse la place au doute. On nest jamais compltement sr, et on quand on dit "il y a des chances que", on ne semble mme pas capables de quantifier notre degr de confiance. Et cest l quintervient la gniale formule de Bayes : elle permet de mettre des chiffres sur les raisonnements inductifs !

Anatomie de linduction baysienne


Pour faire le lien entre le raisonnement inductif et la formule de Bayes, il suffit dobserver que le raisonnement inductif consiste raliser des observations (Socrate est mortel), et considrer que ces observations viennent supporter une hypothse (Socrate est un homme). Or cest exactement ce que fait pour nous la formule de Bayes :

Pour cela, il suffit dinterprter p(H) comme le degr de confiance que lon a vis--vis de lhypothse H avant de prendre en compte les observations, on lappelle probabilit a priori. Ensuite on interprte P(H | O) comme le degr de confiance aprs la prise en compte des observations, on lappelle probabilit a posteriori. Le terme P(O | H) sappelle la vraisemblance, et quantifie le degr de compatibilit de lhypothse H et des observations O. La formule de Bayes est alors un moyen de relier la probabilit a posteriori, et la probabilit a priori. Cest donc une formule qui permet de rviser nos degrs de confiance en fonction des observations et de rendre quantitatif le raisonnement inductif.

Par exemple : javais 0.1% de risque davoir ce cancer (probabilit a priori), maintenant que je sais que je suis positif au test (observations), le risque est de 2.9% (probabilit a posteriori). (voir le billet prcdent pour savoir do viennent ces valeurs). A part le diagnostic mdical, le raisonnement baysien est utilis pour le filtrage du spam. Lhypothse initiale H est par exemple "tel message est un spam", puis lalgorithme ralise un certain nombre dobservations concernant le contenu du message (son expditeur, les mots employs, la prsences de liens, etc.) A chacune de ces observations, grce la rgle de Bayes, lalgorithme met jour son estimation de la probabilit que le message soit un spam. Une fois toutes les observations effectues, en fonction de la valeur de la probabilit a posteriori, il peut dcider de classer ou non le message comme spam.

Maximum de vraisemblance
La vraisemblance Jouvre mon Petit Larousse et je lis : Vraisemblance n.f. Caractre de ce qui est vraisemblable, a lapparence de la vrit. Quest-ce-que la vrit pour un statisticien ? Je ne vais pas vous dispenser un cours de philosophie, ce nest pas mon fort. Il y a peut-tre le statisticien irraliste qui cherche LE modle qui dcrira parfaitement toute situation relle et le statisticien modeste pour qui une loi de probabilit constitue dj une forme de perfection. Donc, hypothse : nous sommes modestes. La vraisemblance (Likelihood) mesure ladquation entre la distribution observe sur unchantillon alatoire et une loi de probabilit suppose dcrire la ralit sur la population dont l'chantillon est issu. Comment ? Par hypothse, nous connaissons la fonction de densit de la loi de probabilit thorique, discrte ou continue, la mieux adapte la population. Cependant,

cest une COQUILLE VIDE puisque nous ignorons son ou ses paramtres (esprance, variance). Nayant pas le choix, nous estimons ceux-ci partir de notre chantillon. Intuitivement, on pourrait penser qu'il suffit de reporter sur la population les paramtres observs et que le tour est jou mais on se tromperait. Il existe plusieurs techniques pour trouver l'estimateur le plus pertinent. Lutilisation de la vraisemblance est lune dentre elles. Supposons que lon compare notre distribution une loi discrte, de Poisson par exemple. Pour chaque observation indpendante des autres (mettons 0, 1, 2), on ne retient pas la probabilit observe mais celle que lon aurait obtenue en appliquant la loi de Poisson (on remplace le x de la formule de la distribution de Poisson par 0, 1, 2), loi munie du paramtre estimer. Leproduit de toutes ces probabilits sappelle la vraisemblance. Bon, ce nest plus vraiment la dfinition du Petit Larousse Certes, cette mesure est rductrice puisquune adquation est rsume par un seul chiffre mais il sagit l dune dmarche habituelle en statistiques Plus la vraisemblance est proche de zro , moins ladquation la loi est bonne. La fonction de vraisemblance Maintenant que nous avons dfini la vraisemblance, nous comprenons quelle varie en fonction du ou des paramtres de la loi en question. Il peut sagir du paramtre de la loi de Poisson, de la moyenne et de lcart-type dune loi normale, etc. Habituellement, quand on parle dun paramtre de faon gnrale, on le nomme thta (comme on appelle lambda lhomme de la rue). La fonction de vraisemblance scrit alors ainsi (sous thta peuvent se cacher un ou plusieurs paramtres) :

Le grand intrt de cette fonction est de permettre la dtermination de la ou des valeurs de pour lesquelles la fonction de vraisemblance sera maximale. Le maximum de vraisemblance En fait , il est plus pratique dutiliser le logarithme de cette fonction (on na jamais fait mieux pour remplacer un produit par une somme). Dans la mesure o la fonction ln estcroissante, le maximum de la fonction de vraisemblance est aussi celui de la log-vraisemblance.

Une drive partielle nulle tant un moyen prouv pour trouver un extremum, on pose lquation de vraisemblance. On drive la fonction par rapport au paramtre estimer.

En gnral, dans les dmonstrations, on tudie aussi la drive seconde pour sassurer quil sagit bien dun maximum (histoire de vrifier quon na pas btement choisi le pire estimateur). Deux dmonstrations figurent en page calculs de maximums de vraisemblance (il s'agit du paramtre de la loi exponentielle et de la moyenne d'une loi normale). Utilisation Tout ceci semble bien thorique. Un intrt pratique est que le calcul de lestimateur du maximum de vraisemblance (EMV) est ralis par les logiciels qui ajustent les observations dun chantillon une distribution (proposant parfois dautres mthodes). La prsentation des tapes que je reprends cidessous doit beaucoup au manuel du logiciel @RISK de Palisade : Ltat des lieux : vous observez une ou plusieurs variables sur un ou plusieurs chantillons et vous souhaitez vous en servir pour estimer une fonction de densit (ou une fonction cumulative) reprsentative de toute la population, ceci afin d'utiliser ce modle pour estimer un tas de choses passionnantes. Donc, vous ou votre logiciel choisissez un certain nombre de distributions candidates. titre dexemple, @RISK connat une quarantaine de lois de probabilit. tape suivante, le logiciel dtermine le ou les paramtres des lois candidates par la mthode de lEMV (ou dautres approches). Enfin, les distributions candidates, armes de leurs paramtres estims par maximum de vraisemblance, sont toutes compares la distribution empirique. Ici aussi, il existe un choix de techniques pour juger la meilleure adquation (Kolmogorov-Smirnov, khi,indicateurs dcart). Et cest ainsi quun pauvre histogramme shabille dune sublime loi de probabilit qui lui colle au corps comme aucune autre