Beruflich Dokumente
Kultur Dokumente
Lorsque le caractre tudi est qualitatif, chaque caractre sera index et pour chaque varit du caractre, on indiquera le nombres des membres de la
population ayant cette varit : cest une srie statistique qualitative.
Exemple :
On considre comme population 100 nouveau-ns et le caractre est le sexe.
On indexe les garons par G et les filles par F.
La srie sera par exemple :
G:63, F:37
"taille" "effectif"
144 1
147 1
148 1
151 1
153 2
154 3
155 3
156 2
159 2
161 1
162 1
165 1
171 1
145.5 x <147.5 1
147.5 x <149.5 1
149.5 x <151.5 1
151.5 x <153.5 2
153.5 x <155.5 6
155.5 x <157.5 2
157.5 x <159.5 2
159.5 x <161.5 1
161.5 x <163.5 1
163.5 x <165.5 1
165.5 x <167.5 0
167.5 x <169.5 0
169.5 x <171.5 1
Taille 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187
Effectif 4 8 7 18 23 22 24 32 26 25 18 19 10 8 6
Lactivit commence par un calcul des paramtres statistiques puis se poursuit avec des reprsentations graphiques : diagrammes en btons, diagramme en
bote et polygone des frquences cumules croissantes. On tape :
T:=(173+j)$(j=0..14)
On obtient :
173,174,175,176,177,178,179,180,181,182,183,184,185,186,187
On tape :
Ef:=(4 ,8 ,7, 18, 23, 22, 24, 32, 26, 25, 18, 19, 10, 8, 6)
sum(Ef)
On obtient :
250
On tape :
histogramme(tran([[T],[Ef]]))
On obtient :
On tape :
diagramme_batons([[T],[Ef]])
On obtient :
On tape :
moustache([T],[Ef])
On obtient :
On tape :
Efc:=(sum(Ef[j],j=0..k)/250.)$(k=0..size(Ef)-1)
On obtient :
0.016,0.048,0.076,0.148,0.24,0.328,0.424,0.552,0.656,0.756,0.828,0.904,0.944,0.976,1.0
On tape :
affichage(nuage_points([[T],[Efc]])), point_point+epaisseur_point_2),frequences_cumulees(tran([[T],[Ef]]))
On obtient :
On tape :
approx(mean([T],[Ef]))
On obtient :
180.104
On tape :
approx(sttdev([T],[Ef]))
On obtient :
3.27859482096
On tape :
histogramme(tran([[T],[Ef]])),
plotfunc(loi_normale(180.104,3.27859482096,x),x=172..188),
nuage_points(tran([[T],[Ef]/250.]),affichage=1+point_point+epaisseur_point_2)
On obtient :
Leffectif cumul dune valeur (ou dune classe) est la somme de leffectif de cette valeur (ou de cette classe) et de tous les effectifs des valeurs (ou des
classes) qui prcdent.
La frquence dune valeur (ou dune classe) est le rapport de leffectif de cette valeur (ou de cette classe) par leffectif total.
Avec Xcas on tape par exemple :
frequences([1,2,1,1,2,1,2,4,3,3])
On obtient ;
[[1,0.4],[2,0.3],[3,0.2],[4,0.1]]
La frquence cumule dune liste de valeurs (ou dune classe) est la somme de la frquence de cette valeur (ou de cette classe) et de toutes les frquences
des valeurs (ou des classes) qui la prcdent.
Avec Xcas on tape par exemple :
frequences_cumulee([[0.75,30],[1.75,50],[2.75,20]])
ou
frequences_cumulee([[0.25..1.25,30],[1.25..2.25,50],
[2.25..3.25,20]])
On obtient le diagramme des frquences cumules.
Lhistogramme des effectifs (resp frquences) dun caractre discret ou continu est le graphique qui permet de visualiser leffectif (resp frquences) des
diffrentes valeurs du caractre : on met en abscisse les diffrentes valeurs du caractre (ou le centre des diffrentes classes), puis on forme des rectangles
accols deux deux, ses rectangles ont deux cots parrallles laxe des ordonnes, le cot port par laxe des abscisses a pour longueur lamplitude de la
classe, et lautre est tel que laire du rectangle est gale leffectif (resp frquences) de la valeur considre.
Lhistogramme des frquences permet de visualiser les frquences des diffrentes classes au moyen de la surface de rectangles : chaque rectangle
correspond une classe et a pour surface la frquence de cette classe.
Avec Xcas on tape par exemple :
histogramme([[0.75,30],[1.75,50],[2.75,20]])
ou
histogramme([[0.25..1.25,30],[1.25..2.25,50],
[2.25..3.25,20]])
On obtient un histogramme des frquences.
La fonction de rpartition des frquences est gale pour chaque valeur du caractre la frquence cumule de cette valeur.
Le mode est la valeur du caractre dont leffectif est le plus grand.
Le maximum est la plus grande valeur du caractre effectivement obtenue.
Le minimum est la plus petite valeur du caractre effectivement obtenue.
La mdiane partage la srie statistique en deux groupes de mme effectif. Cest une valeur du caractre partir de laquelle leffectif des valeurs qui lui
sont infrieures est superieur ou gal leffectif des valeurs qui lui sont suprieures (par exemple la mdiane de [140,145,146,147] est 146 et la mdiane
de [140,145,146] est 145). La mdiane est donc la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.5.
Les quartiles sont trois valeurs du caractre qui partage la srie statistique en quatre groupes de mme effectif :
- le 1-ier quartile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.25.
- le 2-ime quartile est confondu avec la mdiane.
- le 3-ime quartile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.75.
On peut dfinir les dciles. Il y a 9 dciles :
le 1-ier dcile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.1.
le 2-ime dcile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.2.
etc...
le 9-ime dcile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.9.
On peut aussi dfinir le centile (il y a 99 centiles) et le quantile dordre p :
le 1-ier centile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.01.
etc...
le 99-ime centile est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse 0.99.
Le quantile dordre p (p un rel de [0,1[), est la valeur du caractre partir de laquelle la frquence cumule atteint ou dpasse p.
Le semi-interquartile est gal 1/2(Q3Q1) o Q1 et Q3 dsigne le premier et le troisime quartile. Cet indice fournit un renseignement sur ltalement
des valeurs de part et dautre de la mdiane.
Linterquartile est gal Q3Q1 o Q1 et Q3 dsigne le premier et le troisime quartile. Cet indice fournit un renseignement sur ltalement des valeurs
de part et dautre de la mdiane.
Linterdcile est gal D9D1 o D1 et D9 dsigne le premier et le neuvime dcile. Cet indice fournit un renseignement sur ltalement des valeurs de
part et dautre de la mdiane.
Exemples avec Xcas
On tape :
L:=[1,2,3,4,5,6,7,8,9,10]
min(L) et on obtient 1
quartile1(L) et on obtient 3.0
median(L) et on obtient 5.0
quartile3(L) et on obtient 8.0
max(L) et on obtient 10
quartiles(L) pour avoir le rsultat des 5 commandes prcdentes et on obtient [[1.0],[3.0],[5.0],[8.0],[10.0]]
quantile(L,0.9) et on obtient 9.0
La boite moustaches permet de visualiser ces diffrentes valeurs :
cest un rectangle dont un cot est un trait allant de Q1 Q3 sur lequelle un trait vertical indique la valeur de la mdiane et do deux traits horizontaux
(les moustaches) dbordent : lun va de la valeur minimum Q1 et lautre de Q3 la valeur maximum. Sur ces deux moustaches, on trouvent quelquefois
La moyenne est le quotient de la somme des valeurs du caractre (pas toujours distinctes) par leffectif total. Si le caractre prend n valeurs distinctes xk
deffectifs ek pour k=0...(n1) alors leffectif total vaut N=k=0n1 ek et la moyenne m est : m=1/Nk=0n1 ekxk.
La variance est la moyenne des carrs des carts la moyenne des valeurs du caractre. Si le caractre prend n valeurs distinctes xk deffectifs ek (k=0...
(n1)), si la moyenne vaut m et, si leffectif total vaut N alors la variance v=s2 est : s2=1/Nk=0n1 ek(xkm)2=1/N(k=0n1 ekxk2)m2.
Lcart-type s est la racine carre de la variance.
Soit une srie statistique quantitative deffectif N 1 variable, un chantillon dordre n dsigne le systme des n valeurs prises par le caractre au cours
de n tirages indpendants. Les valeurs prises par lchantillon sont donc les valeurs prises par n variables alatoires X1,...,Xn qui suivent la mme loi que la
variable alatoire X gale la valeur du caractre tudi. Par exemple, si dans une ville de N habitants, on tudie la taille (exprime en centimtres) de ses
habitants, la taille de 100 personnes prises au hasard dans cette ville est un chantillon dordre 100. En gnral, on ignore la loi de la variable alatoire
gale la taille des habitants de cette ville, et on veut dgager un certain nombre dlments caractristiques de cette variable grce lchantillon.
Soit une srie statistique deux variables dordre n pour les caractres X et Y reprsente par les couples (xj, yj) pour 0 j (n1).
Ici les xj (resp yj) ne sont pas forcment distincts.
La moyenne de X est : x= 1/nj=0n1 xj.
La moyenne de Y est : = 1/nj=0n1 yj.
La variance de X est : 2(X)= 1/nj=0n1 (xjx)2 =1/nj=0n1 xj2x2.
La variance de Y est : 2(Y)= 1/nj=0n1 (yj)2 =1/nj=0n1 yj22.
Soit une srie statistique deux variables dordre n pour les caractres X et Y reprsente par les couples (xj, yk) deffectifs nj,k (0 j (p1) et 0 k
(q1)).
Ici les xj (resp yk) sont distincts.
Soit n=j=0p1k=0q1nj,k
La moyenne de X est :
x= 1/nj=0p1 (xj*k=0q1nj,k).
La moyenne de Y est :
= 1/nk=0q1 (yk*j=0p1nj,k).
La variance de X est :
2(X)= 1/nj=0p1 ((xjx)2 *(k=0q1nj,k))=1/nj=0p1 (xj2*k=0q1nj,k)x2.
La variance de Y est :
2(Y)= 1/nk=0q1 ((yk)2*( j=0p1nj,k))=1/nk=0q1 (yk2*j=0p1nj,k)2.
La covariance de (X,Y) est :
cov(X,Y)= 1/nj=0p1 k=0q1(xjx)(yk) nj,k =1/nj=0n1 k=0q1xjyknj,kx.
Rappel : Lorsquon a deux variables alatoires X et Y, de covariance cov(X,Y) et dcart-type respectif (X) et (Y) on dfinit leur coefficient de
corrlation (X,Y) par :
(X,Y)=cov(X,Y)/(X)(Y)
Supposons que lon a relev des valeurs (xj,yj) de X et Y au cours de n preuves indpendantes. On dfinit, par analogie, un coefficient de corrlation r(X,Y)
de lchantillon par :
r(X,Y)=cov(X,Y)/s(X)s(Y)
o s(X) (resp s(Y)) dsigne lcart-type des valeurs de X (resp Y) pour lchantillon. On a :
Proprits :
1 +1
si X et Y sont indpendants alors (X,Y)=0 mais la rciproque est fausse.
On obtient :
-83/243
On obtient :
-83/160
Premire droite des moindres carrs est dfinie pour que la somme des carrs des carts en ordonne entre les mesures et les points de cette droite soit
minimale.
Soient Aj (0 j n1) les points de coordonnes (xj, yj) formant le nuage de points. Soit D une droite dquation y=ax+b et soient Bj pour 0 j (n1) les
points de D de coordonnes (xj, axj+b).
On cherche a et b pour que :
S=j=0n1(yjaxjb)2 soit minimum.
Pour a fix le minimum de S est atteint lorsque la droite D passe par le point moyen G de coordonnes (x, )) donc lorsque b=b0=a x.
On trouve ensuite que pour b=b0, S est minimum pour :
a=a0=1/nj=0n1xj yjx/1/nj=0n1xj2x2 =cov(X,Y)/2(X).
La premire droite des moindres carrs est la droite dquation y=a0x+b0. Elle a donc pour quation y=+cov(X,Y)/2(X)(xx).
Deuxime droite des moindres carrs est dfinie pour que la somme des carrs des carts en abscisse entre les mesures et les points de cette droite soit
minimale.
On change simplement le rle de X et de Y. On trouve la droite dquation :
x=x+cov(X,Y)/2(Y)(y).
Avec Xcas on tape dans une ligne dentre de gomtrie, pour tracer le nuage de points :
scatterplot([[1,11],[1,13],[1,14],[2,11],[2,13],
[2,14]]).
ou on tape :
scatterplot([1,1,1,2,2],[11,13,14,11,13])
Ou dans le tableur, on slectionne largument et on utilise le menu Statistiques du tableur puis 2d et Scatterplot.
On tape dans une ligne dentre, pour avoir lquation de la droite des moindres carrs :
linear_regression([1,1,1,2,2],[11,13,14,11,13])
On obtient :
-2/3,40/3
a/ Linfrence statistique ou "thorie de lestimation" : connaissant un chantillon, on dsire mettre une estimation sur la population totale. Dans ce cas,
on na pas dide a priori sur le paramtre estimer :
on construira un intervalle de confiance I au seuil .
Cet intervalle I dpend de lchantillon et contient, en gnral, la valeur du paramtre sauf dans % des cas cest dire, il y a seulement % des
chantillons qui ont un I qui ne contient pas le paramtre (on dit quon a un risque derreur gal ).
b/ Le test dhypothses permet de savoir si il y a accord entre thorie et exprience. Dans ce cas on a une ide a priori sur la valeur que doit avoir le
paramtre : on construit le test dhypothses (deux hypothses H0 et H1 seront en concurrence), puis on prlve un chantillon et on regarde si cet
chantillon vrifie le test ce qui permet daccepter ou de refuser lhypothse privilgie H0.
Par exemple : on veut contrler quune fabrication correspond bien ce qui a t dcid, pour cela on fabrique un test dhypothses, puis on teste
lhypothse H0 sur un chantillon de la production.
c/ Le test dhomognite permet de comparer une distribution exprimentale une distribution thorique.
Remarque :
en a/ et en b/ on a seulement comparer ou estimer des valeurs caractristiques comme frquences ou moyennes, en c/ on compare deux distributions.
On extrait 1000 fois avec remise une carte dun jeu de 32 cartes et on considre comme vnement :
on obtient un as ou on nobtient pas un as.
Par lexprience on a obtenu n1 fois un as Trouver un minorant de Proba(105<n1<145).
La probabilit davoir un as est : p=1/8 et de ne pas avoir un as est 7/8. Si Y est la variable alatoire gale la frquence de lvnement favorable
on a E(Y)=p=1/8=0.125 et (Y)=sqrt(1/8*7/8/1000)=sqrt(7/10)/80 0.0104582503317. On a Proba(105<n1<145)=Proba(|n1125|
<20)=Proba(|n1/10000.125|<1/50) Le thorme de Bienaym-Tchebychef nous dit que :
Proba(|n1/10001/8| k (Y)) 1//k2
On choisit k (Y)=1/50 cest dire k=1/50/0.0104582503317=1.91236577493 donc 1/k2=0.273437500001 Cela veut dire que
Proba(|n1/10000.125|<1/50) 0.273437500001 donc
Proba(105<n1<145) 10.273437500001=0.7265625 Remarque Proba(|n1/10000.125|>1/100) 1/0.9561828874652=1.09375000001 ce qui ne
nous apporte rien!
Notation
On note ici Xn=X1+X2+..+Xn/n pour bien faire ressortir que Xn dpend de n, mais quelquefois dans la suite on crira simplement : X=X1+X2+..+Xn/n pour
ne pas alourdir les notations.
Donc 1/n j=1n j = et j=12/j2 =2j=11/j2 est convergente ce qui montre que :
Xn=X1+X2+..+Xn/n converge presque srement vers quand n tend vers linfini.
Le thorme central-limite :
Quand n tend vers linfini, alors
n=n (Xn)/ converge en loi vers U variable alatoire qui suit la loi normale centre rduite (dire que Yn converge en loi vers U N(0,1) veut dire que
si F est la fonction de rpartition de la loi normale centre rduite et si Fn est la fonction de rpartition de Yn alors pour tout x , Fn(x) tend vers F(x)
quand n tend vers linfini).
3.4.5 tude de X
Thormes
La variable alatoire X=X1+X2+..+Xn/n converge en probabilit vers .
De plus X a pour moyenne et pour variance 2/n.
Quand n tend vers linfini, n (X)/ converge en loi vers U variable alatoire qui suit la loi normale centre rduite.
3.4.6 Estimateur de
On appelle estimateur de , une variable alatoire Un fonction dun chantillon X1,X2,..,Xn qui vrifie :
limn> E(Un)= et limn>2(Un)=0
On dit que Un est un estimateur sans biais de si cest un estimateur de qui vrifie E(Un)=.
Thorme
X=(X1+X2+..+Xn)/n est un estimateur sans biais de .
3.4.7 tude de S2
Thorme
La variable S2=(X1X)2+(X2X)2+..+(XnX)2/n converge presque srement vers 2 quand n tend vers linfini.
De plus S2 a pour moyenne :
E(S2)=n1/n2
et pour variance :
2(S2)= V(S2)=n1/n3((n1)4(n3)4) o 4=E((X)4).
Thorme limite pour S 2 :
Quand n tend vers linfini, n (S2n1/n2)/44 converge en loi vers U variable alatoire qui suit la loi normale centre rduite (dire que Yn converge
en loi vers U N(0,1) veut dire que si F est la fonction de rpartition de la loi normale centre rduite et si Fn est la fonction de rpartition de Yn alors
pour tout x , Fn(x) tend vers F(x) quand n tend vers linfini).
3.4.8 Estimateur de 2
On appelle estimateur de 2, une variable alatoire Vn fonction dun chantillon X1,X2,..,Xn qui vrifie :
limn> E(Vn)=2 et limn>2(Vn)=0
On dit que Vn est un estimateur sans biais de 2 si cest un estimateur de 2 qui vrifie E(Vn)=2.
Thorme
Z2=(X1)2+..+(Xn)2/n est un estimateur sans biais de 2.
S2=(X1X)2+..+(XnX)2/n est un estimateur de 2.
n/n1S2=(X1X)2+..+(XnX)2/n1 est un estimateur sans biais de 2.
En effet :
Pour S2 cela dcoule des thormes prcdents.
Pour Z2 on a :
E(Z2)=1/nj=1n E((Xj)2)=1/nn2=2
et puisque 2(X)2=E((X)4)(2)2=4(2)2 on a :
2(Z2)=1/n(4(2)2) (o 4=E((X)4) est le moment centr dordre 4).
Remarque :
partir des valeurs x1,x2,..,xn de lchantillon, on utilisera lorsquon connait , (x1)2+(x2)2+..+(xn)2/n comme estimateur de 2 et si est inconnu
on utilisera comme estimateur de 2 (x1m)2+(x2m)2+..+(xnm)2/n1 avec m=x1+x2+..+xn/n.
3.4.9 En rsum
Le problme est dobtenir, au vu de lchantillon empirique, des renseignements sur la population dont lchantillon est issu (cest dire sur la population
parente de moyenne et dcart-type ), en particulier sur la valeur de sa moyenne .
En gnral nest pas connu, on prend faute de mieux, quand n est grand :
=s n/n1 o s2 est la valeur observe de :
S2=(X1Y)2+(X2Y)2+..+(XnY)2/n qui a pour moyenne n1/n2.
Grce au thorme central-limite, la variable X=X1+..+Xn/n va nous servir trouver une valeur de car :
X a pour moyenne et pour variance 2/n s2/n1 donc la variable alatoire :
n (X)/ n1 (X)/s converge en loi vers U N(0,1).
Remarques
Le seuil de risque est toujours petit (<0.1) : si on demande un test 95% cela veut dire que le seuil de risque est =0.05.
Noubliez pas que lorsque lon rejette lhypothse H0 cela veut dire que lhypothse H0 risque dtre vraie dans moins de 100* cas pour 100 cas et que
lorsque lon accepte lhypothse H0 cela veut dire que lhypothse H0 risque dtre vraie dans plus de 100* cas pour 100 cas.
Proba(X=1)=p). Soit X la moyenne des chantillons de taille n : ici, X est gal pour chaque chantillon de taille n la frquence observe F du caractre.
Si n est grand (n 30), X suit approximativement la loi normale N(p,p(1p)/n).
Si n est petit, on a (n*X) suit la loi binomiale B(n,p).
On choisit le seuil et selon les cas :
Test dhypothses bilatral : H0 : p =p0 et H1 : p p0
Test dhypothses unilatral droite ( gauche) : H0 :p =p0 et H1:p > p0 (resp H0 : p =p0 et H1:p< p0)
On calcule, sous lhypothse H0, soit au moyen des tables de la loi normale (pour n grand, np(1p)>7), soit au moyen des tables de la loi binomiale (pour
n petit), soit avec Xcas, les bornes de lintervalle dacceptation au seuil , de lhypothse H0.
Rgle de dcision :
Soit la frquence f dun chantillon de taille n.
On rejette lhypothse H0 au seuil :
Exemple
On choisit n=30, p0=0.3 et =0.05 et on compare les rsultats de la loi normale et de la loi binomiale.
On va faire des tests dhypothses sur cest dire que dans ce qui suit, on suppose que =0, ie que lon connait .
Thormes :
Si X N(,) alors X N(,/n).
Si X suit une loi quelconque et si lchantillon est de grande taille (n>30), X suit approximativement une loi N(,/n).
- si lcart-type est connu, on connait la loi suivie par X,
- si lcart-type nest pas connu, puisque n est grand on va pouvoir estimer par sn/(n1) o s est lcart-type dun chantillon de taille n et on se
ramne au cas prcedent ( connu) en prenant =sn/(n1). Ainsi on connait la loi suivie par X : X suit approximativement une loi N(,s/n1).
Recette quand on connait la loi N (,/nn) suivie par X ( connu)
On choisit le seuil et selon les cas :
Test dhypothses bilatral : H0 : =0 et H1: 0
Test dhypothses unilatral droite : H0 : =0 et H1:> 0 (resp gauche : H0 : =0 et H1:< 0)
On calcule, au moyen des tables de loi normale (n grand, n>30) les bornes de lintervalle dacceptation au seuil , de lhypothse H0.
Rgle de dcision :
Soit m la moyenne dun chantillon de taille n.
On rejette lhypothse H0 au seuil :
Rgle de dcision :
Soit t la valeur prise par T par un chantillon de taille n : t=n1(m0/s) o m est la moyenne de lchantillon et s son cart-type.
On rejette lhypothse H0 au seuil :
Rgle de dcision :
Soit u la valeur prise par nZ2/2 (ou par nS2/2 si nest pas connue) pour un chantillon de taille n :
- si est connue, on calcule u=j=0n(xj)2/02 o les xj sont les valeurs de lchantillon (car selon H0 : =0).
- si nest pas connue, on calcule u=n*s2/02 o s est lcart-type de lchantillon (car selon H0 : =0).
On rejette lhypothse H0 : =0 au seuil :
Estimation ponctuelle
Lorsque la taille n de lchantillon est grande, on prend comme estimation ponctuelle de p la frquence f observe sur lchantillon.
Remarque
Cela ne donne aucune information sur la qualit de lestimation.
a2:=normal_icdf(f,sqrt(f*(1-f)/)n-1,0.975)
Rsultat I=[a1 ; a2] est un intervalle de confiance de p au seuil .
Cas des chantillons de taille n 30
Soit X une variable alatoire de Bernouilli de paramtre p (X vaut 0 ou 1 et Proba(X=1)=p).
Soit la variable alatoire F=X.
On sait que nF suit une loi binomiale B(n,p). On utilisera donc une table de la loi binomiale.
Recette
- On choisit (par exemple =0.05)
- On calcule la valeur f de F pour lchantillon
- On approche p par f, ainsi n*F=n*X B(n,f), on cherche n*p1 et n*p2 laide dune table de loi binomiale pour avoir :
Proba(n*F<n*p1)=1/2 et Proba(n*F<n*p2)=/2
Avec Xcas, on tape si =0.05 :
p1:=1/n*binomial_icdf(,n,f,0.025)
p2:=1/n*binomial_icdf(n,f,0.975)
On a donc :
Proba(p2<f<p1)=1.
Rsultat
I=[p2 ; p1] est un intervalle de confiance de p au seuil .
Estimation ponctuelle
Lorsque la taille n de lchantillon est grande, on prend comme estimation ponctuelle de la moyenne m observe sur lchantillon.
Remarque
Cela ne donne aucune information sur la qualit de lestimation.
- On cherche h, dans une table de Student pour (n1) degrs de libert, pour avoir :
Proba(h<Tn1<h)=Proba(h<(X/S)n1<h)=1
Avec Xcas, on tape si =0.05 :
h:=student_icdf(n-1,0.975)
puisque m est la valeur de X et s la valeur de S pour lchantillon on a :
Proba(mhs/n1<<m+hs/n1)=1.
Rsultat
I=[mhs/n1;m+hs/n1] est un intervalle de confiance de au seuil .
Exemple
Pour obtenir un intervalle de confiance de au risque =0.05 et n1=4 on tape :
h:=student_icdf(4,1-0.05/2)
on obtient :
h=2.7764451052 2.776 donc :
mhs/4<< m+hs/4.
On prend un chantillon deffectif n=5 (4=n1), pour lequel on trouve :
m=0.484342422505 et s=0.112665383246
On tape :
m:=0.484342422505
s:=0.112665383246
m+h*s/sqrt(4)
On obtient :
0.64072197445
On tape :
m-hs/sqrt(4)
0.32796287056.
donc un intervalle de confiance de au risque 0.05 est :
[0.32796287056; 0.64072197445]
Estimation ponctuelle
Lorsque la taille n de lchantillon est grande, on prend comme estimation ponctuelle de , sn/n1, o s est lcart-type de lchantillon.
bf Remarque
Cela ne donne aucune information sur la qualit de lestimation.
Proba(n12<t1)=Proba(nS2/2<t1)=1/2 et
Proba(n12<t2)=Proba(nS2/2<t2)=/2
Avec Xcas, on tape si =0.05 :
t1=chisquare_icdf(n-1,0.975)
t2=chisquare_icdf(n-1,0.025)
on a donc Proba(t2<nS2/2<t1)=1 et puisque s2 est la valeur de S2 pour lchantillon on a :
Proba(ns2/t1<2<ns2/t2)=1.
Rsultat
I=[sn/t1 ; sn/t2] est un intervalle de confiance de au seuil .
3.7 Un exemple
On a effectu 10 peses indpendantes sur une balance dune mme masse et on a obtenu :
10.008,10.012,9.990,9.998,9.995,10.001,9.996,9.989,10.000,10.015
Avec Xcas on a facilement la moyenne m, lcart-type s et la variance de lchantillon.
On tape :
L:=[10.008,10.012,9.990,9.998,9.995,10.001,9.996,9.989,
10.000,10.015]
m=mean(L)=10.0004
s=stddev(L)=0.00835703296719
variance(L)=6.98400000147e-05
On a donc:
s2 0,00007
On suppose que est inconnue mais que la balance est telle que lerreur de mesure a un cart-type de 0.01.
On cherche dterminer au vu de lchantillon.
H 0 : =10 et H 1 : 10 au seuil de 5%
Soient f1 et f2 les frquences observes dun caractre dont la frquence thorique est p. Cette observation est faite partir de deux chantillons de taille
respctive n1 et n2.
On veut savoir si les frquences f1 et f2 sont significativement diffrentes ce qui voudrait dire que les deux chantillons proviennent de deux populations
diffrentes de paramtre p1 et p2 ou si au contraire les deux chantillons proviennent dune mme population de paramtre p=p1=p2.
On veut donc tester lhypothse H0 : p1=p2=p contre H1 : p1 p2 au seuil .
Soit F1 (resp F2) la variable alatoire gale la frquence du caractre pour des chantillons de taille n1 (resp n2).
On a sous lhypothse H0:
F1 a pour moyenne p et comme cart-type p(1p)/n1
F2 a pour moyenne p et comme cart-type p(1p)/n2
Si n1 et n2 sont trs grands on a vu que :
F1 suit approximativement une loi N(p,p(1p)/n1) et
F2 suit approximativement une loi N(p,p(1p)/n2)
Donc
F1F2 suit approximativement une loi N(0,p(1p)/n1+p(1p)/n2)
On va estimer p grce la reunion des deux chantillons :
p f=n1*f1+n2*f2/n1+n2
alors
F1 a pour moyenne p et comme cart-type f(1f)/n1
F2 a pour moyenne p et comme cart-type f(1f)/n2
On pose s12=f(1f)/n1+f(1f)/n2=f(1f)(n1+n2)/n1n2 donc
F=F1F2 N(0,s12)
Recette
On choisit le seuil .
Avec une table de loi normale centre rduite, on cherche, pour U N(0,1), h tel que :
Proba(U h)=1/2 .
on a alors :
Proba(|F1F2|/s12<h)=1.
Avec Xcas on tape si =0.05 et si s12=s12:
a:=normal_icdf(0,s12,1-0.05/2)
On a alors :
Proba(|F1F2|<a)=1 avec a=s12*h.
On calcule selon les cas :
|f1f2|/s12 que lon compare h ou
|f1f2| que lon compare a.
Si |f1f2|/s12<h ou |f1f2|<a on admet que les deux chantillons ne sont pas significativement diffrents au seuil , sinon on dira que les deux chantillons
ne proviennent pas de la mme population (voir aussi lutilisation de la loi du 2 en 3.10.2).
Exercice (le mme quen section 3.10.2)
Pour tester lefficacit dun vaccin antigrippal on soumet 300 personnes une exprience :
- sur 100 personnes non vaccines, 32 sont atteintes par la grippe,
- sur 200 personnes vaccines, 50 sont atteintes par la grippe,
Ce rsultat permet-il dapprcier lefficacit du vaccin ?
On a le tableau suivant :
On calcule les valeurs f1 et f2 qui sont les proportions des gripps des deux chantillons on tape :
f1:=32/100
f2:=50/200=25/100
On tape :
f1-f2
On obtient :
7/100
Donc |f1f2|==0.07
On calcule la valeur p proportion des gripps lorsquon reunit les deux chantillons on tape :
p:=82/300
On obtient :
41/150
Donc p 0.273333333333
On calcule s12, on tape :
s12:=sqrt(p*(1-p)*(1/100+1/200))
On obtient :
sqrt(4469/1500000)
Donc s12 0.0545832697201
La variable F=F1F2 suit la loi normale N(0,s12) et sa valeur est f=0.07.
On cherche la valeur a qui vrifie :
Proba(|F|>a)=0.05 ou encore
Proba(F a)=0.975 et pour cela on tape :
a:=normal_icdf(0,sqrt(4469/1500000),0.975)
On obtient :
0.10698124281
Puisque |f1-f2|=0.07<a=0.10698124281, on en dduit que les deux chantillons ne sont pas significativement diffrents au seuil de 5% : on peut donc
dire que le vaccin nest pas efficace mais ce nest pas une certitude...
Remarque
On a h:=normal_icdf(0,1,0.975)=1.95996398454
et |f1-f2|=0.07<h*sqrt(4469/1500000)=0.10698124281
Soient m1 et m2 les moyennes observes dun caractre dont la moyenne thorique est . Cette observation est faite partir de deux chantillons de taille
respctive n1 et n2.
On veut savoir si les moyennes m1 et m2 sont significativement diffrentes ce qui voudrait dire que les deux chantillons proviennent de deux populations
diffrentes de moyenne 1 et 2 ou si au contraire les deux chantillons proviennent dune mme population ou de populations de mme moyenne
=1=2.
Soient deux caractres normaux indpendants X et Y distribus respectivement selon les lois N(1,(X)) et N(2,(Y)),
On veut donc tester lhypothse H0 : 1=2= contre H1 : 1 2 au seuil .
Soient deux chantillons considrs lun comme chantillon du caractre X et lautre comme chantillon du caractre Y, de taille respective n1 et n2 de
moyenne respective m1 et m2 et dcart-type respectif s1 et s2.
Soit X (resp ) la variable alatoire gale la moyenne du caractre X (resp Y) pour des chantillons de taille n1 (resp n2).
On a :
X a pour moyenne 1 et comme cart-type (X)/n1
a pour moyenne 2 et comme cart-type (Y)/n2
- si n 1 et n 2 sont grands,
(X) s1n1/n11 donc (X)2/n1 s12/n11
(Y) s2n2/n21 donc (Y)2/n2 s22/n21
On pose :
s12=(X)2/n1+(Y)2/n2 s12/n11+s22/n21
Donc sous lhypothse H0 : 1=2=, on a (X) N(0,s12)
Recette si n 1 et n 2 sont grands
Avec Xcas on tape si =0.05:
a:=normal_icdf(0,s12,0.975)
On regarde si :
|m1m2|<a
Si cest le cas, on admet que 1=2 et que les deux chantillons ne sont pas significativement diffrents au seuil , sinon on dira que 1 2 et que les
deux chantillons ne proviennent pas de la mme population.
- si n 1 et n 2 sont petits,
on peut estimer (X) et (Y) grce la reunion des deux chantillons et en faisant lhypothse (X)=(Y) (pour vrifier cette hypothse on pourra faire une
tude de lhypothse (X)=(Y) grce au test expliqu au paragraphe suivant).
On montre quune bonne approximation est :
2=(X)2=(Y)2 s2=n1s12+n2s22/n1+n22 .
En effet, la statistique n1S12+n2S22/n1+n22 est un estimateur sans biais de 2 si est lcart-type de X. La valeur de cette statistique est obtenue partir
de deux chantillons de taille respective n1 et n2 et dcart-type respectif s1 et s2 qui sont les valeurs de S1 et S2 pour ces deux chantillons (avec comme
notation S2=1/nj (XjX)2 pour un chantillon de taille n de la variable X dcart-type , on sait que n/n1S2 est un estimateur sans biais de 2) :
On a :
2=n1/n11E(S12)=n2/n21E(S22) donc
E(n1S12+n2S22/n1+n22)= n1E(S12)+n2E(S22)/n1+n22= (n11)2+(n21)2/n1+n22=2
donc 2 s2=n1s12+n2s22/n1+n22.
Alors sous lhypothse H0 : 1=2=, et (X)=(Y)=, la statistique :
X (X) n1+n22
T=
(X)2/n1+(Y)2/n2 (n1s12+n2s22)(1/n1+1/n2)
suit une loi de Student n1+n22 degrs de libert.
Recette si n 1 et n 2 sont petits
Avec Xcas on tape si =0.05 :
a:=student_icdf(n1+n2-2,0.975)
On regarde si :
|m1m2|<a
Si cest le cas, on admet que 1=2 et que les deux chantillons ne sont pas significativement diffrents au seuil , sinon on dira que 1 2 et que les
deux chantillons ne proviennent pas de la mme population.
Soient s1 et s2 les carts-types observs dun caractre dont lcart-type thorique est . Cette observation est faite partir de deux chantillons de taille
respctive n1 et n2.
On veut savoir si les carts-types s1 et s2 sont significativement diffrents ce qui voudrait dire que les deux chantillons proviennent de deux populations
diffrentes dcart-type respectif 1 et 2 ou si au contraire les deux chantillons proviennent dune mme population ou de deux populations de mme
cart-type =1=2.
Soient deux caractres normaux indpendants X et Y distribus respectivement selon les lois N(1,1) et N(2,2).
Soient deux chantillons (un chantillon pour le caractre X et lautre pour le caractre Y) de taille respective n1 et n2, de moyenne respective m1 et m2 et
dcart-type respectif s1 et s2 .
Posons :
S12=1/n1j=1n1 (XjX)2 et
S22=1/n2j=1n2 (Yj)2
Lorsque 1=2=, la statistique :
F1,2=n1(n21)S12/n2(n11)S22 suit une loi de Fisher-Snedecor F(n11,n21) (n11) et (n21) degrs de libert.
De mme la statistique :
F2,1=n2(n11)S22/n1(n21)S12 suit une loi de Fisher-Snedecor F(n21,n11) (n21) et (n11) degrs de libert.
3.9 Le test du 2
Dans ce chapitre on cherche savoir si deux variables sont indpendantes (test dindpendance) et comparer la distribution du caractre tudi une
distribution thorique (test dadquation).
Par exemple, certains tests ne sont valables que lorsque le phnomne tudi suit une loi normale, ou bien lorsquon suppose lindpendance de deux
variables : il est donc important de savoir si cela est bien le cas.
Considrons un chantillon de taille n ayant une distribution x1,..,xk deffectifs n1,..,nk (avec n1+...+nk=n) correspondant lobservation dune variable
alatoire X : X est discrte ou X est continue et dans ce cas on effectue un regroupement en k classes des valeurs de X, et x1,..,xk reprsentent alors le centre
de ces classes.
On veut comparer cette distribution empirique une distribution thorique deffectifs e1,..,ek (si chaque valeur xj est obtenue avec la probabilit thorique
pj on a ej=npj).
La statistique D2=j=1k(njej)2/ej est une bonne mesure de lcart entre les effectifs observs et les effectifs thoriques : plus D2 est proche de zro, plus la
distribution de lchantillon est conforme la distribution thorique.
Lobjectif sera donc destimer si D2 est suffisamment faible pour que lon puisse ajuster la loi thorique la distribution observe.
On montre que si n est grand, si ej>5 pour tout j, et si les ej ont t obtenus sans avoir eu recours lchantillon, la statistique D2 suit approximativement
une loi du 2 =(k1) degrs de libert o k est le nombre de classes.
Lorsque lon a eu recours lchantillon pour dterminer r paramtres, le nombre de degrs de libert est alors de =(kr1).
On note dans la suite le nombre de degrs de libert.
La statistique D2 est alors utilise comme variable de dcision dans le test dhypothses :
H0 : pour tout j=1...k, Proba(X=xj)=pj
H1 : il existe j=1...k, Proba(X=xj) pj
On rejettera lhypothse dadquation au modle ds que lcart D2 est suprieur ce que lon peut attendre de simples fluctuations dues
lchantillonnage. La rgion critique au seuil (cest la rgion o il faudra rejeter lhypothse) est la rgion pour laquelle : d2>h} quand
Proba(2<h)=1 et lorsque d2 est la valeur de D2 pour lchantillon.
On remarquera que D2 fait intervenir le nombre de classes et les effectifs de chaque classe et que D2 ne fera intervenir les xj que pour estimer les
paramtres pj de la loi. Pour les effectifs ej trop petits on effectuera un regroupement de classes.
Recette
Dans une table du 2 on cherche h tel que :
Proba(k12<h)=1
Avec Xcas on tape pour trouver h, si on a k classes et si =0.05 :
chisquare_icdf(k-1,0.975)
On prlve un chantillon de taille n et on note sa distribution n1,..,nk correspondant aux k classes de centre x1,..,xk.
On calcule la valeur d2 de D2 : d2=j=1k(njnpj)2/npj=j=1k(njej)2/ej
Rgle
On rejette lhypothse H0 au seuil , quand d2 est suprieure h.
Exemple
Dans un croisement de fleurs rouges et blanches, on a obtenu le rsultat suivant sur un chantillon de 600 plants de la 2-ime gnration :
141 fleurs rouges, 315 fleurs roses, 144 fleurs blanches.
Ces rsultats sont-ils conformes la distribution thorique :
25% fleurs rouges, 50% fleurs roses, 25% fleurs blanches.
On a 3 classes donc 3-1=2 degrs de libert :
n1=141 et e1=600*25/100=150
n2=315 et e2=600*50/100=300
n3=144 et e3=600*25/100=150
On calcule d2=j=13(njej)2/ej=81/150+152/300+36/150 On tape dans Xcas :
81/150+15^2/300+36/150
On obtient :
=153/100
On tape :
chisquare_icdf(2,0.95)
On obtient :
5.99146454711
Comme 1.53<5.992 on ne peut pas rejeter lhypothse H0 au seuil de 5%, donc on laccepte.
Pour pouvoir calculer les effectifs thoriques, on est souvent oblig destimer le paramtre partir de lchantillon ( est estim par la moyenne m de
lchantillon).
Rgle
Soit k est le nombre de classes.
Si on sest servi de lchantillon pour estimer , alors la statistique D2 suit une loi du 2 k2 degrs de libert (cas 1),
sinon D2 suit une loi du 2 k1 degrs de libert (cas 2) .
Pour savoir si la distribution n1,..,nk correspondant aux k classes de centre x1,..,xk est conforme une distribution de Poisson, on utilise le test dhypothses
:
H0 : pour tout j Proba(X=xj)=exjxj/xj!=pj et
H1 : il existe j=1...k, Proba(X=xj) pj
On rejette lhypothse H0 au seuil , quand la valeur d2 de D2 est suprieure h avec h vrifiant :
- cas 1 : Proba(k22 h)=1,
- cas 2 : Proba(k12 h)=1.
Exemple
On a effectu un chantillon de taille 100 et on a obtenu, pour les 11 valeurs entires dune variable alatoire X les effectifs suivants :
X nj
0 1
https://www-fourier.ujf-grenoble.fr/~parisse/giac/doc/fr/cassim/cassim003.html Page 27 sur 33
Rsum de statistique descriptive 15/10/2017 15(29
0 1
1 8
2 19
3 23
4 17
5 15
6 8
7 3
8 3
9 2
10 1
Pour pouvoir calculer les effectifs thoriques, on est souvent oblig destimer les paramtres et partir de lchantillon ( par la moyenne m de
lchantillon et par sn/n1 o s est lcart-type de lchantillon).
Rgle
Soit k le nombre de classes.
Si on sest servi de lchantillon pour estimer et la statistique D2 suit une loi du 2 k3 degrs de libert (cas 1),
si on sest servi de lchantillon pour estimer ou la statistique D2 suit une loi du 2 k2 degrs de libert (cas 2)
sinon D2 suit une loi du 2 k1 degrs de libert (cas 3) (k est le nombres de classes).
On rejette lhypothse H0 au seuil , quand la valeur d2 de D2 est suprieure h avec h vrifiant :
- cas 1 : Proba(k32 h)=1,
- cas 2 : Proba(k22 h)=1,
- cas 3 : Proba(k12 h)=1.
Exemple
On a effectu un chantillon de taille 250 et on a obtenu, pour les valeurs dune variable alatoire X, rparties en 10 classes, les effectifs suivants :
X nj
45..46 11
46..47 15
47..48 27
48..49 35
49..50 47
50..51 58
51..52 28
52..53 16
53..54 10
54..55 3
normal_cdf(,,x1,x2)=x x2 1/2exp((x)2/2*2)dx
1
ou bien on tape
L:=[];
for(j:=0;j<10;j++) {
L:=concat(L,normal_cdf(49.656,2,45+j,46+j));}
ou encore on tape :
L:=seq(normal_cdf(49.656,2,45+j,46+j),j,0,9)
On obtient la liste L des pj (pj est la probabilit thorique pour que la valeur de X soit dans la j-ime classe) :
[0.0238187239894,0.0583142776342,0.11174619649,
0.167620581364,0.196825404189,0.180926916339,
0.130193320084,0.0733363670394, 0.0323343295781,
0.0111577990363]
Il faut modifier le premier terme et le dernier terme de L car la premire classe est en fait ];46[ et la dernire [54;+[.
On tape :
normal_cdf(49.656,2,-infinity,46)
On obtient :
0.0337747758231
On tape :
normal_cdf(49.656,2,54,+infinity)
On obtient :
0.0149278314584
L:=[0.0337747758231,0.0583142776342,0.11174619649,
0.167620581364,0.196825404189,0.180926916339,
0.130193320084,0.0733363670394,0.0323343295781,
0.0149278314584]
On obtient la liste L des effectifs thoriques ej de chaque classe en tapant :
L:=250*L
On obtient :
[8.44369395578,14.5785694086,27.9365491225,41.
905145341,49.2063510472,45.2317290848,
32.548330021,18.3340917599,8.08358239453,
3.7319578646]
On regroupe les 2 dernires classes (L[8]+L[9]=11.8155402591),
Ou encore , on tape :
L:=accumulate_head_tail(L,1,2) on obtient la liste L des effectifs thoriques des 9 classes :
L:= [8.44369395578,14.5785694086,27.9365491225,
41.905145341,49.2063510472,45.2317290848,
32.548330021,18.3340917599,11.8155402591]
La liste L2:=[11,15,27,35,47,58,28,16,10,3] des effectifs de lchantillon aprs un regroupement en 9 classes, on tape :
L2:=accumulate_head_tail(L2,1,2)
On obtient :
L2:=[11,15,27,35,47,58,28,16,13]
On calcule la valeur de D2 :
d2:=sum(((L-L2)[j])^2/L[j],j,0,8)
On obtient :
6.71003239422
On calcule Proba(62<h)=0.95, pour cela on tape (car on a 93=6 degrs de libert) :
chisquare_icdf(6,0.95)
On obtient :
12.5915872437
donc h 12.6
Lhypothse nest pas rejeter au seuil de 5% puisque d2=6.71<12.6.
Donc n est la taille de lchantillon total constitu par les m chantillons, nj est le nombre total doccurences de la valeur j dans lchantillon total.
Daprs la loi des grands nombres, si on considre que les m chantillons suivent la mme loi X que lchantillon total on a Proba(X=j) nj/n.
Donc on peut considrer que leffectf thorique de la valeur j de lchantillon (i) est :
j(i)=n(i)*nj/n.
La variable de dcision est alors :
D2=i,j(nj(i)j(i))2/j(i)
Cette variable suit une loi de 2 ayant s=(m1)(k1) degrs de libert.
Soient f1(1) et f1(2) les frquences observes sur deux chantillons dun caractre dont la frquence thorique est p. Cette observation est faite partir de
deux chantillons de taille respctive n(1) et n(2) (mme notations quen 3.10.1).
On veut savoir si les frquences f1(1) et f1(2) sont significativement diffrentes ce qui voudrait dire que les deux chantillons proviennent de deux
populations diffrentes de paramtre p1 et p2 ou si aucontraire les deux chantillons proviennent dune mme population de paramtre p=p1=p2 cest dire
que ces deux chantillons sont ceux dune mme loi (voir aussi 3.8.1).
On a :
n(1)+n(2)=n
f1(1)n(1)=n1(1) et (1f1(1))n(1)=n2(1)(=f2(1)n(1))
f1(2)n(2)=n1(2) et (1f1(2))n(2)=n2(2)(=f2(2)n(2))
n1=f1(1)n(1)+f1(2)n(2)
n2=(1f1(1))n(1)+(1f1(2))n(2)
j(i)=n(i)nj/n donc
1(1)n1(1)=n(1)(f1(1)n(1)+f1(2)n(2))/(n(1)+n(2))f1(1)n(1)=
n(2)n(1)(f1(2)f1(1))/(n(1)+n(2))
1(2)n1(2)=n(2)(f1(1)n(1)+f1(2)n(2))/(n(1)+n(2))f1(2)n(2)=
n(1)n(2)(f1(1)f1(2))/(n(1)+n(2))
2(1)n2(1)=n(1)((1f1(1))n(1)+(1f1(2))n(2))/(n(1)+n(2))(1f1(1))n(1)=
n(1)n(2)(f1(1)f1(2))/(n(1)+n(2))
2(2)n2(2)=n(2)((1f1(1))n(1)+(1f1(2))n(2))/(n(1)+n(2))(1f1(2))n(2)=
n(1)n(2)(f1(2)f1(1))/(n(1)+n(2))
1/1(1)+1/1(2)+1/2(1)+1/2(2)=
(n(1)+n(2))(1/n(1)+1/n(2))(1/f1(1)n(1)+f1(2)n(2)+1/(1f1(1))n(1)+(1f1(2))n(2))=
(n(1)+n(2))2/n(1)n(2)(1/f1(1)n(1)+f1(2)n(2)+1/(1f1(1))n(1)+(1f1(2))n(2))=
(n(1)+n(2))3/n(1)n(2)(n1f1(1)+n2f1(2))(n1(1f1(1))+n2(1f1(2)))
La variable D2 suit une loi du 2 a 1 degr de libert : on a 2 chantillons (m=2) et chaque chantillon ne prend que 2 valeurs, (k=2) donc s=(m1)(k1)=1.
La variable D2 scrit alors :
D2=n(1)n(2)(f1(1)f1(2))2(n(1)+n(2))/(n(1)f1(1)+n(2)f1(2))(n(1)(1f1(1))+n(2)(1f1(2)))
ou encore
D2=n(n1(1)n2(2)n1(2)n2(1))2/n(1)n(2)n1n2
D2 suit une loi du 2 ayant 1 degr de libert.
Exercice (le mme quen section 3.8.1)
Pour tester lefficacit dun vaccin antigrippal on soumet 300 personnes une exprience :
- sur 100 personnes non vaccines, 32 sont atteintes par la grippe,
- sur 200 personnes vaccines, 50 sont atteintes par la grippe,
Ce rsultat permet-il dapprcier lefficacit du vaccin ?
On a le tableau suivant :
d2:=300*(150*32-68*50)^2/(100*200*82*218)
On obtient :
7350/4469
donc d2 1.645
On cherche la valeur h qui vrifie :
Proba(12>h)=0.05 ou encore Proba(12 h)=0.95
pour cela on tape :
chisquare_icdf(1,0.95)
On obtient :
3.84145882069
donc h 3.84
Puisque d2 1.645<3.84 on en dduit que les deux chantillons ne sont pas significativement diffrents au seuil de 5% : on peut donc mettre en doute
lefficacit du vaccin.
Rappel : Soient deux variables alatoires X et Y, on dfinit le coefficient de corrlation de ces deux variables par le nombre :
=E((XE(X))(YE(Y)))/(X)(Y)=E(XY)E(X)E(Y)/(X)(Y)=cov(X,Y)/(X)(Y)
Si X et Y sont indpendantes alors =0.
Dans le cas o le nuage de points de coordones (xj;yj) est linaire, lquation de la droite, dite de rgression, est :
y=ax+b avec
a=E((XE(X))(YE(Y)))/(X)2 et
b=E(Y)aE(X)
On a donc :
=a(X)/(Y)
Thorme :
Au vue dun chantillon de taille n, on peut estimer par lestimateur :
R=j=1n (XjX)(Yj)/(j=1n (XjX)2)(j=1n (Yj)2)
Lorsque X et Y suivent une loi normale les variables :
V=1/2 ln((1+R)(1)/(1R)(1+)) suit une loi normale N(/2n2,1/n3) et,
T=n2R/1R2 suit une loi de Student n2 degrs de libert.
Si R2=1, les points de coordones (xj;yj) sont aligns sur la droite des moindres carrs et,
si R2=0, cela permet de conclure linadquation du modle linaire.
Attention : si R=0, les variables X et Y ne sont pas obligatoirement indpendantes. De mme, lorsque R2 est proche de 1, on peut penser (cest un indice et
non une preuve) quil y a un lien de cause effet entre X et Y.
On peut donc tester au seuil lhypothse H0 : =0.
Par exemple, pour =0.05, on considre que =0 est vraisemblable si :
1/2 ln((1+R)/(1R))<1.96*1/n3
Pour estimer a et b on utilise les statistiques :
A=((XjX)(Yj))/(XjX)2 et B=AX
On montre que A et B sont des estimateurs sans biais de a et b.