Beruflich Dokumente
Kultur Dokumente
Jean-François Coeurjolly
http://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/
Définition
Tableau de contingence
Définition
Définition
J
X
ni• = nij
j =1
I
X
ni• = nij
i=1
I
X J
X I X
X J
n = n•• = ni• = n•j = nij .
i=1 j =1 i=1 j =1
Autour des tableaux de contingence Etude de la liaison entre deux variables
Définition
Définition
nij 6
fij = ex : 3% =
n 200
J J
ni• X nij X 74
fi• = = = fij ex : 37% = = 14% + 23%
n j =1
n j =1
200
I I
n•j X nij X 62
f•j = = = fij ex : 31% = = 7% + 14% + 10%
n i=1
n i=1
200
Autour des tableaux de contingence Etude de la liaison entre deux variables
Définition
Distributions conditionnelles
Généralités
Distributions conditionnelles
Distributions conditionnelles
nij 14
fi|j = ex : 22.6% =
n•j 62
Autour des tableaux de contingence Etude de la liaison entre deux variables
Distributions conditionnelles
Interprétation :
70% des employés âgés entre 20 et 22 ans ont un salaire
compris entre 800 et 1000 e.
Parmi les employés âgés entre 22 et 24 ans, 62.2% d’entre
eux ont un salaire compris entre 1000 et 1200 e.
Autour des tableaux de contingence Etude de la liaison entre deux variables
Distributions conditionnelles
nij 6
fj |i = ex : 30% =
ni• 20
Autour des tableaux de contingence Etude de la liaison entre deux variables
Quelques formules
Rappelons que
nij n•j nij
fij = , f•j = , fi|j =
n n n•j
⇒
fij = fi|j × f•j
fij = fj |i × fi•
Autour des tableaux de contingence Etude de la liaison entre deux variables
Vérification :
En utilisant la distribution marginale : x ' 23.86 ans .
En utilisant les fréq. conditionnelles, x 1 ' 23.19 ans et
x 2 ' 24.16 ans .
62 × 23.19 + 138 × 24.16
En combinant ' 23.86 ans.
200
Autour des tableaux de contingence Etude de la liaison entre deux variables
Décomposition de la variance
J J
1X 1X
Var (X ) = n•j Varj (X ) + n•j (x j − x )2
n j =1 n j =1
| {z } | {z }
variance intra variance inter
Généralités
Définition
1 La variable Y est totalement indépendante de la variable X si
les variations de X n’entraı̂nent pas de variations de Y .
2 La variable X est totalement indépendante de la variable Y si
les variations de Y n’entraı̂nent pas de variations de X .
Théorème
1 Y est totalement indépendante de X si et seulement si
fj |i = f•j
(c-a-d les fréquences conditionnelles ne dépendent pas des lignes
du tableau de contingence et sont égales aux fréquences
marginales).
2 X est totalement indépendante de Y si et seulement si
fi|j = fi•
3 L’indépendance est réciproque .
Autour des tableaux de contingence Etude de la liaison entre deux variables
ni• × n•j
fij = fi• × f•j ⇐⇒ nij =
n
Corollaire
Un tableau de contingence est associé à deux variables X et Y
indépendantes si et seulement si les lignes (resp. colonnes) sont
proportionnelles entre elles.
Dépendance totale
Définition
1 Y est totalement dépendante de X (ou
X |Y y1 y2
⇒ Y est totalement
x1 2 0
dépendante de X et la
x2 1 0
réciproque est fausse .
x3 0 1
Exemple 2 :
X |Y y1 y2 y3 ⇒ X est totalement
x1 2 0 0 dépendante de Y et la
x2 0 1 4 réciproque est fausse .
Exemple 3 :
X |Y y1 y2 ⇒ X est totalement
x1 2 0 dépendante de Y et la
x2 0 1 réciproque est vraie .
Autour des tableaux de contingence Etude de la liaison entre deux variables
χ2 et Coefficient de Cramer
Définition
Le χ2 est un nombre mesurant l’écart entre la situation observée et la
situation si les variables avaient été théoriquement indépendantes .
Méthodologie :
1 construction du tableau de contingence sous hypothèse
d’indépendance, c-a-d calcul des
ni• × n•j
nij0 =
n
2 on calcule ensuite
J (n − n 0 )2
I X
X ij ij
χ2 =
i=1 j =1
nij0
Autour des tableaux de contingence Etude de la liaison entre deux variables
Définition
Le coefficient de Cramer C ∈ [0, 1] est défini par
s
χ2
C =
χ2max
χ2
X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ Total
(j = 1) (j = 2)
[20, 22[ (i = 1) 14 (42.4%) 6 (19.1%) 20
[22, 24[ (i = 2) 28 (4.8%) 46 (2.2%) 74
[24, 26[ (i = 3) 20 (21.8%) 86 (9.8%) 106
Total 62 138 200
Exemple 1ère case : ((6.2 − 14)2 /6.2)/23.13 ' 42.4%.
La case des individus les plus jeunes et touchant le plus bas
salaires s’écarte le plus de l’hypothèse d’indépendance.
Autour des tableaux de contingence Etude de la liaison entre deux variables
Généralités
Exemple et définition
4
●
3
X |Y 1 2 3 Total
Y
● ●
2
1 1 0 1 2
2 0 1 0 1 ● ●
1
3 1 1 0 2
0
Total 2 2 1 5
0 1 2 3 4
X
Définition
2
Autour des tableaux de contingence Etude de la liaison entre deux variables
Exemple et définition
4
●
3
X |Y 1 2 3 Total
Y
● ● ●
2
1 1 0 1 2 ● CY X
2 0 1 0 1 ● ●
1
3 1 1 0 2
0
Total 2 2 1 5
0 1 2 3 4
X
Définition
1 la courbe de régression de Y en X est obtenue en faisant
correspondre à chaque valeur de xi de X la moy. conditionnelle
de Y sachant X = xi . Cette courbe est notée CY /X .
2
Autour des tableaux de contingence Etude de la liaison entre deux variables
Exemple et définition
4
● CX
3
Y
X |Y 1 2 3 Total
Y
● ● ● ●
2
1 1 0 1 2 ● CY X
2 0 1 0 1 ● ● ●
1
3 1 1 0 2
0
Total 2 2 1 5
0 1 2 3 4
X
Définition
1 la courbe de régression de Y en X est obtenue en faisant
correspondre à chaque valeur de xi de X la moy. conditionnelle
de Y sachant X = xi . Cette courbe est notée CY /X .
2 la courbe de régression de X en Y est obtenue en faisant
correspondre à chaque valeur de yj de Y la moy. conditionnelle
de X sachant Y = yj . Cette courbe est notée CX /Y .
Autour des tableaux de contingence Etude de la liaison entre deux variables
Propriétés
Théorème
Si X et Y sont deux variables indépendantes alors CY /X
est parallèle à l’axe des abscisses et la courbe CX /Y est
parallèle à l’axe des ordonnées (Bréciproque fausse).
Si aucun point ne s’écarte de CY /X , Y totalement
dépendante de X ( Y = f (X ) ).
Si aucun point ne s’écarte de CX /Y , X totalement
dépendante de Y ( X = f (Y ) ).
Autour des tableaux de contingence Etude de la liaison entre deux variables
Définition
1 Le rapport de corrélation de Y en X est défini par
1
ni• (Y i − Y )2
P
Var (moy. cond. deY |X ) i
η2Y /X = = n
Var (Y ) Var (Y )
0 ≤ η2Y /X ≤ 1 et 0 ≤ η2X /Y ≤ 1
Plus η2 est élevé (resp. faible ) et plus la liaison fonctionnelle
est forte (resp. faible )
Autour des tableaux de contingence Etude de la liaison entre deux variables
Régression linéaire
Si le nuage de points observé est ”presque” linéaire, il y a de
fortes chances que la liaison entre X et Y soit linéaire (et que
celle de Y à X soit linéaire).
Exemple : imaginons observer le nuage suivant :
●
● ●
10
●
8
6
● ●
●
linéaire. Pour mesure ceci on
4
● ●
utilise le coefficient de corrélation
2
●
linéaire.
0
0 2 4 6 8 10
x
Autour des tableaux de contingence Etude de la liaison entre deux variables
10
●
8
on se donne une droite
6
y
● ●
d’équation y = ax + b, la MMC ●
4
● ●
consiste à minimiser la somme
2
des écarts rouges au carré. ●
0
0 2 4 6 8 10
x
Autrement dit, on va chercher le minimum en a et b de la fonction
n
X
f (a, b) = (yi − axi − b)2
i=1
Autour des tableaux de contingence Etude de la liaison entre deux variables
Solutions au problème
La droite de régression . . .
. . . de Y en X a pour équation y = b
ax + b
b avec
Cov (X , Y )
a=
b b = y −b
et b ax .
Var (X )
. . . de X en Y a pour équation x = b
a 0y + b
b 0 avec
Cov (X , Y )
a0 =
b b0 = x − b
et b a 0 y.
Var (Y )
Cov (X , Y )2
a0 =
a ×b
b = r 2.
Var (X )Var (Y ))
Autour des tableaux de contingence Etude de la liaison entre deux variables
Exemple d’application
Le tableau suivant présente les dépenses (dep) des ménages et PIB
(pib) en milliards d’euros pour les 4 trimestres de 2011 et 2012.
Peut-on expliquer l’évolution du PIB en fonction des dépenses ?
dep 278.1 276.8 278.7 279.6 282.4 281.5 282.2 282.9
pib 496.5 498.1 501.2 504.4 505.9 506.7 509.3 509.9
●
●
508
●
●
504
●
⇒ L’ajustement linéaire semble
pib
● adéquat et pertinent.
500
●
496
dep
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib '
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
R=
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
9.25
R= √ ' 93.38% (ajustement linéaire très pertinent)
21.61 ∗ 4.54
a=
b
Autour des tableaux de contingence Etude de la liaison entre deux variables
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
9.25
R= √ ' 93.38% (ajustement linéaire très pertinent)
21.61 ∗ 4.54
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep ' 280.28 (M e), pib ' 504 (M e), Var (dep) ' 4.54 (M e)2 , Var (pib) ' 21.61 (M e)2
2 Calcul intermédiaire
1
dep × pib = (278 × 496 + . . . + 283 × 510) = 141267.8 (M e)2 .
8
3 Calcul de la covariance
Cov (dep, pib) = dep × pib − dep × pib ' 9.25 (M e)2 .
4 Calcul du coefficient de corrélation linéaire
9.25
R= √ ' 93.38% (ajustement linéaire très pertinent)
21.61 ∗ 4.54
●
La droite de régression
●
508
●
● passe par le point (dep, pib) .
pib
●
500
●
496
dep
Autour des tableaux de contingence Etude de la liaison entre deux variables
●
La droite de régression
●
508
●
● passe par le point (dep, pib) .
pib
●
Quelle estimation du PIB proposer pour
500
●
d = 2.04 × 279 − 67.77
pib
277 278 279 280 281 282 283
= 501.39 (M e).
dep
Autour des tableaux de contingence Etude de la liaison entre deux variables
●
La droite de régression
●
508
●
● passe par le point (dep, pib) .
pib
●
Quelle estimation du PIB proposer pour
500
●
d = 2.04 × 279 − 67.77
pib
277 278 279 280 281 282 283
= 501.39 (M e).
dep