Sie sind auf Seite 1von 94

Introduction SPSS

Technique danalyse quantitative des


donnes I
Professeur: Karim DOUMI

Karim DOUMI
SPSS

Chapitre 1 : Fonctionnement de SPSS


Gnralits
SPSS est un outil statistique permettant des
analyses simples:
Statistiques descriptives,statistiques infrentielle.
tests dhypothse.

analyses plus sophistiques:


Analyses multivaries

des graphiques

Les analyses se font partir des donnes


saisies!!!
La qualit des analyses statistiques est fonction de
la qualit des donnes saisies
Karim DOUMI
SPSS

Fonctionnement de SPSS:
Gnralits

Quatre types de fichiers utiliss:


Un fichier des donnes de ltude
Fichier texte (.txt) ou excel (.xls)
BD (access, Mysql, oracle..)

Un fichier ddition des donnes (.sav)


Un fichier de syntaxe (.sps)
Un fichier de rsultats (.spo)

Karim DOUMI
SPSS

Fonctionnement de SPSS:
Fichier de donnes
Ce fichier nappartient pas SPSS:
Peut prendre diverses formes (Excel, base de donnes, fichier
texte,).
Avantages du fichier texte:
Utilisation sur PC ou Macintosh.
Peut tre lu par nimporte quel programme de traitement de
texte.
Rsiste au temps et lvolution des diverses versions des
logiciels.

Cration du fichier texte:


Utilisation du bloc-notes ou enregistrement dans WORD ou EXCEL
sous le format texte
Karim DOUMI
SPSS

Karim DOUMI
SPSS

Description des principales fentres :

File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer,
enregistrer,
etc.).
Edit : permet deffectuer les oprations de traitement de texte (ex. : copier, couper,
coller,
etc.).
View : permet de dfinir les options de lcran (ex. : barres doutils).
Data : traite tout ce qui est li la gestion de la barre de donnes (ex. : dfinir une
variable, insrer une variable, etc.).
Transform : permet deffectuer les diffrentes oprations de transformation des
variables
(ex. : recodification, catgorisation, cration dindices, etc.).
Analyse : permet toutes les analyses statistiques que SPSS permet deffectuer (ex. :
analyses descriptives, corrlations, rgressions, etc.).
Graphs : prsente tous les types de graphiques que SPSS permet de crer (ex. :
histogrammes, etc.).
Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos
sur
les variables, etc.).
Windows : permet la gestion des fentres.
Help : outil daide lutilisation du logiciel.
Karim DOUMI
SPSS

La dfinition des variables


Name : sert donner un nom la variable. Le nom ne doit pas dpasser 8 caractres et il est recommand de ne
pas utiliser de caractres accentus. Il doit bien reprsenter la variable pour vous permettre de la
reconnatre facilement.
Type : sert dcrire la variable et le format de la colonne. Il est recommand de laisser loption numeric qui
est indique par dfaut. Pour les dcimales decimal places, vous pouvez les laisser gales 2 ou les
mettre 0, selon la situation.
Label : permet de donner une identification plus explicite la variable qui sera affiche dans les diffrents
calculs statistiques.
Values : permet de dfinir les valeurs que peuvent prendre la variable.
Missing : permet dindiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
donnes manquantes se fait habituellement en effectuant un simple retour (cest la mthode
recommande). Si vous avez prvu dutiliser des codes spcifiques (ex. : 9, 99, etc.), il faut les dfinir dans
missing.
Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou rduire la taille de la
colonne.
Align : sert aligner les donnes lintrieur des cellules.
Scale : permet de dfinir le type de lchelle (nominale, ordinale, intervalles et ratio).

Karim DOUMI
SPSS

Fonctionnement de SPSS:
Fichier de donnes
Dans un fichier texte, les donnes de chaque
sujet sont entres successivement, spares par
un ; une , , une espace ou une tabulation.
Il est prfrable dutiliser un ; ou une espace
Exemple:
Variables: identification (id), sexe du sujet (sexe, o f=1, h=2) et ge
(age) on entrera:
1 1 28 participant 1 est une femme de 28 ans
2 2 33 participant 2 est un homme de 33 ans
3 2 32 participant 3 est un homme de 32 ans
etc.

Karim DOUMI
SPSS

Fonctionnement de SPSS:
Fichier de donnes

Le fichier de donnes inclut les valeurs


numriques associes vos donnes
Ex. 7 pour signifier totalement en accord ou 1 pour
signifier que le participant est un homme

Principes gnraux de saisie:


Chaque ligne = 1 participant
Chaque colonne = 1 variable

Karim DOUMI
SPSS

Fonctionnement de SPSS:
Fichier ddition des donnes
Pour insrer les donnes dans ce fichier:
Saisie des donnes manuellement
Importation du fichier avec la syntaxe:
GET DATA /TYPE = TXT
/FILE = 'C:\Ex2.txt'
/DELCASE = LINE
/DELIMITERS = "\t"
/ARRANGEMENT = DELIMITED
/FIRSTCASE = 2
/IMPORTCASE = FIRST 1000
/VARIABLES =
ID F3.2
L100KM F6.2
CHEVAPEU F3.2
POIDS A9
ACCEL F5.2
ORIGIN F3.2
NBCYL F3.2
ANNEE A8
.
CACHE.
EXECUTE.

GET DATA /TYPE=XLS


/FILE='C:\Ex2.xls'
/SHEET=name 'Ex2'
/CELLRANGE=full
/READNAMES=on .

Karim DOUMI
SPSS

10

Fonctionnement de SPSS:
Fichier ddition des donnes
Pour insrer les donnes dans ce fichier:
Avec le menu
Suivre les tapes affiches lcran

Karim DOUMI
SPSS

11

Fonctionnement de SPSS:
Fichier ddition des donnes
Attribuer un nom/code
chaque variable
Pour SPSS 12 et moins,
max de 8 lettres/chiffres,
mais dbutant
ncessairement par une
lettre
Choisir des codes
significatifs
Conserver par crit les
codes des variables!!!
Karim DOUMI
SPSS

12

Code variable

Signification

ID

identification du participant
motivation supprimer ses motions

Karim DOUMI
SPSS

13

Fonctionnement de SPSS:
Fichier ddition des donnes
Attribuer une tiquette
chaque variable
Les codes sont limits.
On peut dans SPSS
attribuer une tiquette
(label), laquelle permet
de mieux se retrouver
Onglet variable view
pour modifier les
paramtres des variables

Karim DOUMI
SPSS

14

Fonctionnement de SPSS:
Fichier ddition des donnes
Les donnes saisir
dans SPSS sont
numriques:
Chaque modalit de
rponse peut se voir
attribuer une tiquette
(Values)

Karim DOUMI
SPSS

15

Fonctionnement de SPSS:
Fichier ddition des donnes
Valeurs manquantes:
Il importe dattribuer un
code pour les valeurs
manquantes; ceci facilite
la vrification du fichier
de donnes
On doit spcifier SPSS
un code pour signaler
lexistence dune valeur
manquante
Ex. -999 pour une chelle
allant de 1 7.

Karim DOUMI
SPSS

16

Fonctionnement de SPSS:
Fichier syntaxe

Les analyses avec SPSS se font:


1.Par les menus ou
2.Par les syntaxes
Plus complexe premire vue, elle comporte des
avantages majeurs:
Certains types danalyses ou de sous-commandes ne sont pas
disponibles via le menu.
En spcifiant tous les paramtres de votre analyse vous tes
plus mme de contrler les rsultats obtenus.

Karim DOUMI
SPSS

17

Fonctionnement de SPSS:
Fichier syntaxe
Le logiciel SPSS reconnat un ensemble dfini de
commandes et de sous-commandes.
Plusieurs d'entre elles seront vues lors des cours
Sinon, guide en .pdf dans le menu daide

Le fichier syntaxe est un fichier de commandes


Elles indiquent SPSS quoi faire avec les donnes
Les commandes et sous-commandes sont spares par
une barre oblique (/)
Aucun accent ne doit tre employ dans les commandes,
sous-commandes et noms de variables
Il ne faut pas oublier que les commandes SPSS se
terminent toujours par un point.
Karim DOUMI
SPSS

18

Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI
SPSS

19

Fonctionnement de SPSS:
Fichier syntaxe

Karim DOUMI
SPSS

20

Fonctionnement de SPSS:
Fichier rsultats

Karim DOUMI
SPSS

21

Calculer une Variable


Il arrive trs souvent que les variables brutes d'une base de
donnes ne soient pas suffisantes pour effectuer certaines
analyses. On peut avoir besoin de crer une ou des nouvelles
variables partir des variables existantes, comme dans les cas
suivants :
Crer une variable qui contient la racine carre d'une variable
existante
Calculer la moyenne ou la somme d'une srie de variables
existantes
La commande Compute sert crer de nouvelles variables sur
la base de fonctions arithmtiques, statistiques ou logiques.
Karim DOUMI
SPSS

22

Calculer une Variable


Exemple

Karim DOUMI
SPSS

23

Calculer une Variable


Exemple

Cette nouvelle variable sera la moyenne des rponses donnes par chaque sujet
aux questions Q01, Q02, Q03,
Allez dans le menu Transformer et choisissez Calculer la variable.

Dans la boite de dialogue, crivez, dans Variable cible (tiquette), MOYSAT (cest
le nom de la variable).
Ensuite, allez dans la boite Groupe de fonctions et cliquez deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser lascenseur
droite). Vous verrez dans la boite Fonctions et variables spciales la
fonction Mean sur laquelle vous devez aussi cliquer deux reprises.
Dans la boite du haut, vous verrez apparatre MEAN (?, ?). Vous devez alors insrer
les variables Q01, Q02, Q03 dans la parenthse
Karim DOUMI
SPSS

24

Calculer une Variable


Exemple

Vous pouvez galement crire la main la commande dans la boite

Karim DOUMI
SPSS

25

Calculer une Variable


Exemple
Exercice sur la commande CALCULER : par syntaxe
Maintenant, liminez la variable MOYSAT de la matrice de donnes (cliquez au
haut de la colonne sur le nom de la variable, puis dans le menu dition, cliquez
sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre
clavier).
Pour copier la commande lintrieur dun fichier Syntaxe recommencez les
tapes prcdentes et remplacez le
par
Le texte copi dans cette fentre devrait se lire comme suit :

Karim DOUMI
SPSS

26

Calculer une Variable


Exemple
faites la mme chose en crant la variable AGEX .(ge exacte de lindividu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe

Karim DOUMI
SPSS

27

Cration dune variable


La commande recode sert crer de nouvelles variables (ou
modifier des variables existantes) sur la base dun
regroupement des valeurs qu'on appelle aussi cl de
recodage. Voici quelques situations dans lesquelles vous
pouvez utiliser le recodage :
partir d'une variable contenant la note d'examen sur 20,
crer une nouvelle variable qui recode la note en lettre (A+, A, A, etc..)
Recoder les valeurs d'items inverss dans une chelle de
mesure
Diminuer le nombre de catgories d'une variable catgorielle
en les regroupant diffremment
Karim DOUMI
SPSS

28

Cration dune Variable


Exemple
Imaginons que nous voulons raliser des analyses comparant les gens en
formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut
crer une variable qui diminue le nombre de catgories de 4 2. :
Allez encore une fois dans le menu Transformer, puis slectionnez Cration de
variables

Recodez la variable STATUT de sorte que les sujets qui ont rpondu 1 auront la
valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront
maintenant la valeur 2 (autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de
lencadr.
Inscrivez ensuite Statut recod dans la boite tiquette du mme encadr.
Cliquez sur
Karim DOUMI
SPSS

29

Cration dune Variable


Exemple

Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.

Karim DOUMI
SPSS

30

Cration dune Variable


Exemple

Exercice sur la commande Recode : par syntaxe

Pour les 3 variables a la fois la syntaxe est la suivante:

Karim DOUMI
SPSS

31

Expression conditionnelle (IF)


Les expressions conditionnelles permettent de calculer des variables
selon une condition, donc qui sapplique des sujets ou des observations
(lignes) qui rpondent certains critres que nous allons dfinir selon nos
besoins avec cette commande.
La rsultante des expressions conditionnelles peut crer une nouvelle
variable ou bien transformer les valeurs d'une variable existante. Dans le
dernier cas, il faut s'assurer que l'crasement des valeurs originales ne
porte pas consquence
Voici lapparence Syntaxe la commande de cet exercice.
IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littralement, elle signifie que SI la valeur de la variable SEXE est gale
1 , la valeur de la variable SATIS1 sera gale la moyenne des valeurs des
variables Q01, Q03 et Q05.

Karim DOUMI
SPSS

32

Expression conditionnelle (IF)

En utilisant le langage SPS:

Karim DOUMI
SPSS

33

Slection de cas:
Pour certaines analyses, il peut tre ncessaire de filtrer une partie des
observations (cas) pour obtenir des rsultats auprs d'un sous-groupe
spcifique d'observations.
Il est possible de slectionner une ou des observations laide de un ou
d'une combinaison de critres, soit par la boite de dialogue, soit en
utilisant une commande SYNTAXE.
Les conditions de slection peuvent tre uniques ou multiples. Dans le cas
dune seule condition, on inscrit la variable sur laquelle repose la slection
avec la condition formule grce aux conditions arithmtiques (<, >, =, <=,
>=, <>).
Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
oprateurs logiques (AND et OR) pour sparer les conditions.

Pour faire une slection de cas de manire interactive, allez dans le


menu Donnes, puis cliquez sur Slectionnez des observations.
Karim DOUMI
SPSS

34

Slection de cas:
Pour faire une slection de cas
de manire interactive, allez
dans le menu Donnes, puis
cliquez sur Slectionnez des
observations.

Karim DOUMI
SPSS

35

Slection de cas:
Dans la premire boite de dialogue,
vous devez dterminer la stratgie de
slection que vous allez utiliser. Vous
avez plusieurs choix, mais le plus
populaire est sans contredit Selon
une condition logique. Dans ce cas, la
slection se fait partir de la
condition que vous noncez. Nous
allons donc voir cette stratgie en
premier et prciser les autres par la
suite

Karim DOUMI
SPSS

36

Slection de cas

Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30

Karim DOUMI
SPSS

37

Slection de cas:

Si vous prfrez
taper la commande
manuellement,
vous devriez crer
la syntaxe suivante:

Karim DOUMI
SPSS

38

Slection de cas:

Karim DOUMI
SPSS

39

Les autres stratgies de slection

Dans la boite de dialogue Slection de cas,


vous avez bien sr la stratgie Si que nous
venons de voir, mais aussi dautres choix. Voici
une brve description pour chacun.
Toutes les observations : vous ne faites pas
de slection, vous utilisez toutes les
observations. Trs utile quand vous voulez
revenir la base initiale et annuler une
condition pralablement tablie.
Par chantillonnage alatoire : slection
d'observations alatoire. Vous choisissez ce
moment combien de cas vous voulez dans
votre chantillon, soit en pourcentage
(Environ _ % de toutes les observations), soit
en prcisant un nombre d'observations parmi
les X premiers (Exactement _ observations
partir des premires _ Observations).
Utiliser une variable de filtre : enfin, vous pouvez
faire une slection en ne conservant que les cas qui
ont des valeurs valides pour une variable filtre. Vous
n'avez qu' transfrer la variable filtre dans la boite
Karim DOUMI
prvue cet effet.
SPSS

40

Corrlation, rgression linaire


simple avec SPSS

Karim DOUMI
SPSS

41

Chapitre 2 : Corrlation,
rgression et causalit
Introduction : prcisions smantiques

La rgression simple indique la nature de la liaison linaire entre


deux variables (quantitatives). La corrlation indique le degr de
linarit entre deux variables (quantitatives). Ainsi lanalyse de
rgression fournit une fonction entire (une droite par exemple)
alors que lanalyse de corrlation fournit un simple nombre un
indice qui renseigne sur lintensit avec laquelle 2 variables voluent
ensemble. Ces 2 techniques sont donc complmentaires. Lanalyse
causale enfin va plus loin en prcisant le sens de la relation, le
chemin de la cause leffet.
Karim DOUMI
SPSS

42

Chapitre 2 : Corrlation,
rgression et causalit
Exemple
Si je mintresse au lien entre le temps hebdomadaire moyen pass travailler (X) et la note obtenue
au partiel (Y) :

Lanalyse de rgression permet de dterminer une fonction qui lie les deux variables : ex : Y =
aX + b
Lanalyse de corrlation renseigne sur lintensit du lien entre les deux variables : ex : le lien est
fort et trs significatif .

Lanalyse causale dtermine le sens de la relation : ex temps de travail note au partiel

Karim DOUMI
SPSS

43

Chapitre 2 : Corrlation, rgression et causalit

5.1. Analyse bivarie


Corrlation entre deux variables quantitatives
Le coefficient de corrlation de Pearson r est une mesure
dassociation (dinterdpendance) entre deux variables mtriques
Il mesure lintensit de la co-variation entre les deux variables :
les deux variables, mesures sur le mme ensemble dobservations, varient-elles de faon
analogue (si pour une observation, lune prend une valeur leve, lautre a galement une
valeur leve) ?

Karim DOUMI
SPSS

44

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Calcul du coefficient de corrlation de Pearson :

cov(xy)
r
(x).(y)
r est toujours compris entre 1 et 1
si r est proche de 1 alors le lien est fort et ngatif (quand 1 des 2 variables augmente lautre
diminue), alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente,
lautre augmente aussi)
si r est proche de 0 alors il ny a pas de lien entre x et y

Karim DOUMI
SPSS

45

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


r et r2 :
Comme r indique le degr de la relation entre la variation dune variable et celle dune autre
variable, il peut galement reprsenter la dcomposition de la variation totale (en tant au carr). On
retiendra que r2 = variation explique variation totale
r2 mesure la proportion de la variation dune variable qui est explique par lautre.
r et r2 sont des mesures symtriques dassociation : la corrlation entre X et Y est la mme que la
corrlation entre Y et X. Il nest pas important de savoir quelle est la variable indpendante et quelle
est la variable dpendante.

Karim DOUMI
SPSS

46

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Interprtation du R2 :
Variance explique : R, coefficient de dtermination (proportion de variance totale de Y
qui nest pas due lerreur, ou encore proportion de la variance de Y explique par la
variance de X)
R = 0 : la variable indpendante nexplique rien
R = 1 : la variable explique compltement Y
R = 0,11 : 11% des variations de Y sont expliques par le modle

Karim DOUMI
SPSS

47

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Prcisons tout de suite que r indique la force dune relation linaire. Si on a r = 0, cela
signifie quil ny a pas de relation linaire entre X et Y, mais cela ne signifie pas que les 2
variables ne sont pas lies !!! Il peut trs bien y avoir une relation non linaire entre elles non
traduite par r. Faites un graph !

Illustration :
Il existe
bien une relation entre X
et Y, mais non linaire. Ici
r=0

X
Karim DOUMI
SPSS

48

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Le coefficient de corrlation linaire r renseigne sur lintensit du lien entre 2 variables quantitatives.
Il doit tre complt afin de dterminer si lventuel lien mis jour est significatif ou non. On utilise
pour cela un test t :

t r. n22
1r
Remarque : sous SPPS, la probabilit critique du test est fournie par la rubrique sig. (bilatrale)

Karim DOUMI
SPSS

49

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Exemple SPSS : y a-t-il un lien entre la taille de lunit sociale de visite (le nombre de personnes
qui forment le groupe) et le temps pass dans le muse dart ?
H0 : il ny a aucun lien entre ces deux variables (r=0)
H1 : il existe un lien entre ces deux variables (r0)

Analyse Corrlation Bivarie


Rsultat : coefficient de corrlation linaire de Pearson : r (entre -1 et 1)

Karim DOUMI
SPSS

50

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Corrlati ons

dure estime de la v isit e Corrlat ion de Pears on


Sig. (bilatrale)
N
taille de l'unit s ociale
Corrlat ion de Pears on
Sig. (bilatrale)
N

dure
est ime de
la v isite
1
,
542
,078
,071
538

taille de l'unit
soc iale
,078
,071
538
1
,
613

Le coefficient de Pearson est faible et non significatif. On conclut quil nexiste pas de lien entre
la dure de la visite et la taille de lunit sociale de visite

Karim DOUMI
SPSS

51

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie

Exercice
BDD Employes de SPSS : ya-t-il une corrlation positive significative entre salaire actuel et salaire
lembauche ? Entre salaire actuel et nombre de mois danciennet ?

Karim DOUMI
SPSS

52

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Corrlations

Salaire courant

Salaire d'embauc he

Anciennet (nombre
de mois )

Corrlat ion de Pearson


Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N

Anciennet
Salaire
Salaire
(nombre de
courant
d'embauche
mois)
1, 000
,880**
,084
,
,000
,067
474
474
474
,880**
1, 000
-, 020
,000
,
,668
474
474
474
,084
-, 020
1, 000
,067
,668
,
474

474

474

**. La corrlat ion est s ignif icativ e au niv eau 0. 01 (bilat ral).

Corrlation positive faible et non


significative

Corrlation positive forte et


significative
Karim DOUMI
SPSS

53

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Rponse :
On veut calculer la corrlation entre Y (attitude envers la ville) et X (dure de rsidence dans la ville),
aprs contrle dune troisime variable Z (limportance du climat).
On commence par calculer les corrlations simples entre chaque variables :
rYX = 0,9361
rYZ = 0,7334
rXZ = 0,5495

Karim DOUMI
SPSS

54

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Analyse Corrlation Bivarie
Corrlations

ATT_VILL

DURE_R

IMP_CLIM

Corrlat ion de Pearson


Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N
Corrlat ion de Pearson
Sig. (bilatrale)
N

ATT_VILL DURE_R IMP_CLIM


1, 000
,936**
,733**
,
,000
,007
12
12
12
,936**
1, 000
,550
,000
,
,064
12
12
12
,733**
,550
1, 000
,007
,064
,
12
12
12

**. La corrlat ion est s ignif icativ e au niv eau 0. 01 (bilatral).

Karim DOUMI
SPSS

55

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


La rgression simple :
Elle consiste dterminer une quation qui relie 2 variables quantitatives. Contrairement la
corrlation simple, elle ncessite didentifier lune des 2 variables comme tant dpendante (
expliquer) et lautre comme tant indpendante (explicative). Remarquons tout de mme que cette
mthode nimplique pas de causalit.
Le modle type est de la forme :
Yi = 0 + 1Xi + ei
avec Y = variable dpendante ( expliquer)
X = variable indpendante (ou explicative)
0 = ordonne lorigine de la droite
1 = pente de la droite
ei = terme derreur associ la ime observation

Karim DOUMI
SPSS

56

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


La rgression simple, vocabulaire :
Coefficient de dtermination r2 : proportion de la variation totale de Y explique par la variation
de X
Valeur estime (ou prdite) de Yi : i = a + bx avec i la valeur estime de Yi et a et b les
estimateurs respectifs de 0 et 1.
Coefficient de rgression : le paramtre b est appel coefficient de rgression non standardis.
Lcart-type rsiduel (SEE) : cest lcart-type des erreurs (valeurs relles Y moins valeurs
estimes ).
Erreur type (SEb): estimation de lcart-type de b

Karim DOUMI
SPSS

57

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


La rgression simple, vocabulaire (suite) :
Coefficient de rgression standardis (coefficient bta) : il correspond la pente obtenue par la
rgression de Y sur X lorsque les donnes sont standardises.
Somme des erreurs au carr : les distances de tous les points la droite de rgression sont
leves au carr et additionnes pour obtenir la somme des erreurs au carr, qui est une mesure de
lerreur totale
Statistique t : valeur du t de Student n-2 degrs de libert, afin de rejeter ou non H0. Cette
statistique est associe sa probabilit critique (significative lorsquelle est < 0,05)

Karim DOUMI
SPSS

58

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Les tapes dune analyse de rgression simple :
1. La premire tape consiste reprsenter le nuage de points, variable dpendante sur laxe
vertical et variable indpendante sur laxe horizontal.
Cela permet de se faire une ide sur le type de lien (est-ce linaire ?) et de dtecter les ventuelles
valeurs extrmes qui risquent de perturber lanalyse.
Sous SPSS : Graph Diagramme de dispersion Simple

Karim DOUMI
SPSS

59

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


12

10

ATT_VILL

0
0

10

20

DURE_R
Karim DOUMI
SPSS

60

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


2. Il sagit ensuite de trouver les caractristiques de la droite qui dcrit le mieux les donnes. On
utilise gnralement la mthode des moindres carrs. Elle consiste dterminer la droite de
rgression qui minimise le carr des distances verticales entre les points et la droite.
Avec une quation du type Yi = 0 + 1Xi + ei la distance verticale du point la droite est
reprsent par ei.
Les distances de tous les points la droite levs au carrs et additionns forment la somme des
carrs des erreurs, ou erreur totale , note
2

Le but est que cette valeur soit minimale (que les distances verticales soient minimises)

Karim DOUMI
SPSS

61

y = 0 + 1x
12

Yi
10

ei

0
0

DURE_R

10
Karim DOUMI
SPSS

20
62

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


3. Estimation des paramtres de la droite :

Dans la plupart des cas, 0 et 1 sont inconnues et estimes partir des observations de lchantillon
en utilisant lquation : i = a + bxi
O i est la valeur estime ou prdite de Yi et a et b sont les estimateurs respectifs de 0 et 1. La
constante b, qui est la pente de la droite de rgression est gnralement appele coefficient de
rgression non standardis. Cest la variation attendue de Y quand X varie dune unit.

cov(XY)
b
V(X)

aY bX
Karim DOUMI
SPSS

63

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


4. Estimation du coefficient de rgression standardis :
La standardisation est le procd par lequel les donnes brutes sont transformes en nouvelles
variables, ayant une moyenne de 0 et une variance de 1. Lordonne lorigine prend alors une valeur
de 0. La pente obtenue par la rgression de Y par rapport X (BYX) est alors la mme que celle
obtenue par la rgression de X par rapport Y (BXY).
En outre, chacun de ces coefficients de rgression standardiss (bta) est gal au coefficient de
rgression simple entre X et Y : BYX = BXY = rXY
Il existe une relation simple entre les coefficients de rgression standardiss et non standardiss : BYX
= bXY(SX/SY)

Karim DOUMI
SPSS

64

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


5. Test dhypothse :
En toute rigueur, la signification statistique de la relation linaire entre X et Y doit faire lobjet dun
test dhypothse. On pose :
H0 : 1 = 0

et

H1 : 1 0

H0 implique quil ny a pas de relation linaire entre X et Y, tandis que lhypothse alternative H1 en
suppose une, positive ou ngative. On utilise un test bilatral t n-2 degrs de libert associ une
probabilit critique pour dterminer la significativit de 1.

Avec b coefficient de rgression et SEb lestimation de lcart-type de b.

t b
SEb
Karim DOUMI
SPSS

65

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Exercice
En utilisant la BDD SPSS attitude envers la ville , ralisez une tude de corrlation et de rgression
entre la variable dpendante attitude envers la ville et la variable indpendante dure de rsidence.

Analyse Rgression Linaire

Karim DOUMI
SPSS

66

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Analyse de corrlation :

Rcapi tulatif du modl e

Modle
1

R
,936a

R-deux
,876

R-deux ajust
,864

Erreur
st andard de
l'est imat ion
1, 2233

a. Valeurs prdites : (constantes ), DURE_R

Karim DOUMI
SPSS

67

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Coefficient de Pearson

Analyse de corrlation :

Rcapi tulatif du modl e

Modle
1

R
,936a

R-deux
,876

R-deux ajust
,864

Erreur
st andard de
l'est imat ion
1, 2233

SEE

a. Valeurs prdites : (constantes ), DURE_R


La dure de rsidence dans la ville explique
87,6 % lattitude

Le R2 ajuste permet de corriger le R2 en


fonction du nombre de variable. Ici, pas
dincidence.

Karim DOUMI
SPSS

68

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Significativit du modle de corrlation :
ANOVAb

Modle
1

Rgress ion
Rs idu
Tot al

Somme
des carrs
105,952
14, 964
120,917

ddl
1
10
11

Carr moy en
105,952
1, 496

F
70, 803

Signif ication
,000a

a. Valeurs prdites : (constantes ), DURE_R


b. Variable dpendante : ATT_VI LL

Karim DOUMI
SPSS

69

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Somme des carrs ddl

Significativit du modle de corrlation :


ANOVAb

Modle
1

Rgress ion
Rs idu
Tot al

Somme
des carrs
105,952
14, 964
120,917

ddl
1
10
11

Carr moy en
105,952
1, 496

F
70, 803

Signif ication
,000a

a. Valeurs prdites : (constantes ), DURE_R


b. Variable dpendante : ATT_VI LL

SSY = SSreg + SSres

La statistique F calcule pour 1 et 10 ddl correspond une


proba critique < 0,05. La relation entre X et Y est positive
et significative.

Karim DOUMI
SPSS

70

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Paramtres du modle de corrlation :
Coeffici entsa

Modle
1

(c onst ante)
DURE_R

Coef f icients non


st andardiss
Erreur
B
st andard
1, 079
,743
,590
,070

Coef f icien
ts
st andardi
ss
Bta
,936

t
1, 452
8, 414

Signif ication
,177
,000

a. Variable dpendante : ATT_VI LL

Karim DOUMI
SPSS

71

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Paramtres du modle de corrlation :

BYX = BXY = rXY

Coeffici entsa

Modle
1

(c onst ante)
DURE_R

Coef f icients non


st andardiss
Erreur
B
st andard
1, 079
,743
,590
,070

Coef f icien
ts
st andardi
ss
Bta
,936

t
1, 452
8, 414

Signif ication
,177
,000

a. Variable dpendante : ATT_VI LL

Attitude () = 1,079 + 0,590


(dure de rsidence)

T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique


associe < 0,05 ce qui confirme le test F : relation positive
significative entre X et Y
Karim DOUMI
SPSS

72

Exemple

Karim DOUMI
SPSS

73

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Hypothses implicites poses lors de lestimation des paramtres :
H1 : Le terme derreur est normalement distribu (pour chaque valeur fixe de X la distribution de Y
est normale).
H2 : Les moyennes de toutes ces distributions normales de Y, pour X donn, forment une droite
dont la pente est b.
H3 : La moyenne du terme derreur est 0.
H4 : La variance du terme derreur est constante, et ne dpend pas des valeurs prises par X.

H5 : Les termes derreur ne sont pas corrls (les observations ont t ralises indpendamment les
unes des autres).

Karim DOUMI
SPSS

74

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Exercice
1) Ralisez une analyse de corrlation et de rgression dans BDD employs entre salaire et salaire
embauche.
2) BDD enqute du comportement des amricains en 1993 : peut-on expliquer la tendance tre
libral ou conservateur (variable mtrique 7 modalits affilpol ) en fonction du revenu du
rpondant ?
3) Reprenez la BDD enqute du comportement des amricains en 1993 et ralisez une nouvelle
analyse de corrlation et de rgression susceptibles de prsenter un intrt, entre les variables de
votre choix.

Karim DOUMI
SPSS

75

Chapitre 2: Corrlation, rgression et causalit

5.1. Analyse bivarie


Corrlation ou rgression simple ?

Les deux mthodes donnent des rsultats totalement quivalents, et les conclusions qui peuvent en
tre tires sont identiques (R est, dans le cas de la rgression simple, le carr de r)
On choisira la rgression lorsque lobjectif est destimer un modle de prdiction (ex : prdire les
ventes par les dpenses publicitaires)

Karim DOUMI
SPSS

76

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Principe : tudier les relations entre n variables prises simultanment (n>2)
Mthodes :
Explicative : rgression multiple, analyse discriminante
Descriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales
(ACP)
Nature des variables :
Mtrique : rgression multiple (explicative) et ACP (descriptive)
Nominale : analyse discriminante (explicative), analyse factorielle (descriptive)

Karim DOUMI
SPSS

77

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Pourquoi raliser des rgressions multivaries ?
Limite de la rgression simple : un phnomne a rarement une seule cause. Par exemple, quest-ce qui
explique les ventes dun produit ?
Le budget pub, le budget force de vente, le prix, le nombre de points de vente, etc.

La rgression multiple permet, elle, de confirmer une relation de cause effet entre variables, cest-dire expliquer les variations dune variable par plusieurs autres variables. Si cette relation est
confirme, il faut alors valuer son intensit.

Karim DOUMI
SPSS

78

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Mthode :
Y est la variable quantitative expliquer (dpendante), et X1, X2, , Xi, les i variables explicatives
(indpendantes) quantitatives ( la rigueur binaires). La forme gnrale du modle est :
Y = 0 + 1 X1 + 2 X2 + . + i Xi +

avec minimum.

On recherche une fonction f qui lie les valeurs de Y celle des X et telle que f(Xi) soit le plus
proche possible de Y.
Dans la pratique, on calcule lquation :
= b0 + b1 X1 + b2 X2 + . + bi Xi

Karim DOUMI
SPSS

79

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Prsentation des rsultats sous SPSS (1/4):

Analyse Rgression Linaire


La significativit globale du modle est fournie laide dun test F et une probabilit associe

Le R ajust indique le % de variance de Y explique par lquation (ajuste au nombre de variables


indpendantes et la taille de lchantillon)
Le coefficient de corrlation multiple R tend vers 1 lorsque la relation est forte, vers 0 lorsquelle
2
est nulle
2
2

k(1R )
R ajust R nk 1
Karim DOUMI
SPSS

80

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Prsentation des rsultats sous SPSS (2/4) :
Les coefficients , dits coefficients de rgression partiels reprsentent la variation attendue de Y
quand Xi varie dune unit mais que les autres variables indpendantes sont maintenues constantes.
A chacun dentre eux est associ un tests t pour en estimer la significativit.
Pour comparer la contribution relative des Xi Y, il suffit de comparer les valeurs absolues des t
associs ou de lire les coefficients de rgression partiels standardiss Bta (moyenne=0 et carttype=1) qui permettent la comparaison entre Xi alors mme que celles-ci ont des units de mesure
diffrentes (exemple, pour estimer les ventes dun magasin : surface en m, nombre de produits en
promo, proximit du centre ville en km etc.)

Karim DOUMI
SPSS

81

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Prsentation des rsultats sous SPSS (3/4) :
Il est ncessaire de tester la colinarit, car la multicolinarit entre variables explicatives biaisent les
estimations de R :
Il faut tudier la tolrance : pourcentage de la variable explicative non explique par les autres
variables explicatives (elle doit tre proche de 1, et en tout cas > 0,3)
Il faut aussi tudier le VIF (variance inflation factor) : degr daugmentation de lerreur li
la multicolinarit (le VIF doit tre infrieur 4)

Karim DOUMI
SPSS

82

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Prsentation des rsultats sous SPSS (4/4) :
Enfin, il est ncessaire dexaminer les rsidus. Le rsidu ei est la diffrence entre la valeur observe
yi et la valeur calcule par le modle i. Ces erreurs ei sexpliquent dune part par leffet des variables
non prises en compte dans le modle, et dautre part par des variations alatoires. Pour que
linterprtation du modle soit valide, il faut que les rsidus se rpartissent de manire alatoire
autour de la valeur calcule. Pour vrifier ce dernier point, il suffit dexaminer le diagramme PPGaussien : il ne doit y avoir aucune forme apparente dans la distribution des rsidus

Karim DOUMI
SPSS

83

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie

Exercice
Peut-on expliquer lattitude envers la ville en fonction de la dure de rsidence et de limportance
accorde au climat ?

Karim DOUMI
SPSS

84

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :
Sous SPSS : Analyse Rgression Linaire

Rcapi tulatif du modl e

Modle
1

R
,972a

R-deux
,945

R-deux ajust
,933

Erreur
st andard de
l'est imat ion
,8597

a. Valeurs prdites : (constantes ), IMP_CLIM, DUR E_R

Karim DOUMI
SPSS

85

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :

La relation est forte

Modle
1

Rcapi tulatif du modl e

R
,972a

R-deux
,945

R-deux ajust
,933

Erreur
st andard de
l'est imat ion
,8597

a. Valeurs prdites : (constantes ), IMP_CLIM, DUR E_R


Le modle explique 93,3 % de la variance
de Y
Karim DOUMI
SPSS

SEE
86

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :
Sous SPSS : Analyse Rgression Linaire
Statistiques : test de colinarit
Diagrammes : diagramme P-P gaussien

ANOVAb

Modle
1

Rgress ion
Rs idu
Tot al

Somme
des carrs
114,264
6, 652
120,917

ddl
2
9
11

Carr moy en
57, 132
,739

F
77, 294

Signif ication
,000a

a. Valeurs prdites : (constantes ), IMP_CLI M, DU RE_R


b. Variable dpendante : ATT_VI LL
Karim DOUMI
SPSS

87

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :

ANOVAb

Modle
1

Rgress ion
Rs idu
Tot al

Somme
des carrs
114,264
6, 652
120,917

ddl
2
9
11

Carr moy en
57, 132
,739

F
77, 294

Signif ication
,000a

a. Valeurs prdites : (constantes ), IMP_CLI M, DU RE_R


b. Variable dpendante : ATT_VI LL

Le test F est associ une probabilit derreur < 5 %. Le modle


est donc globalement significatif

Karim DOUMI
SPSS

88

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :

Coeffici entsa

Modle
1

(c onst ante)
DURE_R
IMP_CLIM

Coef f icients non


st andardiss
Erreur
B
st andard
,337
,567
,481
,059
,289
,086

Coef f icien
ts
st andardi
ss
Bta
,764
,314

Stat is tiques de
colinarit
t
,595
8, 160
3, 353

Signif ication
,567
,000
,008

Tolranc e
,698
,698

VIF
1, 433
1, 433

a. Variable dpendante : ATT_VI LL

Karim DOUMI
SPSS

89

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :

Lquation de la droite de rgression est : = 0,337 +


0,481X1 + 0,289X2
Coeffici entsa

Modle
1

(c onst ante)
DURE_R
IMP_CLIM

Coef f icients non


st andardiss
Erreur
B
st andard
,337
,567
,481
,059
,289
,086

Coef f icien
ts
st andardi
ss
Bta
,764
,314

Stat is tiques de
colinarit
t
,595
8, 160
3, 353

Signif ication
,567
,000
,008

Tolranc e
,698
,698

VIF
1, 433
1, 433

a. Variable dpendante : ATT_VI LL

1 et 2 sont significatifs. Ces 2 facteurs


sont donc importants pour expliquer Y

Pas de problme de
multicolinarit
Karim DOUMI
SPSS

90

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rponse :
on de
deRsidu
rsidu standardis
Diagramme gaussien P-P de rgression

i (Yi calcul)

Variable dpendante: ATT_VILL


1,00

Pour lobservation i, on
estime ei par la distance
entre le point et la droite
Y=y

,75

,50

,25

0,00
0,00

,25

,50

,75

1,00

Probabilit cumule observe

Karim DOUMI
SPSS

Yi observs
91

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


La rgression pas pas :
Le but de la rgression pas pas est de slectionner, partir dun grand nombre de variables
explicatives, un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation
de la variable dpendante ( expliquer).
Les variables explicatives sont introduites ou retires une une de lquation que lon cherche
optimiser.
2 mthodes sont possibles :

Karim DOUMI
SPSS

92

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Rgression pas pas ascendante : les variables sont entres dans le modle les unes aprs les
autres, en recherchant dabord la variable Xi la plus explicative, puis celle qui explique le plus la part
de variance restant expliquer etc.
Rgression pas pas descendante : les variables sont limines du modle global les unes aprs
les autres, en liminant dabord la variable Xi la moins explicative de Y, puis celle qui explique le
moins la variance restant expliquer etc.

Karim DOUMI
SPSS

93

Chapitre 2: Corrlation, rgression et causalit

5.2. Analyse multivarie


Conclusion sur la rgression multiple :
Choisir la rgression si lobjectif est un modle de prdiction
Bien rflchir au statut des variables dpendante et indpendantes
Disposer de variances suffisantes sur les variables introduites dans le modle.
Ne retenir que les significatifs.
viter les donnes avec des valeurs extrmes ou aberrantes

Karim DOUMI
SPSS

94

Das könnte Ihnen auch gefallen