Sie sind auf Seite 1von 58

MarienAufcorrSTATnov2004

Bruno Marien

Principes d’analyse statistique


pour sociolinguistes

Agence universitaire de la Francophonie


Réseau Sociolinguistique et dynamique des langues
Québec
Novembre 2004
2
Préface

Le présent fascicule est la suite du Guide pratique pour l’utilisation de la


statistique en recherche : le cas des petits échantillons (Québec, AUF, 2003;
téléchargeable à l’adresse : http://www.sdl.auf.org/documents/Guide_de_statistiques.
pdf). Plusieurs collègues nous avaient alors remercié de cette initiative et avaient souhaité
que, dans le fascicule qui devait compléter ce guide, les exemples tiennent davantage
compte des recherches qui se font en sociolinguistique. L'auteur, Bruno M arien
(Université du Québec à M ontréal), a tenu compte de cette demande de même que des
interactions avec les participants au séminaire de formation qu'il a donné à Ouagadougou
en juin 2004. On se souviendra que les réseaux de langue de l'Agence universitaire de la
Francophonie avaient offert diverses formations à la suite de leurs Journées scientifiques
communes et que le réseau Sociolinguistique et dynamique des langues, en plus du
séminaire de statistiques assuré par le professeur Bruno M arien, avait offert une
formation sur l'analyse acquisitionnelle de productions d'élèves et l'évaluation scolaire et
certificative, donnée par le professeur Colette Noyau (Université de Paris X - Nanterre).
La première partie du présent ouvrage reprend donc une partie du séminaire de
Ouagadougou. Les exemples utilisés proviennent d'enquêtes sociolinguistiques ou ont été
adaptés à la sociolinguistique. La deuxième partie montre comment, à l'aide d'un logiciel
courant (Excel de la suite Office), on peut faire certains tests statistiques parmi les plus
communs. L'objectif du présent ouvrage est de fournir au sociolinguiste francophone un
outil qui lui donne une certaine autonomie en lui permettant de faire une première analyse
statistique des données de ses enquêtes; en effet, des tests comme celui de la différence
2
des pourcentages ou le χ permettent de faire une grande partie de l'analyse des données
et de dégager les principales tendances, ce qui ne dispense évidemment pas d'avoir
recours par la suite aux services d'un expert de la statistique si l'on souhaite une analyse
plus raffinée.
Rappelons que Bruno M arien enseigne les statistiques au département de science
politique de l’Université du Québec à M ontréal et qu’il a contribué à mettre sur pied
l’Institut national de la statistique du Cap-Vert. En plus de plusieurs emplois dans le
secteur privé, il a aussi travaillé à Statistique Canada, le grand institut de sondage du
gouvernement canadien, où il a coordonné l’intégration des méthodes statistiques à
l’intérieur du programme de télédétection.
Le Comité scientifique du réseau Sociolinguistique et dynamique des langues sera
heureux de prendre connaissance des commentaires qui lui parviendront sur le présent
ouvrage et il s'attend à ce que les chercheurs francophones lui fassent part de leurs
besoins, ce qui pourrait donner lieu à la publication d'autres manuels du même type.

Jacques M AURAIS , coordonnateur


Réseau Sociolinguistique et dynamique des langues
Agence universitaire de la Francophonie
Courriel du réseau : info@sdl.auf.org
Québec, le 29 novembre 2004

3
4
Première partie
1. Introduction

L’objectif de ce document est de fournir aux spécialistes du domaine de la


sociolinguistique un outil de référence dans le traitement et l’analyse des données
statistiques. Le document a été conçu à partir de l’hypothèse que la culture mathématique
et statistique du lecteur est minimale. Nous invitons ce dernier à faire preuve de patience
dans les parties plus techniques et qui sont parfois nécessaires pour la compréhension du
sujet. Nous recommandons également au lecteur de se référer au texte de M arien et
1
Beaud (2003) pour un rappel de certaines notions de base. Dans le cadre du présent
document et dans le but d’illustrer nos propos, nous avons utilisé des exemples propres à
la sociolinguistique. Parmi les textes utilisés ou dont nous nous sommes inspiré,
mentionnons le rapport Savoir écrire au secondaire : Étude auprès de quatre populations
2
francophones d’Europe et d’Amérique du groupe DIEPE ainsi que les ouvrages Les
Québécois et leurs mots et Analyse linguistique de 4000 courriels4. L’utilisation de ces
3

documents n’implique pas une critique de contenu de notre part, mais sert d’exercice
dans la lecture de certains tableaux et l’utilisation des différents tests statistiques.

Le texte se concentre principalement sur l’application des tests appropriés dans


certaines situations ainsi que sur l’analyse et les limites de l’interprétation des résultats.
Nous avons privilégié une approche systématique où tous les éléments de l’analyse sont
examinés.

L’objectif secondaire est de permettre aux spécialistes de la sociolinguistique d’éviter


les pièges méthodologiques, notamment en ce qui concerne l’utilisation d’approches ou
de tests qui portent flanc à la contestation lorsqu’ils sont utilisés de façon inadéquate. Les
étapes préalables à l’analyse, notamment la justification et la sélection de l’échantillon
d’où sont issues les données, font également l’objet d’une courte réflexion.

Il est important de rappeler qu’une analyse statistique, ou encore l’utilisation de tests


statistiques, ne représente qu’une partie d’un processus. Le simple fait de demander une
information par le biais d’un questionnaire est insuffisant si la ou les questions ne sont
pas construites en fonction d’un plan d’analyse préalable. Il est essentiel de bien définir
non seulement l’objectif de la recherche, mais également les tests qui seront utilisés
ultérieurement lors de l’analyse statistique. Aussi le caractère qualitatif ou quantitatif des
variables utilisées est-il de première importance dans cette planification.

Dans le document Guide pratique pour l’utilisation de la statistique en recherche : le


cas des petits échantillons, nous avons souligné l’importance de la sélection de
1
Guide pratique pour l’utilisation de la statistique en r echerche : le cas des petits échantillons, Québec,
AUF, 2003. Il est téléchargeable à l’adresse : http://www.sdl.auf.org/documents/Guide_de_statistiques.pdf
2
De Boeck Université, s.l., s.d.
3
Annette Paquot, Les Québécois et leurs mots, Étude sémiologique et sociolinguistique des régionalismes
lexicaux au Québec, Québec, Conseil de la langue française et Presses de l’Université Laval, 1988.
Téléchargeable à l’adresse : http://www.cslf.gouv.qc.ca/publications/PubF105/F105ch1.html
4
Jacques Maurais, Analyse linguistique de 4 000 courriels, Québec, Conseil de la langue français e, 2003.
Téléchargeable à l’adresse : http://www.cslf.gouv.qc.ca/publications/PubF200/F200.pdf

5
l’échantillon lors des enquêtes. Il faut en effet garder à l’esprit que, si les informations
qui servent à produire les statistiques sont d’origine méthodologiquement faible, alors les
résultats qui en découlent le seront aussi. Il est donc essentiel, dans un premier temps,
pour le chercheur de bien identifier la population qui fait l’objet de l’étude et, dans un
deuxième temps, de sélectionner correctement son échantillon afin d’éviter tout biais. Il
est également essentiel d’avoir une idée préalable du plan d’analyse statistique avant
même la construction du questionnaire. Par plan d’analyse statistique, nous entendons les
tests qui seront privilégiés lors de l’analyse. La construction des questionnaires et/ou des
questions, notamment au niveau de la structure des choix de réponses, pourra en effet
influencer la structure de l’analyse statistique.

2. Définitions

Il est important, dans un premier temps, de bien définir les termes que nous
utiliserons dans ce document. Bien que ce soit un rappel pour les personnes qui possèdent
une base en statistique, nous croyons nécessaire d’établir ce que nous entendons par
certains termes afin d’éviter toute confusion.

Population
5
La population représente l’ensemble des personnes ou sujets qui font l’objet
d’une étude. L’objectif d’une étude étant, entre autres, de comprendre les caractéristiques
de cette population et de projeter sur cette dernière les résultats de la recherche. Une
étude peut donc être légitimement contestée si la population qui fait l’objet de la
recherche est mal définie ou encore si l’analyste tente de projeter sur une autre population
les résultats. Cela est une erreur fréquente. Ainsi, les résultats d’une étude portant sur
l’utilisation des anglicismes et dont la population est québécoise ne représentent que cette
population. Il serait en effet hasardeux d’attribuer le comportement des Québécois à
d’autres communautés francophones (et vice versa). Et si l’échantillon de cette
population n’est pas représentatif de l’ensemble de la population, les mêmes critiques
envers l’analyste pourraient être formulées. Ainsi, si l’échantillon utilisé ne représentait
en fait qu’une partie de la population et non son ensemble, il serait tout à fait inapproprié
d’étendre les résultats à l’ensemble de la population. En clair, ce n’est pas parce que les
Québécois demeurant à M ontréal se comportent d’une certaine manière que toute la
francophonie en fait autant. Dans le même genre d’idées, si l’échantillon n’était composé
que de femmes, nous ne pourrions conclure que les résultats s’appliquent également aux
hommes. Cela semble aller de soi mais des glissements de ce type peuvent facilement
survenir si on n’y prend garde lors de l’interprétation des données.

5
En statistique existe l a convention de désigner par N l a population, c’est-à-dire le nombre de personnes
sur lequel porte l’analyse.

6
Échantillon
6
L’échantillon représente une partie de la population. On dira que l’échantillon est
probabiliste lorsque chaque membre de la population a une chance connue d’être
sélectionné dans l’échantillon. Un échantillon est dit non probabiliste lorsque les
personnes qui sont sélectionnées ne respectent pas ce critère. Il devient donc impossible
d’effectuer les calculs pertinents et ainsi de projeter, avec un certain degré de précision,
les résultats de l’enquête sur l’ensemble de la population. Conséquemment, les résultats
issus des calculs qui sont effectués à partir de ces données ouvrent toute grande la porte à
la contestation.

Tests paramétriques et non paramétriques

Dans le texte, nous faisons référence à des tests paramétriques ainsi qu’à des tests
non paramétriques. Un test paramétrique est une méthode d’inférence qui suppose que la
distribution de la population suit une courbe normale. À l’opposé, le chercheur utilisera
des tests non paramétriques lorsque les données se présentent selon une échelle nominale
7
ou ordinale et que la distribution des données n’exige pas une distribution connue, ou
tout simplement que la distribution est effectivement inconnue.

Test d’indépendance

Le test d’indépendance porte également le nom de test d’homogénéité. C’est un


test non paramétrique qui vise à établir si deux variables d’une même population sont
indépendantes l’une de l’autre. Par exemple, un chercheur désire connaître s’il y a une
différence entre la fréquence de lecture et le sexe du lecteur. Si on ne remarque aucune
différence, on dira alors que la fréquence de lecture est indépendante du sexe du lecteur.
Si, au contraire, il y a une dépendance entre les deux variables, le chercheur pourra alors
affirmer que la fréquence de lecture observée dépend du sexe du lecteur. Il s’agit donc de
comparer l’observation simultanée des deux variables en fonction de leur répartition
théorique sous l’hypothèse d’indépendance. On représente symboliquement par H0
(prononcez : hypothèse nulle) l’indépendance des variables.

6
En statistique existe la convention de désigner par n l’échantillon.
7
Pour la définition de ces notions, cf. Marien et Beaud (note 1).

7
3. Les étapes d’une recherche statistique

Il est également utile, dans un premier temps, de rappeler les principales étapes
nécessaires à une recherche statistique. Bien que ce sujet puisse faire l’objet d’une longue
discussion, nous ne retiendrons ici que les principaux éléments.

Étape 1 - Bien identifier le problème ou la situation

À première vue, cette étape peut sembler banale. Elle est cependant à l’origine des
éléments qui vont suivre dans la recherche. Il est donc essentiel, en premier lieu, de
s’interroger sur la raison d’être de l’étude. Que veut-on prouver? Pourquoi une recherche
sur ce sujet en particulier? Quelles sont les particularités de la population à l’étude?
Quelles sont les bases théoriques qui soutiennent la recherche? Est-ce que l’objectif est
de trouver des paramètres ou des points de référence, d’identifier des différences et des
liens ou une combinaison des deux? Ce dernier point est important puisqu’il va influencer
le choix dans l’analyse statistique que nous ferons.

Étape 2 - Recueillir les données internes et externes afin de répondre aux


interrogations de la première étape

C’est à cette étape qu’il faut bien déterminer :

1) la population ainsi que les sous-populations à l’étude;

2) le type d’échantillon et la technique d’échantillonnage la plus appropriée;

3) le type et la méthode d’enquête : sondage (auto-administré, par entrevue, etc.) ainsi


que la nature des informations (quantitatives ou qualitatives);

4) les outils statistiques (ou autres) qui seront privilégiés.

Étape 3 – Le classement et la présentation des résultats

Il s’agit ici d’organiser les données afin de faciliter leur utilisation et leur
présentation.

Étape 4 – Interpréter les données

C’est à cette étape que les données seront traitées. Il est donc essentiel que, dès la
deuxième étape, l’analyste ait déjà une idée du traitement qu’il compte donner aux
chiffres. Cela influencera la manière dont les données seront recueillies — notamment le
type d’échelle utilisée — puisque, comme nous le verrons, cela conditionnera les tests

8
statistiques qu’il sera possible d’utiliser. L’interprétation des données mènera vers les
conclusions. Il est important de mentionner que les conclusions doivent s’inscrire dans le
respect des limites méthodologiques. On ne peut, par exemple, estimer la fréquence de
lecture, en heures, à l’aide d’un test non paramétrique. Il s’agit donc de déterminer si le
chercheur tente d’établir des liens entre différentes variables ou plutôt d’établir des
paramètres.

4. L’utilisation des statistiques

Les statistiques les plus simples sont de nature descriptive. On parle ici de l’âge
moyen, du nombre d’individus qui possèdent certaines caractéristiques, de l’opinion ou
de la perception d’un groupe d’individus. Ces statistiques ont leur utilité, mais également
leurs limites. Ce n’est pas parce qu’il y a plus d’hommes, en nombre, qui utilisent des
anglicismes ou des mots d’argot que nécessairement les hommes utilisent
significativement plus les anglicismes et les mots argotiques que les femmes. Dans un cas
comme celui-ci, le fait de retrouver plus d’hommes peut être dû simplement à un nombre
d’hommes plus élevé dans la population étudiée. La simple utilisation de la statistique
descriptive ne répond pas aux questions de fond, mais offre plutôt un aperçu général de la
situation. Cela est également vrai lorsque les pourcentages sont utilisés. Dans un même
ordre d’idées, que répondriez-vous à un professeur qui affirme que sa méthode
d’enseignement réduit de 100 % l’utilisation des anglicismes à l’écrit? Avec pareil
résultat, un chercheur pourrait s’intéresser à cette méthode révolutionnaire. Cependant, si
on s’en tient à la statistique descriptive, sans renforts méthodologiques, le chercheur
risque d’être fort déçu lorsqu’il apprendra que le professeur n’a qu’un seul élève. Comme
cet élève a éliminé les anglicismes de sa langue, il est tout à légitime d’affirmer que son
taux de réussite est de 100 %. Cependant, ce résultat, on le devine, ne mérite pas de
retenir l’attention de la communauté scientifique. La statistique descriptive a son utilité,
mais également ses limites. C’est pourquoi il est important d’utiliser, avant de conclure,
des tests un peu plus sophistiqués.

Il existe deux grandes familles de tests statistiques : les tests paramétriques et les
tests non paramétriques. Essentiellement, les tests paramétriques sont utilisés pour établir
des valeurs alors que les tests non paramétriques sont utilisés pour établir des liens ou des
associations.

9
Quelques tests non paramétriques

Le χ 2
2
Le test du χ (prononcez «qui deux» ou «qui carré») est un des plus connus dans
8
le monde de la statistique. Ce test est utilisé pour des variables de type nominal et vise
2
essentiellement à établir une association entre deux variables. Le test du χ est basé sur la
différence entre les fréquences observées (Fo) et les fréquences théoriques (Ft)9. Ce
calcul permet d’établir si la différence entre les Fo et les Ft s’écarte de façon
significative, ce qui impliquerait que les résultats obtenus sont différents de ce à quoi
nous nous serions attendu si les variables étaient indépendantes l’une de l’autre.
10
Les tableaux suivants proviennent du document Les Québécois et leurs mots .
Nous avons relevé certaines incongruités mineures dans les résultats. Ces différences
n’influencent pas le résultat général, mais démontrent l’importance d’un examen attentif
des chiffres.
11
TABLEAU 1

8
Pour une définition complète, consultez le texte de Marien et Beaud (voir note 1).
9
On trouve également la notation algébrique Fe qui représente l’expression anglaise Expected frequency.
10
Op.cit., pp.45-46.
11
Op. cit., p.45.

10
Analyse préliminaire du tableau 1

Ce tableau contient plusieurs informations.

Ce qui précède se nomme « tableau de contingence ». On remarque que le tableau


contient des informations sur le nombre d’observations et sur le pourcentage des
observations en fonction du total de la colonne. Dans la réalité, il y a plus de gens qui
résident à M ontréal qu’à Québec. L’échantillon tient compte de cette différence.
Cependant, compte tenu des différences dans les populations, il est particulièrement
difficile de comparer les résultats en n’utilisant que les fréquences observées (Fo) qui
sont identifiées par les chiffres se trouvant dans la rangée correspondant à la lettre n.
Ainsi, il y a 291 personnes dont l’identification des canadianismes est inférieure à la
moyenne et qui résident dans la région de M ontréal. On en trouve 98 dont l’identification
des canadianismes est également inférieure à la moyenne, mais qui résident dans la
région de Québec. Il y a donc un total de 389 individus dont l’identification des
canadianismes est inférieure à la moyenne. Pour la deuxième catégorie, on dénombre 255
personnes dont l’identification des canadianismes est supérieure à la moyenne et qui
résident à M ontréal alors qu’il y en a 56 à Québec. On remarque qu’il y a un total de 546
répondants qui résident dans la région de M ontréal et 154 dans la région de Québec pour
un total de 700 répondants. Afin de mesurer la différence en terme d’échantillon entre les
deux régions, nous pouvons dire que 78% de l’échantillon réside dans la région de
M ontréal (546 divisé par 700) et 22% dans la région de Québec (154 divisé par 700).

Dans ce tableau il n’y a que deux classes : inférieure à la moyenne et supérieure à


la moyenne. Nous pouvons considérer cette classification comme étant ordinale puisqu’il
2
y a un ordre décroissant dans les catégories (inférieur et supérieur). Le χ est obtenu en
comparant les fréquences observées et les fréquences théoriques. Ces dernières sont
obtenues en calculant les résultats théoriques que l’on obtiendrait s’il n’y avait aucune
différence entre le niveau d’identification des canadianismes et la région de résidence. On
pose ainsi l’hypothèse, l’hypothèse nulle dans le jargon statistique, qu’il n’y a pas de
différences entre les observations et la théorie. Cependant, on admet qu’il est
pratiquement impossible de toujours observer ce qui devrait arriver en théorie. Par
exemple, on sait que lorsqu’on lance un dé à six faces nous avons une chance sur six
d’obtenir le chiffre 6 (ou 1, 2, 3, 4, 5). Si on répète l’expérience plusieurs fois, nous
devrions (notez le conditionnel) observer des résultats identiques pour tous les chiffres.
Cependant, la réalité est tout autre. Il est très rare d’observer des résultats aussi parfaits. Il
est alors légitime de se poser la question suivante : « A quel moment dois-je commencer
à m’inquiéter lorsque les résultats s’écartent des résultats que nous devrions observer ? »
Nous acceptons qu’il y ait des écarts entre les observations mais jusqu’à une certaine
limite. Ce questionnement est tout aussi légitime dans un cas comme l’identification des
canadianismes. Nous ne nous attendons pas à ce que les gens identifient exactement dans
les mêmes proportions les canadianismes mais nous acceptons qu’il y ait des différences.
À quel moment ces différences deviennent-elles si grandes que nous pouvons
légitimement dire que les deux régions se comportent de façon différente ?

11
Le résultat du χ 2 de 4,51 avec un seuil de 0,03 (s ≤ 0,03) nous indique que la
différence que nous observons entre les catégories est significative. Nous pouvons ainsi
affirmer que nous ne risquons pas de nous tromper dans 97 % des cas en affirmant qu’il y
a une différence significative.

Toutefois, il est important de bien observer les résultats du tableau avant même de
commencer à faire les calculs. Le tableau 2 nous offre un exemple intéressant à cet égard.
12
TABLEAU 2

Les flèches associées aux totaux indiquent que ces derniers ne correspondent pas
aux parties. Aussi on devrait lire 390, 312, 138, 266 et 702 (= 390 + 312). Bien que les
2
différences soient négligeables, elles auront une influence sur le calcul du χ ainsi que sur
les pourcentages qui sont inscrits dans le tableau. Aussi, les pourcentages de la première
rangée ne concordent pas avec les résultats présentés dans le tableau. Sur la base des
totaux qui apparaissent dans le tableau, ces derniers devraient se lire : 51,6 %; 51,7 %;
43,8 % et 66,4 %. Certes les différences sont marginales, à peine quelques dizaines de
points. Ainsi, le pourcentage 66,2 % n’est pas égal à 176 divisé par 265 (66,4 %) mais
bien à 176 divisé par 266 (66,2 %). En fait, ces apparentes incongruités proviennent du
fait que les données ont été pondérées; normalement, en pareil cas, on ne donne dans le
tableau que le n (la taille de l'échantillon) et les pourcentages.

On observe le même genre de problème dans le tableau 3.

12
Op. cit., p.45.

12
TABLEAU 313

Encore une fois on note qu’il existe une différence entre les totaux du tableau et
2
les totaux réels. On remarque que le χ est très élevé et qu’un s de 0,00 avec un degré de
liberté de 2 est très significatif puisqu’il nous permet d’affirmer, après consultation d’une
table de référence, que le risque de se tromper en affirmant qu’il y a une forte association
14
entre les deux variables est très faible . Cela veut dire qu’il existe une différence
significative entre le nombre d’années d’études et l’indentification des canadianismes.
Plus on a d’années d’études, plus grande est la capacité d’identification.

On notera aussi que les tableaux, que nous avons reproduit tels quels, utilisent la
notation anglaise chi plutôt que la notation française khi.

Dans la deuxième partie de l'ouvrage, le lecteur trouvera une section où on lui


2
explique, pas à pas, comment faire un test de χ à l'aide d'un logiciel couramment utilisé
en statistique.

13
Op cit., p.46.
14 2
On trouvera, dans la deuxième partie de l’ouvrage, une table de référence du χ dans la section traitant de
ce test.

13
2
Les tests associés au χ

Le coefficient de contingence
2
Le coefficient de contingence (C) mesure la force relative du χ . Son
interprétation est subjective et nous aide à comprendre si les différences entre les
fréquences théoriques et les fréquences observées sont différentes partout dans le tableau
ou seulement à quelques endroits dans ce dernier.
2 2
On obtient le C en prenant la racine carrée du résultat du χ divisé par le χ plus le
nombre de personnes dans le tableau. Par exemple, dans le tableau 4, le coefficient de
contingence est égal à 0,08.15 Plus le C est près de 1, plus la « relation » est forte. Aussi
on remarque que le C serait de 0,175 pour le tableau 3. Cela veut dire que les différences
entre les fréquences théoriques et les fréquences observées sont plus importantes dans le
cas du tableau 3 et que la relation entre les variables est en conséquence.
16
TABLEAU 4

15
Nous obtenons ce résultat en prenant la racine carrée de la division suivante : 4,51 / (4,51 + 700) (ou
704,51).
16
Op cit., p.46.

14
Le V de Cramer

Le V de Cramer (mathématicien suisse) est plus utile que le coefficient de


contingence, notamment pour comparer deux résultats du χ 2. On utilise donc ce test pour
2
comparer différents résultats de χ sur des échantillons différents. Cela permet d’évaluer
2
la « force relative » des χ entre eux, notamment lorsque ces derniers sont pratiquement
semblables.

Les tests de signe


2
M ême s’ils sont non paramétriques, ils ne font pas partie des tests associés au χ .

La méthode d’évaluation non paramétrique la plus simple est le test de signe. Un


test de signe mesure si les résultats sont supérieurs (signe positif) ou inférieurs (signe
négatif) par rapport à la moyenne ou à la médiane. On compare par la suite les résultats
entre les différentes sous-populations. Les tests de signe sont non paramétriques
puisqu’ils n’examinent que les signes + ou – par rapport à la moyenne ou à la médiane
des données.

Les tests de rangs

Il existe plusieurs tests de rangs. Comme le nom l’indique, ces derniers sont
utilisés lorsque les données se présentent sous forme de rangs. On trouve des tests de
rangs pour les différents types d’échelles. Ainsi, le rho de Spearman est utilisé pour des
données qui se présentent selon une échelle nominale alors que le t de Student et le t de
Welch sont appliquées pour des données qui se présentent selon une échelle d’intervalle
ou métrique. Enfin, le M ann-Whitney U et le Wilcoxon s’utilisent avec des échelles
17
ordinales . Nous présenterons brièvement le Wilcoxon.

Le Wilcoxon

Dans le document « Analyse linguistique de 4000 courriels », l’auteur utilise un


18
test de la somme des rangs de Wilcoxon . On utilise ce test lorsque l’analyste désire
comparer les distributions de deux populations. Dans le cas de l’étude ci-haut
mentionnée, nous avons affaire à deux populations, les hommes et les femmes, dont la
taille est différente. On dira que les données sont appariées lorsque deux mesures
différentes seront prises pour chaque individu. Le test de Wilcoxon pour des données
appariées est donc utilisé à partir de deux séries de mesures qui utilisent une échelle
d’intervalle ou métrique. Ce test est donc basé sur des résultats où il est possible de faire

17
Nous avons offert une définition des quatre types d’échelles dans Marien et Beaud (voir note 1).
18
Maurais, Jacques « Analyse linguistique de 4000 courriels », Conseil supérieur de la langue française,
2003. Nous utilisons à titre d’exemple le tableau 2.1 qui se trouve à la page 28 du document.

15
une moyenne. Ces mesures doivent donc être quantitatives. Il s’agit par la suite de noter
la somme des rangs des différences des rangs.

Tableau 5 19

Différence du nombre total de fautes par 100 mots selon le sexe


(Test de la somme des rangs de Wilcoxon, avec une correction de 0,5 pour la
continuité;
entre parenthèses, une faute par x mots)
Homme Femme z p
n 1 536 2 225
Médiane 10,5 8,2
(9,5) (12,2)
Wa 3 181 753 3 892 688 8,937 0,0001
a
L’indice W est égal à la somme des rangs pour une catégorie donnée
20
Dans le cas du test de la somme des rangs de Wilcoxon , on suppose que la
distribution de deux populations est identique. Le Wilcoxon est utilisé comme test
alternatif au t de Student. À partir des échantillons de deux populations, toutes les
données sont combinées comme si les deux échantillons ne formaient qu’une seule
population. Il s’agit par la suite de mettre en rangs toutes les observations et le résultat (z)
est la somme des rangs du plus petit échantillon : ainsi, il y avait des hommes qui
occupaient, par exemple, le rang 1, le rang 233, le rang 432, etc., et la somme de tous ces
rangs donne 3 181 753. Le résultat (z = 8,937) doit être interprété en fonction du p qui
représente le seuil de signification. Comme d’habitude on se satisfait d’un seuil de
signification de 0,05, dans le tableau 5 le résultat est très significatif puisque p = 0,0001.

Ce test a son utilité en sociolinguistique mais sa complexité dépasse le cadre de la


vulgarisation envisagée dans le présent ouvrage.

Le rho de S pearman
21
Le rho (ρ) de Spearman est un coefficient de corrélation de rangs. Il est possible
d’utiliser le ρ pour des données nominales. Ce test est particulièrement utile lorsque l’on
veut comparer, par exemple, des pays ou des régions entre elles en fonction de deux
variables. Ainsi, on pourrait se demander s’il existe une relation entre le nombre d’élèves
dans une classe et le nombre de fautes dans les copies. Par ce test de rang, le chercheur
tente de prouver qu’il existe une relation positive entre ces deux variables, c’est-à-dire
que plus il y a d’élèves dans une classe et plus il y a de fautes dans les textes. Le ρ prend
une valeur entre +1 et -1. Lorsque le ρ est égal à + 1, cela signifie que les rangs des deux
variables sont dans le même ordre. Si le ρ est égal à – 1, cela signifie que les rangs sont

19
Voir le tableau 2.3 in Jacques Maurais « Analyse linguistique de 4000 courriels », p 28.
20
On utilise également le nom de Mann-Whitney pour identifier ce test.
21
On utilise la lettre grecque ρ (rho).

16
inversés. Enfin, lorsque le résultat donne 0, cela signifie qu’il n’y a pas de relation entre
les deux variables.

La formule du ρ est la suivante :

2
6 * ∑ Di

ρ= 1– _________
n (n2 – 1)

Di : Différence dans les rangs


n : Population (nombre de personnes ou autres)

École Nombre Rang selon Rang selon


2
d’élèves le nombre le nombre de Di Di
22
d’élèves fautes
A 35 1 1 0 0
B 20 2 3 -1 1
C 19 3 2 1 1
D 18 4 5 1 1
E 17 5 4 1 1
F 16 6 9 -3 9
G 15 7 7 0 0
H 14 8 9 -1 1
I 13 9 6 3 9
J 12 10 10 0 0
Total - - - 0 24

6 * 24
1– _________
10 (102 – 1)

Ce qui nous donne 6*24 = 144 divisé par 10 * 99 (ou 990) = 0,1454

1 – 0,1454 = - 0,8546

Un résultat de + 0,8546 signifie qu’il existe une relation positive, assez


importante puisque près de + 1, entre les deux variables. Cela signifie que plus il y a

22
Le rang est donné par ordre décroissant du nombre de fautes.

17
d’élèves, plus il y a de fautes. L’interprétation du résultat est évidemment en partie
subjective et dépend largement d’une connaissance du sujet à l’étude.

23
Le t de S tudent

On utilise le t de Student afin de comparer deux échantillons ou un échantillon en


fonction des valeurs connues d’une population. Le t de Student s’utilise surtout lorsqu’il
est question de petits échantillons ou de petites populations et vise à établir si les
différences observées entre ces échantillons et/ou populations sont significatives ou non.
24
Pour cela, l’utilisation d’une table est nécessaire . Les conditions d’application pour le t
de Student sont les suivantes :

Le test t implique que la variable dépendante est une mesure d’intervalles ou


métriques. Comme nous mesurons des moyennes, cette distinction est tout à fait
appropriée. De plus, le test t postule que la variable dépendante est distribuée
normalement dans la population. Le test t suppose également que les variances sont
connues.

On pourrait donc utiliser un t de Student pour examiner l’évolution dans le temps


d’un programme ou pour comparer deux régions ou deux pays ou encore pour examiner
s’il y a une différence dans les réponses ou les comportements des hommes et des
femmes. Nous avons adapté un exemple tiré du livre de Fox pour illustrer une application
25
possible à la sociolinguistique . Dans la deuxième partie de l’ouvrage, on trouvera une
section montrant, étape par étape, comment se servir du logiciel Excel pour calculer un t
de Student.

Supposons qu’une étude est effectuée auprès de 855 femmes et de 1085 hommes
et qu’elle porte sur le nombre d’anglicismes dans un texte de 20 pages. Supposons aussi
que les hommes utilisent, en moyenne, 3,01 anglicismes et les femmes 2,75. Les écarts-
types pour les deux groupes sont de 2,225 et 2,030. À première vue, les chiffres sont
assez semblables. Il n’y a qu’une petite différence au niveau des anglicismes et les écarts-
types sont très similaires. Seuls les échantillons sont quelque peu différents. Si l’analyse
se limite à examiner les résultats bruts quant à l’utilisation moyenne des anglicismes,
nous serions tentés de conclure qu’il n’y a que peu de différences entre les hommes et les
femmes. En effet, l’écart de seulement 0,26 anglicisme est infime. Le t de Student va
nous permettre de confirmer ou d’infirmer cette perception.

23
Le t de Student a été mis au point par William Gosset, qui travaillait pour la brasserie Guiness. Pour des
raisons contractuelles, il ne pouvait publier sous son nom. Il emprunta ainsi le nom de Student, qui signifie
tout simplement « étudiant », pour ses publications. On lui doit le test t qui examine la di fférence entre les
moyennes de deux échantillons de petite t aille. L’hypothèse à la base du test t est que la distribution pour
de petits échantillons s’écarte d’une distribution normale.
24
Toutefois, lorsque le traitement s e fait par ordinat eur, les programmes spécialisés comme SPSS, SAS et
même Excel vont calculer le seuil de signification.
25
William Fox, Statistiques sociales, Les Presses de l’Université Laval, Ste-Foy, 1999. Nous avons modifié
le contexte de l’exemple qui se trouve à la page 214.

18
Moyenne des anglicismes pour un texte de 20 pages par sexe
Femmes Hommes
X1 = 2,75 X2 = 3,01
s1 = 2,030 s2 = 2,225
N1 = 855 N2 = 1085

X1 = Signifie la moyenne des anglicismes chez les femmes


X2 = Signifie la moyenne des anglicismes chez les hommes
s1 = Signifie l’écart-type des anglicismes chez les femmes
s2 = Signifie l’écart-type des anglicismes chez les hommes
N1 = Le nombre de femmes dans l’échantillon
N2 = Le nombre d’hommes dans l’échantillon
26
La formule du t utilisée ici est la suivante :

(X1 – X2)
t=
S X1 – X2

Le terme S X1 – X2 signifie l’erreur type de la différence entre les moyennes. En


terme simple, cela représente l’erreur commise lorsqu’on compare la différence des
moyennes entre les deux résultats.

On obtient S X1 – X2 comme suit :

1 1
√ S2p ( N1
+
N2 )

M ais que signifie un t de 2,653 ? (Nous ne tenons pas compte du signe négatif
ici).

Supposons qu’une nouvelle politique est mise en place pour diminuer l’utilisation
de termes anglais à l’écrit. Une première évaluation est effectuée et on obtient une
moyenne du nombre d’anglicismes de 15 pour un texte de 20 pages. L’évaluation est
refaite après un certain temps afin d’évaluer le degré de succès du programme. Lors de
cette deuxième évaluation, on note que l’utilisation moyenne des anglicismes est de 10
pour 20 pages.

La question est donc de savoir si la différence avant et après l’application du


programme est significative ou non. Il est tout à fait juste de dire qu’il y a eu une baisse
de 33,3 % dans l’utilisation des anglicismes. Si l’analyse se limite à ce constat, il est tout
à fait possible que nous commettions une erreur. La simple différence n’est pas suffisante

26
Selon la situation, la formule du t est di fférent e. Dans notre exemple, nous comparons deux moyennes.
Nous pourrions cependant comparer la moyenne d’un échantillon avec la moyenne de la population. Cela
serait utile dans les cas où cette dernière est connue. Dans ce cas, nous utiliserions la lettre grecque µ.

19
pour affirmer que cette dernière est telle que nous puissions affirmer qu’elle est
significative. Il ne faut pas oublier que, dans le jargon statistique, on doit interpréter le
fait que la différence est significative comme quoi la différence observée s’écarte du
simple hasard.

Dans notre exemple, la moyenne des anglicismes était de 15 alors qu’après la


moyenne se situe à 10. On remarque qu’il y a effectivement une différence dans les
moyennes. Cependant, il est tout à fait légitime de s’interroger sur le caractère significatif
de cette différence. Nous pourrions conclure que la baisse du nombre d’anglicismes est
une preuve du succès du programme. Bref, cet écart de 5 anglicismes de moins est-il
suffisant pour établir que le programme est un succès ? C’est le résultat du t de Student
qui va nous informer que la différence est significative ou non.

Pour répondre à cette question, il est essentiel de comparer les deux moyennes
obtenues. Il est également important de déterminer le degré de liberté afin de se rapporter
à une table. Cependant, si le calcul est effectué à l’aide d’un logiciel comme Excel le
résultat s'affiche avec l’indication du seuil critique puisque le logiciel comprend une table
interne.

20
Deuxième partie
Dans cette partie, nous présentons quelques tests statistiques que l'on peut faire
sans trop de difficultés avec le logiciel Excel. Le lecteur désireux de poursuivre sa
formation pourra consulter avec avantage l'ouvrage suivant :

M ARTIN, Louise. Statistique avec applications aux sciences du loisir, de la


culture, du tourisme et des communications : traitement de données avec
Microsoft Excel 2000, Trois-Rivières (Québec), Les Éditions SM G, 2001, 452 p.
2
Toutefois, il aurait été trop compliqué de recourir à Excel pour faire le test du χ ;
aussi avons-nous choisi d'utiliser plutôt le logiciel SPSS, l'un des plus courants en
sciences humaines.

21
Le r de Pearson
Le r, ou coefficient de corrélation d’échantillonnage, de Pearson est un indice
dont la valeur varie entre – 1,0 et 1,0. La formule permettant d’obtenir cet indice est
prédéfinie dans Excel : dans la barre d’outils, il suffit de cliquer sur fx, qui signifie
« coller une fonction », pour avoir accès à l’ensemble des fonctions disponibles.

Dans le tableau suivant, provenant d’une étude27 portant sur la langue de la


publicité, nous constatons que la proportion des anglicismes lexicaux diminue au fil des
ans et que celle des anglicismes sémantiques (des traductions directes) augmente au fil
des ans. Pour un linguiste, il ne serait pas surprenant qu’il y ait un lien entre ces deux
séries de données. Le test de Pearson permettra de confirmer ce lien.

Anglicismes Anglicismes
Années lexicaux sémantiques

1951 1,681 1,163


1961 1,316 1,589
1974 0,837 1,987
1980 0,44 2,08

Une fois que les données sont retranscrites dans un fichier Excel,

27
Jacques Maurais, La langue de la publicité des chaînes d’alimentation, Québec, Conseil de la langue
française, 1984, p. 71. Téléchargeable : http://www.cslf.gouv.qc.ca/Publications/PubB116/B116ch1.html

22
nous cliquons sur une cellule vide et nous allons ensuite cliquer, dans la barre d’outils,
sur fx. Apparaît alors une nouvelle fenêtre :

Nous choisissons le test de Pearson en cliquant sur « OK ». Une nouvelle fenêtre


apparaît :

23
Dans la matrice 1, nous mettrons les données concernant les anglicismes lexicaux
(colonne B) et dans la matrice 2, celles concernant les anglicismes sémantiques. Pour ce
faire, il suffit, pour chaque matrice, de cliquer dans le carré de couleur situé à droite

Nous pouvons ensuite sélectionner, avec la souris, la partie de la colonne où


apparaissent les données.

24
Puis nous cliquons sur le petit carré de couleur qui apparaît à la droite des
données sélectionnées dans l’illustration suivante :

Nous faisons de même avec les données de la colonne C que nous introduisons
dans la matrice 2.

Puis nous cliquons sur « OK ».

25
Le résultat apparaît alors :

26
Le résultat de – 96849844 est fortement négatif, c’est-à-dire qu’il est très près de
la limite de – 1. Il signifie que les anglicismes sémantiques varient en proportion inverse
des anglicismes lexicaux.

27
Tests de la différence des pourcentages et de la différence des moyennes
On peut utiliser ces tests quand, par exemple, on veut comparer les résultats de
deux enquêtes.
Voici une façon très simple de faire ces tests : il s’agit simplement de recopier le
tableau suivant dans Excel, en prenant bien soin d’écrire exactement dans les mêmes
cellules que celles de l’exemple puisque la formule qu’il faudra dactylographier tout à
l’heure fera référence aux cellules de l’exemple. La formule du test de différence des
pourcentages sera donc entrée dans la cellule E6 et les données, elles, seront
dactylographiées dans les cellules A6, B6, C6 et D6.

Différence des pourcentages

La formule à dactylographier dans la cellule E6 est la suivante :

28
ou, plus clairement :

=1,96*RACINE((A6*(1-A6)/B6)+(C6*(1-C6)/D6))
(1,96 est ce qui équivaut à un seuil de 0,05 ou 95 %, le seuil qui est le plus
souvent utilisé.)

Pour illustrer la façon de se servir de cette formule, nous allons nous servir d’un
exemple provenant d’une communication de Pierre Bouchard et Jacques M aurais,
« Évolution des perceptions des Québécois sur la norme ».

Le tableau ne permet pas, tel qu’il est présenté, de faire le test de différence des
pourcentages puisqu’il y manque deux éléments essentiels : le n (la population enquêtée)
de 1983 et celui de 1998. M ais nous savons par ailleurs que ceux qui ont répondu à cette
question étaient au nombre de 153 en 1983 et de 248 en 1998.

« Beaucoup de mots que nous utilisons au Québec nous empêchent


de communiquer avec les francophones des autres pays »
Pourcentage d’informateurs qui se disent d’accord avec cet énoncé
selon que l’on voyage ou pas en francophonie, par année

Voyage en francophonie 1983 1998


Oui 79,4 % 33,3 %*

Non 68,7 % 44,2 %*


* Différence significative entre les deux années

Il faut faire le test sur le « oui » et « le « non » et les pourcentages doivent être
présentés sous forme de décimales : donc, 79,4 % devient 0,794.

Explication des symboles :


p 1 : réponse de la première enquête exprimée en pourcentage
N1 : population de la première enquête qui a répondu à cette question
p 2 : réponse de la deuxième enquête exprimée en pourcentage

29
N2 : population de la deuxième enquête qui a répondu à cette question

Le résultat qui apparaît dans la cellule E6 est la marge d’erreur et est toujours à
interpréter en terme de plus ou de moins : ± 8,7. En d’autre termes, le résultat de 1983
varie entre 79,4 + 8,7 et 79,4 – 8,7, soit entre 70,7 et 88,1; de même pour celui de 1998 :
il varie entre 33,3 + 8,7 et 33,3 – 8,7.

Nous recommençons la même opération avec les résultats pour le « non ».

La marge d’erreur des réponses « non » est donc de ± 9,6 (pour 1983 : 68,7 + 9,6
et 68,7 – 9,6; pour 1998 : 44,2 + 9,6 et 44,2 – 9,6).

Les différences sont donc significatives dans les deux cas.

30
Différence des moyennes
Le même principe s’applique au test de la différence des moyennes, sauf que,
dans ce cas-ci, il faut utiliser la variance (qu’Excel permet de calculer — mais il faut,
pour la calculer, que le fichier Excel contienne toutes les données de l’enquête ou du
sondage et non uniquement les moyennes).

La formule à saisir dans la cellule E15 est donc :

=1,96*RACINE((A15/B15)+(C15/D15))
et les données doivent être saisies dans les cellules A15, B15, C15 et D15.

Explication des symboles :


p 1 : variance de la première enquête
N1 : population de la première enquête qui a répondu à cette question
p 2 : variance de la deuxième enquête
N2 : population de la deuxième enquête qui a répondu à cette question

31
Excel offre différentes façons de calculer la variance :

Deux sont particulièrement intéressantes pour les sociolinguistes :

VAR : si l’on a affaire à un échantillon (par exemple : quelques élèves choisis au hasard
dans les classes d’une école)

VAR.P : si l’on a affaire à toute une population (par exemple : tous les enseignants dans
une école).

32
Le t de Student
Comme nous l’avons signalé dans le Guide pratique pour l’utilisation de la statistique en
recherche : le cas des petits échantillons, le test t de Student est très utile lorsque nous
avons affaire à de petits échantillons.

Pour illustrer l’application du t de Student, nous nous inspirerons d’un exemple tiré du
livre d’Annette Paquot, que nous simplifierons pour ne pas avoir trop de données dans les
colonnes. Il ne faudra donc pas s’étonner que nous n’arrivions pas aux mêmes résultats.
Retranscrivons la problématique sous-tendant cet exemple, telle qu’elle est exposée par
Annette Paquot dans Les Québécois et leurs mots (pp. 39 et 42) : « Puisque le caractère
conscient des canadianismes est variable, il convient de se demander à quoi cette
variation est liée. On peut, à notre avis, à titre d'hypothèse de départ, supposer qu'elle est
liée à des facteurs de nature linguistique, comme le type de canadianisme dont il s'agit et
la façon, orale ou écrite, dont ils ont été présentés aux sujets. […] nous avons […] divisé
l'échantillon en deux groupes de répondants : à la moitié d'entre eux, les enquêteurs
demandaient de lire les textes eux mêmes tandis qu'ils les lisaient à voix haute à l'autre
moitié. Cela devait permettre de vérifier le lien établi par plusieurs spécialistes entre
français régional et français parlé. Ainsi, G. Straka écrivait en 1977 : ‘ on a pu se
demander si le concept de français régional n'était pas en fin de compte identique à celui
de français parlé ou si, au moins, dans une certaine mesure, ces deux notions ne se
recouvraient pas ’. Si tel était le cas, en effet, les canadianismes devraient être
significativement moins repérés à l'oral qu'à l'écrit. »

Dans le tableau simplifié qui suit, la deuxième colonne donne le nombre de


canadianismes repérés par chaque personne enquêtée lorsqu’elle lisait le texte qui lui était
soumis. La troisième colonne donne le nombre de canadianismes reconnus quand on
lisait à voix haute le texte à la personne enquêtée.
o
N de la
personne
enquêtée Lecture Audition
1 15 12
2 16 16
3 16 11
4 17 15
5 12 12
6 14 9
7 19 11
8 20 17
9 13 13

Première étape
Nous copions les données du tableau précédent sur la feuille d’un fichier Excel :

33
Puis nous calculons la moyenne, qui sera nécessaire dans une étape ultérieure. Pour ce
faire, nous cliquons d’abord sur la cellule A11 et nous allons chercher la fonction
« moyenne » parmi les fonctions de la barre d’outils supérieure (icône fx) :

Puis nous cliquons sur « OK ». Nous faisons de même pour la colonne suivante.

34
Pour faire le test de Student, nous cliquons d’abord dans une cellule vierge puis nous
allons chercher la fonction TEST.STUDENT (fx dans la barre d’outils) :

Nous cliquons sur « OK ». La fenêtre suivante apparaît alors :

35
Nous avons vu, dans l’explication du r de Pearson, comment aller sélectionner les plages
des matrices :

36
Ensuite, il faut choisir entre « unilatéral » et « bilatéral ». Dans notre exemple, nous
écrivons 1 parce que l’hypothèse de travail implique que nous nous attendons à ce qu’il y
ait une différence positive.

Enfin, pour « Type », nous choisissons 3 parce que nous comparons deux observations à
variance inégale (c’est-à-dire qu’on ne peut pas présumer que les deux groupes vont avoir
la même variance) :

37
Le résultat apparaît déjà dans la fenêtre mais, en cliquant sur « OK », il s’écrit dans la
cellule préalablement choisie :

Puis, nous aurons aussi besoin de l’écart-type des données de la colonne A. Nous
cliquons sur la cellule A12 pour y coller une fonction, celle de l’écart-type, en allant la
chercher dans la barre d’outils (icône fx ) :

38
Une fois la fonction ECARTYPE choisie, nous cliquons sur « OK » et apparaît alors la
fenêtre suivante :

Nous prenons bien garde de ne pas cliquer sur « OK » tout de suite parce que le logiciel a
automatiquement sélectionné, en plus des données de la première colonne, la ligne où
figure la moyenne, dont nous n’avons pas besoin ici. Nous allons donc corriger la
sélection en cliquant sur le petit carré bleu-blanc-rouge de la matrice Nombre1, ce qui
nous ramène à la feuille des données où nous corrigeons la sélection :

Puis, nous revenons à la matrice en cliquant sur le petit carré bleu-blanc-rouge :

39
Le résultat apparaît déjà au bas de la nouvelle fenêtre; nous cliquons sur « OK » et le
résultat vient s’inscrire dans la cellule A12.

Deuxième étape
Dans la deuxième étape, nous aurons recours à la loi de Student.

Comme précédemment, nous choisissons une cellule vierge avant d’aller faire notre choix
parmi les fonctions accessibles à partir de la barre d’outils :

40
Puis nous cliquons sur « OK » :

41
Il est à noter que la loi de Student s’utilise lorsqu’on veut comparer la moyenne à un
standard. Dans notre exemple, ce standard peut être l’une ou l’autre des moyennes. Notez
qu’il existe un autre test qui compare les deux moyennes. Dans notre exemple, nous
pourrions supposer que le standard est l’audition (moyenne de 12,89). La moyenne à
l’écrit est de 15,78. Nous avons donc : 12,89 – 15,78 = – 2,89. La question est donc de
savoir si cette différence est significative.

Dans la cellule D12, entrer la formule :

= (A11 – B11) * racine (9) / A12.

La première partie de la formule indique la différence entre la moyenne et le standard


multiplié par la racine carrée du nombre d’observations qui est divisé par l’écart type des
observations à la lecture.

Le résultat devrait être 3,288876877.

C’est ce résultat que nous écrivons dans la matrice de X (alternativement, nous


sélectionnons la cellule D12 où se trouve le résultat) :

On inscrit 8 sur la ligne degrés de liberté. Le degré de liberté est calculé comme suit : le
nombre d’observations moins 1 (N – 1). Comme nous avons 9 observations, le d.l. (degré
de liberté) est égal à 9 – 1 = 8.

On inscrit 1 sur la ligne unilatéral/bilatéral puisque nous désirons examiner le résultat


dans un sens seulement.

42
Le résultat du test donne 0,00552115.

L’objectif de ce test est de déterminer si la moyenne du nombre de canadianismes repérés


par chaque personne enquêtée lorsqu’elle lisait le texte qui lui était soumis est
significativement différent du nombre de canadianismes reconnus quand on lisait à voix
haute le texte à la personne enquêtée.

On pose donc l’hypothèse suivante :

43
Ho : µ = 15,78
H1 : µ ≠ 15,78

Le niveau de signification du test est de 0,025 (le test est unilatéral).

La règle de décision est la suivante : On doit rejeter Ho (l’hypothèse qui dit qu’il n’y a
pas une différence significative entre la moyenne à la lecture et le standard) si le résultat r
(dans ce cas-ci 0,00552115) est plus petit que 0,025 (r < 0,025). Nous avons donc ici
0,00552115 < 0,025. Comme r est plus petit, on rejette Ho pour retenir H1 qui indique
qu’il y a une différence significative dans l’identification des canadianismes avec un
risque de 2,5 % de se tromper.

La conclusion : Le résultat nous permet de conclure que le nombre de canadianismes


identifiés à la lecture est différent du nombre de canadianismes identifiés à l’audition et
qu’en faisant cette affirmation on court un risque de 2,5 % de se tromper.

44
Table pour le t de Student
Seuil de signification à 0,025 pour un test unilatéral et à 0,05 pour un test bilatéral
Degré de liberté
1 12,706
2 4,303
3 3,182
4 2,776
5 2,571
6 2,447
7 2,365
8 2,306
9 2,262
10 2,228
11 2,201
12 2,179
13 2,160
14 2,145
15 2,131
16 2,120
17 2,110
18 2,101
19 2,093
20 2,086
21 2,080
22 2,074
23 2,069
24 2,064
25 2,060
26 2,056
27 2,052
28 2,048
29 2,045
30 2,042
40 2,021
60 2,000
120 1,980
• 1,960
Source : William Fox, Statistiques Sociales, traduit de l’anglais et adapté par Louis
M . Imbeau, Les Presses de l’Université Laval et De Boeck Université, 1999.

45
2
Exemple d’application du test du χ
2
Nous allons prendre comme exemple d’application du test du χ une question
provenant d’un sondage analysé par Pierre Bouchard et Jacques M aurais (dont certains
résultats ont été publiés dans « La norme et l’école. L’opinion des Québécois »,
Terminogramme 91-92, septembre 1999, pp. 91-116). Et nous nous servirons du logiciel
SPSS (Statistics Package for Social Sciences), dont il existe maintenant une version
française. Nous pourrions toujours faire le test avec Excel, mais ce serait beaucoup plus
compliqué.
Dans le cas qui nous occupe, les données du sondage avaient été transmises sous
forme de tableau Excel et ont été importées dans SP SS. Nous n’entrerons pas dans ces
procédures et nous n’expliquerons pas non plus la façon de saisir des données dans
SPSS : elles sont bien décrites dans les manuels d’utilisation de SP SS.
Nous allons prendre comme exemple les réponses à la question : « Selon vous, y
a-t-il plus de points communs que de points différents entre le français de France et le
français québécois? »
La première étape consistera a obtenir les résultats globaux à cette question. Pour
ce faire, il faut cliquer, dans la barre d’outils supérieure, sur l’onglet « Analyse », puis
aller sur « statistiques descriptives » et choisir « fréquences ». Ce qui fera apparaître à
l’écran une boîte de dialogue.

46
Dans la boîte de dialogue apparaissent, dans un rectangle situé à gauche,
l’ensemble des variables (des questions) du sondage. Il faut ensuite transférer dans le
rectangle de droite la question que nous voulons étudier au moyen de la flèche
bidirectionnelle apparaissant entre les deux rectangles. On peut aussi, en cliquant sur le
bouton « statistiques », choisir d’obtenir, du même coup, diverses données
complémentaires comme la moyenne, l’écart-type, etc. Un autre bouton permet de
produire des diagrammes. Dans notre exemple, nous demandons seulement la liste des
fréquences en cliquant sur le bouton « OK ».

47
Le résultat affiché montre qu’il y a une différence de 4,8 points entre les deux
réponses. Nous voulons maintenant savoir s’il y a une différence statistiquement
significative entre les réponses des hommes et celles des femmes.

48
Pour ce faire, nous retournons à l’onglet « analyse » et, dans le menu qui apparaît,
nous choisissons à nouveau « statistiques descriptives ». Puis, au lieu de « fréquences »,
nous choisissons cette fois-ci « tableaux croisés », ce qui fera ouvrir une nouvelle fenêtre.

49
Dans cette fenêtre, grâce à la flèche bidirectionnelle, nous transférons notre
question dans le rectangle apparaissant sous « ligne »; nous faisons de même avec la
variable « sexe » dans le rectangle apparaissant sous « colonne ». Puis nous avons le
choix de cliquer sur « OK ». M ais, comme nous voulons savoir s’il y a une différence
significative, avant d’aller plus loin, nous cliquerons sur les boutons « statistiques » et
« cellules ».

50
Quand nous avons cliqué sur le bouton « statistiques », une fenêtre apparaît.
Comme nous avons utilisé une échelle nominale (oui / non, homme / femme), nous nous
contenterons de demander les statistiques du χ 2 et nous cliquerons ensuite sur
« poursuivre ».

Nous revenons alors à la fenêtre qui était en arrière-plan où nous cliquons sur
« cellules ».

51
Dans la nouvelle fenêtre qui apparaît, nous choisirons les catégories suivantes :
effectif observé, théorique, pourcentage en ligne et en colonne. Puis nous cliquerons sur
« poursuivre ».

52
Ensuite, nous cliquons tout simplement sur « OK ».

53
Ce qui produit le te tableau de résultats suivants — tableau qui peut être recopié
dans un logiciel de traitement de textes, comme nous le verrons plus loin.

54
En faisant défiler le tableau à l’écran, on découvre, sous lui, le tableau des tests
statistiques.

Nous utiliserons, pour notre exemple, seulement la première ligne du tableau. La


2
valeur du χ est donnée dans la deuxième colonne : 39,401. La troisième colonne est
intitulée « ddl », ce qui signifie « degré de liberté », qui est de 1 dans notre exemple
(donc, avec ce logiciel, nous n’avons pas à calculer le degré de liberté; ce calcul a été
expliqué dans le premier fascicule, page 41). Nous pouvons ensuite aller consulter une
table de référence qui nous indiquera que, pour un de degré de liberté, le point critique est
de 3,84 si, comme cela est le plus fréquent en sciences sociales, nous prenons comme
seuil de confiance 0,05, ou 95 %.

En d’autres termes, dans cet exemple, nous pouvons affirmer avec un degré
d’assurance de 95 % qu’il y a association entre les deux variables.

55
Points critiques pour χ 2

Degrés de Point Degrés de Point Degrés de Point


liberté critique liberté critique liberté critique
1 3,84 11 19,68 21 32,67
2 5,99 12 21,03 22 33,92
3 7,82 13 22,36 23 35,17
4 9,49 14 23,68 24 36,42
5 11,07 15 25,00 25 37,65
6 12,59 16 26,30 26 38,89
7 14,07 17 27,59 27 40,11
8 15,51 18 28,87 28 41,34
9 16,93 19 30,14 29 42,56
10 18,31 20 31,41 30 43,77
Avec ces points critiques, la probabilité de rejeter l’hypothèse nulle, si elle est vraie, est de 5 %.

M ais, avec SPSS, il n’est pas nécessaire de consulter une table de référence
puisque la quatrième colonne, intitulée « signification asymptotique (bilatérale) », nous
indique 0,000, donc qu’il y a une association entre le sexe et les réponses données. Si la
signification asymptotique avait été de, mettons, 0,06, il aurait fallu conclure qu’il n’y
avait pas association entre les deux variables parce que 0,06 est supérieur au seuil de 0,05
que nous avons adopté.

56
Nous donnerons maintenant un exemple où le test du χ 2 montre qu’il ne faut pas
conclure à une association entre les deux variables.
Comme la capture d’écran ne permettait pas d’avoir tout le tableau, nous avons
tout simplement, en cliquant sur le bouton droit de la souris, copié le tableau SPSS dans
le traitement de texte. On peut par après formater le tableau à sa guise.

Tableau croisé « Les mots utilisés seulement au Québec devraient-ils être marqués d'une
façon spéciale dans les dictionnaires? » * SEXE
SEXE Total
fémi nin masc ulin
Les mots utilisés s eulement oui Effectif 562 429 991
au Québec devrai ent-ils êtr e
marqués d'une façon spéciale
dans les dicti onnaires?
Effectif théorique 578,5 412,5 991,0
% dans Les mots utilisés s eulement au Québec 56,7% 43,3% 100,0%
devraient-ils être marqués d'une façon spéciale
dans les dicti onnaires?
% dans SEXE 64,0% 68,5% 65,9%
non Effectif 316 197 513
Effectif théorique 299,5 213,5 513,0
% dans Les mots utilisés s eulement au Québec 61,6% 38,4% 100,0%
devraient-ils être marqués d'une façon spéciale
dans les dicti onnaires?
% dans SEXE 36,0% 31,5% 34,1%
Total Effectif 878 626 1504
Effectif théorique 878,0 626,0 1504,0
% dans Les mots utilisés s eulement au Québec 58,4% 41,6% 100,0%
devraient-ils être marqués d'une façon spéciale
dans les dicti onnaires?
% dans SEXE 100,0% 100,0% 100,0%

Ou on peut tout simplement décider d’importer le tableau sous forme d’image :


Tab leau cro isé Il fau drait élim iner les m ots an glais d u fran çais d'ici, acco rd =1,
dé 2 * SEXE
SEX
fémini masculi Tota
Il faudrait éliminer 1,00 Effectif 289 170 l 459
lmots anglais du % d ans Il
f
d'ici, accord=1,
i f d i les
éliminer
dé 2 63,0 37,0 100,0
anglais du fran çais
% % %
d'i i
accord=1,

% d ans 2 61,1 51,2 57,0
2,00 SEXE
Effectif 184 162 346
% d ans Il
féliminer
d i les
53,2 46,8 100,0
anglais du fran çais
% % %
d'i i
accord=1,

% d ans 2 38,9 48,8 43,0
Tota SEXE
Effectif 473 332 805
l % d ans Il
f d i les
éliminer
58,8 41,2 100,0
anglais du fran çais
% % %
d'i i
accord=1,

% d ans 2 100,0 100,0 100,0
SEXE

57
En suivant la procédure précédemment décrite, nous obtenons les résultats
2
suivants pour le χ :

Dans la quatrième colonne de la première ligne, la signification asymptotique est


de 0,68, ce qui est supérieur à 0,05, le seuil de confiance que nous avons décidé
d’adopter. Par conséquent, il n’y a pas association entre les deux variables.

58

Das könnte Ihnen auch gefallen