Sie sind auf Seite 1von 77

Master Biologie cellulaire et physiopathologie UE initiation la communication scientifique

Quelques notions de base de statistiques appliques la biologie


Etienne Roux
Laboratoire de Physiologie Cellulaire Respiratoire INSERM U 885 UFR des Sciences de la Vie Universit Victor Segalen Bordeaux 2 contact: etienne.roux@u-bordeaux2.fr support de cours : e-fisio.net

gnralits

Quest-ce que les statistiques ?


There are three kinds of lies: lies, damned lies, and statistics. attribu par Mark Twain Benjamin Disraeli

quelques dfinitions
La statistique : ensemble des instruments et de recherches mathmatiques permettant de dterminer les caractristiques d'un ensemble de donnes. Une statistique : un nombre calcul partir d'observations. Les statistiques : produit des analyses reposant sur l'usage de la statistique.

gnralits

Pourquoi utiliser les statistiques ?

caractristiques des donnes biologiques


Caractristiques en biologie de la mesure dun certain nombre de facteurs variabilit des rponses en biologie
exemples : concentration cytosolique en calcium dune cellule niveau dexpression dune protine valeur de la glycmie taille dune personne

mesure partir dchantillons principe du sondage : on travaille sur un chantillon que lon suppose reprsentatif.
exemples : prlvement dun chantillon de sang tude dune population de cellules

dcrire mathmatiquement la ralit observe


dcrire = rsumer et reprsenter les donnes

gnralits

Pourquoi utiliser les statistiques ?

types de questions que lon se pose


Types de questions que lon se pose en recherche : quest-ce qui produit un effet ? quest-ce qui produit lamplitude dun effet ? quest-ce qui produit leffet le plus important ?

rpondre la question pose partir des donnes observes

gnralits
trois tapes principales : 1 - la collecte des donnes

Pourquoi utiliser les statistiques ?

la dmarche danalyse statistique

2 - le traitement des donnes collectes caractriser la relation entre variables Statistiques descriptives 3 - l'interprtation des donnes partir des donnes obtenus sur lchantillon, infrer les caractristiques de la population dorigine estimer si plusieurs chantillons proviennent ou non dune mme population Statistiques infrentielles ou infrences statistiques s'appuie sur la thorie des sondages et la statistique mathmatique

les donnes statistiques

individu, population, variable

la notion dindividu (statistique) : unit statistique


individu (dfinition statistique) = unit statistique: lment de lensemble tudi
ex : un patient recevant un traitement lhpital un tudiant inscrit dans un master biologie-sant une cellule en culture

pour chaque individu, on dispose dun ou plusieurs paramtres. la dfinition statistique de lindividu est diffrence de sa dfinition courante la dfinition de lindividu dpend des paramtres tudis
exemple 1 : paramtre tudi : note dun tudiant dans un groupe de TD un individu = un tudiant exemple 2 : paramtre tudi : note moyenne de chaque groupe de TD dtudiant inscrit dans une licence. un individu = un groupe de TD

les donnes statistiques


la notion de population

individu, variable, population

population (dfinition statistique) = ensemble dindividus sur lequel on tudie des paramtres
ex : ensemble des patients recevant un traitement lhpital ensemble des tudiants inscrits un master biologie-sant ensemble de cellules

on peut ne pas connaitre tous les individus qui composent une population
exemple : population humaine les globules rouges de souris

notion dchantillon : chantillon = partie dune population


exemple : 1000 personnes humaines

on connait tous les individus qui composent un chantillon

les donnes statistiques


la notion de variable

individu, variable, population

une variable (dfinition statistique) = paramtre tudi sur un individu


ex : ge des patients recevant un traitement lhpital sexe des patients recevant un traitement lhpital maladie des patients reus lhpital traitement des patients reus lhpital russite du traitement des patients reus lhpital

une ou plusieurs variables peuvent tre associes sur un individu les variables peuvent tre de nature varie : Variables qualitatives et quantitatives Variables indpendantes et variables dpendantes Variables contrles et non contrles

les donnes statistiques


la notion de variable

individu, variable, population


Variables qualitatives et quantitatives

variable qualitative = variable statistique dont les valeurs s'expriment de faon littrale (ou par un codage), sur lesquelles les oprations arithmtiques comme le calcul de la moyenne n'ont pas de sens.
exemples : mortalit dans une population de cellules, par la coloration au bleu trypan. sexe des patients recevant un traitement lhpital.

codage: la qualit de la variable peut tre exprime par un codage.


exemple : cellule morte : M cellule vivante : V cellule morte : 1 cellule vivante : 0

attention! un codage chiffr en transforme pas une variable qualitative en variable quantitative. Un chiffre nest pas forcment un nombre
ex : sudoku

les donnes statistiques


la notion de variable

individu, variable, population


Variables qualitatives et quantitatives

variable quantitative = variable statistique dont les valeurs s'expriment par des nombres, sur lequel les oprations arithmtiques comme le calcul de la moyenne ont un sens.
exemples : concentration calcique cytosolique dune cellule ge des patients recevant un traitement lhpital dose dun traitement administr des patients exemple : concentration calcique cytosolique dune cellule

variable continue : peut prendre toute valeur relle variable discrte : ne peut prendre dun nombre fini de valeurs
exemple : nombre denfants par femme

attention! une variable chiffre nest pas forcment une variable quantitative (le chiffre peut tre un codage) On peut transformer une variable quantitative en variable qualitative, avec une perte dinformation.
ex: dose dun traitement administr des patients en fonction de la dose, classement en catgories : trs faible dose, faible dose, dose normale, forte dose, trs forte dose.

les donnes statistiques


la notion de variable

individu, variable, population

Variables indpendantes et variables dpendantes

variable indpendante = variable statistique dont les valeurs sont indpendantes des autres variables tudies variable indpendante = variable statistique dont les valeurs sont dpendantes des autres variables tudies
exemples : on tudie leffet de deux substances potentiellement cytotoxiques sur des cellules cancreuses en culture, et on mesure la survie des cellules en fonction de la substance administre. variabledpendante : survie de la cellule variable indpendante : substances cytotoxiques appliques la cellule

les donnes statistiques


la notion de variable

individu, variable, population

Variables contrles et non contrles

variable contrle = variable statistique dont les valeurs sont imposes par lexprimentateur exprimentation (experiment) Dans les tudes dexprimentation, les variables indpendantes sont contrles
exemples : - effet de ladrnaline sur la frquence cardiaque. - dtermination sur la souris de la quantit minimale contaminante de cerveau de bovin atteint dESB.

les donnes statistiques


la notion de variable

individu, variable, population

Variables contrles et non contrles

variable non contrle = variable statistique dont les valeurs dpendent pas de lexprimentateur observation (survey) Dans les tudes dobservations, les variables indpendantes ne sont pas contrles.
exemples : - frquence des cancers de la thyrode aprs laccident de Tchernobyl, dans une zone gographique donne. - admission aux urgences pour problmes respiratoires en fonction de lintensit de la pollution atmosphrique

les donnes statistiques


exercices

individu, variable, population

donnes statistiques : individu, variable, population dans chacun des exercices suivants, dterminer : lindividu (statistique) la population (statistique) la ou les variables le caractre de chaque variable : qualitatif ou quantitatif; indpendant ou dpendant, contrl ou non contrl. exercice 1 : rponse calcique de cellules isoles stimules position du problme : on analyse la rponse calcique de cellules une stimulation par la cafine. On mesure lamplitude du pic calcique grce une sonde fluorescente, dont lintensit de fluorescence dpend du calcium. Aprs calibration, la concentration en calcium est calcule en nM. La mesure est effectue sur 39 cellules.

les donnes statistiques


exercices
srie A

individu, variable, population

exercice 2 : dtermination par Western blot du niveau dexpression de la protine P sur culture de cellules position du problme : sur des cellules en culture, on analyse par Western blot le niveau dexpression de la protine P. Les suspensions de cellules sont broyes et les protines extraites par centrifugation. Le niveau dexpression estr valu par lintensit de la bande correspondante la protine P, normalise par rapport lactine. Les mesures sont rptes sur 6 lots de cellules. exercice 3 : influence du Ca2+ extracellulaire sur la rponse contractile danneaux de bronches position du problme : on analyse la rponse contractile danneaux de bronches une stimulation par lactylcholine. Chasue anneau est reli un transducteur de force qui mesure la force dveloppe par lanneau, (exprime en % dune rponse de rfrence), lorsque lactylcholine est introduite dans la cuve. Pour dterminer le rle possible du Ca2+ extracellulaire dans la rponse, des mesures sont faites sur 7 anneaux avec du Ca2+ extracellulaire et sur 8 anneaux sans Ca2+ extracellulaire.

les donnes statistiques


exercices
srie A

individu, variable, population

exercice 4 : relation entre la dose d'un mdicament et la pression artrielle position du problme : on analyse leffet de 4 doses diffrentes dun mme traitement sur la pression artrielle dun lot de 23 rats. La pression artrielle est mesure au niveau de la carotide, et est exprime en mmHg. exercice 5 : analyse de la frquence cardiaque au repos et l'effort dans un groupe H/F position du problme : on mesure la frquence cardiaque dun groupe de 31 tudiants, en effectuant sur chaque individu, dont on note le sexe, une mesure au repos et aprs effort.

statistiques descriptives variabilit des processus biologiques


caractristiques gnrales
80 ex : tension dvelopp par un anneau de trache de rat en rponse une stimulation cholinergique 60 force (% max) 40 20 0 0 10 20 30 40 50 60 70 80 90

la variabilit est la rgle la variabilit est non prvisible

time (sec)

la variabilit des rsultats est diffrente de lerreur instrumentale la marge dimprcision destimation de la tendance centrale est un intervalle de probabilit

statistiques descriptives variabilit des processus biologiques


dcrire la ralit biologique
donnes brutes : ensemble des valeurs mesures sur chaque individu
exemple : contraction danneaux de bronches de rat individu : anneau de bronche de rat anneau force (g) variable : amplitude de la contraction

en elles-mmes, les donnes brutes donnent peu dinformations utiles. dcrire mathmatiquement la ralit observe dcrire = rsumer et reprsenter les donnes

1er 2e 3e 4e 5e 6e 7e 8e 9e 10e 11e 12e 13e ... 29e

1,14596 1,0461 0,67606 0,57967 1,16159 0,64212 1,01782 0,66019 1,20027 0,71591 0,54514 0,90245 0,61038 1,32689

statistiques descriptives variabilit des processus biologiques


dcrire la ralit biologique
statistiques descriptives : rsum mathmatique de la ralite observe
exemple : contraction danneaux de bronches de rat individu : anneau de bronche de rat variable : amplitude de la contraction

La force mesure tait de 1,21 0,08 g (n = 29)


1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0

contraction (g)

rsum mathmatique en 3 valeurs.

NB : code ASCII pour : alt +0177

statistiques descriptives variabilit des processus biologiques


notion et types de distribution
distribution dune variable : ensemble des valeurs, modalits ou classes d'une variable statistique, et des effectifs ou frquences associes
exemple : contraction danneaux de bronches de rat
anneau 1er 2e 3e 4e 5e 6e 7e 8e 9e 10e 11e 12e 13e ... 29e force (g) 1,14596 1,0461 0,67606 0,57967 1,16159 0,64212 1,01782 0,66019 1,20027 0,71591 0,54514 0,90245 0,61038 1,32689

force (g) 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3 2,5

frquence 2 5 2 6 4 4 4 0 1 1 0

frquence

5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

force (g)

On peut dcrire mathmatiquement certains types de distribution

statistiques descriptives variabilit des processus biologiques


notion et types de distribution
distribution dune variable : ensemble des valeurs, modalits ou classes d'une variable statistique, et des effectifs ou frquences associes
exemple : contraction danneaux de bronches de rat
6

pour les variables continues, lanalyse de la distribution ncessite de regrouper les valeurs en classes

frquence

5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

force (g)

On peut dcrire mathmatiquement certains types de distribution

statistiques descriptives variabilit des processus biologiques


notion et types de distribution
distribution binomiale
La variable peut prendre deux valeurs pas forcment numriques.
rpartition hommes/femmes dans une population 18 16 14 12 nombre 10 8 6 4 2 0 femmes hommes proportion de gauchers dans une population droitiers gauchers

% of responding cells 100 60 20 0


types de rponses cellulaires

statistiques descriptives variabilit des processus biologiques


notion et types de distribution
0,5 0,4 0,3 0,2 0,1 0,0 -4 -3 -2 -1 0 1 2 3 4

distribution normale ou gaussienne


16 14 frquence 12 10 8 6 4 2 0 100 110 120 130 140 150 160 pression artrielle systolique ex : valeur de la pression artrielle systmique systolique dans une population

loi de distribution de probabilit, dfinie par une fonction de densit de probabilit de la forme :

f ( x) =

1 2

( x )

2 2

distribution normale ou gaussienne : courbe en cloche

statistiques descriptives variabilit des processus biologiques


notion et types de distribution
30 25 nombre 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 notes

autres types de distributions

rpartition des notes de TP un examen de licence BCP

8000 nombre de genres 7000 6000 5000 4000 3000 2000 1000 0 20 40 60 80 100 120 140 dure de vie (en millions dannes) 160

dure de vie des genres fossiles


(daprs D. M. Raup, De lextinction des espces, Gallimard, Paris, 1993)

les distributions ne sont pas forcment gaussiennes (les variables ne suivent pas forcment une courbe en cloche )

statistiques descriptives variabilit des processus biologiques


tendance centrale et dispersion
rsum mathmatique de la ralite observe : mesure mathmatique de la tendance centrale et de la dispersion des valeurs de la variable tudie

exemple : contraction danneaux de bronches de rat


6

1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0

frquence

5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

Force (g)

force (g)

La force mesure tait de 1,21 0,08 g (n = 29)

statistiques descriptives mesure de la tendance centrale


moyenne arithmtique (arithmetic mean)
moyenne arithmtique : somme des valeurs de la variable divise par le nombre de valeurs = centre de gravit de la distribution moyenne = 1,21 g
(pour viter les biais par simplification, faire le calcul avec une dcimale supplmentaire par rapport au nombre de dcimales de la valeur exprime de la moyenne) mdiane

frquence

5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

intrts et limites : trs utilise en statistiques descriptive et infrentielle souvent, pas toujours, la mesure la plus pertinente de la tendance centrale

force (g)

statistiques descriptives mesure de la tendance centrale


mdiane
mdiane : valeur de part et dautre de laquelle se distribue par moiti les valeurs de la variable (50 % des valeurs sont infrieures la mdiane, et 50 % sont suprieures).
mdiane = 1,16 g
6

moyenne = 1,21 g

frquence

5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

intrts et limites : intrt thorique : dans certains cas, bonne manire de dcrire la tendance centrale peu utilise pour les calculs de signification statistique

force (g)

statistiques descriptives mesure de la tendance centrale


mode
mode : valeur de la variable qui survient avec la plus grande frquence variables discrtes (discontinues ) : valeur exacte variables continues : dpend du mode de calcul
mdiane = 1,16 g mode = 1,1 g
6 5 4 3 2 1 0

moyenne = 1,21 g

frquence

intrts et limites : force (g) facile dterminer difficile manipuler mathmatiquement (pour tester statistiquement des hypothses) intrt thorique : dans certains cas, bonne manire de dcrire la tendance centrale

0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

statistiques descriptives mesure de la tendance centrale


choix de la mesure
choix de la mesure dpend de la loi de distribution dpend de la question pose
mdiane = 1,16 g
35 30 25 frquence 20 15 10 5 0 0 2 4 6 8 10 notes 12 14 16 18 20

moyenne = 1,21 g

mode mdiane moyenne frquence

mode = 1,1 g
6 5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

force (g)

statistiques descriptives mesure de la tendance centrale


choix de la mesure
choix de la mesure dpend de la loi de distribution dpend de la question pose
moyenne, mode, mdiane 16 nombre de genres 100 120 140 160 14 12 frquence 10 8 6 4 2 0 8000 7000 6000 5000 4000 3000 2000 1000 0 20 40 60 80 100 120 140 dure de vie (en millions dannes) 160

pression artrielle diastolique

si la distribution est symtrique, moyenne, mdiane et mode sont similaires dans la plupart des cas : moyenne

mdiane et mode intressants dans certains cas

statistiques descriptives mesure de la dispersion


cart (range)
cart : diffrence entre la plus petite et la plus grande valeur.
intrt et limites : facile calculer trs instable (une seule valeur extrme modifie fortement la valeur de lcart) mean 1.21374 min 0.54514 max 2.22593
6 5 4 3 2 1 0 0,5 0,7 0,9 1,1 1,3 1,5 1,7 1,9 2,1 2,3

range n 1.68079 29

exemple : contraction danneaux de bronches de rat

frquence

force (g)

statistiques descriptives mesure de la dispersion


dviation moyenne (mean deviation)
dviation moyenne : moyenne arithmtique de la diffrence, en valeur absolue, entre chaque valeur et la moyenne arithmtique.
principe : 1 pour chaque point, on calcule la diffrence avec la moyenne
plus le point scarte de la moyenne, plus la diffrence est grande, mais elle peut tre ngative)

2 pour chaque point, on prend la valeur absolue de cette diffrence


plus le point scarte de la moyenne, plus la diffrence est grande, et elle est toujours positive

3 on fait la somme de la valeur absolue des diffrence


plus les points scartent de la moyenne, plus la somme des carrs est grande, mais elle dpend aussi du nombre de valeurs

4 on divise cette somme par la taille de la population dviation moyenne


plus les points scartent de la moyenne, plus la dviation moyenne est grande, indpendamment du nombre de valeurs tudies. Elle a la mme unit que la variable tudie

intrt et limites : mesure trs rarement utilise

statistiques descriptives mesure de la dispersion


cart-type (standard deviation)
cart-type (standard deviation) : racine carre de la variance
principe : 1 pour chaque point, on calcule la diffrence avec la moyenne
plus le point scarte de la moyenne, plus la diffrence est grande, mais elle peut tre ngative)

2 pour chaque point, on prend le carr de cette diffrence


plus le point scarte de la moyenne, plus le carr diffrence est grand, et il est toujours positif)

3 on fait la somme de ces carrs


plus les points scartent de la moyenne, plus la somme des carrs est grande, mais elle dpend aussi du nombre de valeurs

4 on divise la somme des carrs par la taille de la population variance


plus les points scartent de la moyenne, plus la variance est grande, indpendamment du nombre de valeurs tudies

4 on prend la racine carr de la variance cart-type

plus les points scartent de la moyenne, plus lcart-type est grand, indpendamment du nombre de valeurs. Lcart-type a la mme unit que la variable tudie.

statistiques descriptives mesure de la dispersion


cart-type (standard deviation)
cart-type (standard deviation) : racine carre de la variance
Lcart-type est donn par la formule :

= x x

( )2 n

exemple : contraction danneaux de bronches de rat

mF

Force (g) 1,14596 1,0461 ..... 1,21374

F mF (g) (F-mF)2 (g2) -0,07 0,00459 -0,17 0,0281 ..... ..... (F-mF)2 5,849

5,849/29 = 0,202 (g2) variance (5,849/29) =0,449 (g) cart-type

statistiques descriptives mesure de la dispersion


cart-type (standard deviation)
cart-type (standard deviation) : racine carre de la variance
Lcart-type est donc donn par la formule : cas particulier : loi normale
0,5 0,4 0,3 0,2 0,1 0,0 -4 -3 -2 -1 0 1 2 3 4

= x x

( )2 n

attention : signification de lcart-type unit de lcart-type influence de changement de variable

intrts et limites : Aprs standardisation, permet de comparer la position de plusieurs variables entre elles, mme si les units de mesure de ces variables sont diffrentes. quasiment la seule mesure de la dispersion utilise

statistiques descriptives expression des donnes


population tudie variable(s) tudie(s) et unit(s) taille de la population mesure de la tendance centrale (moyenne le plus souvent) mesure de la dispersion (cart-type le plus souvent) exemple : Ltude a porte sur la contraction danneaux de bronches de rats. La contraction a t dtermine par la mesure de la force gnre par les anneaux, en g. Les valeurs sont donnes sous la forme moyenne carttype, avec n = nombre danneaux tudis. La force mesure tait de 1,21 0,08 g (n = 29)
1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 contraction (g)

figure 1 : mesure de la contraction danneaux de bronches de rats (en g). La colonne noire est la moyenne de 29 anneaux. La barre derreur reprsente lcart-type.

statistiques infrentielles

types de questions

estimation des caractristiques dune population partir dun chantillon frquence de distribution moyenne et cart-type de la population prcision de lestimation intervalle de confiance comparaison des diffrences entre plusieurs populations, partir dchantillons comparaison une population thorique comparaison de plusieurs (2 ou plus) chantillons entre eux tests statistiques estimation des erreurs risque de premire espce (a) risque de deuxime espce (b)

statistiques infrentielles
variables qualitatives

estimation
estimation de la frquence de distribution

la frquence estime de la variable dans la population est la frquence observe dans lchantillon
exemple : rpartition hommes/femmes dans un chantillon dune population 18 16 14 12 nombre 10 8 6 4 2 0 femmes hommes

chantillon (mesure) : n = 31 femmes = 18 homme = 13 frquence (observe) femmes = 58,06 % homme = 41,94 % population (estimation) : femmes = 58,06 % homme = 41,94 %

statistiques infrentielles
variables quantitatives

estimation
estimation de la moyenne

la moyenne estime de la variable dans la population est la moyenne observe dans lchantillon

exemple : mesure de la frquence cardiaque sur un chantillon de 31 tudiants de lUFR des Sciences de la vie moyenne de lchantillon (mesure) : 86 battements/min la frquence cardiaque moyenne mesure sur un chantillon de 31 tudiants de lUFR des Sciences de la vie tait de 86 battements/min moyenne de la population (estime) : 86 battements/min la frquence cardiaque moyenne estime des tudiants de lUFR des Sciences de la vie est de 86 battements/min

statistiques infrentielles
variables quantitatives

estimation
estimation de lcart-type

lcart-type estim de la variable dans la population est lcart-type observ dans lchantillon augment dun facteur de correction
cart-type estim de la population ~> cart-type calcul de lchantillon cart-type estim de la population : S cart-type calcul de lchantillon :
n-1 : degr de libert

n n 1

exemple : mesure de la frquence cardiaque sur un chantillon de 31 personnes moyenne de lchantillon (mesure) : 86 battements/min cart-type de lchantillon (mesur) : 13,04 battements/min moyenne de la population (estime) : 86 battements/min cart-type de la population (estim) : 13,25 battements/min

statistiques infrentielles
prcision de lestimation

estimation
principes gnraux

variable quantitative : la prcision de lestimation de la moyenne dune variable partir dun chantillon dpend de la fluctuation de la moyenne de lchantillon
Moins, dun chantillon un autre, la valeur moyenne fluctue, plus grande est la prcision de lestimation de la moyenne de la population.
exemple : on mesure 2 variables A et B sur une srie dchantillons de plusieurs individus. On rpte ces mesures sur 6 chantillons diffrents. On obtient les valeurs suivantes : la fluctuation est plus faible pour la variable A. La prcision de son estimation partir dun chantillon est plus grande que pour B moyenne cart-type de la moyenne n lot 1 2 3 4 5 6 A 12,36 10,10 7,28 7,90 10,16 8,99 9,47 1,67 B 18,94 8,93 6,51 9,36 17,70 4,16 10,93 5,50

statistiques infrentielles
prcision de lestimation

estimation
principes gnraux

variable qualitative : la prcision de lestimation de la frquence dune variable partir dun chantillon dpend de la fluctuation de la frquence de lchantillon
Moins, dun chantillon un autre, la valeur de la frquence fluctue, plus grande est la prcision de lestimation de la frquence de la population.
exemple : on mesure 2 variables A et B sur 2 sries dchantillons. Pour chaque variable, on rpte ces mesures sur 7 chantillons diffrents. On obtient les valeurs suivantes : n Lot 1 2 3 4 5 6 7 A 40 % 100 % 60 % 60 % 20 % 80 % 40 % n Lot 1 2 3 4 5 6 7 moyenne B 40 % 53 % 47 % 73 % 60 % 33 % 53 % 51 % 12 %

la fluctuation de la frquence est plus faible pour la variable B. La prcision de son estimation partir dun chantillon est plus grande que pour A.

moyenne 57 % cart-type de la moyenne 25 %

statistiques infrentielles
prcision de lestimation

estimation
principes gnraux

variable quantitative : la prcision de lestimation de la moyenne partir dun chantillon dpend de la fluctuation de la moyenne de lchantillon
Moins, dun chantillon un autre, la valeur moyenne fluctue, plus grande est la prcision de lestimation de la moyenne de la population.

variable qualitative : la prcision de lestimation de la frquence partir dun chantillon dpend de la fluctuation de la moyenne de lchantillon
Moins, dun chantillon un autre, la valeur de la frquence fluctue, plus grande est la prcision de lestimation de la frquence de la population.

La prcision de lestimation de la moyenne ou de la frquence dune variable dpend de lcart-type de la moyenne de la variable.

statistiques infrentielles
prcision de lestimation

estimation
principes gnraux

la prcision de lestimation de la moyenne ou de la frquence dune variable partir dun chantillon dpend de la fluctuation de la moyenne de lchantillon
la fluctuation de la moyenne (ou de la frquence) entre plusieurs

chantillons dpend : de la fluctuation individuelle de la variable


plus lcartype est petit, plus la prcision est bonne

de la taille de lchantillon
plus lchantillon est gros, plus la prcision est bonne

la fluctuation de la moyenne (ou de la frquence) est mesure par

lcart-type de la moyenne

statistiques infrentielles
prcision de lestimation

estimation
principes gnraux

la prcision de lestimation de la moyenne ou de la frquence dune variable partir dun chantillon dpend de la fluctuation de la moyenne de lchantillon
la fluctuation de la moyenne (ou de la frquence) entre plusieurs

chantillons dpend : de la fluctuation individuelle de la variable de la taille de lchantillon


la fluctuation de la moyenne (ou de la frquence) est mesure par

lcart-type de la moyenne
pb : comment calculer lcart-type de la moyenne - rpter lexpriences sur plusieurs chantillons - estimer lcart-type de la moyenne sur un seul chantillon loi de probabilit de la moyenne ?

statistiques infrentielles
prcision de lestimation

estimation
loi de probabilit de la moyenne

si la loi de probabilit des variables des individus suit une loi normale, alors la loi de probabilit de la moyenne est galement une loi normale si la loi de probabilit des variables des individus nest pas une loi normale, la loi de probabilit de la moyenne est une loi normale, si la taille de lchantillon est assez grande (n > 30 ) ex : loi binomiale
18 16 14 12 10 8 6 4 2 0
0,16 0,14 0,12 probabilit 0,10 0,08 0,06 0,04 0,02 0,00

nombre de femmes dans un groupe de 30 personnes, pour un sex ratio thorique de 50 %

nombre

femmes

hommes

10

15

20

25

30

statistiques infrentielles
prcision de lestimation
variable quantitative

estimation
cart-type de la moyenne (SEM)

estimation de la fluctuation de la moyenne : cart-type de la moyenne = standard error of the mean (SEM) cart-type estim sur lchantillon ( fluctuation de la variable) taille de lchantillon

SEM =

s n

exemple : frquence cardiaque moyenne de la population (estime) : 86 battements/min cart-type de la population (SD) (estim) : 13,25 battements/min SEM = 3,38 battements/min

NB : la prcision dpend de la taille de lchantillon, pas de la taille de la population

statistiques infrentielles
prcision de lestimation
variable qualitative

estimation
cart-type de la moyenne (SEM)

estimation de la fluctuation de la moyenne : cart-type de la moyenne = standard error of the mean (SEM) p : frquence estime de la variable dans lchantillon q = 1-p

SEM =

pq n

taille de lchantillon

exemple : sex ratio population (estimation) : femmes = 58,06 % SEM = 8,86 %

homme = 41,94 %

NB : la prcision dpend de la taille de lchantillon, pas de la taille de la population

statistiques infrentielles
prcision de lestimation

estimation

intervalle de confiance (confidence interval)

intervalle autour de la moyenne calcule de lchantillon dans lequel la moyenne de la population a une probabilit donne de se trouver.
exemple : intervalle de confiance 95 % : la valeur moyenne de la population dont est issu lchantillon a 95 chances sur 100 de se trouver dans lintervalle.

dpend : de la SEM du % de confiance voulu du degr de libert (ddl) ex : ddl > 30 intervalle de confiance 95 % = m 1,96 SEM

loi normale
0,5 0,4 0,3 0,2 0,1 0,0 -4 -3 -2 -1 0 1 2 3 4

SEM IC95

risque alpha : probabilit que la valeur de la population (vraie valeur) soit en dehors de lintervalle de confiance

statistiques infrentielles
prcision de lestimation
variable quantitative

estimation

intervalle de confiance (confidence interval)

exemple : frquence cardiaque mesure sur 31 personnes (n = 31) moyenne de lchantillon (mesure) : 86 battements/min cart-type de lchantillon (mesur) : 13,04 battements/min moyenne de la population (estime) : 86 battements/min cart-type de la population (estim) : 13,25 battements/min SEM = 3,38 battements/min n = 31 (ddl = 30) intervalle de confiance 95 % (IC 95 %) = 86 6,7 battements/min

statistiques infrentielles
prcision de lestimation
variable quantitative
calcul avec les fonctions dExcel ou dOpenOffice :

estimation

intervalle de confiance (confidence interval)

moyenne de lchantillon (mesure) : fonction MOYENNE cart-type de lchantillon (mesur) : fonction ECARTTYPEP moyenne de la population (estime) : fonction MOYENNE cart-type de la population (estim) : fonction ECARTTYPE SEM = pas de fonction disponible : calculer en utilisant la formule : = ECARTTYPE(donnes)/RACINE(taille) intervalle de confiance 95 % (IC 95 %) : fonction INTERVALLE.CONFIANCE indiquer alpha : 0,05 indiquer lcartype estim indiquer la taille de lchantillon

vrai si n>30

statistiques infrentielles
prcision de lestimation
variable qualitative
exemple : sex ratio mesur sur un chantillon de 31 personnes sex ratio de lchantillon (mesure) : femmes = 18 (58,06 %) homme = 13 (41,94 %) sex ratio de la population (estimation) : femmes = 58,06 % homme = 41,94 % SEM = 8,86 % (n = 31 ; ddl = 30)

estimation

intervalle de confiance (confidence interval)

intervalle de confiance 95 % (IC 95 %) = femmes = 58,06 % 17.37 % hommes = 41,94 17.37 %

vrai si n>30

statistiques infrentielles
prcision de lestimation
variable qualitative
calcul avec les fonctions dExcel ou dOpenOffice :

estimation

intervalle de confiance (confidence interval)

sex ratio de lchantillon (mesure) : femmes = 18 homme = 13 n = 31 (ddl = 30) calcul des proportions : femmes : 0,5806 (p) hommes : 0,4194 (q = 1-p) sex ratio de la population (estimation) : femmes = 58,06 % homme = 41,94 % SEM = pas de fonction disponible : calculer en utilisant la formule : = RACINE((p*(1-p)/n)) intervalle de confiance 95 % (IC 95 %) = fonction INTERVALLE.CONFIANCE NB : calcul prliminaire : cart-type estim = RACINE((p*(1-p)) indiquer alpha : 0,05 indiquer lcartype estim (voir calcul prliminaire) indiquer la taille de lchantillon

vrai si n>30

statistiques infrentielles
principe des tests

comparaisons statistiques

Les statistiques infrentielles permettent dassigner une probabilit lobtention dun rsultat pour une hypothse donne.
exemple : intervalle de confiance 95 % on fait lhypothse que la moyenne ou la frquence dune variable se trouve dans lintervalle de confiance, dont on a calcul que la probabilit tait de 0,95 (95 %). (exemple des sondages dopinion)

Si cette probabilit est trop faible, on rejette lhypothse.


exemple : on rejette lhypothse que la moyenne ou la frquence de la variable est en dehors de lintervalle de confiance.

application aux comparaisons statistiques

statistiques infrentielles
principe des tests
hypothse nulle (null hypothesis)

comparaisons statistiques
lhypothse nulle

Le principe des tests statistiques est de postuler lhypothse nulle : on fait lhypothse que les diffrences observes entre des valeurs observes ou entre une valeur observes et une valeur thorique est due aux fluctuations dchantillonnage.
exemple : effet de la prsence de calcium extracellulaire sur la contraction danneau de bronche. hypothse nulle : le calcium extracellulaire na pas deffet. = les deux chantillons danneaux de bronches proviennent de la mme population le test statistique calcule la probabilit que les diffrences de valeur de contraction entre les deux chantillons soient dues aux fluctuations dchantillonnage dans une mme population

statistiques infrentielles
principe des tests
hypothse nulle (null hypothesis)

comparaisons statistiques
lhypothse nulle

Le principe des tests statistiques est de postuler lhypothse nulle : on fait lhypothse que les diffrences observes entre des valeurs observes ou entre une valeur observes et une valeur thorique est due aux fluctuations dchantillonnage.

conditions de rejet de lhypothse nulle


Si la probabilit de lhypothse nulle est trop faible, on la rejette, et on accepte lhypothse non nulle : les chantillons compars proviennent de populations diffrentes.
exemple : le calcium extracellulaire a un effet sur la contraction (les anneaux avec calcium proviennent dune population diffrente des anneaux sans calcium)

On dit alors quil existe une diffrence statistiquement significative.

statistiques infrentielles
principe des tests

comparaisons statistiques
lhypothse nulle

exemples : a) comparaison de la rpartition homme/femme observe et de la valeur thorique du sex ratio de 50 %

sex ratio mesur sur un chantillon de 31 tudiants de biologie sex ratio de lchantillon (mesure) : femmes = 18 (58,06 %) homme = 13 (41,94 %) question : y a-t-il significativement plus de femmes que dhommes en biologie, par rapport lensemble de la population?

a) formulation de lhypothse nulle : la population thorique dont le groupe dtudiants est un chantillon reprsentatif nest pas diffrente de la population gnrale dont on connat les valeurs thoriques : sex ratio de 50 %

statistiques infrentielles
principe des tests

comparaisons statistiques
lhypothse nulle

exemples : b) comparaison des frquences cardiaques de groupes dtudiants la frquence thorique normale de 70 battements/minute
exemple : frquence cardiaque mesure sur 31 personnes (n = 31) moyenne : 86 battements/min cart-type (estim) : 13,25 battements/min SEM = 3,38 battements/min n = 31 (IC 95 %) = 86 6,7 battements/min question : la frquence cardiaque des tudiants en biologie est-elle significativement diffrente de celle de lensemble de la population?

b) formulation de lhypothse nulle : la population thorique dont le groupe dtudiants est un chantillon reprsentatif nest pas diffrente de la population gnrale dont on connat les valeurs thoriques : frquence cardiaque de 70 batt/min.

statistiques infrentielles
principe des tests

comparaisons statistiques
lhypothse nulle

exemples : c) comparaison des frquences cardiaques des hommes et des femmes dans un groupe dtudiants.
exemple : frquence cardiaque mesure sur 31 tudiants en biologie (n = 31), 18 femmes et 13 hommes. On calcule la frquence cardiaque chez les hommes et chez les femmes question : la frquence cardiaque des tudiantes en biologie est-elle significativement diffrente de celle des tudiantes en biologie ?

c) formulation de lhypothse nulle : la population thorique dont les tudiants masculins sont un chantillon reprsentatif est identique la population thorique dans les tudiants fminins sont un chantillon reprsentatif.

statistiques infrentielles
principe des tests

comparaisons statistiques

conditions de rejet de lhypothse nulle

Si la probabilit de lhypothse nulle est trop faible, on la rejette, et on accepte lhypothse non nulle : les chantillons compars proviennent de populations diffrentes. Il existe une diffrence statistiquement significative. Par convention, on fixe en gnral le seuil de signification 5 % p<0,05 : diffrences statistiquement significatives p<0,01 : diffrences statistiquement hautement significatives p<0,001 : diffrences statistiquement trs hautement significatives le seuil de signification est dtermin avant deffectuer le test ; le degr de signification est dtermin par le test (= probabilit de rejeter lhypothse nulle si elle est vraie). La diffrence est significative si le degr de signification est infrieur au seuil de signification.

statistiques infrentielles
principe des tests

comparaisons statistiques

conditions de rejet de lhypothse nulle

exemple : On a mesur leffet de la prsence de calcium extracellulaire sur la contraction danneaux de bronche. Les valeurs, exprimes en % dune valeur de rfrence, sont donnes sous la forme : moyenne SEM (n = taille de lchantillon). Les diffrences sont considres comme significatives si P<0,05. rsultats: En prsence et en absence de calcium extracellulaire, la contraction tait de 13,66 1,53 (n = 8) et de 7,95 1,71 (n = 7), respectivement. Le degr de signification (P) tait de 0,029.

question : la contraction danneaux de bronches dpend-elle du calcium extracellulaire ?

statistiques infrentielles
principe des tests
risques derreur

comparaisons statistiques

risque (risque de 1re espce) (type 1 error)


risque de rejeter lhypothse nulle si est est vraie. Il est connu : seuil ( priori) ou degr ( postriori) de signification du test

risque (risque de 2e espce) (type 2 error)


risque daccepter lhypothse nulle alors quelle est fausse. Le risque de 2e espce correspond au dfaut de puissance dun test Il est en gnral indtermin (on ne connat pas les caractristiques des populations thoriques).

statistiques infrentielles
principe des tests
risques derreur

comparaisons statistiques

risque a (risque de 1re espce) (type 1 error) risque de rejeter lhypothse nulle si est est vraie. risque b (risque de 2e espce) (type 2 error) risque daccepter lhypothse nulle alors quelle est fausse. Les deux types de risques sont antagonistes. Si on diminue le risque de 1re espce, on augmente le risque de 2e espce. tant donn que le risque de 2e espce nest pas connu la diffrence du risque de 1re espce en absence de diffrence significative, on ne peut pas conclure labsence de diffrence, car on ne contrle pas le risque derreur attach cette conclusion. Il y a une diffrence souvent oublie entre ne pas conclure quil existe une diffrence, et conclure quil nexiste pas de diffrence.

statistiques infrentielles
mthodologie
poser une question mettre une hypothse

comparaisons statistiques

laborer une procdure exprimentale de test de lhypothse (NB : test confirmation) un protocole exprimental nest pas une manire de prouver quune explication donne est correcte, mais plutt un systme par lequel les explications alternatives sont limines . Lumley & Benjamin. Research: some grounds rules = critre de rfutation (Karl Popper. La logique de la dcouverte scientifique, Conjectures et rfutations)

statistiques infrentielles
procdure exprimentale

comparaisons statistiques

constitution dun ou de plusieurs chantillons les techniques statistiques dpendent de la slection au hasard de sujets (chantillon) dans une population dfinie. Lumley & Benjamin !attention au biais dans la constitution des chantillons! choix des procdures exprimentales choix des procdures statistiques dfinition de lhypothse nulle choix du seuil de signification choix du test Le choix de la procdure statistique approprie est une partie importante de la procdure exprimentale et ne devrat jamais tre fait aprs la rcolte des donnes. Lumley & Benjamin

statistiques infrentielles
procdure exprimentale

comparaisons statistiques

constitution dun ou de plusieurs chantillons les techniques statistiques dpendent de la slection au hasard de sujets (chantillon) dans une population dfinie. Lumley & Benjamin !attention au biais dans la constitution des chantillons! choix des procdures exprimentales choix des procdures statistiques dfinition de lhypothse nulle choix du seuil de signification choix du test Le choix de la procdure statistique approprie est une partie importante de la procdure exprimentale et ne devrat jamais tre fait aprs la rcolte des donnes. Lumley & Benjamin

statistiques infrentielles
choix du test
types de variables qualitatives / quantitatives nombre de variables taille de lchantillon

comparaisons statistiques

loi de rpartition normale ou non (+galit des variances...) mesures rptes ou non / nombre de facteurs

statistiques infrentielles
choix du test
comparaison de deux moyennes

comparaisons statistiques

liens entre variables qualitatives et quantitatives

comparaison de deux moyennes observes comparaison dun moyenne observe une moyenne thorique

options du test :
- comparaison dun moyenne observe et dune moyenne thorique (one population) ou de deux moyennes observes (two populations) - mesures apparies (paired) ou non apparies (unpaired) - comparaison unilatrale (one-tailed) ou bilatrale (two-tailed)

statistiques infrentielles
choix du test
comparaison de deux moyennes

comparaisons statistiques

liens entre variables qualitatives et quantitatives

les effectifs sont suffisamment grands (n>30) ou la loi de rpartition est normale (faire ventuellement un test de normalit) test t de Student one population / two population appari/ non appari tests non paramtriques options : sries non apparies : test W de Wilcoxon = test U de Mann et Whitney test C1 de Fisher-Yates-Terry sries apparies : test T de Wilcoxon Les effectifs sont faibles et la rpartition nest pas normale (faire ventuellement un test de normalit) tests non paramtriques

statistiques infrentielles
choix du test
comparaison de plusieurs ( 2) moyennes

comparaisons statistiques

liens entre variables qualitatives et quantitatives

tape 1 : on effectue une comparaison globale, pour tester lexistence dune diffrence significative entre certains chantillons tape 2 : si ltape 1 montre lexistence duen diffrence significative, on effetue des comparaisons 2 2 pour dterminer entre quels chantillons se trouvent ces diffrences. tests post-hoc

NB: on ne doit pas faire de comparaisons 2 2 sans comparaison globale initiale

statistiques infrentielles
choix du test
comparaison de plusieurs ( 2) moyennes

comparaisons statistiques

liens entre variables qualitatives et quantitatives

la loi de rpartition de probabilit est normale pour la variable mesure (faire ventuellement un test de normalit) Analyse de la variance (ANOVA) tests non paramtriques Kruskall-Wallis : non appari Friedman : apparie

options :

ANOVA plusieurs facteurs tests post-hoc : Mthode de Bonferonni (test t) Mthode de Tukey (test t) Mthode de Dunnet Mthode de Sheff (test F)

statistiques infrentielles
choix du test
comparaison de plusieurs ( 2) moyennes

comparaisons statistiques

liens entre variables qualitatives et quantitatives

la loi de rpartition de probabilit est normale pour la variable mesure (faire ventuellement un test de normalit) Analyse de la variance (ANOVA) tests non paramtriques la loi de rpartition de probabilit nest pas normale pour la variable mesure tests non paramtriques

statistiques infrentielles
choix du test

comparaisons statistiques

liens entre variables qualitatives

chantillon de taille normale (effectifs calculs > 5) : test du 2 (chi2). chantillon de taille rduite (effectifs calculs > 3) : 2 corrig (correction de Yates) chantillon de taille trs rduite (effectifs calculs < 3) : test exact

statistiques infrentielles
choix du test
exemple
Linear Regression Y=A+B*X Parameter Value Error ----------------------------------A 70,94 4,39668 B 1,416 0,11966 ----------------------------------R SD N ----------------------------------0,94133 5,98312 20 variable dpendante (UA) 160 140 120 100 20

comparaisons statistiques

liens entre 2 variables quantitatives

25

30 35 40 45 50 variable indpendante (UA)

une des deux distributions lies au moins est normale avec une variance constante test de corrlation (ou de rgression) dtermine si la pente est statistiquement significative de 0 si aucune des variables lies nest normale et de variance constante (petits chantillons) test non paramtrique de corrlation des rangs (test de Spearman)

statistiques infrentielles
choix du test

comparaisons statistiques

Que faire quand on ne sait pas quoi faire ?

demander quelquun qui sait

faire appel un statisticien (au moment de concevoir les protocoles)

Statistiques : lments de bibliographie


P. Lazar & D. Schwartz. lments de probabilits et statistiques, Flammarion, Paris, 1987. petit livre de base, avec exercices, pour sinitier de manire pratique aux probabilits et

statistiques (BU)

R. Salamon. Statistique mdicale, Masson, Paris, 1988. Petit livre de base contenant lessentiel des notions en statistiques, et une introduction au calcul des probabilits (BU) D. Schwartz. Mthodes statistiques lusage des mdecins et des biologistes, 4e dition, Flammarion, Paris, 1994. ouvrage franais de rfrence (BU) T. H. Wonnacot & R. J. Wonnacot. Statistique, 4e ed, Economica, Paris, 1991. Ouvrage dtaill (900 p) sur la statistique en conomie, gestion, sciences et mdecine, avec exercices dapplications (BU) J. S. P. Lumley & W. Benjamin. Resarch: some ground rules, Oxford University Press, Oxford, 1994. guide pour savoir comment mener un travail de recherche. Nest pas consacr particulire-ment aux statistiques, mais une section est consacre lanalyse des rsultats, avec une approche utilitaire des statistiques. (BU)

Statistiques : lments de bibliographie


J. Fowler, L. Cohen & P. Jarvis. Practical statistics for field biology, Wiley, Chichester, 1998. Bonne introduction aux statistiques en gnral, bien quax plutt sur les statistiques de biologie dobservation.
S. J. Gould, Lventail du vivant, Seuil, Paris, 1997. (titre original : Full House) ouvrage de vulgarisation sur lanalyse des tendances das lvolution biologique, prsente de manire claire les biais possibles et les pides viter dans lanalyse des rpartitions asymtriques (en annexe, une introduction au jeu de base-ball).

Extinction. Bad genes or bad luck?) Par un spcialiste de palontologie statistique, lanalyse de la part du hasard dans les extinctions. Contient une prsentation claire de quelques questions dordre statistique.

D. M. Raup. De lextinction des espces, Gallimard, Paris, 1993 (titre original :

Das könnte Ihnen auch gefallen