Sie sind auf Seite 1von 4

Intrt des modles linaires gnraliss mixtes dans lanalyse des donnes structure hirarchique

JF Etard

Structure hirarchique
Les donnes collectes chez lhomme de nature biomdicale ou relatives aux sciences sociales rpondent trs frquemment une structure hirarchique : Essai multi-centrique Donnes groupes (clustered) Rptition des mesures chez mmes sujets (donnes longitudinales) Appartenance une entit gographique (dimension spatiale) Appartenance un groupe social, professionnel, institutionnel, scolaire, familial (gntique) Sondage en grappe Randomisation par groupe Ds lors que les units observes appartiennent une mme entit de niveau hirarchique suprieur, elles auront tendance se ressembler. La consquence en est une non indpendance des observations, les donnes observes sont corrles entre elles. Cette structure de corrlation doit tre reconnue et prise en compte au stade de lanalyse statistique afin dviter des infrences statistiques incorrectes concernant les coefficients de rgression et afin dobtenir une meilleure prcision des effets.

Individu j = 1,, J Mesure 1 Mesure i Mesure I Individu 1

Centre j = 1, , J Individu i Individu I

Modles linaires gnraliss


Les modles linaires gnraliss (McCullagh & Nelder, 1989) permettent une approche unifie de lanalyse biostatistique, pouvant prendre en compte diffrentes formes de distribution de la variable dpendante : normale, log-normale, binomiale, poissonienne, binomiale ngative etc. Deux composantes, lune alatoire, lautre systmatique, sont ncessaires pour crire le modle :

y=+e
e : erreur alatoire

: systmatique (linaire) avec fonction de lien g() = X

Le choix de la fonction de lien guid par la distribution permettra de spcifier le modle de rgression dsir (linaire, logistique, Poisson, etc). Linterprtation des paramtres dpendra ensuite du type de modle : Distribution normale binomiale poissonienne Lien canonique Nom de la fonction de lien identit log( /1-) log () logit log Rgression rgression linaire rgression logistique rgression loglinaire Interprtation des coefficients Augmentation arithmtique logitA - logitB = b exp(b) = OR TauxA tauxB = b exp(b) = RR

Modles linaires gnraliss mixtes


Dans les MLG classiques ou fixes , les observations sont indpendantes, les effets sont fixes. Les MLG mixtes vont permettre de modliser des observations non indpendantes (modlisation de la variance-covariance). Un modle mixte comprend des effets fixes (nb de modalits fixes, prenant des valeurs constantes) et des effets alatoires (on considre quil existe une loi de distribution de probabilits sous-jacente ; les valeurs sont issues de la ralisation de cette distribution). On peut distinguer trois types de MLGM : 1. Modles effets alatoires : certains effets varient alatoirement ( distribution effets patients, centres), sajoutant la variation rsiduelle 2. Modles coefficients alatoires : variation alatoire de leffet des co-variable(s) 3. Modlisation de la structure de corrlation entre observations

Trois exemples
1. Modle simple mesurant leffet dun traitement (deux modalits) compte tenu dun effet patient Dans cet exemple chaque patient i reoit toutes les deux modalits de traitement (j = 1, 2) Lapproche la plus simple consiste considrer les effets traitement, t et patient, p comme fixes (cela revient une ANOVA 2 facteurs, traitement et patient) : yij = + tj + pi + eij var(yij) = Le nombre de paramtres peut tre important, fonction du nombre de patients inclus dans ltude. Une autre approche consiste considrer leffet patient comme alatoire, il sagit alors dun modle mixte estimant la variance associe leffet patient :

yij = + tj + pi + eij eij N(0, ) pi N(0, p) var(yij) = + p cov (yij, yij) = p Au lieu destimer un effet individuel, comme dans le cas prcdant, diffrent pour chaque sujet, on sintresse maintenant un effet concernant la population gnrale des patients, considrant que les patients inclus dans ltude ont t chantillonns depuis cet univers. On comprend alors quil est lgitime de considrer ces effets individuels comme des variables alatoires. Il sagit dun modle effets alatoires. On voit que la variance totale est la somme de deux variances, la variance rsiduelle et la variance associe aux patients. Cette dernire est quivalente la covariance entre les mesures effectues chez un mme patient (cette covariance est nulle entre patients diffrents). 2. Essai multi-centrique avec mesures pre et post Dans cet exemple, le critre de jugement est mesur avant (pre) et aprs (y) traitement chez chaque patient.

Estimation simple du traitement : yi = + tk + ei Ajustement sur mesure avant traitement (=ANCOVA) : yi = + b. pre + tk + ei Introduction dun effet centre fixe: yi = + b.pre + tk + cj + ei Introduction dun terme dinteraction centre x traitement, fixe :

yi = + b.pre + tk + cj + (ct)jk+ ei Effets alatoire sur centre et centre x traitement conduisant un modle mixte effets alatoires ; les variances associes leffet centre et linteraction centre par traitement sont estimes : cj N(0, c) et (ct)jk N(0, ct)

3. Modles pour donnes longitudinales rptes Le design est le mme avec une srie de mesures rptes dans le temps. On sintresse ici la relation entre y et le temps. Le temps (tempsj) est introduit comme co-variable fixe et la pente (m) associe estime :

yij = + b . pre + tk + m . tempsij + eij On considre que la relation avec le temps varie suivant les patients, il faut donc estimer une droite de rgression par patient et introduire un intercept et une pente par patient ; le nombre de paramtres devient trs important, fonction du nombre de sujets inclus :

yij = + b.pre + tk + m . tempsij + pi + (pm)i . temps ij + eij On considre que les sujets sont issus dune population gnrale, intercepts et pentes sont alors considrs comme alatoires : il sagit dun modle mixte intercept (pi) et pentes alatoires (pm)i ; les variations alatoires se font autour dun intercept et dune pente moyenne ; les variances et covariances sont estimes, le nombre de paramtres diminue considrablement, le modle est dune porte gnrale.

Avantages des modles mixtes


Devant une structure hirarchique : o la variance significative est-elle significative ? existe-t-il un effet cluster ? o les infrences se font lensemble des entits possibles de niveau suprieur (centres, hpitaux, spatial) do une gnralisation des rsultats au-del de lchantillon dtude. Devant des donnes rptes avec donnes manquantes : meilleures estimations des effets fixes et des cart-types Taille dchantillon plus rduite Devant de petits chantillons : effets alatoires plus groups que effets fixes, on vite des paramtres extrmes par chance Devant des donnes manquantes at random dans un design cross-over ou donnes rptes : effet du traitement plus prcis Les variances par traitement peuvent tre estimes Leffet du traitement est autoris varier selon les sujets, do une meilleure prise en compte de leffet individu et une prdiction possible.