Appren Stat PDF

Apprentissage Statistique
&
Data mining
PHILIPPE BESSE
Version Juillet 2009
Institut de Math ematiques de Toulouse
Laboratoire de Statistique et Probabilit es UMR CNRS C5583
Institut National des Sciences Appliqu ees de Toulouse 31077 Toulouse cedex 4.
2
Chapitre 1
Introduction
1 Objectif
Lobjet de ce cours est dintroduire, sous une forme homog` ene et synth etique, les techniques de mod elisation
statistique et issues de la th eorise de lapprentissage utilis ees le plus couramment en fouille de donn ees ou
data mining dans des champs dapplications tr` es divers : industriels, marketing, ou encore en relation avec
des th ematiques de recherche en Biologie,

Epid emiologie...
La premi` ere partie ou premier objectif dune telle d emarche : lexploration statistique et la recherche de
classes est d evelopp ee dans un autre document (Baccini et Besse 2000). Ce cours se focalise sur le deuxi` eme
objectif de la fouille de donn ees qui est la recherche dinformations pertinentes (de p epites dinformation)
pour laide ` a la d ecision et la pr evision.
La section 2 suivante de ce chapitre introduit ` a la fouille de donn ees tandis que la section 3 reprend ces
objectifs dans le cadre g en eral de la mod elisation an den elargir les champs dapplication. La section 4
d ecrit la strat egie tr` es g en eralement mise en place pour optimiser choix de m ethodes et choix de mod` eles ;
la section 5 d ecrit bri` evement quelques exemples dapplication et notamment ceux utilis es pour illustrer ce
cours. Enn, la section 6 liste rapidement les m ethodes qui sont abord ees et les raisons qui ont conduit ` a ce
choix.
2 Motivations du data mining
2.1 Origine
Le d eveloppement des moyens informatiques et de calcul permet le stockage (bases de donn ees), le
traitement et lanalyse densembles de donn ees tr` es volumineux. Plus r ecemment, le perfectionnement des
logiciels et de leurs interfaces offrent aux utilisateurs, statisticiens ou non, des possibilit es de mise en uvre
tr` es simples de ces m ethodes. Cette evolution, ainsi que la popularisation de nouvelles techniques algorith-
miques (r eseaux de neurones, support vector machine...) et outils graphiques, conduit au d eveloppement
et ` a la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) int egrant un
sous-ensemble de m ethodes statistiques et algorithmiques utilis ees sous la terminologie de Data Mining
g en eralement traduit par fouille de donn ees (voir Tuff ery 2007 pour un expos e plus complet et d etaill e).
Cette approche, dont la pr esentation est principalement issue du marketing sp ecialis e dans la gestion de
la relation client (GRC) (client relation management ou CRM), trouve egalement des d eveloppements et
applications industrielles en contr ole de qualit e ou m eme dans certaines disciplines scientiques d` es lors
que les ing enieurs et chercheurs sont confront es ` a un volume de donn ees important. Laccroche publicitaire
souvent cit ee par les editeurs de logiciels (SAS) est :
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nous proposons d evaluer et dexp erimenter la r ealit e de cette annonce qui sadresse ` a un march e en pleine
expansion. Les entreprises sont en effet tr` es motiv ees pour tirer parti et amortir, par une aide ` a la d ecision
quanti ee, les co uts de stockage des teras octets que leur service informatique semploie ` a administrer.
3
4 Chapitre 1. Introduction
2.2 Environnement
Le contexte informationnel de la fouille de donn ees est celui des data wharehouses. Un entrep ot de
donn ees, dont la mise en place est assur e par un gestionnaire de donn ees (data manager) est un ensemble
de bases relationnelles extraites des donn ees brutes de lentreprise et relatives ` a une probl ematique :
gestion des stocks (ux tendu), des ventes dun groupe an de pr evoir et anticiper au mieux les
tendances du march e,
suivi des chiers clients dune banque, dune assurance, associ es ` a des donn ees socio- economiques
(INSEE), ` a lannuaire, en vue de la constitution dune segmentation (typologie) pour cibler des
op erations de marketing ou des attributions de cr edit. La gestion de la relation client (GRC ou
CRM) vise ` a une individualisation ou personnalisation de la production et de la communication an
d evacuer la notion de client moyen.
recherche, sp ecication puis ciblage de niches de march e les plus protables (banque) ou au contraire
les plus risqu ees (assurance) ;
suivi en ligne des param` etres de production (tracabilit e) en contr ole de qualit e pour d etecter au plus
vite lorigine dune d efaillance ;
prospection textuelle (text mining) et veille technologique ;
web mining et comportement des internautes ;
. . .
Cet environnement se caract erise par
une informatique h et erog` ene faisant intervenir des sites distants (Unix, Dos, NT, VM. . . ) ` a travers
le r eseau de lentreprise (intranet) ou m eme des acc` es ext erieurs (internet). Des contraintes defca-
cit e, de abilit e ou de s ecurit e conduisent ` a r epartir, stocker linformation ` a la source plut ot qu` a la
dupliquer syst ematiquement ou ` a la centraliser.
Lincompatibilit e logique des informations observ ees sur des echantillons diff erents ne pr esentant pas
les m emes strates, les m emes codications.
Des volumes et ux consid erables de donn ees issues de saisies automatis ees et chiffr es en t era-octets.
Contrairement ` a une d emarche statistique traditionnelle (planication de lexp erience), les donn ees
analys ees sont stock ees ` a dautres ns (comptabilit e, contr ole de qualit e...) et sont donc pr ealables ` a
lanalyse.
La n ecessit e de ne pas exclure a priori un traitement exhaustif des donn ees an de ne pas lais-
ser echapper, ` a travers le crible dun sondage, des groupes de faibles effectifs mais ` a fort impact
economique.
3 Apprentissage statistique
Un peu de recul permet dinscrire la d emarche de la fouille de donn ees dans un contexte plus large et
donc potentiellement plus propice ` a dautres domaines dapplication.
3.1 Objectif g en eral
D` es quun ph enom` ene, quil soit physique, biologique ou autre, est trop complexe ou encore trop bruit e
pour acc eder ` a une description analytique d ebouchant sur une mod elisation d eterministe, un ensemble dap-
proches ont et e elabor ees an den d ecrire au mieux le comportement ` a partir dune s erie dobservations.
Citons la reconnaissance de la parole ou de caract` eres manuscrits, limagerie m edicale ou satellitaire, la
pr evision dune grandeur climatique ou economique, du comportement dun client. . . la plupart des disci-
plines scientiques sont concern ees. Historiquement, la Statistique sest beaucoup d evelopp ee autour de ce
type de probl` emes et a propos e des mod` eles incorporant dune part des variables explicatives ou pr edictives
et, dautre part, une composante al eatoire ou bruit. Il sagit alors destimer les param` etres du mod` ele ` a par-
tir des observations en contr olant au mieux les propri et es et donc le comportement de de la partie al eatoire.
Dans la m eme situation, la communaut e informatique parle plut ot dapprentissage visant le m eme objectif.
Apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les
principaux mots-clefs.
3.2 Probl ematiques
3. Apprentissage statistique 5
Supervis e vs. non-supervis e
Distinguons deux types de probl` emes : la pr esence ou non dune variable ` a expliquer Y ou dune forme
` a reconnatre qui a et e, conjointement avec X, observ ee sur les m emes objets. Dans le premier cas il sagit
bien dun probl` eme de mod elisation ou apprentissage supervis e : trouver une fonction susceptible, au
mieux selon un crit` ere ` a d enir, de reproduire Y ayant observ e X.
Y = (X) +
o` u symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive.
En cas derreur multiplicative, une transformation logarithmique ram` ene au probl` eme pr ec edent.
Dans le cas contraire, en labsence dune variable ` a expliquer, il sagit alors dapprentissage dit non-
supervis e. Lobjectif g en eralement poursuivi est la recherche dune typologie ou taxinomie des observa-
tions : comment regrouper celles-ci en classes homog` enes mais les plus dissemblables entre elles. Cest un
probl` eme de classication (clustering).
Attention, langlais classication se traduit plut ot en francais par discrimination ou classement (appren-
tissage supervis e) tandis que la recherche de classes (clustering) (apprentissage non-supervis e) fait appel
` a des m ethodes de classication ascendante hi erarchique ou ` a des algorithmes de r eallocation dynamique
(k-means) ou de cartes auto-organisatrices (Kohonen). Ces m ethodes de classication ou clustering ne sont
pas abord ees ici, elles ont et e regroup ees avec les techniques exploratoires (Baccini et Besse 2000).
Mod elisation vs. apprentissage
Tout au long de ce document, les termes de mod elisation et dapprentissage sont utilis ees comme
des synonymes ce qui est abusif tant que les objectifs dune etude nont pas et e clairement explicit es.
Dans la tradition statistique, la notion de mod` ele est centrale surtout avec une nalit e explicative. Il sagit
alors dapprocher la r ealit e, le vrai mod` ele, suppos e exister, eventuellement bas e sur une th eorie physique,
economique... sous-jacente. Le choix du mod` ele (cf. ci-dessous) est alors guid e par des crit` eres dajustement
et les d ecisions de validit e, de pr esence deffets, bas ees sur des tests reposant eux-m emes sur des hypoth` eses
probabilistes. Linterpr etation du r ole de chaque variable explicative est pr epond erante dans la d emarche.
En revanche, si lobjectif est essenti` elment pr edictif, il apparat que le meilleur mod` ele nest pas n ecessairement
celui qui ajusterait le mieux le vrai mod` ele. La th eorie de lapprentissage (Vapnik, 1999) montre alors que
le cadre th eorique est diff erent et les majorations derreur requi` erent une autre approche. Les choix sont
bas es sur des crit` eres de qualit e de pr evision visant ` a la recherche de mod` eles parcimonieux, cest-` a-dire de
complexit e (nombre de param` etres ou exibilit e limit ee) dont linterpr etabilit e passe au deuxi` eme plan. La
deuxi` eme devise des Shadoks (voir gure devshad) nest pas une r ef erence ` a suivre en Statistique !
Discrimination vs. r egression
Le type des variables statistiques consid er ees diff` erent selon lespace dans lequel elles prennent leurs
valeur. Elles peuvent etre qualitatives ` a valeurs dans un ensemble de cardinal ni ou quantitatives ` a valeurs
r eelles voire fonctionnelles (Besse et Cardot, 2003). Ce dernier cas est introduit en annexe par le chapitre
??. Certaines m ethodes dapprentissage ou de mod elisation sadaptent ` a tout type de variables explicatives
tandis que dautres sont sp ecialis ees. Enn, si Y ` a expliquer est qualitative, on parle de discrimination, clas-
sement ou reconnaissance de forme tandis que si Y est quantitative on parle, par habitude, dun probl` eme de
r egression. Dans ce cas encore, certaines m ethodes sont sp eciques (r egression lin eaire, analyse discrimi-
nante) tandis que dautres sadaptent sans modication profonde remettant en cause leur principe (r eseaux
de neurones, arbres de d ecision. . . ).
Statistique, informatique et taille des donn ees
Lorsque des hypoth` eses relatives au mod` ele (lin earit e) et aux distributions sont v eri ees cest-` a-dire,
le plus souvent, lorsque l echantillon ou les r esidus sont suppos es suivre des lois se mettant sous la forme
dune famille exponentielle (gaussienne, binomiale, poisson. . . ), les techniques statistiques de mod elisation
tir ees du mod` ele lin eaire g en eral sont optimales (maximum de vraisemblance) et, surtout dans le cas
d echantillons de taille restreinte, il semble difcile de faire beaucoup mieux.
En revanche, d` es que les hypoth` eses distributionnelles ne sont pas v eri ees, d` es que les relations sup-
FIGURE 1.1 Shadok : devise num ero 2
pos ees entre les variables ne sont pas lin eaires ou encore d` es que le volume des donn ees est important,
dautre m ethodes viennent concurrencer lapproche statistique classique.
Prenons un exemple simple : expliquer une variable quantitative Y par un ensemble X
1
, . . . , X
p
de
variables egalement quantitatives :
Y = (X
1
, . . . , X
p
) +.
observ ees sur un echantillon (y
i
, x
i
); i = 1, . . . , n de taille n Si est suppos ee lin eaire et p petit, de lordre
dune dizaine ; le probl` eme est bien connu et largement d ebattu dans la litt erature. Dans le cas o` u nest
pas franchement lin eaire et n grand, il est possible destimer pr ecis ement un nombre plus important de
param` etres et donc denvisager des mod` eles plus sophistiqu es. Si on sen tient au mod` ele gaussien usuel,
m eme le cas le plus simple dun mod` ele polyn omial devient vite probl ematique. En effet, lorsque est
lin eaire, prenons p = 10, la proc edure de choix de mod` ele est confront ee ` a un ensemble de 2
10
mod` eles
possibles et des algorithmes astucieux permettent encore de sen sortir. En revanche, consid erer pour
un simple polyn ome du deuxi` eme voire troisi` eme degr e avec toutes ses interactions, am` ene ` a consid erer
un nombre consid erable de param` etres et donc, par explosion combinatoire, un nombre astronomique de
mod` eles possibles. Dautres m ethodes doivent alors etre consid er ees en prenant en compte n ecessairement
la complexit e algorithmique des calculs. Ceci explique limplication dune autre discipline, linformatique,
dans cette probl ematique. Le souci de calculabilit e lemporte sur la d enition math ematique du probl` eme
qui se ram` ene ` a loptimisation dun crit` ere dajustement de sur un ensemble de solutions plus ou moins
riche. Ces m ethodes ont souvent et e d evelopp ees dans un autre environnement disciplinaire : informatique,
intelligence articielle. . . ; k plus proches voisins, r eseaux de neurones, arbres de d ecisions, support vector
machine deviennent des alternatives cr edibles d` es lors que le nombre dobservations est sufsant ou le
nombre de variables tr` es important.
3.3 Strat egies de choix
Choix de m ethode
Avec lav` enement du data mining, de tr` es nombreux articles comparent et opposent les techniques sur
des jeux de donn ees publics et proposent des am eliorations incr ementales de certains algorithmes. Apr` es
une p eriode evreuse o` u chacun tentait dafcher la supr ematie de sa m ethode, un consensus sest etabli au-
tour de lid ee quil ny a pas de meilleure m ethode. Chacune est plus ou moins bien adapt ee au probl` eme
pos e, ` a la nature des donn ees ou encore aux propri et es de la fonction ` a approcher ou estimer. Sur le plan
m ethodologique, il est alors important de savoir comparer des m ethodes an de choisir la plus pertinente.
Cette comparaison repose sur une estimation derreur (de r egression ou de classement) quil est n ecessaire
3. Apprentissage statistique 7
FIGURE 1.2 Sous-ajustement lin eaire et sur-ajustement local (proches voisins) dun mod` ele quadratique.
de conduire avec soin. Un chapitre (5) est consacr e ` a ce point.
Choix de mod` ele : equilibre biais-variance
Tous les auteurs saccordent pour souligner limportance quil y a ` a construire des mod` eles parcimo-
nieux quelque soit la m ethode utilis ee. Toutes les m ethodes sont concern ees : nombre de variables expli-
catives, de feuilles dans un arbre ou de neurones dans une couche cach ee. . . . Seuls les algorithmes de
combinaison de mod` eles (bagging, boosting) contournent cette etape au prix dun accroissement sensible
du volume des calculs et surtout de linterpr etabilit e des r esultats obtenus.
Lalternative est claire, plus un mod` ele est complexe et donc plus il int` egre de param` etres et plus il est
exible donc capable de sajuster aux donn ees engendrant ainsi une erreur faible dajustement. En revanche,
un tel mod` ele peut sav erer d efaillant lorsquil sagira de pr evoir ou g en eraliser, cest-` a-dire de sappliquer
` a des donn ees qui nont pas particip e ` a son estimation.
Lexemple el ementaire de la gure 10.1 illustre ce point fondamental dans le cas dun probl` eme de
discrimination dans IR
2
. Une fronti` ere dolnt le mod` ele vrai est quadratique est, ` a cause derreurs de
mesure sous-ajust ee par une r egression lin eaire mais surajust ee par un polyn ome de degr e plus elev e ou
lalgorithme local des k plus proches voisins.
Ce probl` eme sillustre aussi facilement en r egression classique. Ajouter des variables explicatives dans
un mod` ele ne peut que r eduire lerreur dajustement (le R
2
) et r eduit le biais si le vrai mod` ele est un
mod` ele plus complet. Mais, ajouter des variables fait r edhibitoirement crotre la variance des estimateurs et
donc celle des pr evisions qui se d egradent, voire explose, avec la multicolin earit e des variables explicatives.
Un risque pour le mod` ele, ou erreur quadratique de pr evision, sexprimant comme le carr e du biais plus la
variance, il est important doptimiser le dosage entre biais et variance en contr olant le nombre de variables
dans le mod` ele (sa complexit e) an de minimiser le risque. Ces remarques conduisent ` a la d enition de
crit` eres de choix de mod` ele dont le C
p
de Mallows fut un pr ecurseur en r egression suivi par dautres
propositions : Akake (AIC), Schwartz (BIC). . .
Parfois plus que celui de la m ethode, le choix du bon mod` ele dans une classe ou ensemble de mod` eles
pour une m ethode donn ee est primordial. En cons equence, les probl` emes doptimisation consid er es doivent
mettre en uvre un crit` ere qui prend en compte la complexit e du mod` ele, cest-` a-dire la complexit e de
lespace ou de la classe dans lequel la solution est recherch ee.
Choix de mod` ele : s election vs. r egularisation
Selon la m ethode consid er ee, la complexit e du mod` ele sexprime de diff erentes facons. Simple lors
dune s election de variable en r egression lin eaire, la complexit e est directement li ee ` a la dimension de
lespace engendr e et donc au nombre de variables. Les choses se compliquent pour les mod` eles non-lin eaires
lorsque, ` a dimension x ee, cest la plus ou moins grande exibilit e des solutions qui doit etre p enalis ee.
Cest typiquement le cas en r egression non-param etrique ou fonctionnelle. Une p enalisation faisant in-
tervenir la norme carr ee de la d eriv ee seconde contr ole la exibilit e dun lissage spline. La largeur de
fen etre du noyau contr ole egalement la r egularit e de la solution. En r egression lin eaire, si le nombre et
les variables sont d etermin es, la version ridge de la r egression p enalise la norme carr ee du vecteur des
param` etres et restreint ainsi, par r egularisation, lespace des solutions pour limiter leffet de la multico-
lin earit e.
Enn, pour aborder en toute g en eralit e les situations les plus compliqu ees, Vapnik (1999) a formalis e
la th eorie de lapprentissage en introduisant une notion particuli` ere de dimension pour toute famille de
mod` eles.
4 Strat egie du data mining
4.1 Les donn ees
Dans la majorit e des probl` emes rencontr es, des caract eristiques ou variables X = (X
1
, . . . , X
p
) dites
explicatives ou pr edictives ont et e observ ees sur un ensemble de n objets, individus ou unit es statistiques.
Un premier travail, souvent fastidieux mais incontournable, consiste ` a mener une exploration statistique de
ces donn ees : allure des distributions, pr esence de donn ees atypiques, corr elations et coh erence, transfor-
mations eventuelles des donn ees, description multidimensionnelle, r eduction de dimension, classication.
Cest lobjet dun cours distinct dexploration statistique (Baccini et Besse 2000). La deuxi` eme partie d ecrit
les outils de mod elisation statistique ou encore dapprentissage utilisables pour la mod elisation ` a n de
pr evision dune variable cible Y par les variables explicatives X
j
.
Lenchanement, eventuellement it eratif, de ces etapes (exploration puis apprentissage) constitue le fon-
dement de la fouille de donn ees.
Pour comprendre la structure et bien appr ehender le contenu de ce cours, il est important dint egrer
rapidement ce quest la strat egie ` a mettre en uvre pour aboutir au bon apprentissage ou encore au bon
mod` ele pr edictif recherch e ` a partir des donn ees observ ees.
Attention, contrairement ` a une d emarche statistique traditionnelle dans laquelle lobservation des donn ees
est int egr ee ` a la m ethodologie (planication de lexp erience), les donn ees sont ici pr ealables ` a lanalyse.
N eanmoins il est clair que les pr eoccupations li ees ` a leur analyse et ` a son objectif doivent intervenir le plus
en amont possible pour sassurer quelques chances de succ` es.
4.2 Les etapes de lapprentissage
Les traitements senchanent de facon assez syst ematique selon le sch ema suivant et quelque soit le
domaine dapplication :
i. Extraction des donn ees avec ou sans echantillonnage faisant r ef erence ` a des techniques de sondage
appliqu ees ou applicables ` a des bases de donn ees.
ii. Exploration des donn ees pour la d etection de valeurs aberrantes ou seulement atypiques, dincoh erences,
pour l etude des distributions des structures de corr elation, recherche de typologies, pour des trans-
formations des donn ees. . .
iii. Partition al eatoire de l echantillon (apprentissage, validation, test) en fonction de sa taille et des tech-
niques qui seront utilis ees pour estimer une erreur de pr evision en vue des etapes de choix de mod` ele,
puis de choix et certication de m ethode.
iv. Pour chacune des m ethodes consid er ees : mod` ele lin eaire g en eral (gaussien, binomial ou poissonien),
discrimination param etrique (lin eaire ou quadratique) ou non param etrique, k plus proches voisins,
arbre, r eseau de neurones (perceptron), support vecteur machine, combinaison de mod` eles (bagging,
boosting).
estimer le mod` ele pour une valeur donn ee dun param` etre de complexit e : nombre de variables, de
voisins, de feuilles, de neurones, dur ee de lapprentissage, largeur de fen etre. . . ;
optimiser ce param` etre (sauf pour les combinaisons de mod` eles affranchies des probl` emes de sur-
apprentissage) en fonction de la technique destimation de lerreur retenue : echantillon de vali-
dation, validation crois ee, approximation par p enalisation de lerreur dajustement (crit` eres C
p
,
5. Exemples et jeux de donn ees 9
AIC).
v. Comparaison des mod` eles optimaux obtenus (un par m ethode) par estimation de lerreur de pr evision
sur l echantillon test ou, si la pr esence dun echantillon test est impossible, sur le crit` ere de p enalisation
de lerreur (AICdAkake par exemple) sil en existe une version pour chacune des m ethodes consid er ees.
vi. It eration eventuelle de la d emarche pr ec edente (validation crois ee), si l echantillon test est trop r eduit,
depuis (iii). Partitions al eatoires successives de l echantillon pour moyenner sur plusieurs cas lesti-
mation nale de lerreur de pr evision et sassurer de la robustesse du mod` ele obtenu.
vii. Choix de la m ethode retenue en fonction de ses capacit es de pr evision, de sa robustesse mais aussi,
eventuellement, de linterpr etabillit e du mod` ele obtenu.
viii. R e-estimation du mod` ele avec la m ethode, le mod` eles et sa complexit ee optimis es ` a l etape pr ec edente
sur lensemble des donn ees.
ix. exploitation du mod` ele sue la base.
5 Exemples et jeux de donn ees
En plus des exemples p edagogiques permettant dillustre simplement les diff erentes m ethodes etudi ees,
dautres exemples en vraie grandeur permettent den evaluer r eellement la pertinence mais aussi toute la
complexit e de mise en uvre. Dautres exemples sont encore plus concr` etement propos es en travaux dirig es
avec leur traitement informatique.
5.1 Banque, nance, assurance : Marketing
Lobjectif est une communication personnalis ee et adapt ee au mieux ` a chaque client. Lapplication la
plus courante est la recherche dun score estim e sur un echantillon de client` ele pour lapprentissage puis
extrapol e ` a lensemble en vu dun objectif commercial :
App etence pour un nouveau produit nancier : mod elisation de la probabilit e de poss eder un bien
(contrat dassurance...) puis application ` a lensemble de la base. Les clients, pour lesquels le mod` ele
pr edit la possession de ce bien alors que ce nest pas le cas, sont d emarch es (t el e marketing, publi-
postage ou mailing, phoning,...) prioritairement.
Attrition ; m eme chose pour evaluer les risques de d epart (churn) des clients par exemple chez un
op erateur de t el ephonie. Les clients pour lesquels le risque pr edit est le plus important recoivent des
incitations ` a rester.
Risque pour lattribution dun cr edit bancaire ou louverture de certains contrats dassurance.
...
Lexemple trait e reprend les donn ees bancaires de Baccini et Besse 2000. Apr` es la phase exploratoire,
il sagit de construire un score dapp etence de la carte Visa Premier dans lid ee de d eliser les meilleurs
clients. La variable ` a pr edire est binaire : possession ou non de cette carte en fonction des avoirs et compor-
tements bancaires d ecrits par 32 variables sur un millier de clients.
5.2 Environnement : pic dozone
Lobjectif est de pr evoir pour le lendemain les risques de d epassement de seuils de concentration
dozone dans les agglom erations ` a partir de donn ees observ ees : concentrations en 03, NO3, NO2... du
jour, et dautres pr edites par M et eo-France : temp erature, vent... Encore une fois, le mod` ele apprend sur les
d epassements observ es an de pr edire ceux ` a venir.
Il sagit dun probl` eme de r egression : la variable ` a pr edire est une concentration mais elle peut aussi etre
consid er ee comme binaire : d epassement ou non dun seuil. Il y a 8 variables explicatives dont une est d ej` a
une pr evision de concentration dozone mais obtenue par un mod` ele d eterministe de m ecanique des uides
( equation de Navier et Stockes). Lapproche statistique vient am eliorer cette pr evision en mod elisant les
erreurs et en tenant compte dobservations de concentration doxyde et dioxyde dazote, de vapeur deau,
de la pr evision de la temp erature ainsi que de la force du vent.
5.3 Sant e : aide au diagnostic
Les outils statistiques sont largement utilis es dans le domaine de la sant e. Ils le sont syst ematiquement
lors des essais cliniques dans un cadre l egislatif stricte mais aussi lors d etudes epid emiologiques pour la
recherche de facteurs de risques dans des grandes bases de donn ees ou encore pour laide au diagnostic.
Lexemple etudi e illustre ce dernier point : il sagit de pr evoir un diagnostic ` a partir de tests biologiques et
dexamens el ementaires. Bien entendu, la variable ` a pr edire, dont l evaluation n ecessite souvent une analyse
tr` es co uteuse voire une intervention chirurgicale, est connue sur l echantillon n ecessaire ` a lestimation des
mod` eles.
Dans lexemple etudi e (breast cancer), il sagit de pr evoir le type de la tumeur (b enigne, maligne) lors
dun cancer du sein ` a laide de 9 variables explicatives biologiques.
5.4 Biologie : s election de g` enes
Les techniques de microbiologie permettent de mesurer simultan ement lexpression (la quantit e dARN
messager produite) de milliers de g` enes dans des situations exp erimentales diff erentes, par exemple entre
des tissus sains et dautres canc ereux. Lobjectif est donc de d eterminer quels g` enes sont les plus suscep-
tibles de participer aux r eseaux de r egulation mis en cause dans la pathologie ou autre ph enom` ene etudi e. Le
probl` eme s enonce simplement mais r ev` ele un redoutable niveau de complexit e et pose de nouveaux d es
au statisticien. En effet, contrairement aux cas pr ec edents pour lesquels des centaines voire des milliers
dindividus peuvent etre observ es et participer ` a lapprentissage, dans le cas des biopuces, seuls quelques
dizaines de tissus son analys es ` a cause essentiellement du prix et de la complexit e dune telle exp erience.
Compte tenu du nombres de g` enes ou variables, le probl` eme de discrimination est s ev` erement ind etermin e.
Dautes approches, dautres techniques sont n ecessaires pour pallier ` a linsufsance des m ethodes clas-
siques de discrimination.
Lexemple reprend les donn ees de Baccini et Besse (2000) concernant les diff erences dexpression des
g` enes en croisant deux facteurs lors dune exp erience de r egime alimentaire (5 r egimes) chez des souris
(2 g enotypes). La suite de l etude conduit donc ` a rechercher les g` enes expliquant au mieux les distinctions
entre g enotypes et aussi entre r egimes.
5.5 Exemples industriels
Les exemples ci-dessous sont cit es ` a titre illustratif mais leur complexit e, inh erente ` a beaucoup de
probl` emes industriels, ne permet pas de les d etailler ` a des ns p edagogiques.
Motorola : D etection de d efaillance
Un proc ed e de fabrication de microprocesseurs comporte des centaines d etapes (photogravures, d ep ots,
cuissons, polissages, lavages...) dont tous les param` etres, equipement et mesures physiques (temp eratures,
pressions...), sont enregistr es dans une grande base de donn ees permettant la tracabilit e des produits ma-
nufactur es. Le test electrique de chaque microprocesseur ne peut se faire quen n de fabrication lorsque
ceux-ci sont achev es. Il est evidement important de pouvoir d eterminer, lors de lapparition dune baisse du
rendement et en utilisant les donn ees de la base, l equipement ou la fourniture responsable de la d efaillance
an dy rem edier le plus rapidement possible.
Airbus : Aide au pilotage
Les graphes de la gure 1.3 tracent les enregistrements des commandes et positions dun avion en vol.
Ceux-ci mettent en evidence un ph enom` ene de r esonance entre lappareil et le comportement du pilote qui
est tr` es dangereux pour la s ecurit e. Lobjectif est de construire un mod` ele susceptible, en temps r eel, de
d etecter une telle situation an dy rem edier par exemple en durcissant les commandes de vol electriques.
Le probl` eme est tr` es sp ecique car les donn ees, ou signaux, sont mesur ees en temps r eel et constituent des
discr etisations de courbes.
5. Exemples et jeux de donn ees 11
0 2 4 6 8 10 12
0
10
q
m
0 2 4 6 8 10 12
0
10
q
0 2 4 6 8 10 12 14
2
4
6
8
0 2 4 6 8 10 12
0
0.5
1
Neural PIO detector
FIGURE 1.3 Airbus : Pompage pilot e r ev el e par lobservation des param` etres en temps r eel. De (haut en
bas) : manche, assiette, gouverne comparer avec la pr evision quen fait un r eseau de neurones.
6 Contenu
Il a fallu faire des choix dans lensemble des techniques propos ees et leurs nombreux avatars. La forme
et le contenu sont guid es par les besoins exprim es lors des stages r ealis ees par les etudiants du d epartement
G enie Math ematique de lINSA, du Master professionnel de Statistique &

Econom etrie ou encore par les
th` emes des collaborations industrielles et scientiques du laboratoire de Statistique et Probabilit es. Le lec-
teur peut se faire une id ee du nombre tr` es important de m ethodes et variantes concern ees par lapprentissage
supervis ee ou non supervis e en consultant une bote ` a outil Mathlab de classication
1
. Remarquons que les
principaux logiciels commerciaux (SAS, Splus, SPSS, Matlab. . . ) ou gratuits (R), performants et simposant
par des interfaces tr` es conviviales (Enterprise Miner, Insightfull Miner, Clementine), contribuent largement
` a la diffusion, voire la p en etration, de m ethodes tr` es sophistiqu ees dans des milieux imperm eables ` a une
conceptualisation math ematique trop abstraite.
Chaque m ethode ou famille de m ethodes de mod elisation et dapprentissage parmi les plus r epandues,
est pr esent ee de facon plus ou moins succincte dans un chapitre distinct avec un objectif pr edictif. La
r egression lin eaire classique en statistique prend une place particuli` ere ` a titre p edagogique. Tr` es ant erieure
aux autres, elle donne lieu a une bibliographie abondante. Conceptuellement plus simple, elle permet din-
troduire plus facilement les probl ematiques rencontr ees comme celle du choix dun mod` ele par ses deux
approches types : la s election de variable ou la r egularisation (ridge). Pour une meilleure compr ehension
des logiciels qui y font largement r ef erence, une introduction (annexe) au mod` ele lin eaire g en eral four-
nit le cadre th eorique n ecessaire ` a lunication des r egressions lin eaire, loglin eaire et logistique ; cette
derni` ere reste toujours tr` es utilis ee en scoring. La pr esentation de lanalyse discriminante d ecisionnelle,
param etrique ou non param etrique, les k plus proches voisins, permet dintroduire egalement des notions
de th eorie bay esienne de la d ecision. Un chapitre incontournable est consacr e aux techniques destimation
dune erreur de pr evision sur lesquelles reposent les choix op erationnels d ecisifs : de mod` ele, de m ethode
mais aussi l evaluation de la pr ecision des r esultats escompt es. Les chapitres suivants sont consacr ees aux
techniques algorithmiques : arbres binaires de d ecision (classication and regression trees ou CART) et
` a celles plus directement issues de la th eorie de lapprentissage machine (machine learning) : r eseau de
neurones et perceptron, agr egation de mod` eles (boosting, random forest), support vector machine (SVM).
Enn un chapitre conclusif propose une comparaison syst ematique des m ethodes sur les diff erents jeux
de donn ees. Des annexes apportent des compl ements th eoriques ou m ethodologiques : mod elisation de
donn ees fonctionnelles, introduction au mod` ele lin eaire g en eral, bootstrap.
Le choix a et e fait de conserver et expliciter, dans la mesure du possible, les concepts originaux de
chaque m ethode dans son cadre disciplinaire tout en t achant dhomog en eiser notations et terminologies.
Lobjectif principal est de faciliter la compr ehension et linterpr etation des techniques des principaux logi-
ciels pour en faciliter une utilisation pertinente et r e echie. Ce cours ne peut etre dissoci e de s eances de
travaux dirig es sur ordinateur ` a laide de logiciels (SAS, R...) pour traiter des donn ees en vraie grandeur
dans toute leur complexit e.
1. http ://tiger.technion.ac.il/ eladyt/classication/
Chapitre 2
R egression lin eaire
1 Introduction
Ce chapitre ne propose quune introduction au mod` ele gaussien, ` a sa d enition et ` a son estimation
en privil egiant lobjectif de pr evision. Il sattarde donc sur le probl` eme d elicat du choix de mod` ele an,
principalement, den introduire et den illustrer les grands principes dans le cas relativement simple dun
mod` ele lin eaire. Une section introduit le mod` ele danalyse de covariance mais de nombreux aspects :
colin earit e, points inuents, tests, analyse de variance, mod` ele multinomial ou poissonien (mod` ele log-
lin eaire). . . sont n eglig es et ` a rechercher dans la bibliographie de m eme quune pr esentation globale du
mod` ele lin eaire g en eral incluant toutes ces approches et seulement r esum ee en annexe. Les statistiques
des tests el ementaires sont explicit ees an de faciliter la lectures et linterpr etation des r esultats issus des
logiciels.
Le but premier de ce chapitre est donc lexplication ou plut ot, la mod elisation dans un but pr edictif,
dune variable quantitative par plusieurs variables quantitatives (r egression lin eaire multiple) ou par un
m elange de variables quantitatives et qualitatives (analyse de covariance). Dans ce cadre, la question ma-
jeure est la recherche dun mod` ele parcimonieux assurant un bon equilibre entre la qualit e de lajustement
et la variance des param` etres an de minimiser lerreur de pr evision. Ceci n ecessite le r eglage n de la
complexit e du mod` ele ` a savoir le nombre de variables.
2 Mod` ele
Le mod` ele de r egression lin eaire multiple est loutil statistique le plus habituellement mis en uvre pour
l etude de donn ees multidimensionnelles. Cas particulier de mod` ele lin eaire, il constitue la g en eralisation
naturelle de la r egression simple.
Une variable quantitative Y dite ` a expliquer (ou encore, r eponse, exog` ene, d ependante) est mise en
relation avec p variables quantitatives X
1
, . . . , X
p
dites explicatives (ou encore de contr ole, endog` enes,
ind ependantes, r egresseurs).
Les donn ees sont suppos ees provenir de lobservation dun echantillon statistique de taille n (n > p+1)
de IR
(p+1)
:
(x
1
i
, . . . , x
j
i
, . . . , x
p
i
, y
i
) i = 1, . . . , n.
L ecriture du mod` ele lin eaire dans cette situation conduit ` a supposer que lesp erance de Y appartient
au sous-espace de IR
n
engendr e par 1, X
1
, . . . , X
p
o` u 1 d esigne le vecteur de IR
n
constitu e de 1 .
Cest-` a-dire que les (p + 1) variables al eatoires v erient :
y
i
=
0
+
1
x
1
i
+
2
x
2
i
+ +
p
x
p
i
+
i
i = 1, 2, . . . , n
avec les hypoth` eses suivantes :
i. Les
i
sont des termes derreur ind ependants et identiquement distribu es ; E(
i
) = 0, V ar() =
2
I.
13
14 Chapitre 2. R egression lin eaire
ii. Les termes x
j
sont suppos es d eterministes (facteurs contr ol es) ou bien lerreur est ind ependante de
la distribution conjointe de X
1
, . . . , X
p
. On ecrit dans ce dernier cas que :
E(Y [X
1
, . . . , X
p
) =
0
+
1
X
1
+
2
X
2
+ +
p
X
p
et V ar(Y [X
1
, . . . , X
p
) =
2
.
iii. Les param` etres inconnus
0
, . . . ,
p
sont suppos es constants.
iv. En option, pour l etude sp ecique des lois des estimateurs, une quatri` eme hypoth` ese consid` ere la
normalit e de la variable derreur (A(0,
2
I)). Les
i
sont alors i.i.d. de loi A(0,
2
).
Les donn ees sont rang ees dans une matrice X(n (p + 1)) de terme g en eral x
j
i
, dont la premi` ere
colonne contient le vecteur 1 (x
i
0
= 1), et dans un vecteur Y de terme g en eral y
i
. En notant les vecteurs
= [
1

p
]
et = [
0
1

p
]
, le mod` ele s ecrit matriciellement :

y = X +.
3 Estimation
Conditionnellement ` a la connaissance des valeurs des X
j
, les param` etres inconnus du mod` ele : le vec-
teur et
2
(param` etre de nuisance), sont estim es par minimisation des carr es des ecarts (M.C.) ou encore,
en supposant (iv), par maximisation de la vraisemblance (M.V.). Les estimateurs ont alors les m emes expres-
sions, lhypoth` ese de normalit e et lutilisation de la vraisemblance conf erant ` a ces derniers des propri et es
compl ementaires.
3.1 Estimation par M.C.
Lexpression ` a minimiser sur IR
p+1
s ecrit :
n
i=1
(y
i
1
x
1
i

2
x
2
i

p
x
p
i
)
2
= |y X|
2
= (y X)
(y X)
= y
y 2
y +
X.
Par d erivation matricielle de la derni` ere equation on obtient les equations normales :
X
y X
X = 0
dont la solution correspond bien ` a un minimum car la matrice hessienne 2X
Xest semi d enie-positive.

Nous faisons lhypoth` ese suppl ementaire que la matrice X
X est inversible, cest-` a-dire que la matrice

X est de rang (p + 1) et donc quil nexiste pas de colin earit e entre ses colonnes. En pratique, si cette
hypoth` ese nest pas v eri ee, il suft de supprimer des colonnes de Xet donc des variables du mod` ele. Des
diagnostics de colin earit e et des crit` eres aident au choix des variables.
Alors, lestimation des param` etres
j
est donn ee par :
b = (X
X)
1
X
y
et les valeurs ajust ees (ou estim ees, pr edites) de y ont pour expression :
y = Xb = X(X
X)
1
X
y = Hy
o` u H = X(X
X)
1
X
est appel ee hat matrix ; elle met un chapeau ` a y. G eom etriquement, cest la
matrice de projection orthogonale dans IR
n
sur le sous-espace Vect(X) engendr e par les vecteurs colonnes
de X.
On note
e = y y = y Xb = (I H)y
le vecteur des r esidus ; cest la projection de y sur le sous-espace orthogonal de Vect(X) dans IR
n
.
4. Inf erences dans le cas gaussien 15
3.2 Propri et es
Les estimateurs des M.C. b
0
, b
1
, . . . , b
p
sont des estimateurs sans biais : E(b) = , et, parmi les esti-
mateurs sans biais fonctions lin eaires des y
i
, ils sont de variance minimum (th eor` eme de Gauss-Markov) ;
ils sont donc BLUE : best linear unbiaised estimators. Sous hypoth` ese de normalit e, les estimateurs du
M.V. sont uniform ement meilleurs (efcaces) et concident avec ceux des M.C.
On montre que la matrice de covariance des estimateurs se met sous la forme
E[(b )(b )
] =
2
(X
X)
1
,
celle des pr edicteurs est
E[( y X)( y X)
] =
2
H
et celle des estimateurs des r esidus est
E[(e u)((e u))
] =
2
(I H)
tandis quun estimateur sans biais de
2
est fourni par :
s
2
=
|e|
2
n p 1
=
|y X|
2
n p 1
=
SSE
n p 1
.
Ainsi, les termes s
2
h
i
i
sont des estimations des variances des pr edicteurs y
i
.
3.3 Sommes des carr es
SSE est la somme des carr es des r esidus (sum of squared errors),
SSE = |y y|
2
= |e|
2
.
On d enit egalement la somme totale des carr es (total sum of squares) par
SST = |y y1|
2
= y
y n y
2
et la somme des carr es de la r egression (regression sum of squares) par
SSR = | y y1|
2
= y
y n y
2
= y
Hy n y
2
= b
y n y
2
.
On v erie alors : SST = SSR + SSE.
3.4 Coefcient de d etermination
On appelle coefcient de d etermination le rapport
R
2
=
SSR
SST
qui est donc la part de variation de Y expliqu ee par le mod` ele de r egression. G eom etriquement, cest un
rapport de carr es de longueur de deux vecteurs. Cest donc le cosinus carr e de langle entre ces vecteurs : y
et sa projection y sur Vect(X).
Attention, dans le cas extr eme o` u n = (p + 1), cest-` a-dire si le nombre de variables explicatives est
grand comparativement au nombre dobservations, R
2
= 1. Ou encore, il est g eom etriquement facile de
voir que lajout de variables explicatives ne peut que faire crotre le coefcient de d etermination.
La quantit e R est appel ee coefcient de corr elation multiple entre Y et les variables explicatives, cest
le coefcient de corr elation usuel entre y et sa pr evision (ou projection) y.
4 Inf erences dans le cas gaussien
En principe, lhypoth` ese optionnelle (iv) de normalit e des erreurs est n ecessaire pour cette section. En
pratique, des r esultats asymptotiques, donc valides pour de grands echantillons, ainsi que des etudes de
simulation, montrent que cette hypoth` ese nest pas celle dont la violation est la plus p enalisante pour la
abilit e des mod` eles.
4.1 Inf erence sur les coefcients
Pour chaque coefcient
j
on montre que la statistique
b
j

j
b
j
o` u
2
b
j
, variance de b
j
est le j` eme terme diagonal de la matrice s
2
(X
X)
1
, suit une loi de Student ` a
(n p 1) degr es de libert e. Cette statistique est donc utilis ee pour tester une hypoth` ese H
0
:
j
= a ou
pour construire un intervalle de conance de niveau 100(1 )% :
b
j
t
/2;(np1)
b
j
.
Attention, cette statistique concerne un coefcient et ne permet pas dinf erer conjointement (cf. 3.4)
sur dautres coefcients car ils sont corr el es entre eux ; de plus elle d epend des absences ou pr esences des
autres variables X
k
dans le mod` ele. Par exemple, dans le cas particulier de deux variables X
1
et X
2
tr` es
corr el ees, chaque variable, en labsence de lautre, peut apparatre avec un coefcient signicativement
diff erent de 0 ; mais, si les deux sont pr esentes dans le mod` ele, elles peuvent chacune apparatre avec des
coefcients insigniants.
De facon plus g en erale, si c d esigne un vecteur non nul de (p + 1) constantes r eelles, il est possible
de tester la valeur dune combinaison lin eaire c
b des param` etres en consid erant lhypoth` ese nulle H

0
:
c
b = a ; a connu. Sous H
0
, la statistique
c
b a
(s
2
c
(X
X)
1
c)
1/2
suit une loi de Student ` a (n p 1) degr es de libert e.
4.2 Inf erence sur le mod` ele
Le mod` ele peut etre test e globalement. Sous lhypoth` ese nulle H
0
:
1
=
2
= . . . =
p
= 0, la
statistique
SSR/p
SSE/(n p 1)
=
MSR
MSE
suit une loi de Fisher avec p et (n p 1) degr es de libert e. Les r esultats sont habituellement pr esent es
dans un tableau danalyse de la variance sous la forme suivante :
Source de
variation d.d.l.
Somme
des
carr es
Variance F
R egression p SSR MSR=SSR/p MSR/MSE
Erreur n p 1 SSE MSE=SSE/(n p 1)
Total n 1 SST
4.3 Inf erence sur un mod` ele r eduit
Le test pr ec edent am` ene ` a rejeter H
0
d` es que lune des variables X
j
est li ee ` a Y . Il est donc dun
int er et limit e. Il est souvent plus utile de tester un mod` ele r eduit cest-` a-dire dans lequel certains coef-
cients, ` a lexception de la constante, sont nuls contre le mod` ele complet avec toutes les variables. En ayant
eventuellement r eordonn e les variables, on consid` ere lhypoth` ese nulle H
0
:
1
=
2
= . . . =
q
= 0, q <
p.
Notons respectivement SSR
q
, SSE
q
, R
2
q
les sommes de carr es et le coefcient de d etermination du
mod` ele r eduit ` a (p q) variables. Sous H
0
, la statistique
(SSR SSR
q
)/q
SSE/(n p 1)
=
(R
2
R
2
q
)/q
(1 R
2
)/(n p 1)
4. Inf erences dans le cas gaussien 17
suit une loi de Fisher ` a q et (n p 1) degr es de libert e.
Dans le cas particulier o` u q = 1 (
j
= 0), la F-statistique est alors le carr e de la t-statistique de
linf erence sur un param` etre et conduit donc au m eme test.
4.4 Pr evision
Connaissant les valeurs des variables X
j
pour une nouvelle observation : x
0
= [x
1
0
, x
2
0
, . . . , x
p
0
] appar-
tenant au domaine dans lequel lhypoth` ese de lin earit e reste valide, une pr evision, not ee y
0
de Y ou E(Y )
est donn ee par :
y
0
= b
0
+b
1
x
1
0
+ +b
p
x
p
0
.
Les intervalles de conance des pr evisions de Y et E(Y ), pour une valeur x
0
IR
p
et en posant v
0
=
(1[x
0
)
IR
p+1
, sont respectivement
y
0
t
/2;(np1)
s(1 +v
0
(X
X)
1
v
0
)
1/2
,
y
0
t
/2;(np1)
s(v
0
(X
X)
1
v
0
)
1/2
.
4.5 Exemple
Les donn ees sont extraites de Jobson (1991) et d ecrivent les r esultats comptables de 40 entreprises du
Royaume Uni.
RETCAP Return on capital employed
WCFTDT Ratio of working capital ow to total debt
LOGSALE Log to base 10 of total sales
LOGASST Log to base 10 of total assets
CURRAT Current ratio
QUIKRAT Quick ratio
NFATAST Ratio of net xed assets to total assets
FATTOT Gross sixed assets to total assets
PAYOUT Payout ratio
WCFTCL Ratio of working capital ow to total current liabilities
GEARRAT Gearing ratio (debt-equity ratio)
CAPINT Capital intensity (ratio of total sales to total assets)
INVTAST Ratio of total inventories to total assets
Mod` ele complet
La proc edure SAS/REG est utilis ee dans le programme suivant. Beaucoup doptions sont actives an de
fournir la plupart des r esultats m eme si certains sont redondants ou peu utiles.
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp1 all;
model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST
NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
/dw covb Influence cli clm tol vif collin R P;
output out=resout h=lev p=pred r=res student=resstu ;
run;
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F
(1)
Model 12 0.55868 (2) 0.04656 (5) 8.408 (7) 0.0001 (8)
Error 27 0.14951 (3) 0.00554 (6)
C Total 39 0.70820 (4)
Root MSE 0.07441 (9) R-square 0.7889 (12)
Dep Mean 0.14275 (10) Adj R-sq 0.6951 (13)
C.V. 52.12940 (11)
(1) degr es de libert e de la loi de Fisher du test global
(2) SSR
(3) SSE ou d eviance
(4) SST=SSE+SSR
(5) SSR/DF
(6) s
2
=MSE=SSE/DF est lestimation de
2
(7) Statistique F du test de Fisher du mod` ele global
(8) P(f
p;np1
> F) ; H
0
est rejet ee au niveau si P <
(9) s =racine de MSE
(10) moyenne empirique de la variable ` a expliqu ee
(11) Coefcient de variation 100 (9)/(10)
(12) Coefcient de d etermination R
2
(13) Coefcient de d etermination ajust e R
2
Parameter Estimates
Parameter Standard T for H0: Variance
Variable DF Estimate Error Parameter=0 Prob>|T| Tolerance Inflation
(1) (2) (3) (4) (5) (6)
INTERCEP 1 0.188072 0.13391661 1.404 0.1716 . 0.00000000
WCFTCL 1 0.215130 0.19788455 1.087 0.2866 0.03734409 26.77799793
WCFTDT 1 0.305557 0.29736579 1.028 0.3133 0.02187972 45.70441500
GEARRAT 1 -0.040436 0.07677092 -0.527 0.6027 0.45778579 2.18442778
LOGSALE 1 0.118440 0.03611612 3.279 0.0029 0.10629382 9.40788501
LOGASST 1 -0.076960 0.04517414 -1.704 0.0999 0.21200778 4.71680805
...
(1) estimations des param` etres (b
j
)
(2) ecarts-types de ces estimations (s
b
j
)
(3) statistique T du test de Student de H
0
: b
j
= 0
(4) P(t
np1
> T) ; H
0
est rejet ee au niveau si P <
(5) 1 R
2
(j)
(6) VIF=1/(1 R
2
(j)
)
Ces r esultats soulignent les probl` emes de colin earit es. De grands VIF sont associ es ` a de grands ecart-
types des estimations des param` etres. Dautre part les nombreux tests de Student non signicatifs montrent
que trop de variables sont pr esentes dans le mod` ele. Cette id ee est renforc ee par le calcul de lindice de
conditionnement (explicit e dans la section suivante : 8.76623/0.00125).
5 Choix de mod` ele
De facon un peu sch ematique, on peut associer la pratique de la mod elisation statistique ` a trois objectifs
qui peuvent eventuellement etre poursuivis en compl ementarit e.
Descriptif : Il vise ` a rechercher de facon exploratoire les liaisons entre Y et dautres variables, potentiel-
lement explicatives, X
j
qui peuvent etre nombreuses an, par exemple den s electionner un sous-
ensemble.
`
A cette strat egie, ` a laquelle peuvent contribuer des Analyses en Composantes Principales,
correspond des algorithmes de recherche (pas ` a pas) moins performants mais economiques en temps
de calcul si p est grand.
Attention, si n est petit, et la recherche sufsamment longue avec beaucoup de variables explicatives,
il sera toujours possible de trouver un bon mod` ele expliquant y ; cest leffet data mining dans les
mod` eles econom etriques appel e maintenant data snooping.
Explicatif : Le deuxi` eme objectif est sous-tendu par une connaissance a priori du domaine concern e et
dont des r esultats th eoriques peuvent vouloir etre conrm es, inrm es ou pr ecis es par lestimation
des param` etres. Dans ce cas, les r esultats inf erentiels pr ec edents permettent de construire le bon test
conduisant ` a la prise de d ecision recherch ee. Utilis ees hors de ce contexte, les statistiques de test
nont plus alors quune valeur indicative au m eme titre que dautres crit` eres plus empiriques.
5. Choix de mod` ele 19
Pr edictif : Dans le troisi` eme cas, laccent est mis sur la qualit e des estimateurs et des pr edicteurs qui
doivent, par exemple, minimiser une erreur quadratique moyenne. Cest la situation rencontr ee en
apprentissage. Ceci conduit ` a rechercher des mod` eles parcimonieux cest-` a-dire avec un nombre vo-
lontairement restreint de variables explicatives. Le meilleur mod` ele ainsi obtenu peut donner des es-
timateurs l eg` erement biais es au prot dun compromis pour une variance plus faible. Un bon mod` ele
nest donc plus celui qui explique le mieux les donn ees au sens dune d eviance (SSE) minimale (ou
dun R
2
max) au prix dun nombre important de variables pouvant introduire des colin earit es. Le bon
mod` ele est celui qui conduit aux pr evisions les plus ables.
Certes, le th eor` eme de Gauss-Markov indique que, parmi les estimateurs sans biais, celui des moindres
carr es est de variance minimum. N eanmoins, il peut etre important de pr ef erer un estimateur l eg` erement
biais e si le gain en variance est lui plus signicatif. Cest tout le probl` eme de trouver un bon equilibre entre
biais et variance an de minimiser un risque quadratique de pr evision. Il y a principalement deux facons de
biaiser un mod` ele dans le but de restreindre la variance :
en r eduisant le nombre de variables explicatives et donc en simpliant le mod` ele,
en contraignant les param` etres du mod` ele, en les r etr ecissant (schrinkage), en r egression ridge qui
op` ere une r egularisation.
Commencons par d ecrire les proc edures de s election.
5.1 Crit` eres
De nombreux crit` eres de choix de mod` ele sont pr esent es dans la litt erature sur la r egression lin eaire
multiple. Citons le crit` ere dinformation dAkake (AIC), celui bay esien de Sawa (BIC). . . (cf. chapitre 5).
Ils sont equivalents lorsque le nombre de variables ` a s electionner, ou niveau du mod` ele, est x e. Le choix
du crit` ere est d eterminant lorsquil sagit de comparer des mod` eles de niveaux diff erents. Certains crit` eres
se ram` enent, dans le cas gaussien, ` a lutilisation dune expression p enalis ee de la fonction de vraisemblance
an de favoriser des mod` eles parcimonieux. En pratique, les plus utilis es ou ceux g en eralement fournis par
les logiciels sont les suivants.
Statistique du F de Fisher
Ce crit` ere, justi e dans le cas explicatif car bas e sur une qualit e dajustement est aussi utilis e ` a titre
indicatif pour comparer des s equences de mod` eles embot es. La statistique partielle de Fisher est
(SSR SSR
q
)/s
SSE/(n p 1)
=
(R
2
R
2
q
)
1 R
2
)
n p 1
q
dans laquelle lindice q d esigne les expressions concernant le mod` ele r eduit avec (p q) variables explica-
tives. On consid` ere alors que si laccroissement (R
2
R
2
q
) est sufsamment grand :
R
2
R
2
R
>
q
(n p 1)
F
;q,(np1)
,
lajout des q variables au mod` ele est justi e.
R
2
et R
2
ajust e
Le coefcient de d etermination R
2
= 1SSE/SST, directement li e ` a la d eviance (SSE) est aussi un
indice de qualit e mais qui a la propri et e d etre monotone croissant en fonction du nombre de variables. Il
ne peut donc servir qu` a comparer deux mod` eles de m eme niveau cest-` a-dire avec le m eme nombre de
variables.
En revanche, le R
2
ajust e :
R
2
= 1
n 1
n p 1
(1 R
2
) = 1
SSE/(n p 1)
SST/(n 1)
.
dans lequel le rapport SSE/SST est remplac e par un rapport des estimations sans biais des quantit es
2
et
2
y
introduit une p enalisation li ee au nombre de param` etres ` a estimer.
Ce coefcient sexprime encore par
1
(n 1)MSE
SST
ainsi dans la comparaison de deux mod` eles partageant la m eme SST, on observe que R
2
> R
2
j
si et seule-
ment si MSE<MSE
j
; MSE et MSE
j
d esignant respectivement lerreur quadratique moyenne du mod` ele
complet et celle dun mod` ele ` a j variables explicatives. Maximiser le R
2
ajust e revient donc ` a minimiser
lerreur quadratique moyenne.
C
p
de Mallows
Cet indicateur est une estimation de lerreur quadratique moyenne de pr evision qui s ecrit aussi comme
la somme dune variance et du carr e dun biais. Lerreur quadratique moyenne de pr evision s ecrit ainsi : :
MSE( y
i
) = Var( y
i
) + [Biais( y
i
)]
2
puis apr` es sommation et r eduction :
1
2
n
i=1
MSE( y
i
) =
1
2
n
i=1
Var( y
i
) +
1
2
n
i=1
[Biais( y
i
)]
2
.
En supposant que les estimations du mod` ele complet sont sans biais et en utilisant des estimateurs de
V ar( y
i
) et
2
, lexpression de lerreur quadratique moyenne totale standardis ee (ou r eduite) pour un mod` ele
` a j variables explicatives s ecrit :
C
p
= (n q 1)
MSE
j
MSE
[n 2(q + 1)]
et d enit la valeur du C
p
de Mallows pour les q variables consid er ees. Il est alors dusage de rechercher un
mod` ele qui minimise le C
p
tout en fournissant une valeur inf erieure et proche de (q + 1). Ceci revient ` a
consid erer que le vrai mod` ele complet est moins able quun mod` ele r eduit donc biais e mais destimation
plus pr ecise.
Akakes Information criterion (AIC)
A compl eter
PRESS de Allen
Il sagit lintroduction historique de la validation crois ee. On d esigne par y
(i)
la pr evision de y
i
calcul ee
sans tenir compte de la i` eme observation (y
i
, x
1
i
, . . . , x
p
i
), la somme des erreurs quadratiques de pr evision
(PRESS) est d enie par
PRESS =
n
i=1
(y
i
y
(i)
)
2
et permet de comparer les capacit es pr edictives de deux mod` eles. Le chapitre 5 donne plus de d etails sur ce
type destimation.
5.2 Algorithmes de s election
Lorsque p est grand, il nest pas raisonnable de penser explorer les 2
p
mod` eles possibles an de
s electionner le meilleur au sens de lun des crit` eres ci-dessus. Diff erentes strat egies sont donc propos ees
qui doivent etre choisies en fonction de lobjectif recherch e et des moyens de calcul disponibles ! Trois
types dalgorithmes sont r esum es ci-dessous par ordre croissant de temps de calcul n ecessaire cest-` a-dire
par nombre croissant de mod` eles consid er es parmi les 2
p
et donc par capacit e croissante doptimalit e. On
donne pour chaque algorithme loption selection ` a utiliser dans la proc edure REG de SAS.
Pas ` a pas
S election (forward)
`
A chaque pas, une variable est ajout ee au mod` ele. Cest celle dont la valeur p (prob
value)associ ee ` a la statistique partielle du test de Fisher qui compare les deux mod` eles est minimum.
La proc edure sarr ete lorsque toutes les variables sont introduites ou lorsque p reste plus grande
quune valeur seuil x ee par d efaut ` a 0, 50.
Elimination (backward) Lalgorithme d emarre cette fois du mod` ele complet.

`
A chaque etape, la variable
associ ee ` a la plus grande valeur p est elimin ee du mod` ele. La proc edure sarr ete lorsque les variables
restant dans le mod` ele ont des valeurs p plus petites quun seuil x e par d efaut ` a 0, 10.
Mixte (stepwise) Cet algorithme introduit une etape d elimination de variable apr` es chaque etape de
s election an de retirer du mod` ele d eventuels variables qui seraient devenues moins indispensables
du fait de la pr esence de celles nouvellement introduites.
Global
Lalgorithme de Furnival et Wilson est utilis e pour comparer tous les mod` eles possibles en cherchant ` a
optimiser lun des crit` eres : R
2
, R
2
ajust e, ou C
p
de Mallows (rsquare, adjrsq, cp) choisi par luti-
lisateur. Par souci d economie, cet algorithme evite de consid erer des mod` eles de certaines sous-branches de
larborescence dont on peut savoir a priori quils ne sont pas comp etitifs. En g en eral les logiciels ex ecutant
cet algorithme afchent le (best=1) ou les meilleurs mod` eles de chaque niveau.
5.3 Exemple
Parmi les trois types dalgorithmes et les diff erents crit` eres de choix, une des facons les plus efcaces
consistent ` a choisir les options du programme ci-dessous. Tous les mod` eles (parmi les plus int eressants
selon lalgorithme de Furnival et Wilson) sont consid er es. Seul le meilleur pour chaque niveau, cest-` a-dire
pour chaque valeur p du nombre de variables explicatives sont donn es. Il est alors facile de choisir celui
minimisant lun des crit` eres globaux (C
p
ou BIC ou . . . ).
options linesize=110 pagesize=30 nodate nonumber;
title;
proc reg data=sasuser.ukcomp2 ;
model RETCAP = WCFTCL WCFTDT GEARRAT LOGSALE LOGASST
NFATAST CAPINT FATTOT INVTAST PAYOUT QUIKRAT CURRAT
/ selection=rsquare cp rsquare bic best=1;
run;
N = 40 Regression Models for Dependent Variable: RETCAP
R-sq. Adjust. C(p) BIC Variables in Model
In R-sq
1 0.105 0.081 78.393 -163.2 WCFTCL
2 0.340 0.305 50.323 -173.7 WCFTDT QUIKRAT
3 0.615 0.583 17.181 -191.1 WCFTCL NFATAST CURRAT
4 0.720 0.688 5.714 -199.2 WCFTDT LOGSALE NFATAST CURRAT
5 0.731 0.692 6.304 -198.0 WCFTDT LOGSALE NFATAST QUIKRAT CURRAT
6 0.748 0.702 6.187 -197.2 WCFTDT LOGSALE NFATAST INVTAST QUIKRAT CURRAT
7 0.760 0.707 6.691 -195.7 WCFTDT LOGSALE LOGASST NFATAST FATTOT QUIKRAT CURRAT
8 0.769 0.709 7.507 -193.8 WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT CURRAT
9 0.776 0.708 8.641 -191.5 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST QUIKRAT
CURRAT
10 0.783 0.708 9.744 -189.1 WCFTCL WCFTDT LOGSALE LOGASST NFATAST FATTOT INVTAST PAYOUT
QUIKRAT CURRAT
11 0.786 0.702 11.277 -186.4 WCFTCL WCFTDT LOGSALE LOGASST NFATAST CAPINT FATTOT INVTAST
PAYOUT QUIKRAT CURRAT
12 0.788 0.695 13.000 -183.5 WCFTCL WCFTDT GEARRAT LOGSALE LOGASST NFATAST CAPINT FATTOT
INVTAST PAYOUT QUIKRAT CURRAT
Dans cet exemple, C
p
et BIC se comportent de la m eme facon. Avec peu de variables, le mod` ele est
trop biais e. Ils atteignent un minimum pour un mod` ele ` a 4 variables explicatives puis croissent de nouveau
selon la premi` ere bissectrice. La maximisation du R
2
ajust e conduirait ` a une solution beaucoup moins
parcimonieuse. On note par ailleurs que lalgorithme remplace WCFTCL par WCFTDT. Un algorithme par
s election ne peut pas aboutir ` a la solution optimale retenue.
5.4 Choix de mod` ele par r egularisation
Lautre strat egie qui cherche ` a conserver lensemble ou tout du moins la plupart des variables explica-
tives pose un probl` eme de multicolin earit e. Il est r esolu par une proc edure de r egularisation.
Probl` eme
Lestimation des param` etres ainsi que celle de leur ecart-type (standard error) n ecessite le calcul expli-
cite de la matrice (X
X)
1
. Dans le cas dit mal conditionn e o` u le d eterminant de la matrice X
X nest
que l eg` erement diff erent de 0, les r esultats conduiront ` a des estimateurs de variances importantes et m eme,
eventuellement, ` a des probl` emes de pr ecision num erique. Il sagit donc de diagnostiquer ces situations
critiques puis dy rem edier. Dans les cas descriptif ou pr edictif on supprime des variables ` a laide des
proc edures de choix de mod` ele mais, pour un objectif explicatif n ecessitant toutes les variables, dautres
solutions doivent etre envisag ees : algorithme de r esolution des equations normales par transformations
orthogonales (proc edure orthoreg de SAS) sans calcul explicite de linverse pour limiter les probl` emes
num eriques, r egression biais ee (ridge), r egression sur composantes principales.
VIF
La plupart des logiciels proposent des diagnostics de colin earit e. Le plus classique est le facteur din-
ation de la variance (VIF)
V
j
=
1
1 R
2
j
o` u R
2
j
d esigne le coefcient de d etermination de la r egression de la variable X
j
sur les autres variables
explicatives ; R
j
est alors un coefcient de corr elation multiple, cest le cosinus de langle dans IR
n
entre
X
j
et le sous-espace vectoriel engendr e par les variables X
1
, . . . , X
j1
, X
j+1
, . . . , X
p
. Plus X
j
est
lin eairement proche de ces variables et plus R
j
est proche de 1 ; on montre alors que la variance de lesti-
mateur de
j
est dautant plus elev ee.

Evidemment, cette variance est minimum lorsque X
j
est orthogonal
au sous-espace engendr e par les autres variables.
Conditionnement
De facon classique, les qualit es num eriques de linversion dune matrice sont quanti ees par son in-
dice de conditionnement. On note
1
, . . . ,
p
les valeurs propres de la matrice des corr elations R rang ees
par ordre d ecroissant. Le d eterminant de R est egal au produit des valeurs propres. Ainsi, des probl` emes
num eriques, ou de variances excessives apparaissent d` es que les derni` eres valeurs propres sont relativement
trop petites. Lindice de conditionnement est le rapport
=
1
/
p
de la plus grande sur la plus petite valeur propre.
En pratique, si < 100 on consid` ere quil ny a pas de probl` eme. Celui-ci devient s ev` ere pour >
1000. Cet indice de conditionnement donne un apercu global des probl` emes de colin earit e tandis que les
VIF, les tol erances ou encore l etude des vecteurs propres associ es au plus petites valeurs propres permettent
didentier les variables les plus probl ematiques.
R egression ridge
Ayant diagnostiqu e un probl` eme mal conditionn e mais d esirant conserver toutes les variables, il est
possible dam eliorer les propri et es num eriques et la variance des estimations en consid erant un estimateur
l eg` erement biais e des param` etres. Lestimateur ridge est donn e par
b
R
= (X
X+kI)
1
X
y,
qui a pour effet de d ecaler de la valeur k toutes les valeurs propres de la matrice ` a inverser et, plus par-
ticuli` erement, les plus petites qui re` etent la colin earit e. On montre que cela revient encore ` a estimer le
mod` ele par les moindres carr es sous la contrainte que la norme du vecteur
1
des param` etres ne soit pas
1. En pratique, la contrainte ne sapplique pas au terme constant
0
mais seulement aux coefcients du mod` ele.
FIGURE 2.1 Retour sur capital : Evolution des param` etres de la r egression ridge en fonction du param` etre
de r egularisation.
trop grande :
b
R
= arg min
_
|y X|
2
; ||
2
< c
_
.
Cest encore, en introduisant un multiplicateur de Lagrange dans le probl` eme de minimisation, un probl` eme
de moindres carr es p enalis es :
b
R
= arg min
|y X|
2
+||
2
.
Cela revient ` a p enaliser la norme de lestimateur pour emp echer les coefcients dexploser et donc pour
limiter la variance. On parle aussi destimateur ` a r etr ecisseur (shrinkage). Comme dans tout probl` eme de
r egularisation, il est n ecessaire de xer la valeur du param` etre ; la validation crois ee peut etre utilis ee ` a
cette n mais la lecture du graphique (cf. gure 2.1) montrant l evolution des param` etres en fonction du co-
efcient ridge est souvent sufsante. La valeur est choisie au point o` u la d ecroissance des param` etres devient
faible et quasi-lin eaire. Une autre version (lasso) de r egression biais ee est obtenue en utilisant la norme en
valeur absolue pour d enir la contrainte sur les param` etres. Dautres approches ont et e d evelopp ees plus
r ecemment en int egrant dautres types de p enalit e comme celles de de type L
1
(LASSO) plut ot que L
2
,
cest-` a-dire bas ees sur la somme des valeurs absolues des param` etres, plut ot que sur la somme de leurs
carr es, ou encore une combinaison de contraintes de types L
1
et L
2
. Des contraintes L
1
compliquent la
r esolution num erique du probl` eme doptimisation mais ont lavantage dint egrer la s election de variables ` a
la r esolution. Cette contrainte a en effet comme r esultat de forcer certains param` etres ` a prendre des valeurs
nulles aboutissant ` a l elimination des variables concern ees.
R egression sur composantes principales
LAnalyse en Composantes Principales est, entre autres, la recherche de p variables dites principales qui
sont des combinaisons lin eaires des variables initiales de variance maximale sous une contrainte dorthogo-
nalit e (cf. Baccini et Besse (2000) pour des d etails). En d esignant par V la matrice des vecteurs propres de
la matrice des corr elations Rrang es dans lordre d ecroissant des valeurs propres, les valeurs prises par ces
variables principales sont obtenues dans la matrice des composantes principales
C = (X1 x
)V.
Elles ont chacune pour variance la valeur propre
j
associ ee. Le sous-espace engendr e par ces variables
principales est le m eme que celui engendr e par les variables initiales. Il est donc g eom etriquement equivalent
de r egresser Y sur les colonnes de Cque sur celles de X. Les probl` emes de colin earit e sont alors r esolus en
supprimant les variables principales de plus faibles variances cest-` a-dire associ ees aux plus petites valeurs
propres ou encore en ex ecutant un algorithme de choix de mod` ele sur les composantes.
La solution obtenue pr esente ainsi de meilleures qualit es pr edictives mais, les coefcients de la r egression
sappliquant aux composantes principales, un calcul compl ementaire est n ecessaire an d evaluer et din-
terpr eter les effets de chacune des variables initiales.
R egression PLS
Une derni` ere approche est largement utilis ee, par exemple en chimiom etrie, an de pourvoir traiter les
situations pr esentant une forte multicolin earit e et m eme, lorsque le nombre dobservations est inf erieur au
nombre de pr edicteurs. Il sagit de la r egression PLS (partial least square).
Comme pour la r egression sur composantes principales, le principe est de rechercher un mod` ele de
r egression lin eaire sur un ensemble de composantes orthogonales construites ` a partir de combinaisons
lin eaires des variables explicatives centr ees. Dans le cas de la PLS, la construction des composantes est
optimis ee pour que celles-ci soient le plus li ees ` a la variable Y ` a pr edire au sens de la covariance empi-
rique, alors que les composantes principales ne visent qu` a extraire une part de variance maximale sans
tenir compte dune variable cible.
Soit X(n p) la matrice des pr edicteurs centr es avec n pouvant etre inf erieur ` a p. On cherche une
matrice Wde coefcients ou pond erations d enissant les q composantes T
k
par combinaisons lin eaires des
variables X
j
:
T = XW.
La matrice W est solution du probl` eme suivant :
Pour k = 1, . . . , q, w
k
= arg max
w
Cov(Y, T
k
)
2
= arg max
w
w
YY
Xw
Avec w
k
w
k
= 1 et t
k
t
k
= w
YY
Xw = 0, pour = 1 . . . , k 1.
La matrice W est obtenue par la d emarche it erative de lalgorithme 1 ; il suft ensuite de calculer la
r egression de Y sur les q variables T
k
centr ees ainsi construites. Le choix du nombre de composanteq q est
optimis e par validation crois ee.
Cet algorithme se g en eralise directement ` a une variable explicative multidimensionnelle (SIMPLS).
Le crit` ere ` a optimiser devient une somme des carr es des covariances entre une composante et chacune des
variables r eponse. Plusieurs variantes de la r egression PLS multidimensionnelles ont et e propos es (NIPALS,
Kernel-PLS...) ; le m eme crit` ere est optimis e mais sous des contraintes diff erentes.
Algorithm 1 r egression PLS
Xmatrice des variables explicatives centr ees,
Calcul de W matrice des coefcients.
Pour k = 1 à q Faire
w
k
=
X
Y
|X
Y |
,
t
k
= Xw
k
D eation de X: X = Xt
k
t
k
X
Fin Pour
6 Compl ements
6.1 Mod` eles polynomiaux
En cas dinvalidation de lhypoth` ese de lin earit e, il peut etre int eressant de consid erer des mod` eles
polyn omiaux, tr` es classiques pour d ecrire des ph enom` enes physiques, de la forme
Y =
0
+ +
j
X
j
+ +
kl
X
k
X
l
+ +
j
X
j2
qui sont encore appel es surfaces de r eponse en plannication exp erimentale. Ces mod` eles sont faciles ` a
etudier dans le cadre lin eaire, il suft dajouter des nouvelles variables constitu ees des produits ou des
carr es des variables explicatives initiales. Les choix : pr esence ou non dune interaction entre deux va-
riables, pr esence ou non dun terme quadratique se traitent alors avec les m emes outils que ceux des choix
6. Compl ements 25
de variable mais en int egrant une contrainte lors de la lecture des r esultats : ne pas consid erer des mod` eles
incluant des termes quadratiques dont les composants lin eaires auraient et e exclus ou encore, ne pas sup-
primer dun mod` ele une variable dun effet lin eaire si elle intervient dans un terme quadratique.
La proc edure rsreg de SAS est plus particuli` erement adapt ee aux mod` eles quadratiques. Elle ne com-
porte pas de proc edure de choix de mod` ele mais fournit des aides et diagnostics sur lajustement de la
surface ainsi que sur la recherche des points optimaux.
Attention : Ce type de mod` ele accrot consid erablement les risques de colin earit e, il est peu recommand e
de consid erer des termes cubiques.
6.2 Inuence, r esidus, validation
Avant toute tentative de mod elisation complexe, il est imp eratif davoir conduit des analyses uni et
bi-dimensionnelles an didentier des probl` emes sur les distributions de chacune des variables : dis-
sym etrie, valeurs atypiques (outliers) ou sur les liaisons des variables prises deux par deux : non-lin earit e.
Ces pr eliminaires acquis, des aides ou diagnostics associ es ` a la r egression lin eaire multiple permettent de
d etecter des violations dhypoth` eses (homosc edasticit e, lin earit e) ou des points inuents dans ce contexte
multidimensionnel (cf. gure 2.2).
Points inuents
Comme toute m ethode quadratique, lestimation des param` etres est tr` es sensible ` a la pr esence de points
extr emes susceptibles de perturber gravement les r esultats. Une observation est inuente sur les param` etres
dune r egression si, ` a la fois,
elle est eloign ee du barycentre, et ce dans la direction dun vecteur propre associ e ` a une petite valeur
propre (effet levier),
elle provoque un grand r esidu.
Lobservation de la diagonale de la matrice H (hat matrix) r ev` ele un effet levier potentiel tandis que lana-
lyse des r esidus studentis es pointe ceux susceptibles de poser des probl` emes (valeur absolue plus grande
que 2).
Les deux diagnostics pr ec edents sont combin es dans des mesures synth etiques propos ees par diff erents
auteurs. La plus utilis ee est la distance de Cook
D
i
=
1
s
2
(p + 1)
( y y
(i)
)
( y y
(i)
) =
_
h
i
i
1 h
i
i
_
r
2
i
(p + 1)
qui quantie linuence de la i-` eme observation sur l ecart entre le pr edicteur y et le pr edicteur y
(i)
calcul e
sans cette i` eme observation. On conclut ` a une inuence de lobservation i lorsque la valeur de D
i
d epasse
1.
Tous ces crit` eres sont illustr es dans les graphiques de la gure 2.2. Les tableaux ci-dessous fournis pas
SAS illustrent ces quantit es sur lexemple des donn ees comptables.
Dep Var Predict Std Err Lower95 Upper95 Lower95 Upper95 Std Err Student
Obs RETCAP Value Predict Mean Mean Predict Predict Residual Residual Residual
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
1 0.2600 0.2716 0.053 0.1625 0.3808 0.0839 0.4593 -0.0116 0.052 -0.223
2 0.5700 0.3690 0.039 0.2882 0.4497 0.1962 0.5417 0.2010 0.063 3.183
3 0.0900 0.00897 0.063 -0.1205 0.1385 -0.1912 0.2092 0.0810 0.039 2.055
4 0.3200 0.2335 0.021 0.1903 0.2768 0.0748 0.3922 0.0865 0.071 1.212
5 0.1700 0.1164 0.046 0.0215 0.2113 -0.0634 0.2961 0.0536 0.058 0.920
...
Cooks Hat Diag Cov INTERCEP WCFTCL WCFTDT
Obs -2-1-0 1 2 D Rstudent H Ratio Dffits Dfbetas Dfbetas Dfbetas
(11) (12) (13) (14) (15) (15) (15) (15) (15)
1 | | | 0.004 -0.2194 0.5109 3.2603 -0.2242 0.0299 0.0632 -0.0911
2 | |
******
| 0.302 3.9515 0.2795 0.0050 2.4611 0.9316 -0.3621 0.3705
3 | |
****
| 0.832 2.1955 0.7192 0.6375 3.5134 0.5543 2.1916 -2.0241
4 | |
**
| 0.010 1.2228 0.0803 0.8585 0.3613 -0.0132 -0.0835 0.1207
5 | |
*
| 0.041 0.9175 0.3864 1.7591 0.7280 -0.0386 0.0906 0.0060
...
FIGURE 2.2 Retour sur capital : Graphe des r esidus studentis es, de la diagonale de la matrice Het de la
distance de Cook en fonction des valeurs pr edites.
(1) variable ` a expliquer y
i
(2) valeur ajust ee y
i
(3) ecart-type de cette estimations
y
i
(4)et (5) Intervalle de conance pour lestimation de E(y
i
)
(6) et (7) Intervalle de conance pour lestimation de y
i
(8) r esidus calcul es e
i
(9) ecarts-types de ces estimations
(10) r esidus standardis es (ou studentis es internes) r
i
(11) rep erage graphique des r esidus standardis es : = 0.5.
(12) Distance de Cook
(13) r esidus studentis es (externes) t
i
(14) Termes diagonaux de la matrice chapeau H
(15) autres indicateurs dinuence
Sum of Residuals 0
Sum of Squared Residuals 0.1495 (SSE)
Predicted Resid SS (Press) 1.0190 (PRESS)
R egression partielle
Un mod` ele de r egression multiple est une technique lin eaire. Il est raisonnable de sinterroger sur la
pertinence du caract` ere lin eaire de la contribution dune variable explicative ` a lajustement du mod` ele. Ceci
peut etre r ealis e en consid erant une r egression partielle.
On calcule alors deux r egressions :
la r egression de Y sur les variables X
1
, . . . , X
j1
, X
j+1
, . . . , X
p
, dans laquelle la j` eme variable est
omise, soit r
y(j)
le vecteur des r esidus obtenus.
La r egression de X
j
sur les variables X
1
, . . . , X
j1
, X
j+1
, . . . , X
p
. Soit r
x(j)
le vecteur des r esidus
obtenus.
La comparaison des r esidus par un graphe (nuage de points r
y(j)
r
x(j)
) permet alors de repr esenter la
nature de la liaison entre X
j
et Y conditionnellement aux autres variables explicatives du mod` ele.
Graphes
Diff erents graphiques permettent nalement de contr oler le bien fond e des hypoth` eses de lin earit e,
dhomosc edasticit e, eventuellement de normalit e des r esidus.
Le premier consid` ere le nuage de points des r esidus studentis es crois es avec les valeurs pr edites. Les
points doivent etre uniform ement r epartis entre les bornes 2 et +2 et ne pas pr esenter de formes sus-
pectes (cf. gure 2.2). Une forme particuli` ere est lindication dun probl` eme. Par exemple, un nuage
des r esidus en forme de croissant ou banane indique quune composante quadratique a et e proba-
blement et e n eglig ee ; une forme dentonnoir est un signe que lhypoth` ese dhomosc edastiscit e nest
7. Analyse de variance ` a un facteur 27
FIGURE 2.3 Retour sur capital : Graphe des valeurs observ ees en fonction des valeurs pr edites et droite
de Henri des r esidus (normal qq-plot).
pas v eri ee. dans tous les cas, le mod` ele nest pas valide et des mesures simposent. recherche dun
mod` ele plus complexe, recherche de transformations non lin eaires de certaines variables (logarithme,
puissance...), ou encore lutilisation dune estimation par moindres carr es pond er es (h et erosc edasticit e).
Si la variance des r esidus nest pas constante dun groupe dobservations ` a lautre, des pond erations
(inverses des variances de chaque groupe) sont introduites pour se ramener ` a lhomosc edasticit e. Ceci
nest en g en erale utilisable que dans certaines circonstances o` u lexp erience est plani ee.
Le deuxi` eme croise les valeurs observ ees de Y avec les valeurs pr edites. Il illustre le coefcient de
d etermination R qui est aussi la corr elation lin eaire simple entre y et y. Les points doivent saligner
autour de la premi` ere bissectrice. Il peut etre compl et e par lintervalle de conance des y
i
ou celui de
leurs moyennes. (cf. gure 2.3).
La qualit e, en terme de lin earit e, de lapport de chaque variable est etudi ee par des r egressions par-
tielles. Chaque graphe de r esidus peut etre compl et e par une estimation fonctionnelle ou r egression
non-param etrique (loess, noyau, spline) an den facilit e la lecture.
Le dernier trace la droite de Henri (Normal QQplot) des r esidus dont le caract` ere lin eaire de la
repr esentation donne une id ee de la normalit e de la distribution. (cf. gure 2.3)
7 Analyse de variance ` a un facteur
7.1 Introduction
Les techniques dites danalyse de variance sont des outils entrant dans le cadre g en eral du mod` ele
lin eaire et o` u une variable quantitative est expliqu ee par une ou plusieurs variables qualitatives. Lobjec-
tif essentiel est alors de comparer les moyennes empiriques de la variable quantitative observ ees pour
diff erentes cat egories dunit es statistiques. Ces cat egories sont d enies par lobservation des variables qua-
litatives ou facteurs prenant diff erentes modalit es ou encore de variables quantitatives d ecoup ees en classes
ou niveaux. Une combinaison de niveaux d enit une cellule, groupe ou traitement.
Il sagit donc de savoir si un facteur ou une combinaison de facteurs (interaction) a un effet sur la variable
quantitative en vue, par exemple, de d eterminer des conditions optimales de production ou de fabrication,
une dose optimale de m edicaments. . . . Ces techniques apparaissent aussi comme des cas particuliers de
la r egression lin eaire multiple en associant ` a chaque modalit e une variable indicatrice (dummy variable)
et en cherchant ` a expliquer une variable quantitative par ces variables indicatrices. Lappellation analyse
de variance vient de ce que les tests statistiques sont b atis sur des comparaisons de sommes de carr es de
variations.
Lanalyse de variance est souvent utilis ee pour analyser des donn ees issue dune planication exp erimentale
au cours de laquelle lexp erimentateur a la possibilit e de contr oler a priori les niveaux des facteurs avec
pour objectif dobtenir le maximum de pr ecision au moindre co ut. Ceci conduit en particulier ` a construire
des facteurs orthogonaux deux ` a deux (variables explicatives non lin eairement corr el ees) an de minimiser
la variance des estimateurs. On distingue le cas particulier important o` u les cellules ont le m eme effectif,
on parle alors de plan orthogonal ou equir ep et e ou equilibr e (balanced), qui conduit ` a des simplications
importantes de lanalyse de variance associ ee. On appelle plan complet un dispositif dans lequel toutes les
combinaisons de niveaux ont et e exp eriment ees. On distingue entre des mod` eles xes, al eatoires ou mixtes
selon le caract` ere d eterministe (contr ol e) ou non des facteurs par exemple si les modalit es r esultent dun
choix al eatoire parmi un grand nombre de possibles. Dans cette courte introduction seuls le mod` ele xe ` a
un facteur est consid er e.
Lanalyse de variance ` a un facteur est un cas particulier d etude de relations entre deux variables statis-
tiques : une quantitative Y admettant une densit e et une qualitative X ou facteur qui engendre une partition
ou classication de l echantillon en J groupes, cellules ou classes indic ees par j. Lobjectif est de comparer
les distributions de Y pour chacune des classes en particulier les valeurs des moyennes et variances. Un
pr ealable descriptif consiste ` a r ealiser un graphique constitu e de diagrammes boites parall` eles : une pour
chaque modalit e. Cette repr esentation donne une premi` ere appr eciation de la comparaison des distributions
(moyenne, variance) internes ` a chaque groupe. Les sp ecicit es de la planication dexp erience ne sont pas
abord ees dans ce cours ax e sur la fouille de donn ees pour laquelle les donn ees sont justement pr ealablement
fournies. Les plans dexp erience sont surtout utilis es en milieu industriel : contr ole de qualit e, optimisation
des processus de production, ou en agronomie pour la s election de vari et es, la comparaison dengrais, din-
secticides. . . . La bibliographie est abondante sur ce sujet.
7.2 Mod` ele
Pour chaque niveau j de X, on observe n
j
valeurs y
1j
, . . . , y
n
j
j
de la variable Y et o` u n =
J
j=1
n
j
(n > J) est la taille de l echantillon. On suppose qu` a lint erieur de chaque cellule, les observations sont
ind ependantes equidistribu ees de moyenne
j
et de variance homog` ene
2
j
=
2
. Ceci s ecrit :
y
ij
=
j
+
ij
o` u les
ij
sont i.i.d. suivant une loi centr ee de variance
2
qui sera suppos ee A(0,
2
) pour la construction
des tests. Cette derni` ere hypoth` ese n etant pas la plus sensible. Les esp erances
j
ainsi que le param` etre de
nuisance
2
sont les param` etres inconnus ` a estimer.
On note respectivement :
y
.j
=
1
n
j
n
j
i=1
y
ij
,
s
2
j
=
1
n
j
1
n
j
i=1
(y
ij
y
.j
)
2
,
y
..
=
1
n
n
j
i=1
J
j=1
y
ij
,
les moyennes et variances empiriques de chaque cellule, la moyenne g en erale de l echantillon.
Les param` etres
j
sont estim es sans biais par les moyennes y
.j
et comme le mod` ele s ecrit alors :
y
ij
= y
.j
+ (y
ij
y
.j
),
lestimation des erreurs est e
ij
= (y
ij
y
.j
) tandis que les valeurs pr edites sont y
ij
= y
.j
.
Sous lhypoth` ese dhomog en eit e des variances, la meilleure estimation sans biais de
2
est
s
2
=
J
j=1
n
j
i=1
(y
ij
y
.j
)
2
n J
=
1
n J
[(n 1)s
2
1
+ + (n
J
1)s
2
J
]
qui s ecrit donc comme une moyenne pond er ee des variances empiriques de chaque groupe.
7. Analyse de variance ` a un facteur 29
Notons y le vecteur des observations [y
ij
[i = 1, n
j
; j = 1, J]
mis en colonne, = [
ij
[i = 1, n
j
; j =
1, J]
le vecteur des erreurs, 1

j
les variables indicatrices des niveaux et 1 la colonne de 1s. Le i` eme el ement
dune variable indicatrice (dummy variable) 1
j
prend la valeur 1 si la i` eme observation y
i
est associ ee au
j` eme et 0 sinon.
Comme dans le cas de la r egression lin eaire multiple, le mod` ele consiste ` a ecrire que lesp erance de
la variable Y appartient au sous-espace lin eaire engendr e par les variables explicatives, ici les variables
indicatrices :
y =
0
1 +
1
1
1
+ +
J
1
J
+.
La matrice X alors construite nest pas de plein rang p + 1 mais de rang p. La matrice X
X nest pas
inversible et le mod` ele admet une innit e de solutions. Nous disons que les param` etres
j
ne sont pas
estimables ou identiables. En revanche, certaines fonctions (combinaisons lin eaires) de ces param` etres
sont estimables et appel ees contrastes.
Dans le cas du mod` ele danalyse de variance ` a un facteur, la solution la plus simple adopt ee consiste ` a
consid erer un sous-ensemble des indicatrices ou de combinaisons des indicatrices engendrant le m eme sous-
espace de facon ` a aboutir ` a une matrice inversible. Ceci conduit ` a consid erer diff erents mod` eles associ es ` a
diff erentes param etrisation. Attention, les param` etres
j
ainsi que la matrice Xprennent ` a chaque fois des
signications diff erentes.
Un premier mod` ele (cell means model) s ecrit comme celui dune r egression lin eaire multiple sans
terme constant avec = [
1
, . . . ,
J
]
le vecteur des param` etres :

y =
1
1
1
+ +
J
1
J
+
y = X +.
Les calculs se pr esentent simplement mais les tests d ecoulant de ce mod` ele conduiraient ` a etudier la nullit e
des param` etres alors que nous sommes int eress es par tester l egalit e des moyennes.
Une autre param etrisation, consid erant cette fois le vecteur = [
J
,
1
J
, . . . ,
J1
J
]
conduit
` a ecrire le mod` ele (base cell model) de r egression avec terme constant :
y =
0
1 +
1
1
1
+ +
J1
1
J1
+.
Cest celle de SAS alors que dautres logiciels consid` erent des param` etres deffet diff erentiel
j
.
par rap-
port ` a leffet moyen
.
= 1/J
J
j=1
j
. Ce dernier est encore un mod` ele (group effect model) de r egression
lin eaire avec terme constant mais dont les variables explicatives sont des diff erences dindicatrices et avec
= [
.
,
1
.
, . . . ,
J1
.
]
:
y =
0
1 +
1
(1
1
1
J
) + +
J1
(1
J1
1
J
) +.
7.3 Test
On d esigne les diff erentes sommes des carr es des variations par :
SST =
J
j=1
n
j
i=1
(y
ij
y
..
)
2
=
J
j=1
n
j
i=1
y
2
ij
n y
2
..
,
SSW =
J
j=1
n
j
i=1
(y
ij
y
.j
)
2
=
J
j=1
n
j
i=1
y
2
ij

J
j=1
n
j
y
2
.j
,
SSB =
J
j=1
n
j
( y
.j
y
..
)
2
=
J
j=1
n
j
y
2
.j
n y
2
..
,
o` u T signie totale, W (within) intra ou r esiduelle, B (between) inter ou expliqu ee par la partition. Il
est facile de v erier que SST=SSB+SSW.
On consid` ere alors lhypoth` ese
H
0
:
1
= =
J
,
qui revient ` a dire que la moyenne est ind ependante du niveau ou encore que le facteur na pas deffet, contre
lhypoth` ese
H
1
: (j, k) tel que
j
,=
k
qui revient ` a reconnatre un effet ou une inuence du facteur sur la variable Y .
Dans les mod` eles pr ec edents, l etude de cette hypoth` ese revient ` a comparer par un test de Fisher un
mod` ele complet (les moyennes sont diff erentes) avec un mod` ele r eduit supposant la nullit e des param` etres
j
et donc l egalit e des moyennes ` a celle de la derni` ere cellule ou ` a la moyenne g en erale.
Les r esultats n ecessaires ` a la construction du test qui en d ecoule sont r esum es dans la table danalyse
de la variance :
Source de
variation d.d.l.
Somme
des carr es Variance F
Mod` ele (inter) J 1 SSB MSB=SSB/(J 1) MSB/MSW
Erreur (intra) n J SSW MSW=SSW/(n J)
Total n 1 SST
Pratiquement, un programme de r egression usuel permet de construire estimation et test de la nullit e des
j
sauf pour le premier mod` ele qui doit tester l egalit e au lieu de la nullit e des param` etres.
Dans le cas de deux classes (J = 2) on retrouve un test equivalent au test de Student de comparaison
des moyennes de deux echantillons ind ependants. Si lhypoth` ese nulle est rejet ee, la question suivante
consiste ` a rechercher quelles sont les groupes ou cellules qui poss` edent des moyennes signicativement
diff erentes. De nombreux tests et proc edures ont et e propos es dans la litt erature pour r epondre ` a cette
question. Enn, lhypoth` ese importante du mod` ele induit par lanalyse de variance est lhomog en eit e des
variances de chaque groupe. Conjointement ` a lestimation du mod` ele et en supposant la normalit e, il peut
etre instructif de contr oler cette homog en eit e par un test.
8 Analyse de covariance
Lanalyse de covariance se situe encore dans le cadre g en eral du mod` ele lin eaire et o` u une variable
quantitative est expliqu ee par plusieurs variables ` a la fois quantitatives et qualitatives. Dans les cas les
plus complexes, ont peut avoir plusieurs facteurs (variables qualitatives) avec une structure crois ee ou
hi erarchique ainsi que plusieurs variables quantitatives intervenant de mani` ere lin eaire ou polyn omiale. Le
principe g en eral, dans un but explicatif ou d ecisionnel, est toujours destimer des mod` eles intra-groupes
et de faire apparatre (tester) des effets diff erentiels inter-groupes des param` etres des r egressions. Ainsi,
dans le cas plus simple o` u seulement une variable parmi les explicatives est quantitative, nous sommes
amen es ` a tester lh et erog en eit e des constantes et celle des pentes (interaction) entre diff erents mod` eles de
r egression lin eaire.
Ce type de mod` ele permet donc, toujours avec un objectif pr edictif, de sint eresser ` a la mod elisation
dune variable quantitative par un ensemble de variables explicatives ` a la fois quantitatives et qualitatives.
La possible prise en compte dinteractions complique singuli` erement la proc edure de s election de variables.
8.1 Mod` ele
Le mod` ele est explicit e dans le cas el ementaire o` u une variable quantitative Y est expliqu ee par une
variable qualitative T ` a J niveaux et une variable quantitative, appel ee encore covariable, X. Pour chaque
niveau j de T, on observe n
j
valeurs x
1j
, . . . , x
n
j
j
de X et n
j
valeurs y
1j
, . . . , y
n
j
j
de Y ; n =
J
j=1
n
j
est la taille de l echantillon.
En pratique, avant de lancer une proc edure de mod elisation et tests, une d emarche exploratoire sap-
puyant sur une repr esentation en couleur (une par modalit e j de T) du nuage de points croisant Y et X
et associant les droites de r egression permet de se faire une id ee sur les effets respectifs des variables :
parall elisme des droites, etirement, imbrication des sous-nuages.
On suppose que les moyennes conditionnelles E[Y [T], cest-` a-dire calcul ees ` a lint erieur de chaque
cellule, sont dans le sous-espace vectoriel engendr e par les variables explicatives quantitatives, ici X. Ceci
8. Analyse de covariance 31
s ecrit :
y
ij
=
0j
+
1j
x
ij
+
ij
; j = 1, . . . , J; i = 1, , n
j
o` u les
ij
sont i.i.d. suivant une loi centr ee de variance
2
qui sera suppos ee A(0,
2
) pour la construction
des tests.
Notons y le vecteur des observations [y
ij
[i = 1, n
j
; j = 1, J]
mis en colonne, x le vecteur [x

ij
[i =
1, n
j
; j = 1, J]
, = [
ij
[i = 1, n
j
; j = 1, J]
le vecteur des erreurs, 1

j
les variables indicatrices des
niveaux et 1 la colonne de 1s. On note encore x.1
j
le produit terme ` a terme des deux vecteurs, cest-` a-dire
le vecteur contenant les observations de Xsur les individus prenant le niveau j de T et des z eros ailleurs.
La r esolution simultan ee des J mod` eles de r egression est alors obtenue en consid erant globalement le
mod` ele :
y = X +
dans lequel Xest la matrice n2J constitu ee des blocs [1
j
[x.1
j
] ; j = 1, . . . , J. Lestimation de ce mod` ele
global conduit, par bloc, ` a estimer les mod` eles de r egression dans chacune des cellules.
Comme pour lanalyse de variance, les logiciels op` erent une reparam etrisation faisant apparatre des
effets diff erentiels par rapport au dernier niveau (SAS/GLM, SAS/INSIGHT) ou par rapport ` a un effet
moyen (Systat), an dobtenir directement les bonnes hypoth` eses dans les tests. Ainsi, dans le premier cas,
on consid` ere la matrice de m eme rang (sans la J` eme indicatrice)
X = [1[x[1
1
[ [1
J1
[x.1
1
[ [x.1
J1
]
associ ee aux mod` eles :
y
ij
=
0J
+ (
0j

0J
) +
1J
x
ij
+ (
1j

1J
)x
ij
+
ij
; j = 1, . . . , J 1; i = 1, . . . , n
j
.
8.2 Tests
Diff erentes hypoth` eses sont alors test ees en comparant le mod` ele complet
y =
0J
1 + (
01
0J
)1
1
+ + (
0J1
0J
)1
J1
+
1J
x +
+ (
11
1J
)x.1
1
+ + (
1J1
1J
)x.1
J1
+
` a chacun des mod` eles r eduits :
(i) y =
0J
1 + (
01
0J
)1
1
+ + (
0J1
0J
)1
J1
+
1J
x +
(ii) y =
0J
1 + (
01
0J
)1
1
+ + (
0J1
0J
)1
J1
+
+(
1j

1J
)x.1
1
+ + (
1J1
1J
)x.1
J1
+
(iii) y =
0J
1 +
1J
x + (
1j

1J
)x.1
1
+ + (
1J1
1J
)x.1
J1
+
par un test de Fisher. Ceci revient ` a consid erer les hypoth` eses suivantes :
H
i
0
: pas dinteraction,
11
= =
1J
, les droites partagent la m eme pente
1J
,
H
ii
0
:
1J
=0,
H
iii
0
:
01
= =
0J
, les droites partagent la m eme constante ` a lorigine
0J
.
On commence donc par evaluer i), si le test nest pas signicatif, on regarde ii) qui, sil nest pas non
plus signicatif, conduit ` a labsence deffet de la variable X. De m eme, toujours si i) nest pas signicatif,
on sint eresse ` a iii) pour juger de leffet du facteur T.
8.3 Choix de mod` ele
Ce cadre th eorique et les outils informatiques (SAS/GLM) permettent de consid erer des mod` eles beau-
coup plus complexes incluant plusieurs facteurs, plusieurs variables quantitatives, voire des polyn omes de
celles-ci, ainsi que les diverses interactions entre qualitatives et quantitatives. Le choix du bon mod` ele
devient vite complexe dautant que la strat egie d epend, comme pour la r egression lin eaire multiple, de
lobjectif vis e :
descriptif : des outils multidimensionnels descriptifs (ACP, AFD, AFCM. . . ) sav` erent souvent plus ef-
caces pour s electionner, en premi` ere approche, un sous-ensemble de variables explicatives avant
dop erer une mod elisation,
explicatif : de la prudence est requise dautant que les hypoth` eses ne peuvent etre evalu ees de facon
ind ependante surtout si, en plus, des cellules sont d es equilibr ees ou vides,
pr edictif : la recherche dun mod` ele efcace, donc parcimonieux, peut conduire ` a n egliger des interactions
ou effets principaux lorsquune faible am elioration du R
2
le justie et m eme si le test correspon-
dant apparat comme signicatif. Lutilisation du C
p
est th eoriquement possible mais en g en eral ce
crit` ere nest pas calcul e et dutilisation d elicate car n ecessite la consid eration dun vrai mod` ele de
r ef erence ou tout du moins dun mod` ele de faible biais pour obtenir une estimation raisonnable de
la variance de lerreur. En revanche AIC et PRESS donnent des indications plus pertinentes. Lalgo-
rithme de recherche descendant est le plus couramment utilis e avec la contrainte suivante : un effet
principal nest supprim e qu` a la condition quil napparaisse plus dans une interaction.
8.4 Exemple
Les donn ees, extraites de Jobson (1991), sont issues dune etude marketing visant ` a etudier limpact
de diff erentes campagnes publicitaires sur les ventes de diff erents aliments. Un echantillon ou panel de
familles a et e constitu e en tenant compte du lieu dhabitation ainsi que de la constitution de la famille.
Chaque semaine, chacune de ces familles ont rempli un questionnaire d ecrivant les achats r ealis es. Nous
nous limitons ici ` a l etude de limpact sur la consommation de lait de quatre campagnes diffus ees sur
des chanes locales de t el evision. Quatre villes, une par campagne publicitaire, ont et e choisies dans cinq
diff erentes r egions g eographiques. Les consommations en lait par chacune des six familles par ville alors
et e mesur ees (en dollars) apr` es deux mois de campagne.
Les donn ees se pr esentent sous la forme dun tableau ` a 6 variables : la r egion g eographique, les 4
consommations pour chacune des villes ou campagnes publicitaires diffus ees, la taille de la famille. Cette
situation est celle classique dun mod` ele danalyse de variance. Nous choisissons ici de conserver quantita-
tive la variable taille de la famille et donc de mod eliser la consommation de lait par un mod` ele danalyse de
covariance plus economique en degr es de libert e moins de param` etres sont ` a estimer.
On sint eresse ` a diff erents mod` eles de r egression visant ` a expliquer la consommation en fonction de la
taille de la famille conditionnellement au type de campagne publicitaire.
proc glm data=sasuser.milk;
class pub;
model consom=pub taille pub
*
taille;
run;
Les r esultats ci-dessous conduiraient ` a conclure ` a une forte inuence de la taille mais ` a labsence din-
uence du type de campagne. Les droites de r egression ne semblent pas signicativement diff erentes.
Source DF Type III SS Mean Square F Value Pr > F
PUB 3 227.1807 75.7269 0.57 0.6377 (1)
TAILLE 1 40926.0157 40926.0157 306.57 0.0001 (2)
TAILLE
*
PUB 3 309.8451 103.2817 0.77 0.5111 (3)
(1) Test de la signicativit e des diff erences des termes constants.
(2) Test de linuence du facteur quantitatif.
(3) Test de la signicativit e des diff erences des pentes (interaction).
N eanmoins, pris dun doute, le m eme calcul est effectu e s epar ement pour chaque r egion :
proc glm data=sasuser.milk;
by region;
class pub;
model consom=pub taille pub
*
taille;
run;
9. Exemple : Pr evision de la concentration dozone 33
Region Source DF Type III SS Mean Square F Value Pr > F
PUB 3 72.02974 24.00991 4.62 0.0164
1 TAILLE 1 7178.32142 7178.32142 1380.25 0.0001
TAILLE
*
PUB 3 217.37048 72.45683 13.93 0.0001
PUB 3 231.73422 77.24474 30.36 0.0001
2 TAILLE 1 8655.25201 8655.25201 3402.34 0.0001
TAILLE
*
PUB 3 50.15069 16.71690 6.57 0.0042
PUB 3 79.54688 26.51563 6.01 0.0061
3 TAILLE 1 6993.30160 6993.30160 1585.35 0.0001
TAILLE
*
PUB 3 173.19305 57.73102 13.09 0.0001
PUB 3 415.66664 138.55555 15.23 0.0001
4 TAILLE 1 9743.37830 9743.37830 1071.32 0.0001
TAILLE
*
PUB 3 361.39556 120.46519 13.25 0.0001
PUB 3 15.35494 5.11831 0.79 0.5168
5 TAILLE 1 8513.28516 8513.28516 1314.71 0.0001
TAILLE
*
PUB 3 52.75119 17.58373 2.72 0.0793
Il apparat alors qu` a lint erieur de chaque r egion (sauf r egion 5), les campagnes de publicit e ont un
effet tant sur la constante que sur la pente.
Ceci incite donc ` a se m eer des interactions (leffet r egion compense leffet publicit e) et encourage
` a toujours conserver le facteur bloc (ici la r egion) dans une analyse de variance. Une approche compl` ete,
consid erant a priori toutes les variables (3 facteurs), est ici n ecessaire (cf. TP).
9 Exemple : Pr evision de la concentration dozone
9.1 Les donn ees
Les donn ees proviennent des services de M et eo-France et sint eresse ` a la pr evision de la concentration
en Ozone dans 5 stations de mesure ; ces sites ont et e retenus pour le nombre impoprtant de pics de pollution
qui ont et e d etect es dans les p eriodes consid er ees ( et es 2002, 2003, 2005). Un pic de pollution est d eni ici
par une concentration d epassant le seuil de 150g/m
3
. M et eo-France dispose d ej` a dune pr edvision (MO-
CAGE), ` a partir dum mod` ele physique bas e sur les equations du comportement dynamique de latmosph` ere
(Navier et Stockes). Cette pr evision fait partie du dispositif dalerte des pouvoirs publics et pr evoit donc une
concentration de pollution ` a 17h locale pour le lendemain. Lobjet du travail est den faire une evaluation
statistique puis de lam eliorer en tenant compte dautres variables ou plut ot dautres pr evisions faites par
M et eo-France. Il sagit donc dint egrer ces informations dans un mod` ele statistique global.
Les variables
Certaines variables de concentration ont et e transform ees an de rendre sym etrique (plus gaussienne)
leur distribution.
O3-o Concentration dozone effectivement observ ee ou variable ` a pr edire,
03-pr pr evision mocage qui sert de variable explicative ;
Tempe Temp erature pr evue pour le lendemain,
vmodule Force du vent pr evue pour le lendemain,
lno Logarithme de la concentration observ ee en monoxyde dazote,
lno2 Logarithme de la concentration observ ee en dioxyde dazote,
rmh20 Racine de la concentration en vapeur deau,
Jour Variable ` a deux modalit es pour distinguer les jours ouvrables (0) des jours f eri es-WE (1).
Station Une variable qualitative indique la station concern ee : Aix-en-Provence, Rambouillet, Munchhau-
sen, Cadarache, et Plan de Cuques.
0 50 100 200 300
0
5
0
1
5
0
2
5
0
Valeurs predites
V
a
l
e
u
r
s

o
b
s
e
r
v
e
e
s
0 50 100 200 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
FIGURE 2.4 Ozone : pr evision et r esidus du mod` ele MOCAGE de M et eo-France pour 5 stations.
Mod` ele physique
Les graphiques de la gure 2.4 repr esente la premi` ere pr evision de la concentration dozone observ ee,
ainsi que ses r esidus, cest-` a-dire celle obtenue par le mod` ele physique MOCAGE. Ces graphes t emoignent
de la mauvaise qualit e de ce mod` ele : les r esidus ne sont pas r epartis de facon sym etrique et les deux nuages
p esentent une l eg` ere forme de banane signiant que des composantes non lin eaires du mod` ele nont pas
et e prises en compte. Dautre part, la forme dentonnoir des r esidus montrent une forte h et erosc edasticit e.
Cela signie que la variance des r esidus et donc des pr evisions crot avec la valeur. En dautre terme, la
qualit e de la pr evision se d egrade pour les concentrations elev ees justgement dans la zone sensible.
Mod` ele sans interaction
Un premier mod` ele est estim e avec R :
fit.lm=lm(O3-oO3-pr+vmodule+lno2+lno+s-rmh2o+jour+station+TEMPE,data=donne)
Il introduit lensemble des variables explicatives mais sans interaction. Les r esultats num eriques sont
fournis ci-dessous.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.99738 7.87028 -0.635 0.52559
O3_pr 0.62039 0.05255 11.805 < 2e-16
***
vmodule -1.73179 0.35411 -4.891 1.17e-06
***
lno2 -48.17248 6.19632 -7.774 1.83e-14
***
lno 50.95171 5.98541 8.513 < 2e-16
***
s_rmh2o 135.88280 50.69567 2.680 0.00747
**
jour1 -0.34561 1.85389 -0.186 0.85215
stationAls 9.06874 3.37517 2.687 0.00733
**
stationCad 14.31603 3.07893 4.650 3.76e-06
***
stationPla 21.54765 3.74155 5.759 1.12e-08
***
stationRam 6.86130 3.05338 2.247 0.02484
*
TEMPE 4.65120 0.23170 20.074 < 2e-16
***
Residual standard error: 27.29 on 1028 degrees of freedom
Multiple R-Squared: 0.5616, Adjusted R-squared: 0.5569
F-statistic: 119.7 on 11 and 1028 DF, p-value: < 2.2e-16
A lexception de la variable indiquant la nature du jour, lensemble des coefcients sont jug es signi-
cativement diff erent de z ero mais la qualit e de lajustement est faible (R
2
).
9. Exemple : Pr evision de la concentration dozone 35
0 50 100 200 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
0 50 100 200 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
FIGURE 2.5 Ozone : R esidus des mod` eles lin eaire et quadratique.
Mod` ele avec interaction
La qualit e dajustement du mod` ele pr ec edent n etant pas tr` es bonne, un autre mod` ele est consid er e en
prenant en compte les interactions dordre 2 entgre les variables. Compte tenu de la complexit e du mod` ele
qui un d ecoule, un choix automatique est lanc e par elimination successive des termes non signicatifs
(algotithme backward). Le crit` ere optimis e est celui (AIC) dAkake. Plusieurs interactions ont et e elimin ees
au cours de la proc edure mais beaucoup subsistent dans le mod` ele. Attention, les effets principaux lno2,
vmodule ne peuvent etre retir es car ces variables apparaissent dans une interaction. En revanche on peut
sinterroger sur lopportunit e de conserver celle entre la force du vent et la concentration de dioxyde dazote.
Df Deviance Resid. Df Resid. Dev F Pr(>F)
NULL 1039 1745605
O3_pr 1 611680 1038 1133925 969.9171 < 2.2e-16
***
station 4 39250 1034 1094674 15.5594 2.339e-12
***
vmodule 1 1151 1033 1093523 1.8252 0.1769957
lno2 1 945 1032 1092578 1.4992 0.2210886
s_rmh2o 1 24248 1031 1068330 38.4485 8.200e-10
***
TEMPE 1 248891 1030 819439 394.6568 < 2.2e-16
***
O3_pr:station 4 16911 1026 802528 6.7038 2.520e-05
***
O3_pr:vmodule 1 8554 1025 793974 13.5642 0.0002428
***
O3_pr:TEMPE 1 41129 1024 752845 65.2160 1.912e-15
***
station:vmodule 4 7693 1020 745152 3.0497 0.0163595
*
station:lno2 4 12780 1016 732372 5.0660 0.0004811
***
station:s_rmh2o 4 19865 1012 712508 7.8746 2.997e-06
***
station:TEMPE 4 27612 1008 684896 10.9458 1.086e-08
***
vmodule:lno2 1 1615 1007 683280 2.5616 0.1098033
vmodule:s_rmh2o 1 2407 1006 680873 3.8163 0.0510351 .
lno2:TEMPE 1 4717 1005 676156 7.4794 0.0063507
**
s_rmh2o:TEMPE 1 42982 1004 633175 68.1543 4.725e-16
***
Ce sont surtout les graphes de la gure 2.5 qui renseignent sur lad equation des mod` eles. Le mod` ele
quadratique fournit une forme plus lin eaire des r esidus et un meilleur ajustement avec un R
2
de 0,64 mais
lh et erosc edasticit e reste pr esente, dautres approches sav` erent n ecessaires an de r eduire la variance li ee
` a la pr evision des concentrations elev ees.
9.2 Autres exemples
Les autres jeux de donn ees etudi es dans ce cours ne se pr` etent pas ` a une mod` ele de r egression multiple
classique ; soit la variable ` a pr edire est qualitative binaire et correspondent donc ` a un mod` ele de r egression
logistique (cancer et donn ees bancaires), soit la situation est plus complexe car fait appel ` a un mod` ele mixte
ou ` a effet al eatoire (r egime des souris).
Chapitre 3
R egression logistique
1 Introduction
Dans ce chapitre, nous d enissons le contexte pratique de la r egression logistique qui sint eressent plus
particuli` erement ` a la description ou lexplication dobservations constitu es deffectifs comme, par exemple,
le nombre de succ` es dune variable de Bernouilli lors dune s equence dessais. Contrairement aux mod` eles
du chapitre pr ec edent bas es sur lhypoth` ese de normalit e des observations, les lois concern ees sont discr` etes
et associ ees ` a des d enombrements : binomiale, multinomiale. N eanmoins, ce mod` ele appartient ` a la famille
du mod` ele lin eaire g en eral (annexe) et partagent ` a ce titre beaucoup daspects (estimation par maximum de
vraisemblance, tests, diagnostics) et dont la strat egie de mise en uvre, similaire au cas gaussien, nest pas
reprise.
Une premi` ere section d enit quelques notions relatives ` a l etude de la liaison entre variables qualitatives.
Elles sont couramment utilis ees dans linterpr etation des mod` eles de r egression logistique.
2 Odds et odds ratio
Une variable
Soit Y une variable qualitative ` a J modalit es. On d esigne la chance (ou odds
1
de voir se r ealiser la
j` eme modalit e plut ot que la k` eme par le rapport
jk
=

j
k
o` u
j
est la probabilit e dapparition de la j` eme modalit e. Cette quantit e est estim ee par le rapport n
j
/n
k
des effectifs observ es sur un echantillon. Lorsque la variable est binaire et suit une loi de Bernouilli de
param` etre , lodds est le rapport /(1 ) qui exprime une cote ou chance de gain.
Par exemple, si la probabilit e dun succ` es est 0.8, celle dun echec est 0.2. Lodds du succ` es est 0.8/0.2=4
tandis que lodds de l echec est 0.2/0.8=0.25. On dit encore que la chance de succ` es est de 4 contre 1 tandis
que celle d echec est de 1 contre 4.
Table de contingence
On consid` ere maintenant une table de contingence 2 2 croisant deux variables qualitatives binaires
X
1
et X
2
. les param` etres de la loi conjointe se mettent dans une matrice :
_

11

12
21

22
_
o` u
ij
= P[X
1
= i et X
2
= j] est la probabilit e doccurence de chaque combinaison.
1. Il nexiste pas, m eme en Qu eb ecois, de traduction consensuelle de odds qui utilise n eanmoins souvent le terme cote.
37
38 Chapitre 3. R egression logistique
Dans la ligne 1, lodds que la colonne 1 soit prise plut ot que la colonne 2 est :
1
=

11
12
.
Dans la ligne 2, lodds que la colonne 1 soit prise plut ot que la colonne 2 est :
2
=

21
22
.
On appelle odds ratio (rapport de cote) le rapport
=

1
2
=

11
22
12
21
.
Ce rapport prend la valeur 1 si les variables sont ind ependantes, il est sup erieur ` a 1 si les sujets de la ligne
1 ont plus de chances de prendre la premi` ere colonne que les sujets de la ligne 2 et inf erieur ` a 1 sinon.
Exemple : supposons qu` a lentr ee dans une ecole ding enieurs, 7 garcons sur 10 sont recus tandis que
seulement 4 lles sur 10 le sont. Lodds des garcons est alors de 0.7/0.3=2.33 tandis que celle des lles
est de 0.4/0.6=0.67. Lodds ratio est de 2.33/0.67=3.5. La chance d etre recu est 3.5 plus grande pour les
garcons que pour les lles.
Lodds ratio est egalement d eni pour deux lignes (a, b) et deux colonnes (c, d) quelconques dune table
de contingence croisant deux variables ` a J et K modalit es. Lodds ratio est le rapport
abcd
=

a
b
=

ac
bd
ad
bc
estim e par lodds ratio empirique

abcd
=
n
ac
n
bd
n
ad
n
bc
.
3 R egression logistique
3.1 Type de donn ees
Cette section d ecrit la mod elisation dune variable qualitative Z ` a 2 modalit es : 1 ou 0, succ` es ou
echec, pr esence ou absence de maladie, panne dun equipement, faillite dune entreprise, bon ou mauvais
client. . . . Les mod` eles de r egression pr ec edents adapt es ` a lexplication dune variable quantitative ne sap-
pliquent plus directement car le r egresseur lin eaire usuel X ne prend pas des valeurs simplement binaires.
Lobjectif est adapt e ` a cette situation en cherchant ` a expliquer les probabilit es
= P(Z = 1) ou 1 = P(Z = 0),
ou plut ot une transformation de celles-ci, par lobservation conjointe des variables explicatives. Lid ee est
en effet de faire intervenir une fonction r eelle monotone g op erant de [0, 1] dans IR et donc de chercher un
mod` ele lin eaire de la forme :
g(
i
) = x
i
.
Il existe de nombreuses fonctions, dont le graphe pr esente une forme sigmodale et qui sont candidates
pour remplir ce r ole, trois sont pratiquement disponibles dans les logiciels :
probit : g est alors la fonction inverse de la fonction de r epartition dune loi normale, mais son expression
nest pas explicite.
log-log avec g d enie par
g() = ln[ln(1 )]
mais cette fonction est dissym etrique.
logit est d enie par
g() = logit() = ln

1
avec g
1
(x) =
e
x
1 +e
x
.
3. R egression logistique 39
Plusieurs raisons, tant th eoriques que pratiques, font pr ef erer cette derni` ere solution. Le rapport /(1
), qui exprime une cote, est lodds et la r egression logistique sinterpr` ete donc comme la recherche
dune mod elisation lin eaire du log odds tandis que les coefcients de certains mod` eles expriment des
odds ratio cest-` a-dire linuence dun facteur qualitatif sur le risque (ou la chance) dun echec (dun
succ` es) de Z.
Cette section se limite ` a la description de lusage el ementaire de la r egression logistique. Des compl ements
concernant lexplication dune variable qualitative ordinale (plusieurs modalit es), lintervention de variables
explicatives avec effet al eatoire, lutilisation de mesures r ep et ees donc d ependantes, sont ` a rechercher dans
la bibliographie.
3.2 Mod` ele binomial
On consid` ere, pour i = 1, . . . , I, diff erentes valeurs x ees x
1
i
, . . . , x
q
i
des variables explicatives X
1
, . . . , X
q
.
Ces derni` eres pouvant etre des variables quantitatives ou encore des variables qualitatives, cest-` a-dire des
facteurs issus dune planication exp erimentale.
Pour chaque groupe, cest-` a-dire pour chacune des combinaisons de valeurs ou facteurs, on r ealise n
i
observations (n =
I
i=1
n
i
) de la variable Z qui se mettent sous la forme y
1
/n
1
, . . . , y
I
/n
I
o` u y
i
d esigne le
nombre de succ` es observ es lors des n
i
essais. On suppose que toutes les observations sont ind ependantes
et qu` a lint erieur dun m eme groupe, la probabilit e
i
de succ` es est constante. Alors, la variable Y
i
sachant
n
i
et desp erance E(Y
i
) = n
i
i
suit une loi binomiale B(n
i
,
i
) dont la fonction de densit e s ecrit :
P(Y = y
i
) =
_
n
i
y
i
_
y
i
i
(1
i
)
(n
i
y
i
)
.
On suppose que le vecteur des fonctions logit des probabilit es
i
appartient au sous-espace vectX
1
, . . . , X
q
engendr e par les variables explicatives :

logit(
i
) = x
i
i = 1, . . . , I
ce qui s ecrit encore
i
=
e
x
1 +e
x
i = 1, . . . , I.
Le vecteur des param` etres est estim e par maximisation de la log-vraisemblance. Il ny a pas de solution
analytique, celle-ci est obtenue par des m ethodes num eriques it eratives (par exemple Newton Raphson)
dont certaines reviennent ` a it erer des estimations de mod` eles de r egression par moindres carr es g en eralis es
avec des poids et des m etriques adapt es ` a chaque it eration.
Loptimisation fournit une estimation b de , il est alors facile den d eduire les estimations ou pr evisions
des probabilit es
i
:

i
=
e
x
i
b
1 +e
x
i
b
et ainsi celles des effectifs
y
i
= n
i

i
.
Remarques
i. La matrice X issue de la planication exp erimentale est construite avec les m emes r` egles que celles
utilis ees dans le cadre de lanalyse de covariance mixant variables explicatives quantitatives et quali-
tatives. Ainsi, les logiciels g` erent avec plus ou moins de clart e le choix des variables indicatrices et
donc des param` etres estimables ou contrastes associ es.
ii. La situation d ecrite pr ec edemment correspond ` a lobservation de donn ees group ees. Dans de nom-
breuses situations concr` etes et souvent d` es quil y a des variables explicatives quantitatives, les obser-
vations x
i
sont toutes distinctes. Ceci revient donc ` a xer n
i
= 1; i = 1, . . . , I dans les expressions
pr ec edentes et la loi de Bernouilli remplace la loi binomiale. Certaines m ethodes ne sont alors plus
applicables et les comportements asymptotiques des distributions des statistiques de test ne sont plus
valides, le nombre de param` etres tendant vers linni.
iii. Dans le cas dune variable explicative X dichotomique, un logiciel comme SAS fournit, en plus de
lestimation dun param` etre b, celle des odds ratios ; b est alors le log odds ratio ou encore, e
b
est
lodds ratio. Ceci sinterpr` ete en disant que Y a e
b
fois plus de chance de succ` es (ou de maladie
comme par un exemple un cancer du poumon) quand X = 1 (par exemple pour un fumeur).
3.3 R egressions logistiques polytomique et ordinale
La r egression logistique adapt ee ` a la mod elisation dune variable dichotomique se g en eralise au cas
dune variable Y ` a plusieurs modalit es ou polytomique. Si ces modalit es sont ordonn es, on dit que la
variable est qualitative ordinale. Ces types de mod elisation sont tr` es souvent utilis es en epid emiologie et
permettent d evaluer ou comparer des risques par exemples sanitaires. Des estimations dodds ratio ou
rapports de cotes sont ainsi utilis es pour evaluer et interpr eter les facteurs de risques associ es ` a diff erents
types (r egression polytomique) ou seuils de gravit e (r egression ordinale) dune maladie ou, en marketing,
cela sapplique ` a lexplication, par exemple, dun niveau de satisfaction dun client. Il sagit de comparer
entre elles des estimations de fonctions logit.
Dans une situation de data mining ou fouille de donn ees, ce type dapproche se trouve lourdement
p enalis e lorsque, ` a lint erieur dun m eme mod` ele polytomique ou ordinal, plusieurs types de mod` eles sont
en concurrence pour chaque fonction logit associ ee ` a diff erentes modalit es. Diff erents choix de variables,
diff erents niveaux dinteraction rendent trop complexe et inefcace cette approche. Elle est ` a privil egier
uniquement dans le cas dun nombre restreint de variables explicatives avec un objectif explicatif ou in-
terpr etatif.
`
A titre illustratif, explicitons le cas simple dune variable Y ` a k modalit es ordonn ees expliqu ee par une
seule variable dichotomique X. Notons
j
(X) = P(Y = j[X) avec
k
j=1
j
(X) = 1. Pour une variable
Y ` a k modalit es, il faut, en toute rigueur, estimer k 1 pr edicteurs lin eaires :
g
j
(X) =
j
+
j
X pourj = 1, . . . , k 1
et, dans le cas dune variable ordinale, la fonction lien logit utilis ee doit tenir compte de cette situation
particuli` ere.
Dans la litt erature, trois types de fonction sont consid er ees d ependant de l echelle des rapports de cote
adopt ee :
echelle bas ee sur la comparaison des cat egories adjacentes deux ` a deux,
sur la comparaison des cat egories adjacentes sup erieures cumul ees,
et enn sur la comparaison des cat egories adjacentes cumul ees.
Pour k = 2, on retrouve les trois situations se ram` enent ` a la m eme dune variable dichotomique. Cest le
dernier cas qui est le plus souvent adopt e ; il conduit ` a d enir les fonctions des logits cumulatifs de la
forme :
log

j+1
+ +
k
1
+ +
j
pourj = 1, . . . , k 1.
Pour un seuil donn e sur Y , les cat egories inf erieures ` a ce seuil, cumul ees, sont compar ees aux cat egories
sup erieures cumul ees. Les fonctions logit d enies sur cette echelle d ependent chacune de tous les effectifs,
ce qui peut conduire ` a une plus grande stabilit e des mesures qui en d ecoulent.
Si les variables ind ependantes sont nombreuses dans le mod` ele ou si la variable r eponse Y comporte
un nombre elev e de niveaux, la description des fonctions logit devient fastidieuse. La pratique consiste
plut ot ` a d eterminer un coefcient global b (mesure deffet) qui soit la somme pond er ee des coefcients b
j
.
Ceci revient ` a faire lhypoth` ese que les coefcients sont homog` enes (id ealement tous egaux), cest-` a-dire
` a suppos ee que les rapports de cotes sont proportionnels. Cest ce que calcule implicitement la proc edure
LOGISTIC de SAS appliqu ee ` a une variable r eponse Y ordinale en estimant un seul param` etre b mais k 1
termes constants correspondant ` a des translations de la fonctions logit. La proc edure LOGISTIC fournit le
r esultat du test du score sur lhypoth` ese H
0
de lhomog en eit e des coefcients
j
.
Le coefcient b mesure donc lassociation du facteur X avec la gravit e de la maladie et peut sinterpr eter
comme suit : pour tout seuil de gravit e choisi sur Y , la cote des risques davoir une gravit e sup erieure ` a ce
seuil est e
b
fois plus grande chez les expos es (X = 1) que chez les non expos es (X = 0).
Attention dans SAS, la proc edure LOGISTIC adopte une param etrisation (1, 1) analogue ` a celle de
D I L A T 0 1
D E B I T
0
1
2
3
4
V O L U M E
0 1 2 3 4
FIGURE 3.1 Dilatation : Nuage des modalit es de Y dans les coordonn ees des variables explicatives.
la proc edure CATMOD mais diff erente de celle de GENMOD ou SAS/Insight (0, 1). Ceci explique les
diff erences observ ees dans lestimation des param` etre dune proc edure ` a lautre mais les mod` eles sont
identiques.
4 Choix de mod` ele
4.1 Recherche pas ` a pas
Principalement deux crit` eres (test du rapport de vraisemblance et test de Wald, cf. bibliographie), sont
utilis es de facon analogue au test de Fisher du mod` ele lin eaire gaussien. Ils permettent de comparer un
mod` ele avec un sous-mod` ele et d evaluer lint er et de la pr esence des termes compl ementaires. On suit
ainsi une strat egie descendante ` a partir du mod` ele complet. Lid ee est de supprimer, un terme ` a la fois, la
composante dinteraction ou leffet principal qui apparat comme le moins signicatif au sens du rapport
de vraisemblance ou du test de Wald. Les tests pr esentent une structure hi erarchis ee. SAS facilite cette
recherche en produisant une d ecomposition (Type III) de ces indices permettant de comparer chacun des
sous-mod` eles excluant un des termes avec le mod` ele les incluant tous.
Attention, du fait de lutilisation dune transformation non lin eaire (logit), m eme si des facteurs sont or-
thogonaux, aucune propri et e dorthogonalit e ne peut etre prise en compte pour l etude des hypoth` eses. Ceci
impose l elimination des termes un par un et la r e-estimation du mod` ele. Dautre part, un terme principal
ne peut etre supprim e que sil nintervient plus dans des termes dinteraction.
4.2 Crit` ere
Lapproche pr ec edente favorise la qualit e dajustement du mod` ele. Dans un but pr edictif, certains logi-
ciels, comme Splus/R ou Enterpirse Miner, proposent dautres crit` eres de choix (AIC, BIC). Une estimation
de lerreur de pr evision par validation crois ee est aussi opportune dans une d emarche de choix de mod` ele.
5 Illustration el ementaire
5.1 Les donn ees
On etudie linuence du d ebit et du volume dair inspir e sur loccurence (cod ee 1) de la dilatation des
vaisseaux sanguins superciels des membres inf erieurs. Un graphique el ementaire repr esentant les moda-
lit es de Y dans les coordonn ees de X
1
X
2
est toujours instructif. Il montre une s eparation raisonnable et
de bon augure des deux nuages de points. Dans le cas de nombreuses variables explicatives quantitatives,
une analyse en composantes principales simpose. Les formes des nuages repr esent es, ainsi que lallure
des distributions ( etudi ees pr ealablement), incitent dans ce cas ` a consid erer par la suite les logarithmes des
variables. Une variable un ne contenant que des 1 d enombrant le nombre dessais est n ecessaire dans la
syntaxe de genmod. Les donn ees sont en effet non group ees.
proc logistic data=sasuser.debvol;
model dilat=l_debit l_volume;
run;
proc genmod data=sasuser.debvol;
model dilat/un=l_debit l_volume/d=bin;
run;
The LOGISTIC Procedure
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 56.040 35.216 .
SC 57.703 40.206 .
-2 LOG L 54.040 29.216(1) 24.824 with 2 DF (p=0.0001)
Score . . 16.635 with 2 DF (p=0.0002)
Parameter(2) Standard Wald(3) Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
INTERCPT 1 2.8782 1.3214 4.7443 0.0294 . .
L_DEBIT 1 -4.5649 1.8384 6.1653 0.0130 -2.085068 0.010
L_VOLUME 1 -5.1796 1.8653 7.7105 0.0055 -1.535372 0.006
Cette proc edure fournit des crit` eres de choix de mod` ele dont la d eviance (1), le vecteur b des param` etres
(2) et les statistiques des tests (3) comparant le mod` ele excluant un terme par rapport au mod` ele complet tel
quil est d ecrit dans la commande.
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF
Deviance 36 29.2156 0.8115 (1)
Scaled Deviance 36 29.2156 0.8115 (2)
Pearson Chi-Square 36 34.2516 0.9514 (3)
Scaled Pearson X2 36 34.2516 0.9514
Log Likelihood . -14.6078 .
Analysis Of Parameter Estimates
Parameter DF Estimate (4) Std Err ChiSquare (5) Pr>Chi
INTERCEPT 1 -2.8782 1.3214 4.7443 0.0294
L_DEBIT 1 4.5649 1.8384 6.1653 0.0130
L_VOLUME 1 5.1796 1.8653 7.7105 0.0055
SCALE (6) 0 1.0000 0.0000 . .
(1) D eviance du mod` ele par rapport au mod` ele satur e.
(2) D eviance pond er ee si le param` etre d echelle est diff erent de 1 en cas de sur-dispersion.
(3) Statistique de Pearson, voisine de la d eviance, comparant le mod` ele au mod` ele satur e .
(4) Param` etres du mod` ele.
(5) Statistique des tests comparant le mod` ele excluant un terme par rapport au mod` ele complet.
(6) Estimation du param` etre d echelle si la quasi-vraisemblance est utilis ee.
5.2 R egression logistique ordinale
On etudie les r esultats dune etude pr ealable ` a la l egislation sur le port de la ceinture de s ecurit e dans la
province de lAlberta ` a Edmonton au Canada (Jobson, 1991). Un echantillon de 86 769 rapports daccidents
de voitures ont et e compuls es an dextraire une table croisant :
i. Etat du conducteur : Normal ou Alcoolis e
ii. Sexe du conducteur
iii. Port de la ceinture : Oui Non
6. Autres exemples 43
iv. Gravit e des blessures : 0 : rien ` a 3 : fatales
Les modalit es de la variable ` a expliquer concernant la gravit e de laccident sont ordonn ees.
/
*
regression ordinale
*
/
proc logistic data=sasuser.ceinture;
class sexe alcool ceinture;
model gravite=sexe alcool ceinture ;
weight effectif;
run;
Standard Wald
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept Gr0 1 1.8699 0.0236 6264.9373 <.0001
Intercept Gr1 1 2.8080 0.0269 10914.3437 <.0001
Intercept Gr2 1 5.1222 0.0576 7917.0908 <.0001
sexe Sfem 1 -0.3118 0.0121 664.3353 <.0001
alcool A_bu 1 -0.5017 0.0190 697.0173 <.0001
ceinture Cnon 1 -0.1110 0.0174 40.6681 <.0001
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits
sexe Sfem vs Shom 0.536 0.511 0.562
alcool A_bu vs Ajeu 0.367 0.340 0.395
ceinture Cnon vs Coui 0.801 0.748 0.858
6 Autres exemples
Les exemples sont d ecrits dans cette section ` a titre illustratif avec SAS ou R, une comparaison syst ematique
des performances de chaque m ethode est d evelopp ee dans le dernier chapitre conclusif.
6.1 Cancer du sein
Les donn ees (Wisconsin BreastCancer Database) sont disponibles dans la librairie mlbench
du logiciel R. Elles servent tr` es souvent de base de r ef erence ` a des comparaisons de techniques dappren-
tissage. Les variables consid er ees sont :
Cl.thickness Clump Thickness
Cell.size Uniformity of Cell Size
Cell.shape Uniformity of Cell Shape
Marg.adhesion Marginal Adhesion
Epith.c.size Single Epithelial Cell Size
Bare.nuclei Bare Nuclei
Bl.cromatin Bland Chromatin
Normal.nucleoli Normal Nucleoli
Mitoses Mitoses
Class benign et malignant.
La derni` ere variable est celle ` a pr edire, les variables explicatives sont ordinales ou nominales ` a 10 classes.
Il reste 683 observations apr` es la suppression de 16 pr esentant des valeurs manquantes.
Ce jeu de donn ees est assez particulier car plut ot facile ` a ajuster. Une estimation utilisant toutes les va-
riables conduit ` a des messages critiques indiquant un d efaut de convergence et des probabilit es exactement
ajust ees. En fait le mod` ele sajuste exactement aux donn ees en utilisant toutes les variables aussi lerreur de
pr evision n ecessite une estimation plus soign ee. Une s eparation entre un echantillon dapprentissage et un
echantillon test ou une validation crois ee permet une telle estimation (voir le chapitre 5).
On trouve alors quun mod` ele plus parcimonieux et obtenu par une d emarche descendante, de sorte
que les param` etres soient signicatifs au sens dun test du Chi2, conduit ` a des erreurs de pr evision plus
faibles sur un echantillon test ind ependant quun mod` ele ajustant exactement les donn ees. La qualit e de
lajustement du mod` ele se r esume sous la forme dune matrice de confusion evaluant les taux de bien et mal
class es sur l echantillon dapprentissage tandis que lerreur de pr evision est estim ee ` a partir de l echantillon
test.
# erreur dajustement
fitq.lm=glm(ClassCl.thickness+Cell.size+Cell.shape ,data=datapq,family=binomial)
table(fitq.lm$fitted.values>0.5,datapq[,"Class"])
benign malignant
FALSE 345 6
TRUE 13 182
# erreur de prevision
predq.lm=predict(fitq.lm,newdata=datestq) # prevision
table(predq.lm>0.5,datestq[,"Class"])
benign malignant
FALSE 84 5
TRUE 2 46
Le taux derreur apparent estim e sur l echantillon dapprentissage est de 3,5% (0% avec le mod` ele
complet) tandis que le taux derreur estim e sans biais sur l echantillon test est de 5,1% (5,8 avec le mod` ele
complet). Ces estimations demanderont ` a etre afn ees an de comparer les m ethodes entre elles.
6.2 Pic dozone
Plut ot que de pr evoir la concentration de lozone puis un d epassement eventuel dun seuil, il pourrait etre
plus efcace de pr evoir directement ce d epassement en mod elisant la variable binaire associ ee. Attention
toutefois, ces d epassements etant relativement peu nombreux (17%), il serait n ecessaire den accentuer
limportance par lintroduction dune fonction co ut ou une pond eration sp ecique. Ceci est un probl` eme
g en eral losquil sagit de pr evoir des ph enom` enes tr` es rares : un mod` ele trivial ne les pr evoyant jamais ne
commettrait nalement quune erreur relative faible. Ceci revient ` a demander au sp ecialiste de quantier
le risque de pr evoir un d epassement du seuil ` a tord par rapport ` a celui de ne pas pr evoir ce d epassement ` a
tord. Le premier ` a des cons equences economiques et sur le confort des usagers par des limitations de trac
tandis que le 2` eme a des cons equences sur lenvironnement et la sant e de certaines populations. Ce nest
plus un probl` eme statistique.
La recherche descendante dun meilleur mod` ele au sens du crit` ere dAkake conduit au r esultat ci-
dessous.
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 831 744.34
O3_pr 1 132.89 830 611.46 9.576e-31
vmodule 1 2.42 829 609.04 0.12
s_rmh2o 1 33.71 828 575.33 6.386e-09
station 4 16.59 824 558.74 2.324e-03
TEMPE 1 129.39 823 429.35 5.580e-30
On peut sinterroger sur lint er et de la pr esence de la variable vmodule dont la pr esence rend plus
faible la pr evision de lerreur au sens dAkake mais dont le coefcient nest pas signicatif au sens du test
du Chi2 ; ce crit` ere etant li e ` a une qualit e dajustement. Lerreur estim ee sur l echantillon test ne permet
pas de d epartager ces mod` eles car les matrices de transition similaires conduisent ` a la m eme estimation
du taux derreur de 11,5% tandis que la m eme erreur est de 13,2% pour le mod` ele MOCAGE. Un mod` ele
de r egression logistique faisant intervenir les interactions dordre 2 et optimis e par algorithme descen-
dant aboutit ` a une erreur de 10,6% tandis que le mod` ele quantitatif de r egression quadratique du chapitre
pr ec edent conduit ` a une erreur de 10,1% avec le m eme protocole et les m emes echantillons dapprentissage
et de test.
6. Autres exemples 45
Matrices de confusion de lechantillon test pour differents modèles :
0 1 0 1 0 1 0 1
FALSE 163 19 FALSE 162 18 FALSE 163 17 FALSE 160 13
TRUE 5 21 TRUE 6 22 TRUE 5 23 TRUE 8 27
logistique sans vmodule avec vmodule avec interactions quantitatif
Notons que les erreurs ne sont pas sym etriques et sont affect ees du m eme biais : tous ces mod` eles
oublient syst ematiquement plus de d epassements de seuils quils nen pr evoient ` a tord. Une analyse
plus pouss ee de lestimation de lerreur de pr ediction est evidemment n ecessaire et ce sera, sur le plan
m ethodologique, lobjet du prochain chapitre.
`
Ace niveau de l etude, ce qui est le plus utile au m et eorologue,
cest lanalyse des coefcients les plus signicativements pr esents dans la r egression quadratique, cest-` a-
dire avec les interactions. Ils fournissent des indications pr ecieuses sur les faiblesses ou insufsances de
leur mod` ele physique.
Chapitre 4
Mod` ele log-lin eaire
1 Introduction
Comme dans le chapitre pr ec edent, les mod` eles d ecrits dans ce chapitre sint eressent plus particuli` erement
` a la description ou lexplication dobservations constitu es deffectifs ; nombre de succ` es dune variable de
Bernouilli lors dune s equence dessais dans la cas pr ec edent de la r egression logistique, nombre dindividus
qui prennent une combinaison donn ee de modalit es de variables qualitatives ou niveaux de facteurs, dans
le cas pr esent. Ce mod` ele fait egalement partie de la famille du mod` ele lin eaire g en eral en etant associ e
` a une loi de Poisson. Il est egalement appel e aussi mod` ele log-lin eaire (voir Agresti (1990) pour un ex-
pos e d etaill e) et sapplique principalement ` a la mod elisation dune table de contingence compl` ete. Comme
pour la r egression logistique, les aspects au mod` ele lin eaire g en eral (estimation, tests, diagnostic) ont des
strat egies de mise en uvreest similaire au cas gaussien ; ils ne sont pas repris.
2 Mod` ele log-lin eaire
2.1 Types de donn ees
Les donn ees se pr esentent g en eralement sous la forme dune table de contingence obtenue par le croi-
sement de plusieurs variables qualitatives et dont chaque cellule contient un effectif ou une fr equence ` a
mod eliser. Nous nous limiterons ` a l etude dune table el ementaire en laissant de c ot e des structures plus
complexes, par exemple lorsque des z eros structurels, des ind ependances conditionnelles, des propri et es de
sym etrie ou quasi-sym etrie, une table creuse, sont ` a prendre en compte. Dautre part, sous sa forme la plus
g en erale, le mod` ele peut int egrer egalement des variables quantitatives.
Ce type de situation se retrouve en analyse des correspondances simple ou multiple mais ici, lobjectif
est dexpliquer ou de mod eliser les effectifs en fonction des modalit es prises par les variables qualitatives.
Lobjectif nal pouvant etre explicatif : tester une structure de d ependance particuli` ere, ou pr edictif avec
choix dun mod` ele parcimonieux.
2.2 Distributions
On consid` ere la table de contingence compl` ete constitu ee ` a partir de lobservation des variables qualita-
tives X
1
, X
2
, . . . , X
p
sur un echantillon de n individus. Les effectifs y
jk...l
; j = 1, J; k = 1, K; . . . ; l =
1, L de chaque cellule sont rang es dans un vecteur y ` a I(I = J K L) composantes. Diff erentes
hypoth` eses sur les distributions sont consid er ees en fonction du contexte exp erimental.
Poisson
Le mod` ele le plus simple consiste ` a supposer que les variables observ ees Y
i
suivent des lois de Poisson
ind ependantes de param` etre
i
= E(Y
i
). La distribution conjointe admet alors pour densit e :
f(y, ) =
I
i=1
y
i
i
e
i
y
i
!
.
47
48 Chapitre 4. Mod` ele log-lin eaire
La somme N(N = y
+
=
i
y
i
) des I variables al eatoires de Poisson ind ependantes est egalement une
variable de Poisson de param` etre
+
=
i
.
Multinomiale
En pratique, le nombre total n dobservations est souvent x e a priori par lexp erimentateur et ceci
induit une contrainte sur la somme des y
i
. La distribution conjointe des variables Y
i
est alors conditionn ee
par n et la densit e devient :
f(y, ) =
I
i=1
y
i
i
e
i
y
i
!
_
n
+
e
+
n!
.
Comme
n
+
=
y
i
+
et e
+
=
i
e
i
, en posant
i
=

i
+
, on obtient :
f(y, ) = n!
I
i=1
y
i
i
y
i
!
avec
I
i=1
i
= 1 et 0
i
1; i = 1, I.
On v erie donc que f(y, ) est la fonction de densit e dune loi multinomiale dans laquelle les param` etres
i
mod elisent les probabilit es doccurrence associ ees ` a chaque cellule. Dans ce cas, E(Y
i
) = n
i
.
Produit de multinomiales
Dans dautres circonstances, des effectifs marginaux lignes, colonnes ou sous-tables, peuvent etre egalement
x es par lexp erimentateur comme dans le cas dun sondage strati e. Cela correspond au cas o` u une ou plu-
sieurs variables sont contr ol ees et ont donc un r ole explicatif ; leurs modalit es sont connues a priori. Les
lois de chacun des sous- el ements de la table, conditionn ees par leffectif marginal correspondant sont mul-
tinomiales. La loi conjointe de lensemble est alors un produit de multinomiales.
Cons equence
Trois mod` eles de distribution : Poisson, multinomial, produit de multinomiales, sont envisageables pour
mod eliser Y
i
en fonction des conditions exp erimentales. Dun point de vue th eorique, on montre que ces
mod` eles conduisent aux m emes estimations des param` etres par maximum de vraisemblance. La diff erence
introduite par le conditionnement intervient par une contrainte qui impose la pr esence de certains param` etres
dans le mod` ele, ceux reconstruisant les marges x ees.
2.3 Mod` eles ` a 2 variables
Soit une table de contingence (J K) issue du croisement de deux variables qualitatives X
1
` a J
modalit es et X
2
` a K modalit es et dont leffectif total n est x e. La loi conjointe des effectifs Y
jk
de chaque
cellule est une loi multinomiale de param` etre
jk
et desp erance :
E(Y
jk
) = n
jk
.
Par d enition, les variables X
1
et X
2
sont ind ependantes si et seulement si :
jk
=
+k
j+
o` u
j+
(resp.
+k
) d esigne la loi marginale de X
1
(resp. X
2
) :
j+
=
K
k=1
jk
et
+k
=
J
j=1
jk
.
Si lind ependance nest pas v eri ee, on peut d ecomposer :
E(Y
jk
) = n
jk
= n
j+
+k
jk
j+
+k
.
Notons
jk
= ln(E(Y
jk
)). Lintervention de la fonction logarithme permet de lin eariser la d ecomposition
pr ec edente autour du mod` ele dind ependance :
jk
= ln n + ln
j+
+ ln
+k
+ ln
_

jk
j+
+k
_
.
2. Mod` ele log-lin eaire 49
Ce mod` ele est dit satur e car, pr esentant autant de param` etres que de donn ees, il explique exactement celles-
ci. Lind ependance est v eri ee si le dernier terme de cette expression, exprimant une d ependance ou inter-
action comme dans le mod` ele danalyse de variance, est nul pour tout couple (j, k).
Les logiciels mettent en place dautres param etrisations en faisant apparatre des effets diff erentiels, soit
par rapport ` a une moyenne, soit par rapport ` a la derni` ere modalit e.
Dans le premier cas, en posant :
0
=
1
JK
J
j=1
K
k=1
jk
=
..
,
1
j
=
1
K
K
k=1
jk

..
=
j.
..
,
2
k
=
1
J
J
j=1
jk

..
=
.k

..
,
12
jk
=
jk

j.
.k
+
..
,
avec les relations :
j, k,
J
j=1
1
j
=
K
k=1
2
k
=
J
j=1
12
jk
=
K
k=1
12
jk
= 0,
le mod` ele satur e s ecrit :
ln(E(Y
jk
)) =
jk
=
0
+
1
j
+
2
k
+
12
jk
.
Il se met sous la forme matricielle
= X
o` u X est la matrice exp erimentale (design matrix) contenant les indicatrices. Lind ependance est obtenue
lorsque tous les termes dinteraction
12
jk
sont nuls.
La deuxi` eme param etrisation consid` ere la d ecomposition :
jk
=
JK
Jk
JK
jK
JK
jk
JK
Jk
jK
.
En posant :
0
= ln n + ln
JK
,
1
j
= ln
jK
ln
JK
,
2
k
= ln
Jk
ln
JK
,
12
jk
= ln
jk
ln
jK
ln
Jk
+ ln
JK
,
avec les m emes relations entre les param` etres. Le mod` ele se met encore sous la forme :
= X
et se ram` ene ` a lind ependance si tous les param` etres
12
jk
sont nuls.
Si lhypoth` ese dind ependance est v eri ee, on peut encore analyser les effets principaux :
si, j,
1
j
= 0 alors,
jk
=
Jk
=
1
J
+k
.
Il y a equiprobabilit e des modalit es de X
1
. M eme chose avec X
2
si les termes
2
k
sont tous nuls.
Les param` etres du mod` ele log-lin eaire sont estim es en maximisant la log-vraisemblance dont lexplici-
tation est report ee au chapitre suivant comme cas particulier de mod` ele lin eaire g en eralis e. Pour les mod` eles
simples, les estimations sont d eduites des effectifs marginaux mais comme, d` es que le mod` ele est plus com-
pliqu e, des m ethodes it eratives sont n ecessaires, elles sont syst ematiquement mises en uvre.
2.4 Mod` ele ` a trois variables
On consid` ere une table de contingence (JKL) obtenue par croisement de trois variables qualitatives
X
1
, X
2
, X
3
. La d enition des param` etres est conduite de mani` ere analogue au cas de deux variables en
faisant apparatre des effets principaux et des interactions. Le mod` ele satur e se met sous la forme :
ln(E(Y
jkl
)) =
jkl
=
0
+
1
j
+
2
k
+
3
l
+
12
jk
+
13
jl
+
23
kl
+
123
jkl
et peut aussi est pr esent e sous forme matricielle.
Nous allons expliciter les sous-mod` eles obtenus par nullit e de certains param` etres et qui correspondent ` a
des structures particuli` eres dind ependance. Une facon classique de nommer les mod` eles consiste ` a ne citer
que les interactions retenues les plus complexes. Les autres, ainsi que les effets principaux, sont contenues
de par la structure hi erarchique du mod` ele. Ainsi, le mod` ele satur e est d esign e par (X
1
X
2
X
3
) correspon-
dant ` a la syntaxe X1|X2|X3 de SAS.
Cas poissonnien ou multinomial
Seul le nombre total dobservations n est x e dans le cas multinomial, ceci impose simplement la
pr esence de
0
dans le mod` ele.
i. Mod` ele partiel dassociation ou de tout interaction dordre 2 : (X
1
X
2
, X
2
X
3
, X
1
X
3
)
Les termes
123
jkl
sont tous nuls, seules les interactions dordre 2 sont pr esentes. Cest le mod` ele
implicitement consid er e par lanalyse multiple des correspondances. Il s ecrit :
jk
=
0
+
1
j
+
2
k
+
3
l
+
12
jk
+
13
jl
+
23
kl
.
ii. Ind ependance conditionnelle : (X
1
X
2
, X
1
X
3
)
Si, en plus, lun des termes dinteraction est nul, par exemple
kl
= 0 pour tout couple (k, l), on dit
que X
2
et X
3
sont ind ependantes conditionnellement ` a X
1
et le mod` ele devient :
jk
=
0
+
1
j
+
2
k
+
3
l
+
12
jk
+
13
jl
.
iii. Variable ind ependante : (X
1
, X
2
X
3
)
Si deux termes dinteraction sont nuls :
jl
jk
= 0 pour tout triplet (j, k, l), alors X
1
est ind ependante
de X
2
et X
3
.
jk
=
0
+
1
j
+
2
k
+
3
l
+
23
kl
.
iv. Ind ependance : (X
1
, X
2
, X
3
)
Tous les termes dinteraction sont nuls :
jk
=
0
+
1
j
+
2
k
+
3
l
et les variables sont mutuellement ind ependantes.
Produit de multinomiales
Si une variable est explicative, par exemple X
3
, ses marges sont x ees, le mod` ele doit n ecessairement
conserver les param` etres
jk
=
0
+
3
l
+
Si deux variables sont explicatives, par exemple X
2
et X
3
, le mod` ele doit conserver les termes :
jk
=
0
+
2
k
+
3
l
+
23
kl
+
La g en eralisation ` a plus de trois variables ne pose pas de probl` eme th eorique. Les difcult es viennent de
lexplosion combinatoire du nombre de termes dinteraction et de la complexit e des structures dind ependance.
Dautre part, si le nombre de variables est grand, on est souvent confront e ` a des tables de contingence
creuses (beaucoup de cellules vides) qui rendent d efaillant le mod` ele log-lin eaire. Une etude exploratoire
(correspondances multiples par exemple) pr ealable est n ecessaire an de r eduire le nombre des variables
consid er ees et celui de leurs modalit es.
3 Choix de mod` ele
3.1 Recherche pas ` a pas
Principalement deux crit` eres (test du rapport de vraisemblance et test de Wald), d ecrits en annexe pour
un cadre plus g en eral, sont consid er es. Ces crit` eres sont utilis es comme le test de Fisher du mod` ele lin eaire
gaussien. Ils permettent de comparer un mod` ele avec un sous-mod` ele et d evaluer lint er et de la pr esence
des termes compl ementaires. On suit ainsi une strat egie descendante ` a partir du mod` ele complet ou satur e
dans le cas du mod` ele log-lin eaire. Lid ee est de supprimer, un terme ` a la fois, la composante dinteraction
ou leffet principal qui apparat comme le moins signicatif au sens du rapport de vraisemblance ou du
test de Wald. Les tests pr esentent une structure hi erarchis ee. SAS facilite cette recherche en produisant une
d ecomposition (Type III) de ces indices permettant de comparer chacun des sous-mod` eles excluant un des
termes avec le mod` ele les incluant tous.
Attention, du fait de lutilisation dune transformation non lin eaire (log), m eme si des facteurs sont or-
thogonaux, aucune propri et e dorthogonalit e ne peut etre prise en compte pour l etude des hypoth` eses. Ceci
impose l elimination des termes un par un et la r e-estimation du mod` ele. Dautre part, un terme principal
ne peut etre supprim e que sil nintervient plus dans des termes dinteraction. Enn, selon les conditions
exp erimentales qui peuvent xer les marges dune table de contingence, la pr esence de certains param` etres
est impos ee dans un mod` ele log-lin eaire.
4 Exemples
4.1 Mod` ele poissonien
On etudie les r esultats dune etude pr ealable ` a la l egislation sur le port de la ceinture de s ecurit e dans la
province de lAlberta ` a Edmonton au Canada (Jobson, 1991). Un echantillon de 86 769 rapports daccidents
de voitures ont et e compuls es an dextraire une table croisant :
i. Etat du conducteur : Normal ou Alcoolis e
ii. Port de la ceinture : Oui Non
iii. Gravit e des blessures : 0 : rien ` a 3 : fatales
La proc edure genmod est utilis ee :
proc genmod data=sasuser.ceinture;
class co ce b ;
model effectif=co|ce|b @2 /type3 obstats dist=poisson;
run;
Une extraction des r esultats donnent :
Criteria For Assessing Goodness Of Fit
Criterion DF Value Value/DF
Deviance 3 5.0136 1.6712
LR Statistics For Type 3 Analysis
Source DF ChiSquare Pr>Chi
CO 1 3431.0877 0.0001
CE 1 3041.5499 0.0001
CO
*
CE 1 377.0042 0.0001
B 3 28282.8778 0.0001
CO
*
B 3 474.7162 0.0001
CE
*
B 3 42.3170 0.0001
Analysis Of Parameter Estimates
Parameter DF Estimate Std Err ChiSquare Pr>Chi
INTERCEPT 1 3.6341 0.1550 550.0570 0.0001
CO A 1 -2.2152 0.1438 237.3628 0.0001
CE N 1 1.8345 0.1655 122.8289 0.0001
CO
*
CE A N 1 0.9343 0.0545 293.9236 0.0001
B 0 1 5.7991 0.1552 1396.7752 0.0001
B 1 1 2.7848 0.1598 303.6298 0.0001
B 2 1 2.1884 0.1637 178.7983 0.0001
CO
*
B A 0 1 -1.4622 0.1354 116.5900 0.0001
CO
*
B A 1 1 -0.6872 0.1423 23.3154 0.0001
CO
*
B A 2 1 -0.5535 0.1452 14.5293 0.0001
CE
*
B N 0 1 -0.2333 0.1658 1.9807 0.1593
CE
*
B N 1 1 -0.0902 0.1708 0.2786 0.5976
CE
*
B N 2 1 0.0741 0.1748 0.1799 0.6715
Observation Statistics
EFFECTIF Pred Xbeta Std HessWgt Lower Upper
12500 12497 9.4332 0.008930 12497 12280 12718
604 613.3370 6.4189 0.0395 613.3370 567.6707 662.6770
344 337.8089 5.8225 0.0530 337.8089 304.5010 374.7601
38 37.8677 3.6341 0.1550 37.8677 27.9495 51.3053
61971 61974 11.0345 0.004016 61974 61488 62464
...
Les r esultats montrent que le mod` ele de toute interaction dordre 2 est acceptable (d eviance) et il semble
que tous les termes soient n ecessaires, toutes les interactions doivent etre pr esentes au sens du test de Wald.
Chapitre 5
Qualit e de pr evision
1 Introduction
La performance du mod` ele issu dune m ethode dapprentissage s evalue par sa capacit e de pr evision
dite encore de capacit e de g en eralisation dans la communaut e informatique. La mesure de cette perfor-
mance est tr` es importante puisque, dune part, elle permet dop erer une s election de mod` ele dans une
famille associ ee ` a la m ethode dapprentissage utilis ee et, dautre part, elle guide le choix de la m ethode
en comparant chacun des mod` eles optimis es ` a l etape pr ec edente. Enn, elle fournit, tous choix faits, une
mesure de la qualit e ou encore de la conance que lon peut accorder ` a la pr evision en vue m eme, dans un
cadre l egal, dune certication.
En dehors dune situation exp erimentale plani ee classique en Statistique, cest-` a-dire sans le secours
de mod` eles probabilistes, cest le cas, par principe, du data mining, trois types de strat egies sont propos es :
i. un partage de l echantillon (apprentissage, validation, test) an de distinguer estimation du mod` ele et
estimations de lerreur de pr evision,
ii. une p enalisation de lerreur dajustement faisant intervenir la complexit e du mod` ele,
iii. un usage intensif du calcul (computational statistics) par la mise en uvre de simulations.
Le choix d epend de plusieurs facteurs dont la taille de l echantillon initial, la complexit e du mod` ele envi-
sag e, la variance de lerreur, la complexit e des algorithmes cest-` a-dire le volume de calcul admissible.
Pour r epondre aux objectifs de la 2` eme strat egie adapt ee ` a un echantillon deffectif trop restreint pour
etre eclater en trois partie, diff erents crit` eres sont utilis ees pour d enir une qualit e de mod` ele ` a n pr edictive.
Le plus ancien est naturellement une estimation dune erreur de pr evision : risque quadratique ou
taux de mal class es, comme mesure dune distance moyenne entre le vrai ou le meilleur mod` ele
et celui consid er e. Ce risque quadratique se d ecomposant grossi` erement en un carr e de biais et une
variance, lenjeu est de trouver un bon compromis entre ces deux composantes en consid erant un
mod` ele parcimonieux.
Dautres crit` eres sont bas es sur la dissemblance de Kullback entre mesure de probabilit es. Ce crit` ere
mesure la qualit e dun mod` ele en consid erant la dissemblance de Kullback entre la loi de la variable
expliqu ee Y et celle de sa pr evision

Y fournie par un mod` ele.
La derni` ere approche enn, issue de la th eorie de lapprentissage de Vapnik (1999), conduit ` a proposer
une majoration de lerreur de pr evision ou risque ne faisant pas intervenir la loi conjointe inconnue
ou des consid erations asymptotiques mais une mesure de la complexit e du mod` ele appel ee dimension
de Vapnik-Chernovenkis.
Les travaux de Vapnik en th eorie de lapprentissage ont conduit ` a focaliser lattention sur la pr esence
ou labsence de propri et es th eoriques basiques dune technique dapprentissage ou de mod elisation :
consistance qui garantit la capacit e de g en eralisation. Un processus dapprentissage est dit consistant si
lerreur sur lensemble dapprentissage et lerreur sur un jeu de donn ees test convergent en probabilit e
vers la m eme limite lorsque la taille de l echantillon dapprentissage augmente.
vitesse de convergence. Une evaluation, quand elle est possible, de la vitesse de convergence de lerreur
53
54 Chapitre 5. Qualit e de pr evision
lorsque la taille augmente, est une indication sur la facon dont la g en eralisation sam eliore et informe
sur la nature des param` etres, comme le nombre de variables explicatives, dont elle d epend.
contr ole Est-il possible, ` a partir dun echantillon dapprentissage de taille ni donc sans consid erations
asymptotiques, de contr oler la capacit e de g en eralisation et donc de majorer le terme derreur de
pr evision ou risque ?
Une estimation de la qualit e de la pr evision est donc un el ement central de la mise en place de la
strat egie du data mining, telle quelle est d ecrite dans lintroduction (cf. chapitre 1 section 4) mais aussi
dans beaucoup de disciplines concern ees par la mod elisation statistique. Le point important ` a souligner est
que le meilleur mod` ele en un sens pr edictif nest pas n ecessairement celui qui ajuste le mieux les donn ees
(cas de sur-ajustement) ni m eme le vrai mod` ele si la variance des estimations est importante.
2 Erreur de pr evision
2.1 D enition
Soit Y la variable ` a pr edire, X la variable p-dimensionnelle ou lensemble des variables explicatives, F
la loi conjointe de Y et X, z = (x
1
, y
1
), . . . , (x
n
, y
n
) un echantillon et
Y = (X) +
le mod` ele ` a estimer avec E() = 0, Var() =
2
et ind ependant de X ; X, comme chacun des x
i
, est de
dimension p.
Lerreur de pr evision est d enie par
c
P
(z, F) = E
F
[Q(Y,
(X))]
o` u Q est une fonction perte.
Si Y est quantitative, cette fonction perte est le plus g en eralement quadratique : Q(y, y) = (y y)
2
,
mais utilise parfois la valeur absolue : Q(y, y) = [y y[. Cette derni` ere ` a lavantage d etre plus robuste,
car moins sensible aux valeurs extr emes, mais n ecessite des algorithmes doptimisation plus complexes et
pas n ecessairement ` a solution unique.
Si Y est qualitative Q est une indicatrice de mal class e : Q(y, y) = 1
{y= y}
.
Dans le cas quantitatif, lestimation du mod` ele par minimisation de c
P
revient ` a une approximation de
la fonction et la solution est lesp erance conditionnelle (connaissant l echantillon) tandis que, dans la cas
qualitatif, cest la classe la plus probable d esign ee par le mode conditionnel qui est pr edite.
2.2 D ecomposition
Lerreur de pr evision se d ecompose dans le cas quantitatif
1
. Consid erons celle-ci en un point x
0
.
c
P
(x
0
) = E
F
[(Y

(x
0
))
2
[ X = x
0
]
=
2
+ [E
F
(x
0
) (x)]
2
+E
F
[
(x
0
) E
F
(x
0
)]
2
=
2
+ Biais
2
+ Variance.
Tr` es g en eralement, plus un mod` ele (la famille des fonctions admissibles) est complexe, plus il est exible
et peu sajuster aux donn ees observ ees et donc plus le biais est r eduit. En revanche, la partie variance
augmente avec le nombre de param` etres ` a estimer et donc avec cette complexit e. Lenjeu, pour minimiser
le risque quadratique ainsi d eni, est donc de rechercher un meilleur compromis entre biais et variance :
accepter de biaiser lestimation comme par exemple en r egression ridge pour r eduire plus favorablement la
variance.
1. Plusieurs d ecompositions concurrentes ont et e propos ees dans le cas qualitatif mais leur explicitation est moins claire.
3. Estimation avec p enalisation 55
2.3 Estimation
Le premier type destimation ` a consid erer exprime la qualit e dajustement du mod` ele sur l echantillon
observ e. Cest justement, dans le cas quantitatif, ce crit` ere qui est minimis e dans la recherche de moindres
carr es. Ce ne peut etre quune estimation biais ee, car trop optimiste, de lerreur de pr evision ; elle est li ee
aux donn ees qui ont servi ` a lajustement du mod` ele et est dautant plus faible que le mod` ele est complexe.
Cette estimation ne d epend que de la partie biais de lerreur de pr evision et ne prend pas en compte la
partie variance de la d ecomposition.
Cette estimation est not ee :
c
P
=
1
n
n
i=1
Q(y
i
,
(x
i
)).
Cest simplement le taux de mal class es dans le cas qualitatif. Des crit` eres de risque plus sophistiqu es sont
envisag es dans un contexte bay esien si des probabilit es a priori sont connues sur les classes ou encore des
co uts de mauvais classement (cf. chapitre 6).
La facon la plus simple destimer sans biais lerreur de pr evision consiste ` a calculer
c
P
sur un echantillon
ind ependant nayant pas particip e ` a lestimation du mod` ele. Ceci n ecessite donc d eclater l echantillon en
trois parties respectivement appel ees apprentissage, validation et test :
z = z
Appr
z
Valid
z
Test
.
i.

c
P
(z
Appr
) est minimis ee pour estimer un mod` ele,
ii.

c
P
(z
Valid
) sert ` a la comparaison des mod` eles au sein dune m eme famille an de s electionner celui
qui minimise cette erreur,
iii.

c
P
(z
Test
) est utilis ee pour comparer entre eux les meilleurs mod` eles de chacune des m ethodes consid er ees.
Cette solution nest acceptable que si la taille de l echantillon initiale est importante sinon :
la qualit e dajustement est d egrad ee car n est plus petit,
la variance de lestimation de lerreur peut etre importante et ne peut etre estim ee.
Si la taille de l echantillon est insufsante, le point ii ci-dessus : la s election de mod` ele est bas ee sur un
autre type destimation de lerreur de pr evision faisant appel soit ` a une p enalisation soit ` a des simulations.
3 Estimation avec p enalisation
3.1 C
p
de Mallows
Le C
p
de Mallows fut, historiquement, le premier crit` ere visant ` a une meilleure estimation de lerreur
de pr evision que la seule consid eration de lerreur dajustement (ou le R
2
) dans le mod` ele lin eaire. Il repose
sur une mesure de la qualit e sur la base dun risque quadratique. Lerreur de pr evision se d ecompose en :
c
P
=

c
P
(z
Appr
) + Optim
qui est lestimation par resubstitution ou taux derreur apparent plus le biais par abus doptimisme. Il sagit
donc destimer cette optimisme pour apporter une correction et ainsi une meilleure estimation de lerreur
recherch ee. cette correction peut prendre plusieurs formes. Elle est li ee ` a lestimation de la variance dans la
d ecomposition en biais et variance de lerreur ou cest encore une p enalisation associ ee ` a la complexit e du
mod` ele.
Son expression est d etaill ee dans le cas de la r egression lin eaire chapitre 2. On montre (cf. Hastie et col.
2001), ` a des ns de comparaison quil peut aussi se mettre sous une forme equivalente :
C
p
=

c
P
+ 2
d
n
s
2
o` u d est le nombre de param` etres du mod` eles (nombre de variables plus un)), n le nombre dobservations,
s
2
une estimation de la variance de lerreur par un mod` ele de faible biais. Ce dernier point est fondamental
pour la qualit e du crit` ere, il revient ` a supposer que le mod` ele complet (avec toutes les variables) est le vrai
mod` ele ou tout du moins un mod` ele peu biais e an de conduire ` a une bonne estimation de de
2
.
3.2 AIC, AIC
c
, BIC
Contrairement au C
p
associ e ` a un risque quadratique, le crit` ere dinformation dAkake (AIC) d ecoule
dune expression de la qualit e du mod` ele bas ee sur la dissemblance de Kullback. Il se pr esente sous une
forme similaire mais plus g en erale que le C
p
de Mallows. Il sapplique en effet ` a tout mod` ele estim e par
maximisation dune log-vraisemblance / et suppose que la famille de densit es consid er ees pour mod eliser
la loi de Y contient la vraie densit e de Y .
Apr` es quelques d eveloppements incluant de nombreuses approximations (estimation de param` etres par
maximum de vraisemblance, propri et es asymtotiques, formule de Taylor), le crit` ere dAkake se met sous
la forme :
AIC = 2/ + 2
d
n
.
Dans le cas gaussien en supposant la variance connue, moindres carr es et d eviance concident, AIC est
equivalent au C
p
. Ce crit` ere poss` ede une version plus rafn ee (AIC
c
) dans le cas gaussien et plus parti-
culi` erement adapt ee aux petits echantillons et asymptotiquement equivalente lorsque n est grand.
AIC = 2/ +
n +d
n d 2
.
Une argumentation de type bay esien conduit ` a un autre crit` ere BIC (Bayesian information criterion) qui
cherche, approximativement (asymptotiquement), le mod` ele associ e ` a la plus grande probabilit e a poste-
riori. Dans le cas dun mod` ele issu de la maximisation dune log-vraisemblance, il se met sous la forme :
BIC = 2/ + log(n)
d
n
.
On montre, dans le cas gaussien et en supposant la variance connue que BIC est proportionnel ` a AIC avec
le facteur 2 remplac e par log n. Ainsi, d` es que n > e
2
7, 4, BIC tend ` a p enaliser plus lourdement les
mod` eles complexes. Asymptotiquement, on montre que la probabilit e pour BIC de choisir le bon mod` ele
tend vers 1 lorsque n tend vers linni. Ce nest pas le cas dAIC ni du C
p
qui tendent alors ` a choisir des
mod` eles trop complexes. N eanmoins ` a taille ni, petite, BIC risque de se limiter ` a des mod` eles trop simples.
Quelque soit le crit` ere adopt e, il est facile de choisir le mod` ele pr esentant le plus faible AIC, AIC
c
ou BIC parmi ceux consid er es. Globalement, si lestimation du mod` ele d ecoule dune maximisation de la
vraisemblance, estimation et choix de mod` ele reviennent ` a minimiser un crit` ere de vraisemblance p enalis ee
s ecrit sous la forme :
Crit = f(Vraisemblance) + P enalisation(d)
o` u f est une fonction d ecroissante de la vraisemblance (log) et la p enalisation une fonction croissante de
la complexit e du mod` ele.
Les crit` eres ci-dessus ont pour la plupart et e d enis dans le cadre du mod` ele classique de r egression
multiple pour lequel il existe de nombreuses r ef erences et certains et e g en eralis es ou adapt es ` a dautres
m ethodes en etendant la notion de nombre de degr es de libert es ` a des situations o` u le nombre de param` etres
du mod` ele nest pas explicite (lissage ou r egularisation).
Ainsi, pour les mod` eles non-lin eaires voire plus complexes (non-param etriques en dimension innie),
le nombre d de param` etres doit etre remplac e par une mesure de complexit e p(). Par exemple, les mod` eles
lin eaires se mettent sous une forme : y = Hy en incluant les m ethodes de r egularisation (ridge) ou de
lissage (spline) o` u la matrice H d epend uniquement des x
i
. Dans ce cas, le nombre effectif de param` etres
est d eni comme la trace de la matrice H : d(H) = tr(H). Cest encore d, le rang de X cest-` a-dire le
nombre vecteurs de base (le nombre de variables + 1) si Hest une matrice de projection orthogonale. Dans
dautres situations (perceptron), ce nombre de param` etres est plus difcile ` a contr oler car il fait intervenir
les valeurs propres dune matrice hessienne.
3.3 Dimension de Vapnik-Chernovenkis
Cet indicateur mesure la complexit e dune famille de fonctions candidates ` a la d enition un mod` ele de
pr evision. Cette complexit e est bas ee sur le pouvoir s eparateur de la famille de fonction.
3. Estimation avec p enalisation 57
Consid erons un echantillon (x
1
, . . . , x
n
) de IR
p
. Il existe 2
n
diff erentes mani` eres de s eparer cet echantillon
en deux sous- echantillons. Par d enition, on dit quun ensemble F de fonctions hache ou mieux pulv erise
(shatters) l echantillon si les 2
n
s eparations peuvent etre construites par diff erents repr esentants de la fa-
mille de fonction F. Ainsi, par exemple, pour p = 2, les fonctions lin eaires (droites) peuvent pulv eriser 3
points mais pas 4.
D EFINITION 5.1. Un ensemble de fonctions d enis de IR
p
dans IR est dit de VC dimension (Vapnik-
Chernovenkis) h si :
tout jeu de h vecteurs de IR
p
peut etre pulv eris e.
Aucun ensemble de h + 1 vecteurs ne peut etre pulv eris e par cet ensemble de fonctions.
Exemples
La VC dimension de lensemble des hyperplans dans IR
p
est p + 1.
La VC dimension de lensemble des fonctions f(x, w) = sign(sin(w, x)) avec 0 < c < x < 1 o` u w
est un param` etre libre, est innie.
La VC dimension de lensemble des indicatrices lin eaires
f(x, w) = sign
_
_
p
j=1
(w
j
x
j
) + 1
_
_
avec |x| = 1
et satisfaisant la condition :
|w|
2
=
p
j=1
w
2
j
C
d epend de la constante C et peut prendre toutes les valeurs de 0 ` a p.
Attention, les VC dimensions ne sont pas egales au nombre de param` etres libres et sont souvent difciles ` a
exprimer pour une famille de fonctions donn ees.
Vapnik (1999) prouve des r esultats fondamentaux pour la th eorie de lapprentissage :
Un processus dapprentissage est consistant si et seulement si la famille de mod` eles consid er es a une
VC dimension h nie.
La majoration de la diff erence entre lerreur dapprentissage (ou par resubstitution ou erreur appa-
rente) et lerreur de pr evision d epend du rapport entre la VC dimension h et la taille n de lensemble
dapprentissage.
Lin egalit e de Vapnik, qui s ecrit sous une forme analogue ` a un intervalle de conance, permet de
contr oler lerreur de pr evision ou risque. Avec une probabilit e 1 rho :
c
P
<

c
P
+
h(log(
2n
h
) + 1) log

4
n
.
Il est important de souligner que cette in egalit e ne fait pas intervenir le nombre de variables explica-
tives p mais le rapport n/h. Elle ne fait pas intervenir non plus la loi conjointe inconnue du couple
(Y, X). Le deuxi` eme terme est grand (mauvaise pr ecision) lorsque le rapport n/h est faible d u ` a une
trop grande VC dimension et donc une famille de mod` eles trop complexe.
En pratique, il est important de minimiser simultan ement les deux termes de lin equation. La strat egie ` a
adopter est le principe de minimisation structur ee du risque (SRM) qui consiste ` a faire de la VC dimension
h une variable contr ol ee. Ayant d eni une s equence ou structure de mod` eles embot es au sens de la VC
dimension :
S
1
S
2
S
k
si les VC dimensions associ ees v erient : h
1
< h
2
< < h
k
.
Il sagit de trouver la valeur h rendant le risque minimum et donc fournissant le meilleur compromis entre
les deux termes de lin egalit e de Vapnik.
La complexit e de la famille des mod` eles peut etre contr ol ee par diff erents param` etres de la technique
dapprentissage consid er ee : le nombre de neurones dune couche dans un perceptron, le degr e dun po-
lyn ome, la contrainte sur les param` etres comme en r egression ridge, une largeur de fen etre ou param` etre de
lissage...
4 Estimation par simulation
La validation crois ee est dun principe simple, efcace et largement utilis ee pour estimer une erreur
moyennant un surplus de calcul. Lid ee est dit erer lestimation de lerreur sur plusieurs echantillons de
validation puis den calculer la moyenne. Cest indispensable pour r eduire la variance et ainsi am eliorer
la pr ecision lorsque la taille de l echantillon initial est trop r eduite pour en extraire des echantillons de
validation et test de taille sufsante.
Algorithm 2 Validation crois ee
1: D ecouper al eatoirement l echantillon en K parts (K-fold) de tailles approximativement egales selon
une loi uniforme ;
2: Pour k=1 ` a K Faire
3: mettre de c ot e lune des partie,
4: estimer le mod` ele sur les K 1 parties restantes,
5: calculer lerreur sur chacune des observations qui nont pas particip e ` a lestimation
6: Fin Pour
7: moyenner toutes ces erreurs pour aboutir ` a lestimation par validation crois ee.
Plus pr ecis ement, soit : 1, . . . , n 1, . . . , K la fonction dindexation qui,pour chaque observa-
tion, donne lattribution uniform ement al eatoire de sa classe. Lestimation par validation crois ee de lerreur
de pr evision est :
c
CV
=
1
n
n
i=1
Q(y
i
,
((i))
(x
i
))
o` u

(k)
d esigne lestimation de sans prendre en compte la ki` eme partie de l echantillon.
Le choix K = 10 est le plus courant, cest souvent celui par d efaut des logiciels (Splus). Historiquement,
la validation crois ee a et e introduite par Allen avec K = n (delete-one cross validation). Ce dernier choix
nest possible que pour n relativement petit ` a cause du volume des calculs n ecessaires et lestimation de
lerreur pr esente une variance souvent importante car chacun des mod` eles estim es est trop similaire au
mod` ele estim e avec toutes les observations. En revanche, si K est petit (i.e. K = 5), la variance sera plus
faible mais le biais devient un probl` eme d ependant de la facon dont la qualit e de lestimation se d egrade
avec la taille de l echantillon.
Minimiser lerreur estim ee par validation crois ee est une approche largement utilis ee pour optimiser le
choix dun mod` ele au sein dune famille param etr ee.

est d eni par

= arg min

E
CV
().
4.1 Bootstrap
Cette section plus technique d ecrit des outils encore peu pr esents dans les logiciels commerciaux, elle
peut etre saut ee en premi` ere lecture.
Introduction
Lid ee, dapprocher par simulation (Monte Carlo) la distribution dun estimateur lorsque lon ne connat
pas la loi de l echantillon ou, plus souvent, lorsque lon ne peut pas supposer quelle est gaussienne, est
lobjectif m eme du bootstrap (Efron, 1982).
Le principe fondamental de cette technique de r e- echantillonnage est de substituer, ` a la distribution de
probabilit e inconnue F, dont est issu l echantillon dapprentissage, la distribution empirique F
n
qui donne
un poids 1/n ` a chaque r ealisation. Ainsi on obtient un echantillon de taille n dit echantillon bootstrap selon
la distribution empirique F
n
par n tirages al eatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre d echantillons bootstrap (i.e. B = 100) sur lesquels calculer
lestimateur concern e. La loi simul ee de cet estimateur est une approximation asymptotiquement conver-
gente sous des hypoth` eses raisonnables
2
de la loi de lestimateur. Cette approximation fournit ainsi des
2.

Echantillon ind ependant de m eme loi et estimateur ind ependant de lordre des observations.
4. Estimation par simulation 59
estimations du biais, de la variance, donc dun risque quadratique, et m eme des intervalles de conance
(avec B beaucoup plus grand) de lestimateur sans hypoth` ese (normalit e) sur la vraie loi. Les grands prin-
cipes de cette approche sont rappel es en annexe A.
Estimateur naf
Soit z
un echantillon bootstrap des donn ees :

z
= (x
1
, y
1
), . . . , (x
n
, y
n
).
Lestimateur plug-in de lerreur de pr evision c
P
(z, F), pour lequel la distribution F est remplac ee par la
distribution empirique

F (cf. section A1.1) est d eni par :
c
P
(z
,

F) =
1
n
i=1
nQ(y
i
,
z
(x
i
))
o` u
z
d esigne lestimation de ` a partir de l echantillon bootstrap. Il conduit ` a lestimation bootstrap de
lerreur moyenne de pr evision E
F
[c
P
(z, F)] par
c
Boot
= E
F
[c
P
(z
,

F)] = E
F
_
1
n
i=1
nQ(y
i
,
z
(x
i
))
_
.
Cette estimation est approch ee par simulation :
c
Boot
=
1
B
B
b=1
1
n
i=1
nQ(y
i
,
z
b (x
i
)).
Lestimation ainsi construite de lerreur de pr evision est g en eralement biais ee par optimisme car, au gr e des
simulations, les m emes observations (x
i
, y
i
) apparaissent ` a la fois dans lestimation du mod` ele et dans celle
de lerreur. Dautres approches visent ` a corriger ce biais.
Estimateur out-of-bag
La premi` ere sinspire simplement de la validation crois ee. Elle consid` ere dune part les observations
tir ees dans l echantillon bootstrap et, dautre part, celles qui sont laiss ees de c ot e pour lestimation du
mod` ele mais retenue pour lestimation de lerreur.
c
oob
=
1
n
n
i=1
1
B
i
bK
i
Q(y
i
,
z
b (x
i
))
o` u K
i
est lensemble des indices b des echantillons bootstrap ne contenant pas la i` eme observation ` a lissue
des B simulations et B
i
= [K
i
[ le nombre de ces echantillons ; B doit etre sufsamment grand pour que
toute observation nait pas et e tir ee au moins une fois ou bien les termes avec K
i
= 0 sont supprim es.
Lestimation

c
oob
r esout le probl` eme dun biais optimiste auquel est confront ee

c
Boot
mais n echappe
pas au biais introduit pas la r eduction tel quil est signal e pour lestimation pas validation crois ee
c
CV
. Cest
ce qui a conduit Efron et Tibshirani (1997) a proposer des correctifs.
Estimateur .632-bootstrap
La probabilit e quune observation soit tir ee dans un echantillon bootstrap est
P[x
i
x
b
] = 1 (1
1
n
)
n
1
1
e
0, 632.
Tr` es approximativement, la d egradation de lestimation provoqu ee par le bootstrap et donc la sur evaluation
de lerreur sont analogues ` a celle de la validation crois ee avec K = 2.
`
A la suite dun raisonnement trop
long pour etre reproduit ici, Efron et Tibshirani (1997) proposent de compenser exc` es doptimisme du taux
apparent derreur et exc` es de pessimisme du bootstrap out-of-bag par une combinaison :
c
.632
= 0, 368

c
P
+ 0, 632

c
oob
.
4.2 Remarques
Toutes les estimations de lerreur de pr evision consid er ees (p enalisation, validation crois ee, boots-
trap) sont asymptotiquement equivalentes et il nest pas possible de savoir laquelle concr` etement
sera, ` a n ni, la plus pr ecise. Une large part darbitraire ou dexp erience pr eside donc le choix
dune estimation plut ot quune autre.
Conceptuellement, le bootstrap est plus compliqu e et pratiquement encore peu utilis e. N eanmoins,
cet outil joue un r ole central dans les algorithmes r ecents de combinaison de mod` eles (cf. chapitre 9)
en association avec une estimation out-of-bag de lerreur. Il ne peut etre n eglig e.
Lestimateur .632-bootstrap pose des probl` emes en situation de sur-ajustement aussi les m emes au-
teurs ont propos e un rectifcatif compl ementaire not e .632+bootstrap.
Comme le signale Vapnik, la r esolution dun probl` eme de mod elisation : r egression ou discrimination
` a n pr edictive doit, dans la mesure du possible, d eviter de se ramener ` a un probl` eme nalement
beaucouop plus complexe comme celui de lestimation dune densit e multidimensionnelle. Cest ainsi
typiquement le cas en analyse discriminante non param etrique.
Ce quil faut retenir en conclusion, cest que lestimation dune erreur de pr evision est une op eration d elicate
aux cons equences importantes. Il est donc n ecessaire
dutiliser le m eme estimateur pour comparer lefcacit e de deux m ethodes,
de se montrer tr` es prudent, en dehors de tout syst` eme dhypoth` eses probabilistes, sur le caract` ere
absolu dune estimation dans lobjectif dune certication.
Dans ces deux derni` eres situations, le recours ` a un echantillon test de bonne taille est difcilement contour-
nable alors quen situation de choix de mod` ele au sein dune m eme famille, un estimateur (petit echantillon
de validation, validation crois ee) plus economique est adapt e en supposant implicitement que le biais induit
est identique dun mod` ele ` a lautre.
5 Le cas sp ecique de la discrimination
Les erreurs de pr evisions pr ec edentes ainsi que les crit` eres de choix de mod` eles sont plus particuli` erement
adapt es ` a une situation de r egression et donc une variable Y quantitative. Dans une situation de discrimi-
nation le seul crit` ere de taux derreur de classement introduit pr ec edemment nest pas toujours bien adapt e
surtout, par exemple, dans le cadre de classes d es equilibr ees : un mod` ele trivial qui ne pr edit jamais une
classe peu repr esent ee ne commet pas un taux derreur sup erieur au pourcentage de cette classe. Cette situa-
tion est souvent d elicate ` a g erer et n ecessite une pond erations des observations ou encore lintroduction de
co uts de mauvais classement dissym etriques an de forcer le mod` ele ` a prendre en compte une petite classe.
5.1 Discrimination ` a deux classes
Dans le cas du probl` eme le plus el ementaire ` a deux classes, dautres crit` eres sont propos es an d evaluer
plus pr ecis ement une qualit e de discrimination. La plupart des m ethodes vues (r egression logistique), ou ` a
venir dans les chapitre qui suivent, evaluent, pour chaque individu i, un score ou une probabilit e
i
que cette
individu prenne la modalit e Y = 1 (ou succ` es, ou possession dun actif, ou pr esence dune maladie...). Cette
probabilit e ou ce score compris entre 0 et 1 est compar e avec une valeur seuil s x ee a priori (en g en eral
0, 5) :
Si
i
> s, y
i
= 1 sinon y
i
= 0.
Pour un echantillon de taille n dont lobservation de Y est connue ainsi que les scores
i
fournis par
un mod` ele, il est alors facile de construire la matrice dite de confusion croisant les modalit es de la variable
pr edite au seuil s avec celles de la variable observ ee dans une table de contingence :
Pr evision Observation Total
Y = 1 Y = 0
y
i
= 1 n
11
(s) n
10
(s) n
1+
(s)
y
i
= 0 n
01
(s) n
00
(s) n
0+
(s)
Total n
+1
n
+0
n
Dans une situation classique de diagnostic m edical ou en marketing les quantit es suivantes sont consid er ees :
5. Le cas sp ecique de la discrimination 61
Vrais positifs les n
11
(s) observations bien class ees ( y
i
= 1 et Y = 1),
Vrais n egatifs les n
00
(s) observations bien class ees ( y
i
= 0 et Y = 0),
Faux n egatifs les n
01
(s) observations mal class ees ( y
i
= 0 et Y = 1),
Faux positifs les n
10
(s) observations mal class ees ( y
i
= 1 et Y = 0),
Le taux derreur : t(s) =
n
01
(s)+n
10
(s)
n
,
Le taux de vrais positifs ou sensibilit e =
n
11
(s)
n
+1
ou taux de positifs pour les individus qui le sont
effectivement,
Le taux de vrais n egatifs ou sp ecicit e =
n
00
(s)
n
+0
ou taux de n egatifs pour les individus qui le sont
effectivement,
Le taux de faux positifs = 1 Sp ecicit e = 1
n
00
(s)
n
+0
=
n
10
(s)
n
+0
.
En revanche, en m et eorologie, dautres taux sont utilis es :
Le taux de bonnes pr evisions : H =
n
11
(s)
n
+1
(s)
,
Le taux de fausses alertes : F =
n
10
(s)
n
+0
,
Le score de Pierce : PSS= HF, compris entre 1 et 1, evalue la qualit e dun mod` ele de pr evision.
Si ce score est sup erieur ` a 0, le taux de bonnes pr evisions est sup erieur ` a celui des fausses alertes et
plus il est proche de 1, meilleur est le mod` ele.
Le score de Pierce a et e concu pour la pr evision d ev` enements climatiques rares an de p enaliser les
mod` eles ne pr evoyant jamais ces ev` enements (H = 0) ou encore g en erant trop de fausses alertes (F = 1).
Le mod` ele id eal pr evoyant tous les ev` enements critiques (H = 1) sans fausse alerte (F = 0). Des co uts de
mauvais classement peuvent etre introduits pour pond erer ce score.
5.2 Courbe ROC et AUC
Les notions de sp ecicit e et de sensibilit e proviennent de la th eorie du signal ; leurs valeurs d ependent
directement de celle du seuil s. En augmentant s, la sensibilit e diminue tandis que la sp ecicit e augmente car
la r` egle de d ecision devient plus exigeante ; un bon mod` ele associe grande sensibilit e et grande sp ecicit e
pour la d etection dun signal. Ce lien est repr esent e graphiquement par la courbe ROC (Receiver Ope-
rating Caracteristic) de la sensibilit e (probabilit e de d etecter un vrai signal) en fonction de 1 moins la
sp ecicit e (probabilit e de d etecter un faux signal) pour chaque valeur s du seuil. Notons que la courbe
ROC est une fonction monotone croissante :
1
n
00
(s)
n
+0
< 1
n
00
(s
)
n
+0
s < s

n
11
(s)
n
+1
<
n
11
(s
)
n
+1
.
La gure 5.1 donne un exemple de courbes ROC associ ee au score dapp etence de la carte visa premier.
Plus la courbe se rapproche du carr e, meilleure est la discrimination, correspondant ` a la fois ` a une forte
sensibilit e et une grande sp ecicit e. Laire sous la courbe : AUC (area under curve) mesure la qualit e de
discrimination du mod` ele tandis quune analyse de la courbe aide au choix du seuil. Ainsi, dans lexemple
consid er e, un seuil de 0, 6 ne p enalise pas enorm ement le nombre de positifs ecart es tout en economisant
des envois publicitaires par rapport ` a un seuil de 0, 5.
Laire sous la courbe est calcul ee en consid erant toutes les paires (i, i
) form ees dun premier individu

avec y
i
= 1 et dun second avec y
i
= 0. Une paire est dite concordante si
i
>
i
; discordante sinon. Le
nombre dex quo est n
+0
n
+1
n
c
n
d
o` u n
c
est le nombre de paires concordantes et n
d
le nombre de
paires discordantes. Alors,
AUC =
n
c
+ 0, 5(n
+0
n
+1
n
c
n
d
)
n
+0
n
+1
.
On montre par ailleurs (voir par exemple Tenenhaus 2007) que le num erateur de cette expression est
encore la Statistique de test de Mann-Whitney tandis que le coefcient de Gini, qui est le double de la
surface entre la diagonale et la courbe, vaut 2AUC 1.
Attention, pour comparer des mod` eles ou m ethodes de complexit es diff erentes, ces courbes doivent etre
estim ees sur un echantillon test. Elles sont bien evidemment optimistes sur l echantillon dapprentissage.
De plus, lAUC ne donne pas un ordre total pour classer des mod` eles car les courbes ROC peuvent se
croiser.
FIGURE 5.1 Banque : Courbes ROC estim ees sur l echantillon dapprentissage et sur l echantillon test
ainsi que les aires sous ces courbes (AUC).
Chapitre 6
Analyse Discriminante D ecisionnelle
1 Introduction
Lobjet de ce chapitre est lexplication dune variable qualitative Y ` a m modalit es par p variables quan-
titatives X
j
, j = 1, . . . , p observ ees sur unm eme echantillon de taille n. Lobjectif de lanalyse dis-
criminante d ecisionnelle d eborde le simple cadre descriprif de lanalyse facorielle discriminante (AFD).
Disposant dun nouvel individu (ou de plusieurs, cest la m eme chose) sur lequel on a observ e les X
j
mais
pas Y , il sagit maintenant de d ecider de la modalit e T
de Y (ou de la classe correspondante) de ce nou-

vel individu. On parle aussi de probl` eme daffectation. LADD sapplique donc egalement ` a la situation
pr ec edente de la r egression logistique (m = 2) mais aussi lorsque le nombre de classes est plus grand que
2.
Pour cela, on va d enir et etudier dans ce chapitre des r` egles de d ecision (ou daffectation) et donner en-
suite les moyens de les evaluer sur un seul individu ; x = (x
1
, . . . , x
p
) d esigne les observations des variables
explicatives sur cet individu, g
; = 1, . . . , m les barycentres des classes calcul es sur l echantillon et x

le barycentre global.
La matrice de covariance empirique se d ecompose en
S = S
e
+S
r
.
o` u S
r
est appel ee variance intraclasse (within) ou r esiduelle :
S
r
= X
r
DX
r
=
m
=1
w
i
(x
i
g
)(x
i
g
,
et S
e
la variance interclasse (between) ou expliqu ee :
S
e
= G
DG = X
e
DX
e
=
m
=1
w
(g
x)(g
x)
.
2 R` egle de d ecision issue de lAFD
2.1 Cas g en eral : m quelconque
D EFINITION 6.1. On affectera lindividu x ` a la modalit e de Y minimisant :
d
2
S
1
r
(x, g
), = 1, . . . , m.
Cette distance se d ecompose en
d
2
S
1
r
(x, g
) = |x g
|
2
S
1
r
= (x g
S
1
r
(x g
)
63
64 Chapitre 6. Analyse Discriminante D ecisionnelle
et le probl` eme revient donc ` a maximiser
g
S
1
r
x
1
2
g
S
1
r
g
.
Il sagit bien dune r` egle lin eaire en x car elle peut s ecrire : A
x +b
.
2.2 Cas particulier : m = 2
Dans ce cas, la dimension r de lAFD vaut 1. Il ny a quune seule valeur propre non nulle
1
, un seul
vecteur discriminant v
1
et un seul axe discriminant
1
. Les 2 barycentres g
1
et g
2
sont sur
1
, de sorte
que v
1
est colin eaire ` a g
1
g
2
.
Lapplication de la r` egle de d ecision permet daffecter x ` a T
1
si :
g
1
S
1
r
x
1
2
g
1
S
1
r
g
1
> g
2
S
1
r
x
1
2
g
2
S
1
r
g
2
cest-` a-dire encore si
(g
1
g
2
)
S
1
r
x > (g
1
g
2
)
S
1
r
g
1
+g
2
2
.
Remarque
La r` egle de d ecision li ee ` a lAFD est simple mais elle est limit ee et insufsante notamment si les
variances des classes ne sont pas identiques. De plus, elle ne tient pas compte de l echantillonnage pour x :
tous les groupes nont pas n ecessairement la m eme probabilit e doccurence.
3 R` egle de d ecision bay esienne
3.1 Introduction
Dans cette optique, on consid` ere que la variable Y , qui indique le groupe dappartenance dun individu,
prend ses valeurs dans T
1
, . . . , T
m
et est munie dune loi de probabilit e
1
, . . . ,
m
. Les probabilit es
= P[T
] repr esentent les probabilit es a priori des classes ou groupes
. On suppose que les vecteurs x

des observations des variables explicatives suivent, connaissant leur classe, une loi de densit e
f
(x) = P[x [ T
]
par rapport ` a une mesure de r ef erence
1
.
3.2 D enition
Une r` egle de d ecision est une application de dans T
1
, . . . , T
m
qui, ` a tout individu, lui affecte une
classe connaissant x. Sa d enition d epend du contexte de l etude et prend en compte la
connaissance ou non de co uts de mauvais classement,
connaissance ou non des lois a priori sur les classes,
nature al eatoire ou non de l echantillon.
On d esigne par c
| k
le co ut du classement dans T
dun individu de T
k
. Le risque de Bayes dune r` egle de
d ecision exprime alors le co ut moyen :
R
=
m
k=1
k
m
=1
c
| k
_
{x | (x)=T
}
f
k
(x)dx
o` u
_
{x | (x)=T
}
f
k
(x)dx repr esente la probabilit e daffect e x ` a T
alors quil est dans T

k
.
1. La mesure de Lebesgues pour des variables r eelles, celle de comptage pour des variables qualitatives
4. R` egle bay esienne avec mod` ele normal 65
3.3 Co uts inconnus
Lestimation des co uts nest pas du ressort de la Statistique et, sils ne sont pas connus, on suppose
simplement quils sont tous egaux. La minimisation du risque ou r` egle de Bayes revient alors ` a affecter tout
x ` a la classe la plus probable cest-` a-dire ` a celle qui maximise la probabilit e conditionnelle a posteriori :
P[T
[ x]. Par le th eor` eme de Bayes, on a :

P[T
[ x] =
P[T
et x]
P[x]
=
P[T
].P[x [ T
]
P[x]
avec le principe des probabilit es totales : P[x] =
m
=1
P[T
].P[x [ T
].
Comme P[x] ne d epend pas de , la r` egle consistera ` a choisir T
maximisant
P[T
].P[x [ T
] =
.P[x [ T
];
P[x [ T
] est la probabilit e dobserver x au sein de la classe T
. Pour une loi discr` ete, il sagit dune

probabilit e du type P[x = x
l
k
[ T
] et dune densit e f(x [ T
) pour une loi continue. Dans tous les cas nous

utiliserons la notation f
(x).
La r` egle de d ecision s ecrit nalement sous la forme :
(x) = arg max
=1,...,m
(x).
3.4 D etermination des a priori
Les probabilit es a priori
peuvent effectivement etre connues a priori : proportions de divers groupes

dans une population, de diverses maladies. . . ; sinon elles sont estim ees sur l echantillon dapprentissage :

= w
=
n
n
(si tous les individus ont le m eme poids)
` a condition quil soit bien un echantillon al eatoire susceptible de fournir des estimations correctes des
fr equences. Dans le cas contraire il reste ` a consid erer tous les
egaux.
3.5 Cas particuliers
Dans le cas o` u les probabilit es a priori sont egales, cest par exemple le cas du choix de probabilit es
non informatives, la r` egle de d ecision bay esienne revient alors ` a maximiser f
(x) qui est la vraisem-

blance, au sein de T
, de lobservation x. La r` egle consiste alors ` a choisir la classe pour laquelle cette

vraisemblance est maximum.
Dans le cas o` u m = 2, on affecte x ` a T
1
si :
f
1
(x)
f
2
(x)
>

2
1
faisant ainsi apparatre un rapport de vraisemblance. Dautre part, lintroduction de co uts de mauvais
classement diff erents selon les classes am` ene ` a modier la valeur limite
2
/
1
.
Finalement, il reste ` a estimer les densit es conditionnelles f
(x). Les diff erentes m ethodes destimation

consid er ees conduisent aux m ethodes classiques de discrimination bay esienne objets des sections suivantes.
4 R` egle bay esienne avec mod` ele normal
On suppose dans cette section que, conditionnellement ` a T
, x = (x
1
, . . . , x
p
) est lobservation dun
vecteur al eatoire gaussien A(
) ;
est un vecteur de IR
p
et
une matrice (p p) sym etrique et

d enie-positive. La densit e de la loi, au sein de la classe T
, s ecrit donc :
f
(x) =
1
2(det(
))
1/2
exp
_
1
2
(x
(x
)
_
.
Laffectation de x ` a une classe se fait en maximisant
.f
(x) par rapport ` a l soit encore la quantit e :

ln(
)
1
2
ln(det(
))
1
2
(x
(x
).
4.1 H et erosc edasticit e
Dans le cas g en eral, il ny a pas dhypoth` ese suppl ementaire sur la loi de x et donc les matrices
sont fonction de . Le crit` ere daffectation est alors quadratique en x. Les probabilit es
sont suppos ees

connues mais il est n ecessaire destimer les moyennes
ainsi que les covariances
en maximisant,
compte tenu de lhypoth` ese de normalit e, la vraisemblance. Ceci conduit ` a estimer la moyenne

= g
par la moyenne empirique de x dans la classe l pour l echantillon dapprentissage et
par la matrice de
covariance empirique S
Rl
:
S
Rl
=
1
n
(x
i
g
)(x
i
g
pour ce m eme echantillon.

4.2 Homosc edasticit e
On suppose dans ce cas que les lois de chaque classe partagent la m eme structure de covariance
= .
Supprimant les termes ind ependants de l, le crit` ere ` a maximiser devient
ln(
)
1
2
x
qui est cette fois lin eaire en x. Les moyennes
sont estim ees comme pr ec edemment tandis que est

estim ee par la matrice de covariance intra empirique :
S
R
=
1
n m
m
=1
(x
i
g
)(x
i
g
.
Si, de plus, les probabilit es
sont egales, apr` es estimation le crit` ere s ecrit :

x
S
1
R
x
1
2
x
S
1
R
x
.
On retrouve alors le crit` ere de la section 2 issu de lAFD.
4.3 Commentaire
Les hypoth` eses : normalit e, eventuellement lhomosc edasticit e, doivent etre v eri ees par la connais-
sance a priori du ph enom` ene ou par une etude pr ealable de l echantillon dapprentissage. Lhypoth` ese
dhomosc edasticit e, lorquelle est v eri ee, permet de r eduire tr` es sensiblement le nombre de param` etres
` a estimer et daboutir ` a des estimateurs plus ables car de variance moins elev ee. Dans le cas contraire,
l echantillon dapprentissage doit etre de taille importante.
5 R` egle bay esienne avec estimation non param etrique
5.1 Introduction
En Statistique, on parle destimation non param etrique ou fonctionnelle lorsque le nombre de param` etres
` a estimer est inni. Lobjet statistique ` a estimer est alors une fonction par exemple de r egression y = f(x)
ou encore une densit e de probabilit e. Dans ce cas, au lieu de supposer quon a affaire ` a une densit e de type
connu (normale) dont on estime les param` etres, on cherche une estimation

f de la fonction de densit e f.
Pour tout x de IR, f(x) est donc estim ee par

f(x).
Cette approche tr` es souple a lavantage de ne pas n ecessiter dhypoth` ese particuli` ere sur la loi (seule-
ment la r egularit e de f pour de bonnes propri et es de convergence), en revanche elle nest applicable quavec
des echantillons de grande taille dautant plus que le nombre de dimensions p est grand (curse of dimensio-
nality).
Dans le cadre de lanalyse discriminante, ces m ethodes permettent destimer directement les densit es
f
(x). On consid` ere ici deux approches : la m ethode du noyau et celle des k plus proches voisins.
5. R` egle bay esienne avec estimation non param etrique 67
5.2 M ethode du noyau
Estimation de densit e
Soit y
1
, . . . , y
n
n observations equipond er ees dune v.a.r. continue Y de densit e f inconnue. Soit K(y)
(le noyau) une densit e de probabilit e unidimensionnelle (sans rapport avec f) et h un r eel strictement positif.
On appelle estimation de f par la m ethode du noyau la fonction
f(y) =
1
nh
n
i=1
K
_
y y
i
h
_
.
Il est imm ediat de v erier que
y IR,

f(y) 0 et
_
+
f(y)dy = 1;
h est appel e largeur de fen etre ou param` etre de lissage ; plus h est grand, plus lestimation

f de f est
r eguli` ere. Le noyau K est choisi centr e en 0, unimodal et sym etrique. Les cas les plus usuels sont la densit e
gaussienne, celle uniforme sur [1, 1] ou triangulaire : K(x) = [1 [x[]1
[1,1]
(x). La forme du noyau
nest pas tr` es d eterminante sur la qualit e de lestimation contrairement ` a la valeur de h.
Application ` a lanalyse discriminante
La m ethode du noyau est utilis ee pour calculer une estimation non param etrique de chaque densit e
f
(x) qui sont alors des fonctions d enies dans IR

p
. Le noyau K
dont donc etre choisi multidimensionnel

et
(x) =
1
n
h
p
_
x x
i
h
_
.
Un noyau multidimensionnel peut etre d eni ` a partir de la densit e usuelle de lois : multinormale A
p
(0,
p
)
ou uniforme sur la sph` ere unit e ou encore par produit de noyaux unidimensionnels :
K
(x) =
p
j=1
K(x
j
).
5.3 k plus proches voisins
Cette m ethode daffectation dun vecteur x consiste ` a enchaner les etapes d ecrites dans lalgorithme
ci-dessous. Pour k = 1, x est affect e ` a la classe du plus proche el ement.
Algorithm 3 k-nn
Choix dun entier k : 1 k n.
Calculer les distances d
M
(x, x
i
) , i = 1, . . . , n o` u M est la m etrique de Mahalanobis cest-` a-dire la
matrice inverse de la matrice de variance (ou de variance intra).
Retenir les k observations x
(1)
, . . . , x
(k)
pour lesquelles ces distances sont les plus petites.
Compter les nombres de fois k
1
, . . . , k
m
que ces k observations apparaissent dans chacune des classes.
Estimer les densit es par
(x) =
k
kV
k
(x)
;
o` u V
k
(x) est le volume de lellipsode z[(z x)
M(z x) = d
M
(x, x
(k)
).
Comme toute technique, celles pr esent ees ci-dessus n ecessitent le r eglage dun param` etre (largeur de
fen etre, nombre de voisins consid er es). Ce choix sapparente ` a un choix de mod` ele et n ecessite le m eme
type dapproche ` a savoir loptiomisation dun crit` ere (erreur de classement, validation crois ee (cf. chapitre
5).
TABLE 6.1 Cancer : estimations des taux derreurs de pr evision obtenus par diff erents types danalyse
discriminante
M ethode apprentissage validations crois ee test
lin eaire 1,8 3,8 3,6
kNN 2,5 2,7 2,9
TABLE 6.2 Cancer : estimations des taux derreurs de pr evision obtenus par diff erents types danalyse
discriminante
M ethode apprentissage validations crois ee test
lin eaire 11,9 12,5 12,0
quadratique 12,7 14,8 12,5
6 Exemples
6.1 Cancer du sein
Par principe, lanalyse discriminante sapplique ` a des variables explicativers quantitatives. Ce nest pas
le cas des donn ees qui sont au mieux ordinales. Il est clair que contruire une fonction de disrimination
comme combinaison de ces variables na gu` ere de sens. N eanmoins, en sattachant uniquement ` a la qualit e
de pr evision sans essayer de constuire une interpr etation du plan ou de la surface de discrimination, il est
dusage dutiliser lanalyse discriminante de facon sauvage. Les r esultats obtenus sont r esum es dans le
tableau 6.2. Lanalyse dicriminante quadratique, avec matrice de variance estim ee pour chaque classe na
pas pu etre calcul ee. Une des matrices nest pas inversible.
6.2 Concentration dozone
Dans cet exemple aussi, deux variables sont qualitatives : le type de jour ` a 2 modalit es ne pose pas de
probl` eme mais remplacer la station par un entier est plut ot abusif. Dailleurs, les plus proches voisins ne
lacceptent, une transformation des donn ees seraient n ecessaire.
Chapitre 7
Arbres binaires
1 Introduction
Ce chapitre sint eresse aux m ethodes ayant pour objectif la construction darbres binaires de d ecision,
mod elisant une discrimination ou une r egression. Compl ementaires des m ethodes statistiques plus clas-
siques : analyse discriminante, r egression lin eaire, les solutions obtenues sont pr esent ees sous une forme
graphique simple ` a interpr eter, m eme pour des n eophytes, et constituent une aide efcace pour laide ` a la
d ecision. Elles sont bas ees sur un d ecoupage, par des hyperplans, de lespace engendr e par les variables ex-
plicatives. Nomm ees initialement partitionnement r ecursif ou segmentation, les d eveloppements importants
de Breiman et col. (1984) les ont fait connatre sous lacronyme de CART : Classication and Regression
Tree ou encore de C4.5 (Quinlan, 1993) dans la communaut e informatique. Lacronyme correspond ` a deux
situations bien distinctes selon que la variable ` a expliquer, mod eliser ou pr evoir est qualitative (discrimina-
tion ou en anglais classication) ou quantitative (r egression).
Ces m ethodes ne sont efcaces que pour des tailles d echantillons importantes et elles sont tr` es calcula-
toires. Les deux raisons : mod` ele graphique de d ecision simple ` a interpr eter, puissance de calcul n ecessaire,
sufsent ` a expliquer leur popularit e r ecente. De plus, elles requi` erent plut ot moins dhypoth` eses que des
m ethodes statistiques classiques et semblent particuli` erement adapt ees au cas o` u les variables explicatives
sont nombreuses. En effet, la proc edure de s election des variables est int egr ee ` a lalgorithme construisant
larbre, dautre part, les interactions sont prises en compte. N eanmoins, cet algorithme suivant une strat egie
pas ` a pas hi erarchis ee, il peut, comme dans le cas du choix de mod` ele en r egression, passer ` a cot e dun
optimum global ; il se montre par ailleurs tr` es sensible ` a des uctuations d echantillon rt n ecessite une op-
timisation d elicate de loptimisation de la complexit e par elagage. Ceci souligne encore limportance de
confronter plusieurs approches sur les m emes donn ees.
2 Construction dun arbre binaire
2.1 Principe
Les donn ees sont constitu ees de lobservation de p variables quantitatives ou qualitatives explicatives
X
j
et dune variable ` a expliquer Y qualitative ` a m modalit es T
; = 1 . . . , m ou quantitative r eelle,
observ ees sur un echantillon de n individus.
La construction dun arbre de discrimination binaire (cf. gure 2.1) consiste ` a d eterminer une s equence
de nuds.
Un nud est d eni par le choix conjoint dune variable parmi les explicatives et dune division qui in-
duit une partition en deux classes. Implicitement, ` a chaque nud correspond donc un sous-ensemble
de l echantillon auquel est appliqu ee une dichotomie.
Une division est elle-m eme d enie par une valeur seuil de la variable quantitative s electionn ee ou un
partage en deux groupes des modalit es si la variable est qualitative.
`
A la racine ou nud initial correspond lensemble de l echantillon ; la proc edure est ensuite it er ee sur
chacun des sous-ensembles.
69
70 Chapitre 7. Arbres binaires
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
d
T
j T
T
j
Revenu < 10000 Revenu > 10000

Sexe=H Sexe=F Age < 50 Age > 50
FIGURE 7.1 Exemple el ementaire darbre de classication.
Lalgorithme consid er e n ecessite :
i. la d enition dun crit` ere permettant de s electionner la meilleure division parmi toutes celles admis-
sibles pour les diff erentes variables ;
ii. une r` egle permettant de d ecider quun nud est terminal : il devient ainsi une feuille ;
iii. laffectation de chaque feuille ` a lune des classes ou ` a une valeur de la variable ` a expliquer.
Le point (ii) est le plus d elicat. Il correspond encore ` a la recherche dun mod` ele parcimonieux. Un arbre trop
d etaill e, associ e ` a une surparam etrisation, est instable et donc probablement plus d efaillant pour la pr evision
dautres observations. La contribution majeure de Breiman et col. (1984) est justement une strat egie de
recherche darbre optimal. Elle consiste ` a
i. construire larbre maximal A
max
,
ii. ordonner les sous-arbres selon une s equence embot ee suivant la d ecroissance dun crit` ere p enalis e
de d eviance ou de taux de mal-class es,
iii. puis ` a s electionner le sous-arbre optimal ; cest la proc edure d elagage.
Tous ces points sont d etaill es ci-dessous.
2.2 Crit` ere de division
Une division est dite admissible si aucun des deux nuds descendants qui en d ecoulent nest vide. Si la
variable explicative est qualitative ordinale avec mmodalit es, elle fournit (m1) divisions binaires admis-
sibles. Si elle est seulement nominale le nombre de divisions passe ` a 2
(m1)
1. Une variable quantitative
se ram` ene au cas ordinal.
Le crit` ere de division repose sur la d enition dune fonction dh et erog en eit e ou de d esordre explicit ee
dans la section suivante. Lobjectif etant de partager les individus en deux groupes les plus homog` enes au
sens de la variable ` a expliquer. Lh et erog en eit e dun nud se mesure par une fonction non n egative qui doit
etre
i. nulle si, et seulement si, le nud est homog` ene : tous les individus appartiennent ` a la m eme modalit e
ou prennent la m eme valeur de Y .
ii. Maximale lorsque les valeurs de Y sont equiprobables ou tr` es dispers ees.
La division du nud k cr ee deux ls, gauche et droit. Pour simplier, ils sont not es (k + 1) et (k + 2)
mais une re-num erotation est n ecessaire pour respecter la s equence de sous-arbres qui sera d ecrite dans la
section suivante.
Parmi toutes les divisions admissibles du nud k, lalgorithme retient celle qui rend la somme D
(k+1)
+
D
(k+2)
des d esordres des nuds ls minimales. Ceci revient encore ` a r esoudre ` a chaque etape k de construc-
3. Crit` eres dhomog en eit e 71
tion de larbre :
max
{divisions deX
j
;j=1,p}
D
k
(D
(k+1)
+D
(k+2)
)
Graphiquement, la longueur de chaque branche peut etre repr esent ee proportionnellement ` a la r eduction de
lh et erog en eit e occasionn ee par la division.
2.3 R` egle darr et
La croissance de larbre sarr ete ` a un nud donn e, qui devient donc terminal ou feuille, lorsquil est ho-
mog` ene cest-` a-dire lorsquil nexiste plus de partition admissible ou, pour eviter un d ecoupage inutilement
n, si le nombre dobservations quil contient est inf erieur ` a une valeur seuil ` a choisir en g en eral entre 1 et
5.
2.4 Affectation
Dans le cas Y quantitative, ` a chaque feuille est associ ee une valeur : la moyenne des observations
associ ees ` a cette feuille. Dans le cas qualitatif, chaque feuille ou nud terminal est affect e ` a une classe T
de Y en consid erant le mode conditionnel :

celle la mieux repr esent ee dans le nud et il est ensuite facile de compter le nombre dobjets mal
class es ;
la classe a posteriori la plus probable au sens bayesien si des probabilit es a priori sont connues ;
la classe la moins co uteuse si des co uts de mauvais classement sont donn es.
3 Crit` eres dhomog en eit e
Deux cas sont ` a consid erer.
3.1 Y quantitative
On consid` ere le cas plus g en eral dune division en J classes. Soit n individus et une partition en J
classes de tailles n
j
; j = 1, . . . , J avec n =
J
j=1
n
j
. On num erote i = 1, . . . , n
j
les individus de la j` eme
classe. Soit
ij
(resp.y
ij
) la valeur th eorique (resp. lobservation) de Y sur lindividu (i, j) : le i` eme de
la j` eme classe. Lh et erog en eit e de la classe j est d enie par :
D
j
=
n
j
i=1
(
ij

.j
)
2
avec
.j
=
n
j
i=1
ij
.
Lh et erog en eit e de la partition est d enie par :
D =
J
j=1
D
j
=
J
j=1
n
j
i=1
(
ij

.j
)
2
;
cest linertie intra (homog` ene ` a la variance intraclasse) qui vaut D = 0 si et seulement si
ij
=
.j
pour
tout i et tout j.
La diff erence dh et erog en eit e entre lensemble non partag e et lensemble partag e selon la partition J
est
=
J
j=1
n
j
i=1
(
ij

..
)
2
j=1
n
j
i=1
(
ij

.j
)
2
o` u
..
=
1
n
J
j=1
n
j
i=1
ij
.
=
J
j=1
n
j
(
..
.j
)
2
;
cest encore homog` ene ` a la variance inter classe ou d esordre des barycentres qui vaut = n
1
n
2
((
.1

.2
)
2
pour J = 2 dans le cas qui nous int eresse.
Lobjectif, ` a chaque etape, est de maximiser cest-` a-dire de trouver la variable induisant une partition
en 2 classes associ ee ` a une inertie (variance) intraclasse minimale ou encore qui rend linertie (la variance)
interclasse la plus grande.
Les quantit es sont estim ees :
D
j
par

D
j
=
n
j
i=1
(y
ij
y
.j
)
2
(7.1)
D par

D =
J
j=1
D
j
=
J
j=1
n
j
i=1
(y
ij
y
.j
)
2
. (7.2)
Sous hypoth` ese gaussienne :
Y
ij
=
.j
+u
ij
avec +u
ij
A(0,
2
),
la log-vraisemblance
log L = Cste
n
2
log(
2
)
1
2
2
J
j=1
n
j
i=1
(y
ij

.j
)
2
est rendue maximale pour
/
= sup
log L = Cste
n
2
log(
2
)
1
2
2
J
j=1
n
j
i=1
(y
ij
y
.j
)
2
.
Pour le mod` ele satur e (une classe par individu) : y
ij
=
ij
+u
ij
, cet optimum devient :
/
s
= sup
log L = Cste
n
2
log(
2
).
La d eviance (par rapport au mod` ele satur e) sexprime alors comme :
T
= 2
2
(/
s
/
) =

D.
Le rafnement de larbre est donc associ e ` a une d ecroissance, la plus rapide possible, de la d eviance. Cest
loptique retenue dans le logiciel Splus. On peut encore dire que la division retenue est celle qui rend le test
de Fisher (analyse de variance), comparant les moyennes entre les deux classes, le plus signicatif possible.
3.2 Y qualitative
Dans ce cas, la fonction dh et erog en eit e, ou de d esordre dun nud, est d enie ` a partir de la notion
dentropie, du crit` ere de concentration de Gini ou encore dune statistique de test du
2
. En pratique, il
sav` ere que le choix du crit` ere importe moins que celui du niveau d elagage. Le premier crit` ere (entro-
pie) est souvent pr ef er e (Splus) car il sinterpr` ete encore comme un terme de d eviance mais dun mod` ele
multinomial cette fois.
Entropie
On consid` ere une variable ` a expliquer qualitative, Y ` a m modalit es ou cat egories T num erot ees =
1, . . . , m. Larbre induit une partition pour laquelle n
+k
d esigne leffectif de la k` eme classe ou k` eme nud.
Soit
p
k
= P[T
[ k] avec
m
=1
p
k
= 1
la probabilit e quun el ement du k` eme nud appartienne ` a la ` eme classe.
Le d esordre du k` eme nud, d eni ` a partir de lentropie, s ecrit avec la convention 0 log(0) = 0. :
D
k
= 2
m
=1
n
+k
p
k
log(p
k
)
4.

Elagage 73
tandis que lh et erog en eit e ou d esordre de la partition est encore :
D =
K
k=1
D
k
= 2
K
k=1
m
=1
n
+k
p
k
log(p
k
).
Remarques :
Cette quantit e est positive ou nulle, elle est nulle si et seulement si les probabilit es p
k
ne prennent
que des valeurs 0 sauf une egale ` a 1 correspondant ` a labsence de m elange.
Elle peut etre remplac ee par lindice de Gini 1

m
=1
p
2
k
qui conduit ` a une autre d enition de
lh et erog en eit e egalement utilis ee mais qui ne sinterpr` ete pas en terme de d eviance dun mod` ele
comme dans le cas de lentropie.
D esignons par n
k
leffectif observ e de la ` eme classe dans le k` eme nud. Un nud k de larbre
repr esente un sous-ensemble de l echantillon deffectif n
+k
=
m
=1
n
k
.
Les quantit es sont estim ees :
D
k
par
D
k
= 2
m
=1
n
+k
n
k
n
+k
log
n
k
n
+k
(7.3)
D par

D =
K
k=1
D
k
= 2
K
k=1
m
=1
n
k
log
n
k
n
+k
. (7.4)
Consid erons, pour chaque classe ou nud k, un mod` ele multinomial ` a m cat egories de param` etre :
p
k
= (p
1k
, . . . , p
mk
), avec
m
=1
p
k
= 1.
Pour ce mod` ele, la logvraisemblance :
log L = Cste +
K
k=1
m
=1
n
k
log(p
k
)
est rendue maximale pour
/
= sup
p
k
log L = Cste +
K
k=1
m
=1
n
k
log
n
k
n
+k
.
Pour le mod` ele satur e (une cat egorie par objet), cet optimum prend la valeur de la constante et la d eviance
(par rapport au mod` ele satur e) sexprime comme :
T = 2
K
k=1
m
=1
n
k
log
n
k
n
+k
=

D.
Comme pour lanalyse discriminante d ecisionnelle, les probabilit es conditionnelles sont d enies par la
r` egle de Bayes lorsque les probabilit es a priori
dappartenance ` a la ` eme classe sont connues. Dans

le cas contraire, les probabilit es de chaque classe sont estim ees sur l echantillon et donc les probabilit es
conditionnelles sestiment simplement par des rapports deffectifs : p
k
est estim ee par n
k
/n
+k
. Enn, il
est toujours possible dintroduire, lorsquils sont connus, des co uts de mauvais classement et donc de se
ramener ` a la minimisation dun risque bay esien.
4

Elagage
Dans des situations complexes, la d emarche propos ee conduit ` a des arbres extr emement rafn es et
donc ` a des mod` eles de pr evision tr` es instables car fortement d ependants des echantillons qui ont permis
leur estimation. On se trouve donc dans une situation de sur-ajustement ` a eviter au prot de mod` eles plus
parcimonieux donc plus robuste au moment de la pr evision. Cet objectif est obtenu par une proc edure
d elagage (pruning) de larbre.
Le principe de la d emarche, introduite par Breiman et col. (1984), consiste ` a construire une suite
embot ee de sous-arbres de larbre maximum par elagage successif puis ` a choisir, parmi cette suite, larbre
optimal au sens dun crit` ere. La solution ainsi obtenue par un algorithme pas ` a pas nest pas n ecessairement
globalement optimale mais lefcacit e et la abilit e sont pr ef er ees ` a loptimalit e.
4.1 Construction de la s equence darbres
Pour un arbre A donn e, on note K le nombre de feuilles ou nuds terminaux de A; la valeur de K
exprime la complexit e de A. La mesure de qualit e de discrimination dun arbre A sexprime par un crit` ere
D(A) =
K
k=1
D
k
(A)
o` u D
k
(A) est le nombre de mal class es ou la d eviance ou le co ut de mauvais classement de la k` eme feuille
de larbre A.
La construction de la s equence darbres embot es repose sur une p enalisation de la complexit e de
larbre :
C(A) = D(A) +K.
Pour = 0, A
max
= A
K
minimise C(A). En faisant crotre , lune des divisions de A
K
, celle pour
laquelle lam elioration de D est la plus faible (inf erieure ` a ), apparat comme superue et les deux feuilles
obtenues sont regroup ees ( elagu ees) dans le nud p` ere qui devient terminal ; A
K
devient A
K1
.
Le proc ed e est it er e pour la construction de la s equence embot ee :
A
max
= A
K
A
K1
A
1
o` u A
1
, le nud racine, regroupe lensemble de l echantillon.
Un graphe repr esente la d ecroissance ou eboulis de la d eviance (ou du taux de mal class es) en fonction
du nombre croissant de feuilles dans larbre ou, cest equivalent, en fonction de la valeur d ecroissante du
coefcient de p enalisation .
4.2 Recherche de larbre optimal
Les proc edures d elagage diff` erent par la facon destimer lerreur de pr ediction. Le graphe pr ec edemment
obtenu peut se lire comme un eboulis de valeur propre. Quand lam elioration du crit` ere est jug e trop petite
ou n egligeable, on elague larbre au nombre de feuilles obtenues. L evaluation de la d eviance ou du taux de
mauvais classement estim ee par resubstitution sur l echantillon dapprentissage est biais ee (trop optimiste).
Une estimation sans biais est obtenue par lutilisation dun autre echantillon (validation) ou encore par va-
lidation crois ee. La proc edure de validation crois ee pr esente dans ce cas une particularit e car la s equence
darbres obtenue est diff erente pour chaque estimation sur lun des sous- echantillons. Lerreur moyenne
nest pas, dans ce cas, calcul ee pour chaque sous-arbre avec un nombre de feuilles donn e mais pour chaque
sous-arbre correspondant ` a une valeur x ee du coefcient de p enalisation.
`
A la valeur de minimisant
lestimation de lerreur de pr evision, correspond ensuite larbre jug e optimal dans la s equence estim ee sur
tout l echantillon dapprentissage.
Le principe de s election dun arbre optimal est donc d ecrit dans lalgorithme ci-dessous.
5 Exemples
5.1 Cancer du sein
Un arbre de discrimination est estim e sur l echantillon dapprentissage, elagu e par validation crois ee
et repr esent e dans la gure 7.2. La pr evision de l echantillon test par cet arbre conduit ` a la matrice de
confusion :
5. Exemples 75
Algorithm 4 S election darbre
Construction de larbre maximal A
max
.
Construction de la s equence A
K
. . . A
1
darbres embot es.
Estimation sans biais ( echantillon de validation ou validation crois ee) des d eviances D(A
K
), . . . , D(A
1
).
Repr esentation de D(A
k
) en fonction de k ou de .
Choix de k rendant D(A
k
) minimum.
|
Cell.shape=1,2
Bare.nuclei=1,2
Epith.c.size=1,2,3
Cell.shape=3,4,5,6,7,8,9,10
Bare.nuclei=3,4,5,6,7,8,9,10
Epith.c.size=4,5,6,7,8,9,10
benign
358/188
benign
318/4
malignant
40/184
benign
32/20
benign
30/1
malignant
2/19
malignant
8/164
FIGURE 7.2 Cancer : arbre de d ecision elagu e par validation crois ee (R).
predq.tree benign malignant
benign 83 5
malignant 3 46
avec un taux derreur estim e ` a 5,8%.
Arbre de r egression
Un arbre de r egression est estim e pour pr evoir la concentration dozone. La librairie rpart du logiciel
R pr evoit une proc edure d elagage par validation crois ee an doprimiser le coefcient de p enalisation.
Larbre (gure 7.3) montre bien quelles sont les variables importantes intervenant dans la pr evision. Mais,
compte tenu de la hi erarchisation de celles-ci, due ` a la structure arborescente du mod` ele, cette liste nest pas
similaire ` a celle mise en evidence dans le mod` ele gaussien. On voit plus pr ecis ement ici la compexit e des
interactions entre la pr ediction par MOCAGE et leffet important de la temp erature dans diff erentes situa-
tions. Les r esidus de l ecchantillon test du mod` ele darbre de r egression prennent une structure particuli` ere
(gure 7.4) car les observations communes ` a une feuille terminale sont affect ees de la m eme valeur. Il y
a donc une colonne par feuille. La pr ecision de lajustement peut sen trouver alt er ee (R
2
= 0, 68) mais
il apparat que ce mod` ele est moins soumis au probl` eme dh et erosc edasticit e tr` es pr esent dans le mod` ele
gaussien.
FIGURE 7.3 Ozone : arbre de r egression elagu e par validation crois ee (R).
5. Exemples 77
0 50 100 200 300
0
5
0
1
5
0
2
5
0
Valeurs predites
V
a
l
e
u
r
s

o
b
s
e
r
v
e
e
s
0 50 100 200 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
FIGURE 7.4 Ozone : Valeurs observ ees et r esidus de l echantillon test en fonction des valeurs pr edites.
Arbre de discrimination
Un mod` ele est estim e an de pr evoir directement le d epassement dun seuil. Il est de complexit e si-
milaire ` a larbre de r egression mais ne fait pas jouer le m eme r ole aux variables. La temp erature remplace
la pr evision MOCAGE de lozone comme variable la plus importante. Les pr evisions de d epassement de
seuil sur l echantillon test sont sensiblement moins bonnes que celle de la r egression, les taux sont de
14,4% avec larbre de r egression et de 14,5% directement avec larbre de discrimination. Les matrices de
confusion pr esentent les m emes biais que les mod` eles de r egression en omettant un nombre important de
d epassements.
Chapitre 8
M ethodes connexionistes
1 Historique
Nous nous int eressons ici ` a une branche de lInformatique fondamentale qui, sous lappellation dIntelligence
Articielle, a pour objectif de simuler des comportements du cerveau humain. Les premi` eres tentatives
de mod elisation du cerveau sont anciennes et pr ec` edent m eme l` ere informatique. Cest en 1943 que Mc
Culloch (neurophysiologiste) et Pitts (logicien) ont propos e les premi` eres notions de neurone formel. Ce
concept fut ensuite mis en r eseau avec une couche dentr ee et une sortie par Rosenblatt en 1959 pour si-
muler le fonctionnement r etinien et tacher de reconnatre des formes. Cest lorigine du perceptron. Cette
approche dite connexioniste a atteint ses limites technologiques, compte tenu de la puissance de calcul de
l epoque, mais aussi th eoriques au d ebut des ann ees 70.
Lapproche connexioniste ` a connaissance r epartie a alors et e supplant ee par lapproche symbolique ou
s equentielle qui promouvait les syst` emes experts ` a connaissance localis ee. Lobjectif etait alors dautoma-
tiser le principe de lexpertise humaine en associant trois concepts :
une base de connaissance dans laquelle etaient regroup ees toutes les connaissances dexperts hu-
mains sous forme de propositions logiques el ementaires ou plus elabor ees en utilisant des quantica-
teurs (logique du premier ordre).
une base de faits contenant les observations du cas ` a traiter comme, par exemple, des r esultats dexa-
mens, danalyses de sang, de salive pour des applications biom edicales de choix dun antibiotique,
un moteur dinf erence charg e dappliquer les r` egles expertes sur la base de faits an den d eduire de
nouveaux faits jusqu` a la r ealisation dun objectif comme l elaboration du traitement dun infection
bact erienne.
Face aux difcult es rencontr ees lors de la mod elisation des connaissances dun expert humain, au volume
consid erable des bases de connaissance qui en d ecoulait et au caract` ere exponentiel de la complexit e des al-
gorithmes dinf erence mis en jeu, cette approche sest eteinte avec les ann ees 80. En effet, pour les syst` emes
les plus compliqu es ` a base de calcul des pr edicats du premier ordre, on a pu montrer quils conduisaient ` a
des probl` emes NP complets et donc dont la solution pouvait etre atteinte mais pas n ecessairement en un
temps ni !
Lessor technologique et surtout quelques avanc ees th eoriques :
algorithme destimation par r etropropagation de lerreur par Hopkins en 1982,
analogie de la phase dapprentissage avec les mod` eles markoviens de syst` emes de particules de la
m ecanique statistique (verres de spin) par Hopeld en 1982,
au d ebut des ann ees 80 ont permis de relancer lapproche connexioniste. Celle-ci a connu au d ebut des
ann ees 90 un d eveloppement consid erable si lon consid` ere le nombre de publications et de congr` es qui
lui ont et e consacr es mais aussi les domaines dapplications tr` es divers o` u elle apparat. Sur de nombreux
objectifs, justement ceux propres au data mining, les r eseaux neuronaux ne rentrent pas n ecessairement en
concurrence avec des m ethodes statistiques bient ot centenaires mais apportent un point de vue compl ementaire
quil est important de consid erer (Thiria et col. 1997).
79
80 Chapitre 8. M ethodes connexionistes
| f
x
1
`
`
`
x
2
x
j
.
.
.
x
p
y
FIGURE 8.1 Repr esentation dun neurone formel.
2 R eseaux de neurones
Un r eseau neuronal est lassociation, en un graphe plus ou moins complexe, dobjets el ementaires, les
neurones formels. Les principaux r eseaux se distinguent par lorganisation du graphe (en couches, com-
plets. . . ), cest-` a-dire leur architecture, son niveau de complexit e (le nombre de neurones) et par le type des
neurones (leurs fonctions de transition).
2.1 Neurone formel
De facon tr` es r eductrice, un neurone biologique est une cellule qui se caract erise par
des synapses, les points de connexion avec les autres neurones, bres nerveuses ou musculaires ;
des dentrites, les entr ees du neurones ;
laxone, la sortie du neurone vers dautres neurones ou bres musculaires ;
le noyau qui active la sortie en fonction des stimuli en entr ee.
Par analogie, le neurone formel est un mod` ele qui se caract erise par un etat interne s o, des signaux
dentr ee x
1
, . . . , x
p
et une fonction de transition d etat
s = h(x
1
, . . . , x
p
) = f
_
_
0
+
p
j=1
j
x
j
_
_
.
La fonction de transition op` ere une transformation dune combinaison afne des signaux dentr ee,
0
etant
appel e le biais du neurone. Cette combinaison afne est d etermin ee par un vecteur de poids [
0
, . . . ,
p
]
associ e ` a chaque neurone et dont les valeurs sont estim ees dans la phase dapprentissage. Ils constituent la
m emoire ou connaissance r epartie du r eseau.
Les diff erents types de neurones se distinguent par la nature f de leur fonction de transition. Les prin-
cipaux types sont :
lin eaire f est la fonction identit e,
sigmode f(x) = 1/(1 +e
x
),
seuil f(x) = 1
[0,+[
(x),
stochastiques f(x) = 1 avec la probabilit e 1/(1 + e
x/H
), 0 sinon (H intervient comme une
temp erature dans un algorithme de recuit simul e),
. . .
Les mod` eles lin eaires et sigmodaux sont bien adapt es aux algorithmes dapprentissage comme celui de
r etropropagation du gradient car leur fonction de transition est diff erentiable. Ce sont les plus utilis es. Le
mod` ele ` a seuil est sans doute plus conforme ` a la r ealit e biologique mais pose des probl` emes dappren-
tissage. Enn le mod` ele stochastique est utilis e pour des probl` emes doptimisation globale de fonctions
perturb ees ou encore pour les analogies avec les syst` emes de particules. On ne le rencontre pas en data
mining.
3 Perceptron multicouche
3. Perceptron multicouche 81
x
1
`
`
`
`
`
`
`
\
\
\
\
\
\
\
\
\
\
\
x
2
>
>
>
>
>
`
`
`
`
`
`
`
.
.
.
x
j
>
>
>
>
>

.
.
.
x
p
>
>
>
>
>

/
/
/
/
/
/
/
/
/
/
/
| f
| f
.
.
.
| f
| f
y
FIGURE 8.2 Exemple de perceptron multicouche el ementaire avec une couche cach ee et une couche de
sortie.
3.1 Architecture
Le perceptron multicouche (PMC) est un r eseau compos e de couches successives. Une couche est un
ensemble de neurones nayant pas de connexion entre eux. Une couche dentr ee lit les signaux entrant, un
neurone par entr ee x
j
, une couche en sortie fournit la r eponse du syst` eme. Selon les auteurs, la couche
dentr ee qui nintroduit aucune modication nest pas comptablis ee. Une ou plusieurs couches cach ees
participent au transfert. Un neurone dune couche cach ee est connect e en entr ee ` a chacun des neurones de
la couche pr ec edente et en sortie ` a chaque neurone de la couche suivante.
Un perceptron multicouche r ealise donc une transformation
y = (x
1
, . . . , x
p
; )
o` u est le vecteur contenant chacun des param` etres
jk
de la j` eme entr ee du k` eme neurone de la ` eme
couche ; la couche dentr ee ( = 0) nest pas param etr ee, elle ne fait que distribuer les entr ees sur tous les
neurones de la couche suivante.
Par souci de coh erence, nous avons t ach e de conserver les m emes notations ` a travers les diff erents cha-
pitres. Ainsi, les entr ees dun r eseau sont encore not ees x
1
, . . . , x
p
comme les variables explicatives dun
mod` ele tandis que les poids des entr ees sont des param` etres ` a estimer lors de la proc edure dapprentissage
et que la sortie est la variable ` a expliquer ou cible du mod` ele.
3.2 Apprentissage
Supposons que lon dispose dune base dapprentissage de taille n dobservations (x
1
i
, . . . , x
p
i
; y
i
) des
variables explicatives X
1
, . . . , X
p
et de la variable ` a pr evoir Y . Lapprentissage est lestimation

des
param` etres du mod` ele solutions du probl` eme des moindres carr es
1
:
= arg min
b
Q(b) avec Q(b) =
1
n
n
i=1
[y
i
(x
1
i
, . . . , x
p
i
; (b))]
2
.
Lalgorithme doptimisation le plus utilis e est celui de r etropropagation du gradient bas e sur lid ee suivante :
en tout point b, le vecteur gradient de Q pointe dans la direction de lerreur croissante. Pour faire d ecrotre
1.

Equivalent ` a une maximisation de la vraisemblance dans le cas gaussien.
Q il suft donc de se d eplacer en sens contraire. Il sagit dun algorithme it eratif modiant les poids de
chaque neurone selon :
b
jk
(i) = b
jk
(i 1) + b
jk
(i)
o` u la correction b
jk
(i) est proportionnelle au gradient et ` a lerreur attribu ee ` a lentr ee concern ee
jk
(i)
et incorpore un terme dinertie b
jk
(i 1) permettant damortir les oscillations du syst` eme :
b
jk
(i) =
jk
(i)
Q
b
jk
+b
jk
(i 1).
Le coefcient de proportionnalit e est appel e le taux dapprentissage. Il peut etre xe ` a d eterminer
par lutilisateur ou encore varier en cours dex ecution selon certaines r` egles param etr ees par lutilisateur.
Il parat en effet intuitivement raisonnable que, grand au d ebut pour aller plus vite, ce taux d ecroisse pour
aboutir ` a un r eglage plus n au fur et ` a mesure que le syst` eme sapproche dune solution. La formule de
r etropropagation de lerreur fournit, ` a partir des erreurs observ ees sur les sorties, lexpression de lerreur
attribu ee ` a chaque entr ee de la couche de sortie ` a la couche dentr ee.
La litt erature sur le sujet propose quantit es de recettes destin ees ` a am eliorer la vitesse de convergence
de lalgorithme ou bien lui eviter de rester coll e ` a une solution locale d efavorable. Des propri et es (dyna-
mique markovienne ergodique et convergence vers la mesure stationnaire) de cet algorithme impliquent une
convergence presque s ure ; la probabilit e datteindre une pr ecision x ee a priori tend vers 1 lorsque la taille
de l echantillon dapprentissage tend vers linni.
Une am elioration importante consiste ` a introduire une terme de p enalisation ou r egularisation comme
en ridge dans le crit` ere ` a optimiser. Celui-ci devient alors :
= arg min
b
Q(b) +|b|
2
.
Le param` etre (decay) doit etre x e par lutilisateur ; plus il est important et moins les param` etres ou poids
peuvent prendre des valeurs cahotiques contribuant ainsi ` a limiter les risques de surapprentissage.
Algorithm 5 R etropropagation du gradient
Initialisation
Les poids b
jk
par tirage al eatoire selon une loi uniforme sur [0, 1].
Normaliser dans [0, 1] les donn ees dapprentissage.
Tant que Q > errmax ou niter<itermax Faire
Ranger la base dapprentissage dans un nouvel ordre al eatoire.
Pour chaque el ement i = 1, . . . , n de la base Faire
Calculer (i) = y
i
(x
1
i
, . . . , x
p
i
; (b)(i 1)) en propageant les entr ees vers lavant.
Lerreur est r etropropag ee dans les diff erentes couches an daffecter ` a chaque entr ee une respon-
sabilit e dans lerreur globale.
Mise ` a jour de chaque poids b
jk
(i) = b
jk
(i i) + b
jk
(i)
Fin Pour
Fin Tant que
3.3 Utilisation
On pourra se reporter ` a labondante litt erature sur le sujet (Haykin, 1994) pour obtenir des pr ecisions
sur les algorithme dapprentissage et leurs nombreuses variantes. Il est important de rappeler la liste des
choix qui sont laiss es ` a lutilisateur. En effet, m eme si les logiciels proposent des valeurs par d efaut, il est
fr equent que cet algorithme connaisse quelques soucis de convergence.
Lutilisateur doit donc d eterminer
i. les variables dentr ee et la variable de sortie ; leur faire subir comme pour toutes m ethodes statistiques,
d eventuelles transformations.
4. Exemples 83
ii. Larchitecture du r eseau : le nombre de couches cach ees (en g en eral une ou deux) qui correspond ` a
une aptitude ` a traiter des probl` emes de non-lin earit e, le nombre de neurones par couche cach ee. Ces
deux choix conditionnent directement le nombre de param` etres (de poids) ` a estimer. Ils participent ` a la
recherche dun bon compromis biais/variance cest-` a-dire ` a l equilibre entre qualit e dapprentissage
et qualit e de pr evision.
`
A la louche, on consid` ere en pratique quil faut un echantillon dapprentissage
au moins dix fois plus grand que le nombre de param` etres ` a estimer.
iii. Trois autres param` etres interviennent egalement sur ce compromis : le nombre maximum dit erations,
lerreur maximum tol er ee et un terme eventuel de r egularisation (decay). En renforcant ces crit` eres
on am eliore la qualit e de lapprentissage ce qui peut se faire au d etriment de celle de la pr evision.
iv. Le taux dapprentissage ainsi quune eventuelle strat egie d evolution de celui-ci.
En pratique, tous ces param` etres ne sont pas r egl es simultan ement par lutilisateur. Celui-ci est confront e
` a des choix concernant principalement le contr ole du sur-apprentissage ; choix du param` etre : limiter le
nombre de neurones ou la dur ee dapprentissage ou encore augmenter le coefcient de p enalisation de
la norme des param` etres ; choix du mode destimation de lerreur : echantillon test, validation crois ee ou
bootstrap. Ces choix sont souvent pris par d efaut dans la plupart des logiciels commerciaux. Il est important
den connatre les implications.
Le nombre de couches reste restreint. On montre en effet que toute fonction que toute fonction conti-
nue dun compact de IR
P
dans IR
q
peut etre approch ee avec une pr ecision arbitraire par un r eseau ` a
une couche cach ee en adaptant le nombre de neurones. Leccontr ole de la complexit e du mod` ele ou plus
g en eralement dun sur-apprentissage peut se faire ` a laide de plusieurs param` etres : le nombre de neurones,
une p enalisation de la norne du vecteur des poids ou param` etres comme en ridge (r egularisation) ou encore
par la dur ee de lapprentissage. Ces param` etres sont optimis es en consid erant un echantillon de validation
et le plus simple consiste ` a arr et e lapprentissage lorsque lerreur sur l echantillon de validation commence
` a se d egrader tandis que celle sur l echantillon dapprentissage ne peut que continuer ` a d ecrotre.
Les champs dapplication des PMC sont tr` es nombreux : discrimination, pr evision dune s erie tempo-
relle, reconnaissance de forme. . . Ils sont en g en eral bien explicit es dans les documentations des logiciels
sp ecialis es.
Les critiques principales enonc ees ` a lencontre du PMC concernent les difcult es li es ` a lapprentis-
sage (temps de calcul, taille de l echantillon, localit e de loptimum obtenu) ainsi que son statut de bote
noir. En effet, contrairement ` a un mod` ele de discrimination ou un arbre, il est a priori impossible de
connatre linuence effective dune entr ee (une variable) sur le syst` eme d` es quune couche cach ee inter-
vient. N eanmoins, des techniques de recherche de sensibilit e du syst` eme ` a chacune des entr ees permettent
de pr eciser les id ees et, eventuellement de simplier le syst` eme en supprimant certaines des entr ees.
En revanche, ils poss` edent dind eniables qualit es lorsque labsence de lin earit e et/ou le nombre de va-
riables explicatives rendent les mod` eles statistiques traditionnelles inutilisables. Leur exibilit e alli ee ` a une
proc edure dapprentissage int egrant la pond eration (le choix) des variables comme de leurs interactions
peuvent les rendre tr` es efcaces (Besse et col. 2001).
4 Exemples
Les r eseaux de neurones etant des botes noires, les r esultats fournis ne sont gu` ere explicites et ne
conduisent donc pas ` a des interpr etations peu informatives du mod` ele. Seule une etude des erreurs de
pr evisions et, dans le cas dune r egression, une etude des r esidus, permet de se faire une id ee de la qualit e
du mod` ele.
4.1 Cancer du sein
La pr evision de l echantillon test par un r eseau de neurones conduit ` a la matrice de confusion :
benign malignant
FALSE 83 1
TRUE 3 50
et donc une erreur estim ee de 3%.
0 50 100 200 300
0
5
0
1
5
0
2
5
0
Valeurs predites
V
a
l
e
u
r
s

o
b
s
e
r
v
e
e
s
0 50 100 200 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
FIGURE 8.3 Ozone : Valeurs observ ees et r esidus de l echantillon test en fonction des valeurs pr edites par
un r eseau de 10 neurones
La comparaison des r esidus (gure 8.3 montre que le probl` eme de non-lin earit e qui apparaissait sur
les mod` eles simples (MOCAGE, r egression lin eaire) est bien r esolu et que ces r esidus sont plut ot moins
etendus, mais le ph enom` ene dh et erosc edasticit e est toujours pr esent quelque soit le nombre de neurones
utilis es. Il a et e choisi relativement important (10) et conduit donc ` a un bon ajustement (R
2
= 0, 77) mais
devra etre r eduit pour optimiser la pr evision.
Comme pour les arbres de d ecision, les r eseaux de neurones ne proposent pas de mod` eles tr` es efcaces
sur cet exemple. Les taux derreur de pr evision du d epassement du seuil sont de 14,4% ` a partir du mod` ele
quantitatif et de 15,6% avec une pr evision qualitative.
Chapitre 9
Agr egation de mod` eles
1 Introduction
Ce chapitre d ecrit des algorithmes plus r ecemment apparus dans la litt erature. Ils sont bas es sur des
strat egies adaptatives (boosting) ou al eatoires (bagging) permettant dam eliorer lajustement par une com-
binaison ou agr egation dun grand nombre de mod` eles tout en evitant un sur-ajustement. Ces algorithmes
se sont d evelopp es ` a la fronti` ere entre apprentissage machine (machine learning) et Statistique. De nom-
breux articles comparatifs montrent leur efcacit e sur des exemples de donn ees simul ees et surtout pour des
probl` emes r eels complexes (voir par exemple Ghattas 2000) tandis que leurs propri et es th eoriques sont un
th` eme de recherche actif.
Deux types dalgorithmes sont d ecrits sch ematiquement dans ce chapitre. Ceux reposants sur une
construction al eatoires dune famille de mod` ele : bagging pour bootstrap aggregating (Breiman 1996), les
for ets al eatoires (random forests) de Breiman (2001) qui propose une am elioration du bagging sp ecique
aux mod` eles d enis par des arbres binaires (CART). Ceux bas es sur le boosting (Freund et Shapiro,1996),
reposent sur une construction adaptative, d eterministe ou al eatoire, dune famille de mod` eles.
Les principes du bagging ou du boosting sappliquent ` a toute m ethode de mod elisation (r egression,
CART, r eseaux de neurones) mais nont dint er et, et r eduisent sensiblement lerreur de pr evision, que dans
le cas de mod` eles instables, donc plut ot non lin eaires. Ainsi, lutilisation de ces algorithmes na gu` ere de
sens avec la r egression multilin eaire ou lanalyse discriminante. Ils sont surtout mis en uvre en association
avec des arbres binaires comme mod` eles de base.
2 Famille de mod` eles al eatoires
2.1 Bagging
Principe et algorithme
Soit Y une variable ` a expliquer quantitative ou qualitative, X
1
, . . . , X
p
les variables explicatives et
(x) un mod` ele fonction de x = x
1
, . . . , x
p
IR
p
. On note n le nombre dobservations et
z = (x
1
, y
1
), . . . , (x
n
, y
n
)
un echantillon de loi F.
Lesp erance (.) = E
F
(
z
) de lestimateur d enie sur l echantillon z, est un estimateur sans biais de
variance nulle. Consid erons B echantillons ind ependants not es z
b
b=1,B
et construisons une agr egation
des mod` eles dans le cas o` u la variable ` a expliquer Y est :
quantitative :

B
(.) =
1
B
B
b=1
z
b
(.),
qualitative :

B
(.) = arg max
j
card
_
b [

z
b
(.) = j
_
.
Dans le premier cas, il sagit dune simple moyenne des r esultats obtenus pour les mod` eles associ es ` a
chaque echantillon, dans le deuxi` eme, un comit e de mod` eles est constitu e pour voter et elire la r eponse
85
86 Chapitre 9. Agr egation de mod` eles
la plus probable. Dans ce dernier cas, si le mod` ele retourne des probabilit es associ ees ` a chaque modalit e
comme en r egression logistique ou avec les arbres de d ecision, il est aussi simple de calculer des moyennes
de ces probabilit es.
Le principe est el ementaire, moyenner les pr evisions de plusieurs mod` eles ind ependants permet de
r eduire la variance et donc de r eduire lerreur de pr evision.
Cependant, il nest pas r ealiste de consid erer B echantillons ind ependants. Cela n ecessiterait g en eralement
trop de donn ees. Ces echantillons sont donc remplac es par B r eplications d echantillons bootstrap (cf. An-
nexe A) obtenus chacun par n tirages avec remise selon la mesure empirique

F. Ceci conduit ` a lalgorithme
ci-dessous.
Algorithm 6 Bagging
Soit x
0
` a pr evoir et
z = (x
1
, y
1
), . . . , (x
n
, y
n
) un echantillon
Pour b = 1 à B Faire
Tirer un echantillon bootstrap z
b
.
Estimer

z
b
(x
0
) sur l echantillon bootstrap.
Fin Pour
Calculer lestimation moyenne

B
(x
0
) =
1
B
B
b=1
z
b
(x
0
) ou le r esultat du vote.
Utilisation
Il est naturel et techniquement facile daccompagner ce calcul par une estimation bootstrap out-of-bag
(cf. chapitre 5 section 4.1) de lerreur de pr evision. Elle est une mesure de la qualit e de g en eralisation du
mod` ele et permet de pr evenir une eventuelle tendance au sur-ajustement. Cest, pour eviter un biais, la
moyenne des erreurs de pr evision commises par chaque estimateur ; chacune des erreurs etant estim ee sur
les observations qui nont pas et e s electionn ees par l echantillon bootstrap correspondant.
En pratique, CART est souvent utilis ee comme m ethode de base pour construire une famille de mod` eles
cest-` a-dire darbres binaires. Trois strat egies d elagage sont alors possibles :
i. laisser construire et garder un arbre complet pour chacun des echantillons,
ii. construire un arbre dau plus q feuilles,
iii. construire ` a chaque fois larbre complet puis l elaguer par validation crois ee.
La premi` ere strat egie semble en pratique un bon compromis entre volume des calculs et qualit e de pr evision.
Chaque arbre est alors affect e dun faible biais et dune grande variance mais la moyenne des arbres r eduit
avantageusement celle-ci. En revanche, l elagage par validation crois ee p enalise lourdement les calculs sans
gain substantiel de qualit e.
Cet algorithme a lavantage de la simplicit e, il sadapte et se programme facilement quelque soit la
m ethode de mod elisation mise en uvre. Il pose n eanmoins quelques probl` emes :
temps de calcul important pour evaluer un nombre sufsant darbres jusqu` a ce que lerreur de
pr evisionout-of-bag ou sur un echantillon validation se stabilise et arr et si elle tend ` a augmenter ;
n ecessiter de stocker tous les mod` eles de la combinaison an de pouvoir utiliser cet outil de pr evisionsur
dautres donn ees,
lam elioration de la qualit e de pr evisionse fait au d etriment de linterpr etabilit e. Le mod` ele nalement
obtenu devient une bote noire comme dans le cas du perceptron.
2.2 For ets al eatoires
Algorithme
Dans les cas sp ecique des mod` eles CART (arbres binaires), Breiman (2001) propose une am elioration
du bagging par lajout dune randomisation. Lobjectif est donc de rendre plus ind ependants les arbres de
lagr egation en ajoutant du hasard dans le choix des variables qui interviennent dans les mod` eles. Cette ap-
proche semble plus particuli` erement fructueuse dans des situations hautement multidimensionnelles, cest-
2. Famille de mod` eles al eatoires 87
` a-dire lorsque le nombre de variables explicatives p est tr` es important. Cest le cas lorsquil sagit, par
exemple, de discriminer des courbes, spectres, signaux, biopuces.
Algorithm 7 For ets al eatoires
Soit x
0
` a pr evoir et
z = (x
1
, y
1
), . . . , (x
n
, y
n
) un echantillon
Tirer un echantillon bootstrap z
b
Estimer un arbre sur cet echantillon avec randomisation des variables : la recherche de chaque nud
optimal est pr ec ed e dun tirage al eatoire dun sous-ensemble de q pr edicteurs.
Fin Pour
Calculer lestimation moyenne

B
(x
0
) =
1
B
B
b=1
z
b
(x
0
) ou le r esultat du vote.
Elagage
La strat egie d elagage peut, dans le cas des for ets al eatoires, etre plus el ementaire quavec le bagging
en se limitant ` a des arbres de taille q relativement r eduite voire m eme triviale avec q = 2 (stump). En
effet, avec le seul bagging, des arbres limit es ` a une seule fourche risquent d etre tr` es semblables (for-
tement corr el es) car impliquant les m emes quelques variables apparaissant comme les plus explicatives.
La s election al eatoire dun nombre r eduit de pr edicteurs potentiels ` a chaque etape de construction dun
arbre, accrot signicativement la variabilit e en mettant en avant n ecessairement dautres variables. Chaque
mod` ele de base est evidemment moins performant mais, lunion faisant la force, lagr egation conduit na-
lement ` a de bons r esultats. Le nombre de variables tir ees al eatoirement nest pas un param` etre sensible un
choix par d efaut de q =

p est sugg er e par Breiman (2001). Comme pour le bagging, l evaluation it erative
de lerreur out-of-bag pr evient dun eventuel sur-ajustement si celle-ci vient ` a se d egrader.
Interpr etation
Comme pour tout mod` eles construit par agr egation ou bote noire, il ny a pas dinterpr etation directe.
N eanmoins des informations pertinentes sont obtenues par le calcul et la repr esentation graphique dindices
proportionnels ` a limportance de chaque variable dans le mod` ele agr eg e et donc de sa participation ` a la
r egression ou ` a la discrimination. Cest evidemment dautant plus utile que les variables sont tr` es nom-
breuses. Plusieurs crit` eres sont ainsi propos es pour evaluer limportance de la j` eme variable.
Le premier (Mean Decrease Accuracy repose sur une permutation al eatoire des valeurs de cette va-
riable. Il consiste ` a calculer la moyenne sur les observations out-of-bag de la d ecroissance de leur
marge lorsque la variable est al eatoirement perturb ee. La marge est ici la proportion de votes pour la
vraie classe dune observation moins le maximum des proportions des votes pour les autres classes.
Il sagit donc dune mesure globale mais indirecte de linuence dune variable sur la qualit e des
pr evisions. Plus la pr evision est d egrad ee par la permutation des valeurs dune variable, plus celle-ci
est importante.
Le deuxi` eme (Mean Decrease Gini) est local, bas e sur la d ecroissance dentropie ou encore la
d ecroissance de lh et erog en eit e d enie ` a partir du crit` ere de Gini. Limportance dune variable est
alors une somme pond er ee des d ecroissances dh et erog en eit e induites lorquelle est utilis ee pour
d enir la division associ ee ` a un nud.
Le troisi` eme, qui na pas et e retenu par Breiman, est plus rudimentaire, il sint eresse simplement ` a la
fr equence de chacune des variables apparaissant dans les arbres de la for et.
Selon Breiman les deux premiers sont tr` es proches, limportance dune variable d epend donc se sa fr equence
dapparition mais aussi des places quelle occupe dans chaque arbre. Ces crit` eres sont pertinents pour
une discrimination de deux classes ou, lorsquil y a plus de deux classes, si celles-ci sont relativement
equilibr ees. Dans le cas contraire, cest-` a-dire si une des classes est moins fr equente et plus difcile ` a
discriminer, lexp erience montre que le troisi` eme crit` ere relativement simpliste pr esente un avantage : il
donne une certaine importance aux variables qui sont n ecessaires ` a la discrimination dune classe difcile
alors que celles-ci sont n eglig ees par les deux autres crit` eres.
3 Famille de mod` eles adaptatifs
3.1 Principes du Boosting
Le boosting diff` ere des approches pr ec edentes par ses origines et ses principes. Lid ee initiale, en ap-
prentissage machine, etait dam eliorer les comp etences dun faible classieur cest-` a-dire celle dun mod` ele
de discrimination dont la probabilit e de succ` es sur la pr evision dune variable qualitative est l eg` erement
sup erieure ` a celle dun choix al eatoire. Lid ee originale de Schapire (1990) a et e afn ee par Freund et Scha-
pire (1996) qui ont d ecrit lalgorithme original AdaBoost (Adaptative boosting) pour la pr evision dune
variable binaire. De nombreuses etudes ont ensuite et e publi ees pour adapter cet algorithme ` a dautres
situations : k classes, r egression et rendre dompte de ses performances sur diff erents jeux de donn ees (cf.
Schapire, 2002) pour une bibliographie). Ces tests ont montr e le r eel int er et pratique de ce type dalgorithme
pour r eduire sensiblement la variance (comme le bagging) mais aussi le biais de pr evision comparative-
ment ` a dautres approches. Cet algorithme est m eme consid er e comme la meilleure m ethode off-the-shelf
cest-` a-dire ne n ecessitant pas un long pr etraitement des donn ees ni un r eglage n de param` etres lors de la
proc edure dapprentissage.
Le boosting adopte le m eme principe g en eral que le bagging : construction dune famille de mod` eles
qui sont ensuite agr eg es par une moyenne pond er e des estimations ou un vote. Il diff` ere nettement sur la
facon de construire la famille qui est dans ce cas r ecurrente : chaque mod` ele est une version adaptative
du pr ec edent en donnant plus de poids, lors de lestimation suivante, aux observations mal ajust ees ou mal
pr edites. Intuitivement, cet algorithme concentre donc ses efforts sur les observations les plus difciles ` a
ajuster tandis que lagr egation de lensemble des mod` eles permet d echapper au sur-ajustement.
Les algorithmes de boosting propos es diff` erent par diff erentes caract eristiques :
la facon de pond erer cest-` a-dire de renforcer limportance des observations mal estim ees lors de
lit eration pr ec edente,
leur objectif selon le type de la variable ` a pr edire Y : binaire, qualitative ` a k classes, r eelles ;
la fonction perte, qui peut etre choisie plus ou moins robuste aux valeurs atypiques, pour mesurer
lerreur dajustement ;
la facon dagr eger, ou plut ot pond erer, les mod` eles de base successifs.
La litt erature sur le sujet pr esente donc de tr` es nombreuses versions de cet algorithme et il est encore difcile
de dire lesquelles sont les plus efcaces et si une telle diversit e est bien n ecessaire. Il serait fastidieux de
vouloir expliciter toutes les versions, ce chapitre en propose un choix arbitraire.
3.2 Algorithme de base
D ecrivons la version originale du boosting pour un probl` eme de discrimination el ementaire ` a deux
classes en notant la fonction de discrimination ` a valeurs dans 1, 1. Dans cette version, le mod` ele de
base retourne lidentit e dune classe, il est encore nomm e Adaboost discret. Il est facile de ladapter ` a des
mod` eles retournant une valeur r eelle comme une probabilit e dappartenance ` a une classe.
Les poids de chaque observations sont initialis es ` a 1/n pour lestimation du premier mod` ele puis
evoluent ` a chaque it eration donc pour chaque nouvelle estimation. Limportance dune observation w
i
est
inchang ee si elle est bien class ee, elle crot sinon proportionnellement au d efaut dajustement du mod` ele.
Lagr egation nale des pr evisions :
M
m=1
c
m
m
(x
0
) est une combinaison pond er ee par les qualit es dajus-
tement de chaque mod` ele. Sa valeur absolue appel ee marge est proportionnelle ` a la conance que lon peut
attribuer ` a son signe qui fournit le r esultat de la pr evision. Attention, un contr ole doit etre ajout e en pratique
pour bien v erier que le classieur de base est bien faible mais pas mauvais ` a savoir que c
m
garde bien
des valeurs positives ; que le taux derreur apparent ne soit pas sup erieur ` a 50%.
Ce type dalgorithme est largement utilis e avec un arbre (CART) comme mod` ele de base. De nom-
breuses applications montrent que si le classieur faible est un arbre trivial ` a deux feuilles (stump),
AdaBoost fait mieux quun arbre sophistiqu e pour un volume de calcul comparable : autant de feuilles
dans larbre que dit erations dans AdaBoost. Hastie et col. (2001) discutent la meilleure strat egie d elagage
applicable ` a chaque mod` ele de base. Ils le comparent avec le niveau dinteraction requis dans un mod` ele
danalyse de variance. Le cas q = 2 correspondant ` a la seule prise en compte des effets principaux. Empi-
riquement ils recommandent une valeur comprise entre 4 et 8.
3. Famille de mod` eles adaptatifs 89
Algorithm 8 AdaBoost (adaptative boosting)
Soit x
0
` a pr evoir et
z = (x
1
, y
1
), . . . , (x
n
, y
n
) un echantillon
Initialiser les poids w = w
i
= 1/n ; i = 1, . . . , n.
Pour m = 1 à M Faire
Estimer
m
sur l echantillon pond er e par w.
Calculer le taux derreur apparent :
c
p
=
n
i=1
w
i
1
m
(x
i
) ,= y
i
n
i=1
w
i
.
Calculer les logit : c
m
= log((1

c
p
)/
c
p
).
Calculer les nouvelles pond erations : w
i
w
i
. exp [c
m
1
m
(x
i
) ,= y
i
] ; i = 1, . . . , n.
Fin Pour
R esultat du vote :

M
(x
0
) = signe
_
M
m=1
c
m
m
(x
0
)
_
.
3.3 Version al eatoire
`
A la suite de Freund et Schapire (1996), Breiman (1998) d eveloppe aussi, sous le nom dArcing (adap-
tively resample and combine), une version al eatoire, et en pratique tr` es proche, du boosting. Elle sadapte
` a des classieurs pour lesquels il est difcile voire impossible dint egrer une pond eration des observations
dans lestimation. Ainsi plut ot que de jouer sur les pond erations, ` a chaque it eration, un nouvel echantillon
est tir e avec remise, comme pour le bootstrap, mais selon des probabilit es inversement proportionnelles ` a la
qualit e dajustement de lit eration pr ec edente. La pr esence des observations difciles ` a ajuster est ainsi ren-
forc ee pour que le mod` ele y consacre plus dattention. Lalgorithme adaboost pr ec edent est facile ` a adapter
en ce sens en regardant celui d evelopp e ci-dessous pour la r egression et qui adopte ce point de vue.
3.4 Pour la r egression
Diff erentes adaptations du boosting ont et e propos ees pour le cas de la r egression, cest-` a-dire lorsque
la variable ` a pr edire est quantitative. Voici lalgorithme de Drucker (1997) dans la pr esentation de Gey
et Poggi (2002) qui en etudient les performances empiriques en relation avec CART. Freund et Schapire
(1996) ont propos e Adaboost.R avec le m eme objectif tandis que le point de vue de Friedman (2002) est
d ecrit plus loin dans lalgorithme 10.
Pr ecisions :
Dans cet algorithme la fonction perte Q peut etre exponentielle, quadratique ou, plus robuste, la
valeur absolue. Le choix usuel de la fonction quadratique est retenu par Gey et Poggi (2002).
Notons L
m
= sup
i=1,...,n
l
m
(i) le maximum de lerreur observ ee par le mod` ele

m
sur l echantillon
initial. La fonction g est d enie par :
g(l
m
(i)) =
1l
m
(i)/L
m
m
(9.1)
avec
m
=
c
m
L
m

c
m
. (9.2)
Comme pour AdaBoost discret, une condition suppl ementaire est ajout ee ` a lalgorithme. Il est arr et e
ou r einitialis e ` a des poids uniformes si lerreur se d egrade trop : si

c
m
< 0.5L
m
.
Lalgorithme g en` ere M pr edicteurs construits sur des echantillons bootstrap z
m
dont le tirage d epend
de probabilit es p mises ` a jour ` a chaque it eration. Cette mise ` a jour est fonction dun param` etre
m
qui
est un indicateur de la performance, sur l echantillon z, du mi` eme pr edicteur estim e sur l echantillon z
m
.
La mise ` a jour des probabilit es d epend donc ` a la fois de cet indicateur global
m
et de la qualit e relative
l
m
(i)/L
m
de lestimation du i` eme individu. Lestimation nale est enn obtenue ` a la suite dune moyenne
ou m ediane des pr evisions pond er ees par la qualit e respective de chacune de ces pr evisions. Gey et Poggi
(2002) conseille la m ediane an de saffranchir de linuence de pr edicteurs tr` es atypiques.
Algorithm 9 Boosting pour la r egression
Soit x
0
` a pr evoir et
z = (x
1
, y
1
), . . . , (x
n
, y
n
) un echantillon
Initialiser p par la distribution uniforme p = p
i
= 1/n ; i = 1, . . . , n.
Pour m = 1 ` a M Faire
Tirer avec remise dans z un echantillon z
m
suivant p.
Estimer

m
sur l echantillon z
m
.
Calculer ` a partir de l echantillon initial z :
l
m
(i) = Q
_
y
i
,
m
(x
i
)
_
i = 1, . . . , n; (Q : fonction perte)
c
m
=
n
i=1
p
i
l
m
(i);
w
i
= g(l
m
(i))p
i
. (g continue non d ecroissante)
Calculer les nouvelles probabilit es : p
i

w
i
n
i=1
w
i
.
Fin Pour
Calculer

(x
0
) moyenne ou m ediane des pr evisions

m
(x
0
) pond er ees par des coefcients log(
1
m
).
3.5 Mod` ele additif pas ` a pas
Le bon comportement du boosting par rapport ` a dautres techniques de discrimination est difcile ` a
expliquer ou justier par des arguments th eoriques. Un premier pas important en ce sens a et e franchi par
Breiman (1999) qui propose de consid erer le boosting comme un algorithme global doptimisation. Cette
approche est reprise par Hastie et col. (2001) qui pr esentent le boosting dans le cas binaire sous la forme
dune approximation de la fonction par un mod` ele additif construit pas ` a pas :
(x) =
M
m=1
c
m
(x;
m
)
est cette combinaison o` u c
m
est un param` etre, le classieur (faible) de base fonction de x et d ependant
dun param` etre
m
. Si Q est une fonction perte, il sagit, ` a chaque etape, de r esoudre :
(c
m
,
m
) = arg min
(c,)
n
i=1
Q(y
i
,
m1
(x
i
) +c(x
i
; ));
m
(x) =

m1
(x) +c
m
(x;
m
) est alors une am elioration de lajustement pr ec edent.
Dans le cas dadaboost pour lajustement dune fonction binaire, la fonction perte utilis ee est Q(y, (x)) =
exp[y(x)]. il sagit donc de r esoudre :
(c
m
,
m
) = arg min
(c,)
n
i=1
exp
_
y
i
(
m1
(x
i
) +c(x
i
; ))
_
;
= arg min
(c,)
n
i=1
w
m
i
exp [cy
i
(x
i
; )]
avec w
m
i
= exp[y
i
m1
(x
i
)];
w
m
i
ne d ependant ni de c ni de , il joue le r ole dun poids fonction de la qualit e de lajustement pr ec edent.
Quelques d eveloppements compl ementaires montrent que la solution du probl` eme de minimisation est ob-
3. Famille de mod` eles adaptatifs 91
tenue en deux etapes : recherche du classieur optimal puis optimisation du param` etre c
m
.
m
= arg min
i=1
1y
i
,= (x
i
; ),
c
m
=
1
2
log
1

c
p
c
p
avec

c
p
erreur apparente de pr evision tandis que les w
i
sont mis ` a jour avec :
w
(m)
i
= w
(m1)
i
exp[c
m
].
On montre ainsi quadaboost approche pas ` a pas par un mod` ele additif en utilisant une fonction perte
exponentielle tandis que daubres types de boosting sont d enis sur la base dune autre fonction perte :
AdaBoost Q(y, (x)) = exp[y(x)],
LogitBoost Q(y, (x)) = log
2
(1 + exp[2y(x)],
L
2
Boost Q(y, (x)) = (y (x))
2
/2.
Dautres fonctions pertes sont envisageables pour, en particulier, un algorithme plus robuste face ` a un
echantillon dapprentissage pr esentant des erreurs de classement dans le cas de la discrimination ou encore
des valeurs atypiques (outliers) dans le cas de la r egression. Hastie et col. (2001) comparent les int er ets
respectifs de plusieurs fonctions pertes. Celles jug ees robustes (entropie en discrimination, valeur absolue
en r egression) conduisent ` a des algorithmes plus compliqu es ` a mettre en uvre.
3.6 R egression et boosting
Dans le m eme esprit dapproximation adaptative, Friedman (2002) propose sous lacronyme MART
(multiple additive regression trees) un algorithme bas e sur des arbres de r egression pour trait e le cas quan-
titatif en supposant la fonction perte seulement diff erentiable. Le principe de base est le m eme que pour
Adaboost, construire une s equence de mod` eles de sorte que chaque etape, chaque mod` ele ajout e ` a la com-
binaison, apparaisse comme un pas vers une meilleure solution. Ce pas est franchi dans la direction du
gradient, approch e par un arbre de r egression, de la fonction perte.
Algorithm 10 MART (Multiple additive regression trees)
Soit x
0
` a pr evoir
Initialiser

0
= arg min
n
i=1
Q(y
i
, )
Calculer r
i
m =
_
Q(y
i
,(x
i
))
(x
i
)
_
=
m1
,
Ajuster un arbre de r egression aux r
m
i donnant les feuilles ou r egions terminales R
jm
; j = 1, . . . , J
m
.
Calculer
jm
= arg min
x
i
R
jm
Q(y
i
,
m1
+).
Fin Pour
Mise ` a jour :

m
(x) =

m
(x)
J
m
j=1
jm
1x R
jm
.
Fin Pour
R esultat :

M
(x
0
).
Lalgorithme est initialis e par un terme constant cest-` a-dire encore un arbre ` a une feuille. Les ex-
pressions du gradient reviennent simplement ` a calculer les r esidus r
mj
du mod` ele ` a l etape pr ec edente. Les
termes correctifs
jm
sont ensuite optimis es pour chacune des r egions R
jm
d enies par larbre de r egression
ajustant les r esidus. Un algorithme de discrimination est similaire calculant autant de probabilit es que de
classes ` a pr evoir.
3.7 Compl ements
De nombreuses adaptations ont et e propos ees ` a partir de lalgorithme initial. Elles font intervenir
diff erentes fonctions pertes offrant des propri et es de robustesse ou adapt ees ` a une variable cible Y quanti-
tative ou qualitative ` a plusieurs classes : Adaboost M1, M2, MH ou encore MR. Schapire (2002) liste une
bibliographie d etaill ee.
Sur-ajustement
Dans le dernier algorithme, le nombre dit erations peut etre contr ol e par un echantillon de validation.
Comme pour dautres m ethodes (perceptron), il suft darr eter la proc edure lorsque lerreur estim ee sur
cet echantillon arrive ` a se d egrader. Une autre possibilit e consiste ` a ajouter un coefcient de r etr ecissement
(shrinkage comme en r egression ridge). Compris entre 0 et 1, celui-ci p enalise lajout dun nouveau mod` ele
dans lagr egation. Il joue le r ole du coefcient decay du perceptron) et, si sa valeur est petite (< 0, 1)
cela conduit ` a accrotre le nombre darbres mais entrane des am eliorations de la qualit e de pr evision. Le
boosting est un algorithme qui peut effectivement converger exactement, donc vers une situation de sur-
apprentissage. En pratique, cette convergence peut etre rendue sufsamment lente pour etre facilement
contr ol ee.
Interpr etation
Linterpr etabilit e des arbres de d ecision sont une des raisons de leur succ` es. Leur lecture ne n ecessite pas
de comp etences particuli` eres en statistique. Cette propri et e est evidemment perdue par lagr egation darbres
ou de tout autre mod` ele. N eanmoins, surtout si le nombre de variables est tr` es grand, il est important davoir
une indication de limportance relative des variables entrant dans la mod elisation.
Des crit` eres dimportance des variables sont n eanmoins faciles ` a calculer comme dans le cas des for ets
al eatoires.
Instabilit e
Tous les auteurs ont remarqu e la grande instabilit e des mod` eles construits ` a base darbres : une l eg` ere
modication des donn ees est susceptible dengendrer de grandes modications dans les param` etres (les
seuils et feuilles) du mod` ele. Cest justement cette propri et e qui rend cette technique tr` es appropri ee ` a une
am elioration par agr egation. Breiman (1998), pour les arbres de classication, puis Gey et Poggi (2002),
pour les arbres de r egression, d etaillent et quantient en pratique linuence de cette instabilit e ainsi que
celle de lapport potentiel du boosting par rapport au bagging.
Propri et es
Les justications th eoriques des bons r esultats du boosting et principalement la r esistance au sur-
ajustement sont encore lobjet de travaux intenses suivant diff erentes pistes. La difcult e vient de ce que
lapplication de ce type dalgorithme sur une m ethode donn ee, fait g en eralement mieux que lasymptotique
(en faisant crotre la taille de l echantillon) pour cette m eme m ethode. Les approches usuelles de la sta-
tistique asymptotique sont mises en d efaut et les bornes obtenues pour majorer les erreurs destimations
ou de pr evision sont trop grossi` eres pour rendre compte de lefcacit e effective de la m ethode. On trouve
ainsi, empiriquement, que lerreur de pr evision ou de g en eralisation peut continuer ` a d ecrotre longtemps
apr` es que lerreur dajustement se soit annul ee. Parmi les pistes explor ees, une approche stochastique
consid` ere que, m eme d eterministe, lalgorithme simule une dynamique markovienne (Blanchard, 2001).
Une deuxi` eme, rappel ee ci-dessus, pr esente le boosting comme une proc edure doptimisation globale par
une m ethode de gradient (Friedman, 2001). Dautres enn (par exemple Lugosi et Vayatis, 2001), plus pro-
bantes, utilisent des in egalit es de Vapnik pour montrer que, sous des hypoth` eses raisonnables et v eri ees
dans les cas usuels : convexit e et r egularit e de la fonction perte (exponentielle), arbres binaires, la pro-
babilit e derreur du boosting converge avec la taille n de l echantillon vers celle du classieur bay esien
cest-` a-dire celui, optimal, obtenu en supposant connue la loi conjointe de X et Y .
4. Exemples 93
5 10 15
0
.
0
1
.
0
2
.
0
3
.
0
E
r
r
.
a
p
p
5 10 15
2
3
4
5
E
r
r
.
t
e
s
t
FIGURE 9.1 Cancer :

Evolution des taux derreur (%) sur les echantillons dapprentissage et de test en
fonction du nombre darbres dans le mod` ele avec adaboost.
Logiciels
Le bagging est tr` es facile ` a programmer dans R mais il existe une librairie (ipred) qui en propose
des impl ementations efcaces. Lalgorithme de boosting (Freund et Schapire, 1996), ou plut ot la version de
Friedman et col. (2000) a et e d evelopp ee et interfac ee avec R dans la librairie gbm tandis que Friedman fait
commercialiser ses outils par la soci et e Salford System. Schapire diffuse lui le logiciel Boost texter sur sa
page pour des utilisations non commerciales.
Les for ets al eatoires (Breiman, 2001), sont estim ees par un programme ecrit en fortran interfac e avec R
et distribu ees avec la librairie randomForest de R.
Dautres impl ementations sont accessibles dans des botes ` a outils mathlab.
4 Exemples
4.1 Cancer du sein
La pr evision de l echantillon test par ces algorithmes conduit aux matrices de confusion :
bagging(ipred) adaboost(gbm) random forest
benign malignant benign malignant benign malignant
benign 83 3 84 1 83 0
malignant 3 48 2 50 3 51
et, respectivement, des erreurs estim ees de 4,4 et 2,2% pour cet exemple et avec les echantillons (apprentis-
sage et test) tir es.
Il est remarquable de noter l evolution des erreurs dajustement et de test sur cet exemple (gure 9.1)
en fonction du nombre darbres estim es par adaboost. Lerreur dapprentissage arrive rapidement ` a 0 tandis
que celle de test continue ` a d ecrotre avant datteindre un seuil. Cet algorithme est donc relativement ro-
buste au sur-apprentissage avant, eventuellement, de se d egrader pour des raisons, sans doute, de pr ecision
num erique. Ce comportement ` a et e relev e dans beaucoup dexemples dans la litt erature.
0 50 100 200 300
0
5
0
1
5
0
2
5
0
Valeurs predites
V
a
l
e
u
r
s

o
b
s
e
r
v
e
e
s
0 50 100 150 200 250 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
FIGURE 9.2 Ozone : Valeurs observ ees et r esidus de l echantillon test en fonction des valeurs pr edites par
une for et al eatoire
Magr e une bonne pr evision quantitative, la pr evision du d epassement de seuil reste difcile pour lalgo-
rithme des for ets al eatoires. Par une r egression ou une discrimination, le taux derreur obtenu est le m eme
(12,5%) sur le m eme echantillon test et dautres exp erimentations sont n ecessaires pour d epartager, ou non,
les diff erentes m ethodes. Il semble que, ` a travers plusieurs exemples, lam elioration apport ee ` a la pr evision
par des algorithmes dagr egation de mod` eles soit nettement plus probante dans des situations difciles
cest-` a-dire avec beaucoup de variables explicatives et des probl` emes de multicolin earit e.
Comme les r eseaux de neurones, les algorithmes dagr egation de mod` eles sont des botes noires. N eanmoins
dans le cas des for ets, les crit` eres dimportance donnent des indications sur le r ole de celles-ci. Les voici
ordonn ees par ordre croissant du crit` ere bas e sur celui de Gini pour la construction des arbres.
jour station lno lno2 vmodule s_rmh2o O3_pr TEMPE
2.54 13.58 21.78 23.33 24.77 31.19 43.87 67.66
Les variables pr epond erantes sont celles apparues dans la construction dun seul arbre.
4.3 R egime des souris
Lexemple reprend les donn ees de Baccini et col. (2005) concernant les diff erences dexpression des
g` enes en croisant deux facteurs lors dune exp erience de r egime alimentaire (5 r egimes) chez des sou-
ris (2 g enotypes). Ces donn ees sont aussi introduites dans Baccini et Besse (2000). Lobjectif des biolo-
gistes est de rechercher les g` enes dont le comportement est le plus perturb e par les diff erentes situations
de lexp erience : les g enotypes ou les r egimes. Il a et e vu, par une simple analyse en composantes princi-
pales, que la distinction entre g enotypes se visualise facilement ainsi que la caract erisation des g` enes qui y
participent. La discrimination des r egimes est nettement plus difcile. Deux approches sont possibles pour
r epondre ` a cet objectif, la premi` ere consiste ` a ex ecuter une batterie de tests pour chercher les g` enes signi-
cativement diff erentiellement exprim es en contr olant soigneusement le niveau des tests ` a cause de leur
multiplicit e et donc de lapparition factuelle de faux positifs. La deuxi` eme (wrapper method) recherche le
sous-ensemble de g` enes conduisant ` a la meilleure discrimination ` a laide dun classieur donn e. Compte
tenu du nombre de g` enes dans l etude et de la difcult e ` a discriminer les r egimes, les for ets al eatoires ont et e
privil egi ees. Lavantage important de cette approche est sa robustesse aux probl` eme de sur-apprentissage.
Lindice dimportance est ensuite utilis e pour lister les g` enes ou les repr esenter selon ce crit` ere cest-` a-dire
pour faire apparatre ceux qui, en moyenne sur lensemble des tirages bootstrap, contribuent le mieux ` a
discriminer les modalit es du facteur r egime.
Dans le cas el ementaire de la discrimination des g enotypes des souris, les g` enes qui apparaissent les plus
signicatifs sont, par ordre d ecroissant : PMDCI, CAR1, THIOL, L.FABP, ALDH3, CYP3A11, PECI, GK,
4. Exemples 95
2 0 2 4 6 8
2
1
0
1
2
3
4
5
Wild
P
P
A
R
X36b4
ACAT1
ACBP
ACC1
ACC2
ACOTH
ADISP
ADSS1
ALDH3
AM2R
AOX
BACT
BIEN
BSEP
Bcl.3
C16SR CACP
CAR1
CBS
CIDEA
COX1
COX2
CPT2
CYP24
CYP26
CYP27a1
CYP27b1
CYP2b10
CYP2b13
CYP2c29
CYP3A11
CYP4A10 CYP4A14
CYP7a
CYP8b1
FAS
FAT
FDFT
FXR
G6PDH
G6Pase
GK
GS
GSTa
GSTmu
GSTpi2
HMGCoAred
HPNCL
IL.2
L.FABP
LCE
LDLr
LPK
LPL
LXRa
LXRb
Lpin
Lpin1
Lpin2
Lpin3
M.CPT1
MCAD
MDR1
MDR2
MRP6
MS
MTHFR
NGFiB
NURR1
Ntcp
OCTN2
PAL
PDK4
PECI
PLTP
PMDCI
PON
PPARa
PPARd
PPARg
PXR
Pex11a
RARa
RARb2
RXRa
RXRb2
RXRg1
S14
SHP1
SIAT4c SPI1.1
SR.BI
THB
THIOL
TRa
TRb
Tpalpha
Tpbeta
UCP2
UCP3
VDR
VLDLr
Waf1
ap2
apoA.I
apoB
apoC3
apoE
c.fos
cHMGCoAS cMOAT
eif2g
hABC1
i.BABP
i.BAT
i.FABP
i.NOS
mABC1
mHMGCoAS
FIGURE 9.3 Souris : repr esentation des g` enes en fonction de leur importance pour la discrimination des
r egimes ` a g enotype x e (WT sur laxe horizontal et PPAR sur laxe vertical).
CYP4A10, ACBP, FAS, CPT2, BSEP, mHMGCoAS, ACOTH. La pr evisiondes g enotypes est presque s ure
avec une estimation (out of bag) de lerreur de pr evisionde 2En revanche, la discrimination des r egimes,
beaucoup plus d elicate, a et e trait ee conditionnellement au g enotype. Le r egime de r er erence est dans les
deux cas le plus difcile ` a reconnatre. Le taux derreur obtenu est peu performant mais sans grande si-
gnication ` a cause du nombre de classes concern ees. La gure 9.3 repr esente les g` enes en fonction de leur
importance pour la discrimination des r egimes pour chacun des g enotypes. Cest pour les souris PPAR que
la discrimination des r egimes est la plus difcile. Ce r esultat sinterpr` etent sur le plan biologique comme
une implication du r ecepteur PPAR dans les r egulations g eniques provoqu ees par les r egimes alimentaires.
Chapitre 10
Les Support Vector Machines (SVM)
1 Introduction
Les Support Vector Machines souvent traduit par lappellation de S eparateur ` a Vaste Marge (SVM) sont
une classe dalgorithmes dapprentissage initialement d enis pour la discrimination cest-` a-dire la pr evision
dune variable qualitative initialement binaire. Ils ont et e ensuite g en eralis es ` a la pr evision dune variable
quantitative. Dans le cas de la discrimination dune variable dichotomique, ils sont bas es sur la recherche de
lhyperplan de marge optimale qui, lorsque cest possible, classe ou s epare correctement les donn ees tout
en etant le plus eloign e possible de toutes les observations. Le principe est donc de trouver un classieur, ou
une fonction de discrimination, dont la capacit e de g en eralisation (qualit e de pr evision) est la plus grande
possible.
Cette approche d ecoule directement des travaux de Vapnik en th eorie de lapprentissage ` a partir de
1995. Elle sest focalis ee sur les propri et es de g en eralisation (ou pr evision) dun mod` ele en contr olant sa
complexit e. Voir ` a ce sujet le chapitre 5 section 3.3 concernant la dimension de Vapnik Chernovenkis qui
est un indicateur du pouvoir s eparateur dune famille de fonctions associ e ` a un mod` ele et qui en contr ole la
qualit e de pr evision. Le principe fondateur des SVM est justement dint egrer ` a lestimation le contr ole de la
complexit e cest-` a-dire le nombre de param` etres qui est associ e dans ce cas au nombre de vecteurs supports.
Lautre id ee directrice de Vapnik dans ce d eveloppement, est d eviter de substituer ` a lobjectif initial : la dis-
crimination, un ou des probl` emes qui sav` erent nalement plus complexes ` a r esoudre comme par exemple
lestimation non-param etrique de la densit e dune loi multidimensionnelle en analyse discriminante.
Le principe de base des SVM consiste de ramener le probl` eme de la discrimination ` a celui, lin eaire, de
la recherche dun hyperplan optimal. Deux id ees ou astuces permettent datteindre cet objectif :
La premi` ere consiste ` a d enir lhyperplan comme solution dun probl` eme doptimisation sous contraintes
dont la fonction objectif ne sexprime qu` a laide de produits scalaires entre vecteurs et dans lequel
le nombre de contraintes actives ou vecteurs supports contr ole la complexit e du mod` ele.
Le passage ` a la recherche de surfaces s eparatrices non lin eaires est obtenu par lintroduction dune
fonction noyau (kernel) dans le produit scalaire induisant implicitement une transformation non
lin eaire des donn ees vers un espace interm ediaire (feature space) de plus grande dimension. Do` u
lappellation couramment rencontr ee de machine ` a noyau ou kernel machine. Sur le plan th eorique,
la fonction noyau d enit un espace hilbertien, dit auto-reproduisant et isom etrique par la transforma-
tion non lin eaire de lespace initial et dans lequel est r esolu le probl` eme lin eaire.
Cet outil devient largement utilis e dans de nombreux types dapplication et sav` ere un concurrent
s erieux des algorithmes les plus performants (agr egation de mod` eles). Lintroduction de noyaux, sp eciquement
adapt es ` a une probl ematique donn ee, lui conf` ere une grande exibilit e pour sadapter ` a des situations tr` es
diverses (reconnaissance de formes, de s equences g enomiques, de caract` eres, d etection de spams, diagnos-
tics...).
`
A noter que, sur le plan algorithmique, ces algorithmes sont plus p enalis es par le nombre dobser-
vations, cest-` a-dire le nombre de vecteurs supports potentiels, que par le nombre de variables. N eanmoins,
des versions performantes des algorithmes permettent de prendre en compte des bases de donn ees volumi-
neuses dans des temps de calcul acceptables.
97
98 Chapitre 10. Les Support Vector Machines (SVM)
FIGURE 10.1 Sous-ajustement lin eaire et sur-ajustement local (proches voisins) dun mod` ele quadratique.
Le livre de r ef erence sur ce sujet est celui de Sch olkopf et Smola (2002). De nombreuses introduction et
pr esentations des SVMsont accessibles sur des sites comme par exemple : www.kernel-machines.org.
Guermeur et Paugam-Moisy (1999) en proposent une en francais.
2 Principes
2.1 Probl` eme
Comme dans toute situation dapprentissage, on consid` ere une variable Y ` a pr edire mais qui, pour
simplier cette introduction el ementaire, est suppos ee dichotomique ` a valeurs dans 1, 1. Soit X =
X
1
, . . . , X
p
les variables explicatives ou pr edictives et (x) un mod` ele pour Y , fonction de x = x
1
, . . . , x
p

IR
p
. Plus g en eralement on peut simplement consid erer la variable X ` a valeurs dans un ensemble T.
On note
z = (x
1
, y
1
), . . . , (x
n
, y
n
)
un echantillon statistique de taille n et de loi F inconnue. Lobjectif est donc de construire une estimation
de , fonction de T dans 1, 1, de sorte que la probabilit e :

P((X) ,= Y )
soit minimale.
Dans ce cas (Y dichotomique), le probl` eme se pose comme la recherche dune fronti` ere de d ecision
dans lespace F des valeurs de X. De facon classique, un compromis doit etre trouv e entre la complexit e
de cette fronti` ere, qui peut sexprimer aussi comme sa capacit e ` a pulv eriser un nuage de points par la VC
dimension, donc la capacit e dajustement du mod` ele, et les qualit es de g en eralisation ou pr evision de ce
mod` ele. Ce principe est illustr e par la gure 10.1.
2.2 Marge
La d emarche consiste ` a rechercher, plut ot quune fonction

` a valeurs dans 1, 1, une fonction r eelle
f dont le signe fournira la pr evision :
= signe(f).
Lerreur sexprime alors comme la quantit e :
P((X) ,= Y ) = P(Y f(X) 0).
De plus, la valeur absolue de cette quantit e [Y f(X)[ fournit une indication sur la conance ` a accorder au
r esultat du classement.
On dit que Y f(X) est la marge de f en (X, Y ).
3. S eparateur lin eaire 99
FIGURE 10.2 Recherche dun hyperplan de s eparation optimal au sens de la marge maximale.
2.3 Espace interm ediaire
Une premi` ere etape consiste ` a transformer les valeurs de X, cest-` a-dire les objets de T par une fonction
` a valeurs dans un espace 1interm ediaire (feature space) muni dun produit scalaire. Cette transformation
est fondamentale dans le principe des SVM, elle prend en compte l eventuelle non lin earit e du probl` eme
pos e et le ram` ene ` a la r esolution dune s eparation lin eaire. Ce point est d etaill e dans une section ult erieure.
Traitons tout dabord le cas lin eaire cest-` a-dire le cas o` u est la fonction identit e.
3 S eparateur lin eaire
3.1 Hyperplan s eparateur
La r esolution dun probl` eme de s eparation lin eaire est illustr e par la gure 10.2. Dans le cas o` u la
s eparation est possible, parmi tous les hyperplans solutions pour la s eparation des observations, on choisit
celui qui se trouve le plus loin possible de tous les exemples, on dit encore, de marge maximale.
Dans le cas lin eaire, un hyperplan est d eni ` a laide du produit scalaire de 1 par son equation :
w, x +b = 0
o` u w est un vecteur orthogonal au plan tandis que le signe de la fonction
f(x) = w, x +b
indique de quel c ot e se trouve le point x ` a pr edire. Plus pr ecis ement, un point est bien class e si et seulement
si :
yf(x) > 0
mais, comme le couple (w, b) qui caract erise le plan est d eni ` a un coefcient multiplicatif pr` es, on sim-
pose :
yf(x) 1.
Un plan (w, b) est un s eparateur si :
y
i
f(x
i
) 1 i 1, . . . , n.
La distance dun point x au plan (w, b) est donn ee par :
d(x) =
[ w, x +b[
|w|
=
[f(x)[
|w|
et, dans ces conditions, la marge du plan a pour valeur
2
w
2
. Chercher le plan s eparateur de marge maximale
revient ` a r esoudre le probl` eme ci-dessous doptimisation sous contraintes (probl` eme primal) :
_
_
_
min
w
1
2
|w|
2
avec i, y
i
(< w, x
i
> +b) 1.
Le probl` eme dual est obtenu en introduisant des multiplicateurs de Lagrange. La solution est fournie
par un point-selle (w
, b
) du lagrangien :
L(w, b, ) = 1/2|w|
2
2
i=1
i
[y
i
(< w, x
i
> +b) 1] .
Ce point-selle v erie en particulier les conditions :
i
[y
i
(< w
, x
i
> +b
) 1] = 0 i 1, . . . , n.
Les vecteurs support sont les vecteurs x
i
pour lesquels la contrainte est active, cest-` a-dire les plus proches
du plan, et v eriant donc :
y
i
(< w
, x
i
> +b
) = 1.
Les conditions dannulation des d eriv ees partielles du lagrangien permettent d ecrire les relations que
v erient le plan optimal, avec les
i
non nuls seulement pour les points supports :
w
=
n
i=1
i
y
i
x
i
et
n
i=1
i
y
i
= 0.
Ces contraintes d egalit e permettent dexprimer la formule duale du lagrangien :
W() =
n
i=1
1
2
n
i,j=1
j
y
i
y
j
< x
i
, x
j
> .
Pour trouver le point-selle, il suft alors de maximiser W() avec
i
0 pour tout i 1, ...n.
La r esolution de ce probl` eme doptimisation quadratique de taille n, le nombre dobservations, fournit
l equation de lhyperplan optimal :
n
i=1
i
y
i
< x, x
i
> +b
= 0 avec b
0
=
1
2
[< w
, sv
class+1
> + < w
, sv
class1
>] .
Pour une nouvelle observation x non apprise pr esent ee au mod` ele, il suft de regarder le signe de lexpres-
sion :
f(x) =
n
i=1
i
y
i
x, x
i
+b
pour savoir dans quel demi-espace cette forme se trouve, et donc quelle classe il faut lui attribuer.
3.2 Cas non s eparable
Lorsque les observations ne sont pas s eparables par un plan, il est n ecessaire dassouplir les contraintes
par lintroduction de termes derreur
i
qui en contr olent le d epassement :
y
i
w, x
i
+b +1
i
i 1, . . . , n.
Le mod` ele attribue ainsi une r eponse fausse ` a un vecteur x
i
si le
i
correspondant est sup erieur ` a 1. La
somme de tous les
i
repr esente donc une borne du nombre derreurs.
Le probl` eme de minimisation est r e ecrit en introduisant une p enalisation par le d epassement de la
contrainte :
_
min
1
2
|w|
2
+
n
i=1
i
i, y
i
w, x
i
+b +1
i
4. S eparateur non lin eaire 101
Remarques
Le param` etre contr olant la p enalisation est ` a r egler. Plus il est grand et plus cela revient ` a attribuer
une forte importance ` a lajustement. Il est le param` etre qui ajuste le compromis entre bon ajustement
et bonne g en eralisation.
Le probl` eme dans le cas non s eparable se met sous la m eme forme duale que dans la cas s eparable
` a une diff erence pr` es : les coefcients
i
sont tous born es par la constante de contr ole de la
p enalisation.
De nombreux algorithmes sont propos es pour r esoudre ces probl` emes doptimisation quadratique.
Certains, proposant une d ecomposition de lensemble dapprentissage, sont plus particuli` erement
adapt es ` a prendre en compte un nombre important de contraintes lorsque n, le nombre dobservation,
est grand.
On montre par ailleurs que la recherche des hyperplans optimaux r epond bien au probl` eme de la
bonne g en eralisation. On montre aussi que, si lhyperplan optimal peut etre construit ` a partir dun
petit nombre de vecteurs supports, par rapport ` a la taille de la base dapprentissage, alors la capacit e
en g en eralisation du mod` ele sera grande, ind ependamment de la taille de lespace.
Plus pr ecis ement, on montre que, si les X sont dans une boule de rayon R, lensemble des hyperplans
de marge x ee a une VC-dimension born ee par
R
2
2
avec |x| R.
Lerreur par validation crois ee (leave-one-out) et born ee en moyenne par le nombre de vecteurs sup-
ports. Ces bornes derreur sont bien relativement pr edictives mais n eanmoins trop pessimistes pour
etre utiles en pratique.
4 S eparateur non lin eaire
4.1 Noyau
Revenons ` a la pr esentation initiale du probl` eme. Les observations faites dans lensemble T (en g en eral
IR
p
) sont consid er ees comme etant transform ees par une application non lin eaire de T dans 1muni dun
produit scalaire et de plus grande dimension.
Le point important ` a remarquer, cest que la formulation du probl` eme de minimisation ainsi que celle
de sa solution :
f(x) =
n
i=1
i
y
i
x, x
i
+b
ne fait intervenir les el ements xet x
que par linterm ediaire de produits scalaires : x, x
. En cons equence,
il nest pas n ecessaire dexpliciter la transformation , ce qui serait souvent impossible, ` a condition de
savoir exprimer les produits scalaires dans 1 ` a laide dune fonction k : T T IR sym etrique appel ee
noyau de sorte que :
k(x, x
) = (x), (x
) .
Bien choisi, le noyau permet de mat erialiser une notion de proximit e adapt ee au probl` eme de discrimina-
tion et ` a sa structure de donn ees.
Exemple
Prenons le cas trivial o` u x = (x
1
, x
2
) dans IR
2
et (x) = (x
2
1
,
2x
1
x
2
, x
2
2
) est explicite. Dans ce cas,
1 est de dimension 3 et le produit scalaire s ecrit :
(x), (x
) = x
2
1
x
2
1
+ 2x
1
x
2
x
1
x
2
+x
2
2
x
2
2
= (x
1
x
1
+x
2
x
2
)
2
= x, x
2
= k(x, x
).
Le calcul du produit scalaire dans 1ne n ecessite pas l evaluation explicite de . Dautre part, le plongement
dans 1 = IR
peut rendre possible la s eparation lin eaire de certaines structures de donn ees (cf. gure 10.3).
FIGURE 10.3 R ole de lespace interm ediaire dans la s eparation des donn ees.
4.2 Condition de Mercer
Une fonction k(., .) sym etrique est un noyau si, pour tous les x
i
possibles, la matrice de terme g en eral
k(x
i
, x
j
) est une matrice d enie positive cest-` a-dire quelle d enit une matrice de produit scalaire.
Dans ce cas, on montre quil existe un espace 1 et une fonction tels que :
k(x, x
) = (x), (x
) .
Malheureusement, cette condition th eorique dexistence est difcile ` a v erier et, de plus, elle ne donne
aucune indication sur la construction de la fonction noyau ni sur la transformation . La pratique consiste
` a combiner des noyaux simples pour en obtenir des plus complexes (multidimensionnels) associ es ` a la
situation rencontr ee.
4.3 Exemples de noyaux
Lin eaire
k(x, x
) = x, x
Polyn omial
k(x, x
) = (c +x, x
)
d
Gaussien
k(x, x
) = e
xx
2
2
2
Beaucoup darticles sont consacr es ` a la construction dun noyau plus ou moins exotique et adapt e ` a une
probl ematique pos ee : reconnaissance de s equences, de caract` eres, lanalyse de textes... La grande exibilit e
dans la d enition des noyaux, permettant de d enir une notion adapt ee de similitude, conf` ere beaucoup
defcacit e ` a cette approche ` a condition bien sur de construire et tester le bon noyau. Do` u apparat encore
limportance de correctement evaluer des erreurs de pr evision par exemple par validation crois ee.
Attention, les SVM ` a noyaux RBF gaussiens, pour lesquels, soit on est dans le cas s eparable, soit la
p enalit e attribu ee aux erreurs est autoris ee ` a prendre nimporte quelle valeur, ont une VC-dimension innie.
4.4 SVM pour la r egression
Les SVM peuvent egalement etre mis en oeuvre en situation de r egression, cest-` a-dire pour lapproxi-
mation de fonctions quand Y est quantitative. Dans le cas non lin eaire, le principe consiste ` a rechercher une
estimation de la fonction par sa d ecomposition sur une base fonctionnelle. la forme g en erale des fonctions
calcul ees par les SVM se met sous la forme :
(x, w) =
i=1
w
i
v
i
(x).
5. Exemples 103
Le probl` eme se pose toujours comme la minimisation dune fonction co ut, mais, plut ot que d etre bas ee sur
un crit` ere derreur quadratique (moindres carr es), celle-ci sinspire des travaux de Huber sur la recherche
de mod` eles robustes et utilise des ecarts absolus.
On note [.[
la fonction qui est paire, continue, identiquement nulle sur lintervalle [0, ] et qui croit
lin eairement sur [, +]. La fonction co ut est alors d enie par :
E(w, ) =
1
n
n
i=1
[y
i
(x
i
, w)[
+|w|
2
o` u est, comme en r egression ridge, un param` etre de r egularisation assurant le compromis entre g en eralisation
et ajustement. De m eme que pr ec edemment, on peut ecrire les solutions du probl` emes doptimisation. Pour
plus de d etails, se reporter ` a Sch olkopf et Smola (2002). Les points de la base dapprentissage associ es ` a un
coefcient non nul sont l` a encore nomm es vecteurs support.
Dans cette situation, les noyaux k utilis es sont ceux naturellement associ es ` a la d enition de bases de
fonctions. Noyaux de splines ou encore noyau de D ericlet associ e ` a un d eveloppement en s erie de Fourier
sont des grands classiques. Ils expriment les produits scalaires des fonctions de la base.
5 Exemples
M eme si les SVM sappliquent ` a un probl` eme de r egression, nous nillustrons que le cas plus classique
de la discrimination.
5.1 Cancer du sein
La pr evision de l echantillon test par un S eparateur ` a Vaste marge conduit ` a la matrice de confusion :
ign malignant
benign 83 1
malignant 3 50
et donc une erreur estim ee de 3%.
Un mod` ele el ementaire avec noyau par d efaut (gaussien) et une p enalisation de 2 conduit ` a une erreur
de pr evision estim ee ` a 12,0% sur l echantillon test. La meilleure pr evision de d epassement de seuil sur
l echantillon test initial est fournie par des SVM d-r egression. Le taux derreur est de 9,6% avec la matrice
de confusion suivante :
0 1
FALSE 161 13
TRUE 7 27
Ce r esultat serait ` a conrmer avec des estimations syt ematiques de lerreur. Les graphiques de la gure 10.4
montre le bon comportement de ce pr edicteur. Il souligne notamment leffet tunnel de lestimation qui
accepte des erreurs autour de la diagonale pour se concentrer sur les observations plus eloign ees donc plus
difciles ` a ajuster.
0 50 100 150 200 250 300
0
5
0
1
0
0
1
5
0
2
0
0
2
5
0
3
0
0
Valeurs predites
V
a
l
e
u
r
s

o
b
s
e
r
v
e
e
s
0 50 100 150 200 250 300
1
0
0
5
0
0
5
0
1
0
0
Valeurs predites
R
s
i
d
u
s
FIGURE 10.4 Ozone : Valeurs observ ees et r esidus en fonction des valeurs pr edites pour l echantillon test.
Chapitre 11
Conclusion
Ce chapitre se propose de r esumer les grandes lignes de ce cours dans une vue synth etique : m ethodes
et strat egies dans lobjectif dune comparaison globale des m ethodes sur les diff erents jeux de donn ees
(cancer, pollution, carte visa). Il evoque enn les pi` eges fr equents de telles d emarches et revient sur la place
du statisticien.
1 Strat egies du data mining
Les chapitres pr ec edents d ecrivent les outils de base du prospecteur de donn ees tandis que les logiciels
commerciaux en proposent une int egration plus ou moins compl` ete, plus ou moins conviviale de mise en
uvre. En pratique, lenchanement de ces techniques permet la mise en place de strat egies de fouille bien
d enies. Celles-ci d ependent essentiellement des types de variables consid er es et des objectifs poursuivis.
Types de variables
Explicatives Lensemble des p variables explicatives ou pr edictives est not e X, il est constitu e de variables
X
IR
toutes quantitatives
1
,
X
E
toutes qualitatives,
X
IRE
un m elange de qualitatives et quantitatives.
`
A expliquer La variable ` a expliquer ou ` a pr edire ou cible (target) peut etre
Y quantitative,
Z qualitative ` a 2 modalit es,
T qualitative.
Objectifs
Trois objectifs principaux sont poursuivis dans les applications classiques de data mining :
i. Exploration multidimensionnelle ou r eduction de dimension : production de graphes, dun sous-
ensemble de variables repr esentatives X
r
, dun ensemble de composantes C
q
pr ealables ` a une autre
technique.
ii. Classication (clustering) ou segmentation : production dune variable qualitative T
r
.
iii. Mod elisation (Y ou Z)/Discrimination (Z ou T) production dun mod` ele de pr evision de Y (resp.
Z, T).
Dautres m ethodes plus sp eciques ` a certaines probl ematiques peuvent apparatre (analyse sensorielle, ana-
lyse conjointe, SARIMA. . . mais leur usage reste limit e ` a des contextes bien particuliers.
Outils
Les m ethodes utilisables se classent en fonction de leur objectif et des types de variables pr edictives et
cibles.
1. Une variables explicative qualitative ` a 2 modalit es (0,1) peut etre consid er ee comme quantitative ; cest lindicatrice des moda-
lit es.
105
106 Chapitre 11. Conclusion
Exploration
ACP X
IR
et
AFCM X
E
et
AFD X
IR
et T
Classication
CAH X
IR
et
NueeDyn X
IR
et
RNKoho X
IR
et
Mod elisation
i. Mod` ele lin eaire g en eralis e
RLM X
IR
et Y
ANOVA X
E
et Y
ACOVA X
IRE
et Y
Rlogi X
IRE
et Z
Lglin X
T
et T
ii. Analyse discriminante
ADpar/nopar X
IR
et T
iii. Classication and regression Tree
ArbReg X
IRE
et Y
ArbCla X
IRE
et T
iv. R eseaux neuronaux
percep X
IRE
et Y ou T
v. Agr egation de mod` eles
Bagging X
IRE
et Y ou T
RandFor X
IRE
et Y ou T
Boosting X
IRE
et Y ou T
vi. Support Vector Machine
SVM-R X
IRE
et Y
SVM-C X
IRE
et T
Strat egies
Les strat egies classiques de la fouille de donn ees consistent ` a enchaner les etapes suivantes :
i. Extraction de lentrep ot des donn ees eventuellement par sondage pour renforcer leffort sur la qualit e
des donn ees plut ot que sur la quantit e.
ii. Exploration
Tri ` a plat, etape el ementaire mais essentielle de v erication des donn ees, de leur coh erence.

Etude
des distributions, transformation, recodage eventuel des variables quantitatives, regroupement de
modalit es des variables qualitatives, elimination de certaines variables (trop de donn ees man-
quantes, quasi constantes, redondantes. . . ). G erer rigoureusement les codes des variables et de
leurs modalit es.

Etude bivari ee Recherche d eventuelles relations non lin eaires. Si les variables sont trop nom-
breuses, s electionner les plus li ees ` a la variable cible. Compl etion des donn ees manquantes.
iii. Analyse
Classication :
Pas de variable ` a expliquer
En cas de variables X
IRE
ou X
T
, la classi-
cation est ex ecut ee sur les C
q
issues dune
AFCM des variables cod ees en classes.
Caract erisation des classes par les variables
initiales ` a laide des outils de discrimination.
Mod elisation/Discrimination :
Une variable ` a expliquer Y , Z ou T
Extraction dun echantillon test,
Estimation, optimisation (validation crois ee)
des mod` eles pour chacune des m ethodes uti-
lisables.
Comparaison des performances des
mod` eles optimaux de chaque m ethode
sur l echantillon test.
iv. Exploitation du mod` ele et diffusion des r esultats. Finalement, une fois que la bonne m ethode associ e
au bon mod` ele ont et e choisie, tout l echantillon est regroup e pour faire une derni` ere estimation du
mod` ele qui sera utilis e en exploitation.
2 Comparaison des r esultats
2.1 Cancer du sein
Le programme destimation des mod` eles ecrit en R a et e automatis e an de r ep eter 50 fois lop eration
consistant ` a extraire al eatoirement 20% des observations pour constituer un echantillon test ; le reste consti-
tuant l echantillon dapprentissage. Loptimisation des param` etres est r ealis ee par validation crois ee. Chaque
3. Pi` eges 107
err.lm err.tree err.neur err.bag err.rf err.svm
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
0
.
1
0
0
.
1
2
0
.
1
4
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
0
.
5
FIGURE 11.1 Cancer : Diagrammes botes des taux derreurs observ es sur 50 echantillons tests et pour
chaque m ethode : r egression logistique, arbre de d ecision, r eseau de neurones, bagging, random forest, svm.
Le boosting est mis de c ot e pour des probl` emes d echelle et de comportement erratique.
echantillon test fournit donc une estimation sans biais de lerreur de pr evision. La distribution de ces erreurs
est alors repr esent ee par des diagrammes en botes (cf ; g. 11.1). Les r esultats montrent le bon compor-
tement des for ets al eatoires et les tr` es bons r esultats du boosting en g en eral mais cet algorithme, sur cet
exemple, peut r eserver des surprises mal contr ol ees et ici pas encore expliqu ees.
Toujours avec le m eme protocole, 50 echantillons tests on et e successivement tir es an destimer sans
biais les erreurs de pr evision. Les r esultats sont pr esent es dans la gure 11.2. Les techniques dagr egation
(random forest) sont performantes mais pas de facon tr` es signicative. En fait, le probl` eme ne pr esentant
que peu de variables explicatives, une simple r egression quadratique donne des r esultats tr` es satisfaisants
et surtout facilement interpr etables ; ils sont en effet charg es dun sens physique pour le m et eorologue
qui peut donc directement relever les faiblesses du mod` ele physique ` a la base de MOCAGE. Il semble
bien que dans cet exemple, le nombre de variables explicatives nest pas tr` es important et le vrai mod` ele
physique sous-jacent peu exotique. Dans ce cas, la r egression quadratique est la plus appropri ee. Remarque :
la pr evision des d epassements peut conduire ` a dautres choix de m ethode ou de strat egie en pr evoyant
directement le d epassement sans passer par la r egression de la concentration. Ce point est laiss e en attente
car le nombre de d epassements observ es (plus de 180) dans les stations est relativement rare donc difciles
` a pr evoir. Ceci n ecessite plus de pr ecautions : repond eration des d epassements.
Les algorithmes dagr egation de mod` eles fournissent des r esultats qui, en moyenne, se montrent sensi-
blement plus performants (cf. gure ?? et tableau ??) sur un echantillon test. Les ecarts-types, d ependant
de la taille de l echantillon test, y sont relativement stables. Les moyennes montrent, sur cet exemple, que
le boosting pr edit un peu mieux que les for ets al eatoires sans que des raisons bien sp eciques viennent
lexpliquer. Bien s ur, ce qui est gagn e en pr edictibilit e est perdu en interpr etabilit e par rapport ` a un mod` ele
classique. N eanmoins le gain r ealis e est souvent etonnant et des indices dimportance des variables restent
disponibles.
3 Pi` eges
Les principaux pi` eges qui peuvent etre rencontr es au cours dune prospection peuvent etre le r esultat
dun acharnement en qu ete de sens (data snooping). Cela signie qu` a force de creuser, contrairement ` a un
prospecteur minier ` a la recherche de diamants bien r eels, le prospecteur en donn ees disposant dun grand
nombre de variables nit bien, en mode exploratoire, par trouver des relations semblant hautement signi-
MOCAGE ANCOVA ANCOVA+INT CART BAGGING FORET SVM NEURONE
2
5
3
0
3
5
4
0
BOITES A MOUSTACHES DES ERREURSTYPES DES PREVISIONS DOZONE
FIGURE 11.2 Ozone : Diagrammes botes des taux derreurs observ es sur 50 echantillons tests et pour
chaque m ethode : mocage, r egression lin eaire, quadratique, arbre de d ecision, bagging, random forest, svm
r eseau de neurones.
catives. Par exemple, au seuil classique, 5% des tests sont, ` a tord, signicatifs et conduisent ` a des faux
positifs ou des fausses corr elations. Il suft donc den faire beaucoup, de croiser beaucoup de variables,
pour n ecessairement trouver du sens dans des donn ees. Encore une fois, il est pr ef erable d eviter le fonc-
tionnement Shadock (cf. gure 11.3) : je nai quune chance sur un milliard de r eussir ; je me d ep` eche
donc de rater le plus dessais possibles.
En phase de mod elisation, une sur-param etrisation ou un sur-ajustement du mod` ele peut parfaitement
expliquer des donn ees sans pour autant que les r esultats soient extrapolables ou g en eralisables ` a dautres
donn ees que celles etudi ees. Les r esultats de pr evision seront donc entach es dune forte erreur relative li ee
` a la variance des estimations des param` etres. Cest toujours le probl` eme de trouver un bon compromis
entre le biais dun mod` ele plus ou moins faux et la variance des estimateurs. Nous insistons donc sur les
indispensables phases de choix de mod` eles et comparaison des m ethodes.
4 R ole du statisticien
4.1 Des comp etences multiples
Une bonne pratique du Data Mining n ecessite de savoir articuler toutes les m ethodes entrevues dans ce
document. Rude t ache, qui ne peut etre entreprise qu` a la condition davoir tr` es bien sp eci e les objectifs
de l etude. On peut noter que certaines m ethodes poursuivent les m emes objectifs pr edictifs. Dans les bons
cas, donn ees bien structur ees, elles fourniront des r esultats tr` es similaires, dans dautres une m ethode peut
se r ev eler plus efcace compte tenu de la taille de l echantillon ou g eom etriquement mieux adapt ee ` a la
topologie des groupes ` a discriminer ou encore en meilleure interaction avec les types des variables. Ainsi, il
peut etre important et efcace de d ecouper en classes des variables pr edictives quantitatives an dapprocher
de facon sommaire une version non-lin eaire du mod` ele par une combinaison de variables indicatrices. Cet
aspect est par exemple important en r egression logistique ou avec un perceptron mais inutile avec des
arbres de d ecisions qui int` egrent ce d ecoupage en classes dans la construction du mod` ele (seuils optimaux).
Dautre part, les m ethodes ne pr esentent pas toutes les m emes facilit es dinterpr etation. Il ny a pas de
4. R ole du statisticien 109
FIGURE 11.3 Shadoks : Tant qu` a pomper, autant que cela serve ` a quelque chose !
meilleur choix a priori, seul lexp erience et un protocole de test soign e permettent de se d eterminer. Cest
la raison pour laquelle des logiciels g en eralistes comme SAS (module Enterprise Miner) ne font pas de
choix et offrent ces m ethodes en parall` ele pour mieux sadapter aux donn ees, aux habitudes de chaque
utilisateur (client potentiel) et ` a la mode.
4.2 De lutilit e du statisticien
Le travail demand e d eborde souvent du r ole dun statisticien car la masse et la complexit e des donn ees
peuvent n ecessiter le d eveloppement dinterfaces et doutils graphiques sophistiqu es permettant un acc` es
ais es aux donn ees, comme ` a des r esultats, par lutilisateur nale ` a laide par exemple dun simple navigateur
sur lintranet de lentreprise. N eanmoins, au del` a de ces aspects plus informatiques, lobjectif principal
reste une qu ete de sens en vue de faciliter les prises de d ecision tout en en pr eservant la abilit e. Ainsi, la
pr esence ou le contr ole dune expertise statistique reste incontournable car la m econnaissance des limites et
pi` eges des m ethodes employ ees peut conduire ` a des aberrations discr editant la d emarche et rendant caducs
les investissements consentis. En effet, il faut bien admettre, et faire admettre, que, m eme si un petit quart
dheure suft pour se familiariser avec une interface graphique conviviale, la bonne compr ehension des
m ethodes employ ees n ecessite plusieurs heures de cours ou r eexion ` a Bac+5. Il devient tellement simple,
avec les outils disponibles, de lancer des calculs, que certains nh esitent pas ` a comparer prospecteur de
donn ees et chauffeur de voiture en arguant quil nest pas n ecessaire d etre un m ecanicien accompli pour
savoir conduire. N eanmoins, la conduite dune mod elisation, dune segmentation, dune discrimination,
imposent ` a son auteur des choix plus ou moins implicites qui sont loin d etre neutres et qui d epassent
largement en complexit e celui du choix dun carburant par le conducteur ` a la pompe.
Bibliographie
[1] A. AGRESTI : Categorical data analysis. Wiley, 1990.
[2] A. ANTONIADIS, J. BERRUYER et R. CARMONA : R egression non lin eaire et applications. Econo-
mica, 1992.
[3] J.-M. AZAIS et J.-M. BARDET : Le mod` ele lin eaire par lexemple : r egression, analyse de la variance
et plans dexp ereinces illustr es avec R, SAS et Splus. Dunod, 2005.
[4] A. BACCINI et P. BESSE : Data mining : 1. exploration statistique, 2000. www.ups-
tlse.fr/Besse/enseignement.html.
[5] A. BACCINI, P. BESSE, S. D EJEAN, P. MARTIN, C. ROBERT-GRANI E et M. SAN CRISTOBAL :
Strat egies pour lanalyse statistique de donn ees transcriptomiques. Journal de la Soci et e Francaise de
Statistique, 146:444, 2005.
[6] P.C. BESSE, C. LE GALL, N. RAIMBAULT et S. SARPY : Statistique et data mining. Journal de la
Soci et e Francaise de Statistique, 142:536, 2001.
[7] G. BLANCHARD : Generalization error bounds for aggregate classiers. In Proceedings of the MSRI
international conference on nonparametric estimation and classication, page , 2001.
[8] L. BREIMAN : Bagging predictors. Machine Learning, 26(2):123140, 1996.
[9] L. BREIMAN : Arcing classiers. Annals of Statistics, 26:801849, 1998.
[10] L. BREIMAN : Prediction games and arcing algorithms. Neural Computation, 11:14931517, 1999.
[11] L. BREIMAN : Random forests. Machine Learning, 45:532, 2001.
[12] L. BREIMAN, J. FRIEDMAN, R. OLSHEN et C. STONE : Classication and regression trees. Wad-
sworth & Brooks, 1984.
[13] P.-A. CORNILLON et E. MATZNER-L BER : R egression, Th eorie et applications. Springer, 2007.
[14] H. DRUCKER : Improving regressors using boosting techniques. In M. KAUFMANN, editeur : Pro-
ceedings of th 14th International Conference on Machine Learning, pages 107115, 1997.
[15] B. EFRON : The Jackknife, the Bootstrap and other Resampling Methods. SIAM, 1982.
[16] B. EFRON et R. TIBSHIRANI : Improvements on cross-validation : The .632+ bootstrap method.
Journal of the American Statistical Association, 92(438):548560, 1997.
[17] B. EFRON et R.J. TIBSHIRANI : An introduction to the bootstrap. Chapman and Hall, 1993.
[18] Y. FREUND et R.E. SCHAPIRE : Experiments with a new boosting algorithm. In Machine Learning :
proceedings of the Thirteenth International Conference, pages 148156. Morgan Kaufman, 1996. San
Francisco.
[19] Y. FREUND et R.E. SCHAPIRE : Experiments with a new boosting algorithm. Journal of Computer
and System Sciences, 55:119139, 1997.
[20] J. H. FRIEDMAN : Greedy function approximation : a gradient boosting machine. Annals of Statistics,
29:11891232., 2001.
[21] J. H. FRIEDMAN : Stochastic gradient boosting. Computational Statisrics and Data Analysis, 38: ,
2002.
111
112 BIBLIOGRAPHIE
[22] J. H. FRIEDMAN, H. HASTIE et R. TIBSHIRANI : Additive logistic regression : a statistical view of
boosting. The Annals of Statistics, 28:337407, 2000.
[23] S. GEY et J.-M. POGGI : Boosting and instabillity for regression trees. Rapport technique 36, Univer-
sit e de Paris Sud, Math ematiques, 2002.
[24] B. GHATTAS : Agr egation darbres de classication. Revue de Statistique Appliqu ee, 48(2):8598,
2000.
[25] Y. GUERMEUR et H. PAUGAM-MOISY : Th eorie de lapprentissage de vapnik et svm, support vector
machines. In M. SEBBAN et G. VENTURINI, editeurs : Apprentissage automatique, pages 109138.
Hermes, 1999.
[26] T. HASTIE, R. TIBSHIRANI et J FRIEDMAN : The elements of statistical learning : data mining,
inference, and prediction. Springer, 2001.
[27] T.J. HAYKIN : Neural network, a comprehensive foundation. Prentice-Hall, 1994.
[28] J.D. JOBSON : Applied Multivariate Data Analysis, volume I : Regression and experimental design.
Springer-Verlag, 1991.
[29] G. LUGOSI et N. VAYATIS : On the bayes-risk consistency of boosting methods. Preprint, : , 2001.
[30] P. MCCULLAGH et J.A. NELDER : Generalized Linear Models. Chapman & Hall, 1983.
[31] J.R. QUINLAN : C4.5 Programs for machine learning. Morgan Kaufmann, 1993.
[32] B.D. RIPLEY : Pattern recognition and neural networks. Cambridge University Press, 1996.
[33] G. SAPORTA : Probabilit es, Analyse des Donn ees et Statistique. Technip, deuxi` eme edition, 2006.
[34] SAS : SAS/STAT Users Guide, volume 2. Sas Institute Inc., fourth edition, 1989. version 6.
[35] SAS : SAS/INSIGHT Users Guide. Sas Institute Inc., third edition, 1995. version 6.
[36] R. SCHAPIRE : The strength of weak learnability. Machine Learning, 5:197227, 1990.
[37] R. SCHAPIRE : The boosting approach to machine learning. an overview. In MSRI workshop on non
linear estimation and classication, page , 2002.
[38] B SCH OLKOPF et A SMOLA : Learning with Kernels Support Vector Machines, Regularization, Op-
timization and Beyond. MIT Press, 2002.
[39] SEM : SAS/ Enterprise Miner Users Guide. Sas Institute Inc., 2001. version 8.
[40] M. TENENHAUS : Statistique : m ethodes pour d ecrire, expliquer et pr evoir. Dunod, 2007.
[41] S. THIRIA, Y. LECHEVALLIER, O. GASCUEL et S. CANU : Statistique et m ethodes neuronales. Du-
nod, 1997.
[42] S. TUFF ERY : Data Mining et Statistique d ecisionnelle : lintelligence des donn ees. Technip, 2007.
[43] V.N. VAPNIK : Statistical learning theory. Wiley Inter science, 1999.
Annexes
113
114 BIBLIOGRAPHIE
Chapitre A
Introduction au bootstrap
1 Introduction
La motivation du bootstrap
1
(Efron, 1982 ; Efron et Tibshirani, 1993) est dapprocher par simulation
(Monte Carlo) la distribution dun estimateur lorsque lon ne connat pas la loi de l echantillon ou, plus
souvent lorsque lon ne peut pas supposer quelle est gaussienne. Lobjectif est de remplacer des hypoth` ess
probabilistes pas toujours v eri ees ou m eme inv eriables par des simulations et donc beaucoup de calcul.
Le principe fondamental de cette technique de r e echantillonnage est de substituer ` a la distribution de
probabilit e inconnue F, dont est issu l echantillon dapprentissage, la distribution empirique

F qui donne
un poids 1/n ` a chaque r ealisation. Ainsi on obtient un echantillon de taille n dit echantillon bootstrap selon
la distribution empirique

F par n tirages al eatoires avec remise parmi les n observations initiales.
Il est facile de construire un grand nombre d echantillons bootstrap sur lesquels calculer lestimateur
concern e. La loi simul ee de cet estimateur est une approximation asymptotiquement convergente sous des
hypoth` eses raisonnables
2
de la loi de lestimateur. Cette approximation fournit ainsi des estimations du
biais, de la variance, donc dun risque quadratique, et m eme des intervalles de conance de lestimateur
sans hypoth` ese (normalit e) sur la vraie loi.
1.1 Principe du plug-in
Soit x = x
1
, . . . , x
n
un echantillon de taille n issue dune loi inconnue F sur (, /). On appelle loi
empirique

F la loi discr` ete des singletons (x
1
, . . . , x
n
) affect es des poids 1/n :
F =
n
i=1
x
i
.
Soit A /, P
F
(A) est estim ee par :
(P)
F
(A) = P
F
(A) =
n
i=1
x
i
(A) =
1
n
Cardx
i
A.
De mani` ere plus g en erale, soit un param` etre dont on suppose que cest une fonction de la loi F. on ecrit
donc = t(F). Par exemple, = E(F) est un param` etre de F suivant ce mod` ele. Une statistique est une
fonction (mesurable) de l echantillon. Avec le m eme exemple :
= x =
1
n
n
i=1
x
i
et x est la statistique qui estime . On dit que cest un estimateur plug-in et, plus g en eralement,
1. Cette appellation est inspir ee du baron de M unchhausen (Rudolph Erich Raspe) qui se sortit de sables mouvants par traction sur
ses tirants de bottes. En France bootstrap est parfois traduit par ` a la Cyrano (acte III, sc` ene 13) en r ef erence ` a ce h eros qui pr evoyait
datteindre la lune en se placant sur une plaque de fer et en it erant le jet dun aimant.
2.

Echantillon ind ependant de m eme loi et estimateur ind ependant de lordre des observations.
115
116 Chapitre A. Introduction au bootstrap
D EFINITION A.1. On appelle estimateur plug-in dun param` etre de F, lestimateur obtenu en remplacant
la loi F par la loi empirique :
= t(
F).
comme dans le cas de lestimation de : = E(
F) = x.
1.2 Estimation de l ecart-type de la moyenne
Soit X une variable al eatoire r eelle de loi F. On pose :
F
= E
F
(X), et
2
F
= Var
F
(X) = E
F
[(X
F
)
2
];
Ce qui s ecrit :
X (
F
,
2
F
).
Soit (X
1
, . . . , X
n
) n variables al eatoires i.i.d. suivant aussi la loi F. Posons X =
1
n
n
i=1
X
i
. Cette variable
al eatoire a pour esp erance
F
et pour variance
2
F
/n. On dit aussi que la statistique
X (
F
,
2
F
/n).
Remarquons quen moyennant plusieurs valeurs ou observations, on r eduit la variance inh erente ` a une
observation. De plus, sous certaines conditions sur la loi F et comme r esultat du th eor` eme de la limite
centrale, X converge en loi vers la loi normale.
Lestimateur plug-in de
F
est d eni par :

2
=
F
2
=
2
F
= Var
F
(X)
= E
F
[(X E
F
(X))
2
] =
1
n
n
i=1
(X
i
X)
2
.
Lestimateur plug-in de
F
est (l eg` erement) diff erent de celui du maximum de vraisemblance. Lestimateur
plug-in est en g en eral biais e mais il a lavantage d etre simple et de pouvoir sappliquer ` a tout param` etre
m eme lorsque lon ne peut pas calculer la vraisemblance du mod` ele.
2 Estimation bootstrap dun ecart-type
Soit

= s(x) un estimateur quelconque (M.V. ou autre) de pour un echantillon x donn e. On cherche
` a appr ecier la pr ecision de

et donc ` a estimer son ecart-type.
2.1

Echantillon bootstrap
Avec les m emes notation,

F est la distribution empirique dun echantillon x = x
1
, . . . , x
n
.
D EFINITION A.2. On appelle echantillon bootstrap de x un echantillon de taille n not e
x
= x
1
, . . . , x
suivant la loi

F ; x
est un r e- echantillon de x avec remise.

2.2 Estimation dun ecart-type
D EFINITION A.3. On appelle estimation bootstrap de l ecart-type
F
(
) de

, son estimation plug-in :
F
(
).
Mais, ` a part dans le cas tr` es el ementaire o` u, comme dans lexemple ci-dessus, est une moyenne, il ny
a pas de formule explicite de cet estimateur. Une approximation de lestimateur bootstrap (ou plug-in) de
l ecart-type de

est obtenue par une simulation (Monte-Carlo) d ecrite dans lalgorithme ci-dessous.
Pour un param` etre et un echantillon x donn es, on note

= s(x) lestimation obtenue sur cet
echantillon. Une r eplication bootstrap de

est donn ee par :

= s(x
).

B
est lapproximation bootstrap de lestimation plug-in recherch ee de l ecart-type de

.
3. Compl ements 117
Algorithm 11 Estimation bootstrap de l ecart-type
Soit x un echantillon et un param` etre.
S electionner 1 echantillon bootstrap x
b
= x
b
1
, . . . , x
b
n
. par tirage avec remise dans x.
Estimer sur cet echantillon :

(b) = s(x
b
).
Fin Pour
Calculer l ecart-type de l echantillon ainsi construit :

2
B
=
1
B 1
B
b=1
(
(b)
(.))
2
avec

(.) =
1
B
B
b=1
(
(b).
2.3 Estimation du biais
Avec les m emes notations :
= t(F) et

= s(x),
le biais dun estimateur sexprime comme
B
F
(
) = E
F
[s(x)] t(F).
Un estimateur est sans biais si E[
] = . Le biais est aussi une mesure de la pr ecision dun estimateur et on

a vu que, g en eralement, les estimateurs plug-in etaient biais es.
D EFINITION A.4. On appelle estimateur bootstrap du biais, lestimateur plug-in :
B
F
(
) = B
F
(
) = E
F
[s(x
)] t(
F).
Comme pour l ecart-type, il nexiste g en eralement pas dexpression analytique et il faut avoir recours ` a une
approximation par simulation.
Algorithm 12 Estimation bootstrap du biais
Soit x un echantillon et un param` etre.
S electionner 1 echantillon bootstrap x
b
= x
b
1
, . . . , x
b
n
. par tirage avec remise dans x.
Estimer sur cet echantillon la r eplication bootstrap de

:

(b) = s(x
b
).
Fin Pour
Approcher E
F
[s(x
)] par

(.) =
1
B
B
b=1
(
(b)
Lapproximation bootstrap du biais est :

B
B
(
) =

(.)
.
3 Compl ements
En r esum e, on peut dire que le bootstrap repose sur une hypoth` ese tr` es el ementaire :
se comporte par
rapport ` a
comme
par rapport ` a . La connaissance de
(distribution, variance, biais. . . ) renseigne alors

sur celle de

.
Beaucoup dautres compl ements sont ` a rechercher dans la litt erature et en particulier dans Efron et
Tibshirani (1993). Il est ainsi possible de d enir des intervalles de conance bootstrap en consid erant la
distribution et les quantiles de
ou m eme encore des tests ` a partir des versions bootstrap de leur statistique.
118 Chapitre A. Introduction au bootstrap
Le bootstrap rapidement d ecrit ici est dit non-param etrique car la loi empirique

F est une estimation
non-param etrique de F. Dans le cas o` u F serait connue ` a un param` etre pr` es, il existe egalement une version
dite param etrique du bootstrap.
Pour des estimateurs plus compliqu es (fonctionnels) comme dans le cas de la r egression non-param etrique
par noyau ou spline, il est facile de construire graphiquement une enveloppe bootstrap de lestimateur ` a par-
tir de r eplications de l echantillon. Celle-ci fournit g en eralement une bonne appr eciation de la qualit e de
lestimateur obtenu. Attention, dans le cas de la r egression il est en principe plus justi e de r epliquer le
tirage sur les r esidus plut ot que sur les observations. Ce sont les r esidus qui sont en effet suppos es i.i.d.
et qui v erient donc les hypoth` eses n ecessaires mais cette approche devient tr` es sensible ` a lhypoth` ese sur
la validit e du mod` ele. Il est nalement dusage de consid erer un echantillon bootstrap issu des donn ees
initiales (Efron et Tibshirani) :
z
b
= (x
b
1
, y
b
1
), . . . , (x
b
n
, y
b
n
);
cest ce qui a et e choisi dans ce document.
Enn, lestimation bootstrap est justi ee par des propri et es asymptotiques (convergence en loi) lorsque
le nombre de r eplications (B) croit conjointement avec la taille de l echantillon (n).
Table des mati` eres
1 Introduction 3
1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Motivations du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1 Origine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2 Environnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Apprentissage statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.1 Objectif g en eral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Probl ematiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3 Strat egies de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Strat egie du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.1 Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2 Les etapes de lapprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5 Exemples et jeux de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.1 Banque, nance, assurance : Marketing . . . . . . . . . . . . . . . . . . . . . . . 9
5.2 Environnement : pic dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.3 Sant e : aide au diagnostic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5.4 Biologie : s election de g` enes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
5.5 Exemples industriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
6 Contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 R egression lin eaire 13
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Estimation par M.C. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Propri et es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Sommes des carr es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Coefcient de d etermination . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4 Inf erences dans le cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.1 Inf erence sur les coefcients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.2 Inf erence sur le mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3 Inf erence sur un mod` ele r eduit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.4 Pr evision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
119
120 TABLE DES MATI
`
ERES
4.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.1 Crit` eres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Algorithmes de s election . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.4 Choix de mod` ele par r egularisation . . . . . . . . . . . . . . . . . . . . . . . . . 22
6 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.1 Mod` eles polynomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
6.2 Inuence, r esidus, validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7 Analyse de variance ` a un facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.2 Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7.3 Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
8 Analyse de covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
8.1 Mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
8.2 Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.3 Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
8.4 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
9 Exemple : Pr evision de la concentration dozone . . . . . . . . . . . . . . . . . . . . . . . 33
9.1 Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
9.2 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3 R egression logistique 37
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2 Odds et odds ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3 R egression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.1 Type de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Mod` ele binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 R egressions logistiques polytomique et ordinale . . . . . . . . . . . . . . . . . . . 40
4 Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1 Recherche pas ` a pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Crit` ere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5 Illustration el ementaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1 Les donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 R egression logistique ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2 Pic dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 Mod` ele log-lin eaire 47
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2 Mod` ele log-lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.1 Types de donn ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
TABLE DES MATI
`
ERES 121
2.2 Distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3 Mod` eles ` a 2 variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4 Mod` ele ` a trois variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Choix de mod` ele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1 Recherche pas ` a pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1 Mod` ele poissonien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5 Qualit e de pr evision 53
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2 Erreur de pr evision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.1 D enition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.2 D ecomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3 Estimation avec p enalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.1 C
p
de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2 AIC, AIC
c
, BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.3 Dimension de Vapnik-Chernovenkis . . . . . . . . . . . . . . . . . . . . . . . . . 56
4 Estimation par simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.1 Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5 Le cas sp ecique de la discrimination . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.1 Discrimination ` a deux classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2 Courbe ROC et AUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
6 Analyse Discriminante D ecisionnelle 63
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2 R` egle de d ecision issue de lAFD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.1 Cas g en eral : m quelconque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2.2 Cas particulier : m = 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3 R` egle de d ecision bay esienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.2 D enition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3 Co uts inconnus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 D etermination des a priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.5 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4 R` egle bay esienne avec mod` ele normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1 H et erosc edasticit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 Homosc edasticit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.3 Commentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5 R` egle bay esienne avec estimation non param etrique . . . . . . . . . . . . . . . . . . . . . 66
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.2 M ethode du noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
122 TABLE DES MATI
`
ERES
5.3 k plus proches voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
6.2 Concentration dozone . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7 Arbres binaires 69
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2 Construction dun arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
2.2 Crit` ere de division . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3 R` egle darr et . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.4 Affectation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3 Crit` eres dhomog en eit e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.1 Y quantitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2 Y qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4

Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.1 Construction de la s equence darbres . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2 Recherche de larbre optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
8 M ethodes connexionistes 79
1 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
2 R eseaux de neurones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.1 Neurone formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3 Perceptron multicouche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.3 Utilisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
9 Agr egation de mod` eles 85
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2 Famille de mod` eles al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.1 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.2 For ets al eatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3 Famille de mod` eles adaptatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.1 Principes du Boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.2 Algorithme de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.3 Version al eatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
TABLE DES MATI
`
ERES 123
3.4 Pour la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.5 Mod` ele additif pas ` a pas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.6 R egression et boosting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.7 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.3 R egime des souris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
10 Les Support Vector Machines (SVM) 97
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.1 Probl` eme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.2 Marge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
2.3 Espace interm ediaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3 S eparateur lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.1 Hyperplan s eparateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2 Cas non s eparable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4 S eparateur non lin eaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.1 Noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2 Condition de Mercer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.3 Exemples de noyaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.4 SVM pour la r egression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
11 Conclusion 105
1 Strat egies du data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
2 Comparaison des r esultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
2.1 Cancer du sein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3 Pi` eges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4 R ole du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.1 Des comp etences multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.2 De lutilit e du statisticien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
A Introduction au bootstrap 115
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
1.1 Principe du plug-in . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
1.2 Estimation de l ecart-type de la moyenne . . . . . . . . . . . . . . . . . . . . . . 116
2 Estimation bootstrap dun ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.1

Echantillon bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
124 TABLE DES MATI
`
ERES
2.2 Estimation dun ecart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
2.3 Estimation du biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3 Compl ements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

Appren Stat PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Appren Stat PDF

Hochgeladen von

Copyright:

Verfügbare Formate

Apprentissage Statistique

, le mod` ele s ecrit matriciellement :

Xest semi d enie-positive.

X est inversible, cest-` a-dire que la matrice

b des param` etres en consid erant lhypoth` ese nulle H

Elimination (backward) Lalgorithme d emarre cette fois du mod` ele complet.

le vecteur des erreurs, 1

le vecteur des param` etres :

mis en colonne, x le vecteur [x

le vecteur des erreurs, 1

engendr e par les variables explicatives :

un echantillon bootstrap des donn ees :

) form ees dun premier individu

de Y (ou de la classe correspondante) de ce nou-

; = 1, . . . , m les barycentres des classes calcul es sur l echantillon et x

] repr esentent les probabilit es a priori des classes ou groupes

. On suppose que les vecteurs x

alors quil est dans T

[ x]. Par le th eor` eme de Bayes, on a :

] est la probabilit e dobserver x au sein de la classe T

. Pour une loi discr` ete, il sagit dune

] et dune densit e f(x [ T

) pour une loi continue. Dans tous les cas nous

peuvent effectivement etre connues a priori : proportions de divers groupes

(x) qui est la vraisem-

, de lobservation x. La r` egle consiste alors ` a choisir la classe pour laquelle cette

(x). Les diff erentes m ethodes destimation

une matrice (p p) sym etrique et

(x) par rapport ` a l soit encore la quantit e :

sont suppos ees

ainsi que les covariances

par la moyenne empirique de x dans la classe l pour l echantillon dapprentissage et

pour ce m eme echantillon.

sont estim ees comme pr ec edemment tandis que est

sont egales, apr` es estimation le crit` ere s ecrit :

(x) qui sont alors des fonctions d enies dans IR

dont donc etre choisi multidimensionnel

Revenu < 10000 Revenu > 10000

de Y en consid erant le mode conditionnel :

dappartenance ` a la ` eme classe sont connues. Dans

de , fonction de T dans 1, 1, de sorte que la probabilit e :

ne fait intervenir les el ements xet x

que par linterm ediaire de produits scalaires : x, x

est un r e- echantillon de x avec remise.

] = . Le biais est aussi une mesure de la pr ecision dun estimateur et on

par rapport ` a . La connaissance de

(distribution, variance, biais. . . ) renseigne alors

Das könnte Ihnen auch gefallen