Sie sind auf Seite 1von 242

Capitolul 1

METODE EXPLORATORII
MULTIDIMENSIONALE
Metodele exploratorii multidimensionale si propun s a furnizeze reprezen-
t ari sintetice ale unor multimi mari de valori numerice, n general sub forma
unor vizualiz ari grace. Pentru aceasta, se urm areste reducerea dimensiu-
nilor tabelului de date prin reprezentarea asociatiilor ntre indivizi si variabile
n spatii de dimensiuni mici. Distantele ntre liniile sau ntre coloanele unui
tabel dreptunghiular de valori numerice pot ntotdeauna calculate dar nu
este posibil a vizualizarea imediat a a acestora, reprezent arile geometrice asoci-
ate implicnd, n general, spatii de dimensiuni superioare lui trei. Este nece-
sar s a proced am la transform ari si aproxim ari pentru a obtine o reprezentare
plan a.
Metodele exploratorii vor c auta, n consecint a, subspatii de dimensiuni
mici - unu, doi sau trei - care aproximeaz a cel mai bine norul de puncte-
individ sau cel de puncte-variabi a astfel nct vecin at atile m asurate n aceste
spatii s a reecte ct mai exact proximit atile reale. Se obtine astfel un spatiu
de reprezentare, spatiul factorial. Geometria norilor de puncte si calculul
proximit atilor sau a distantelor care decurg de aici difer a n functie de natura
liniilor si coloanelor tabelului analizat.
Coloanele tabelelor dreptunghiulare de date pot variabile continue sau
variabile nominale sau categorii n cazul tabelelor de contingent a. Liniile pot
indivizi sau categorii. Natura informatiilor, codicarea, specicitatea dome-
niului de aplicatie vor introduce variante n cadrul metodei factoriale.
n cele ce urmeaza vor prezentate trei tehnici fundamentale:
analiza n componente principale (sectiunea 1.2) se aplic a tabelelor
de tip "variabile-indivizi" unde coloanele sunt variabile numerice con-
tinue si liniile sunt indivizi, observatii, obiecte, etc. Proximit atile ntre
variabile se interpreteaz a n termeni de corelatii. Proximit atile ntre
indivizi se interpreteaz a n termeni de similitudini globale ale valorilor
observate.
1
2 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
analiza corespondentelor simple (sectiunea 1.3) se aplic a tabelelor
de contingent a, adic a tabelelor ce contin num arul indivizilor care posed a
concomitent dou a modalit ati a dou a variabile nominale. Aceste tabele
au particularitatea c a att liniile ct si coloanele lor joac a un rol iden-
tic n analiza corespondentelor simple. Analiza furnizeaz a reprezent ari
ale asociatiilor ntre liniile si coloanele tabelelor bazate pe o distant a
ntre prole (care sunt vectori de frecvente conditionate) cunoscut a sub
numele de distanta
2
.
analiza corespondentelor multiple (sectiunea 1.4) este o extindere
a domeniului aplicatiilor analizei corespondentelor simple, avnd totusi
proceduri de calcul si reguli de interpretare specice. Ea face obiectul
unei mentiuni particulare datorit a num arului mare de aplicatii la care se
preteaz a. Analiza corespondentelor multiple este n mod deosebit adap-
tat a la descrierea tabelelor mari de variabile nominale, cum sunt sierele
de anchete socio-economice sau cele medicale. Liniile acestor tabele sunt,
n general, indivizi sau observatii (pot exista cteva mii); coloanele sunt
modalit ati ale variabilelor nominale, cel mai adesea modalit atile r aspun-
surilor la ntreb ari.
Oricare ar tipul tabelului de date, toate tehnicile factoriale au un nucleu
comun prezentat n sectiunea 1.1 sub forma unor preliminarii matematice.
1.1 Preliminarii matematice
1.1.1 Concepte metrice ntr-un spatiu euclidian
Fie X multime oarecare, X ,= ?.
Denitia 1.1.1 O metrica pe multimea X este o aplicatie, d : X X R ,
care satisface urm atoarele axiome :
a) d (x; y) = d (y; x) ; (\) x; y X (simetric a);
b) d (x; y) _ 0; (\) x; y X (pozitiv a);
c) d (x; y) = 0 = x = y; (\) x; y X (idempotent a);
d) d (x; y) _ d (x; z) + d (z; y) ; (\) x; y; z X (inegalitatea triunghiului).
Denitia 1.1.2 Dac a d : X X R este o aplicatie care satisface axiomele
(a)(c) si n plus este satisf acut a axioma
d) d (x; y) _ max (d (x; z) ; d (z; y)) ; (\) x; y; z X
atunci d se numeste ultrametrica pe X.
1.1. PRELIMINARII MATEMATICE 3
Observatia 1.1.1
d ultrametric a implic a d metric a.
Denitia 1.1.3 Un spa tiu (ultra)metric este o pereche (X; d), unde X este o
multime nevid a si d este o (ultra)metric a pe X.
Denitia 1.1.4 O pseudometrica pe X este o aplicatie, d : XX R; care
satisface :
a) d (x; y) = d (y; x) ; (\) x; y X (simetric a);
b) d (x; y) _ 0; (\) x; y X (pozitiv a);
c) d (x; x) = 0; (\) x X.
O multime nevid a nzestrat a cu o psudometric a se numeste spa tiu pseudo-
metric.
ntr-o alt a terminologie, legat a de problema de clasicare, o pseudomet-
ric a se numeste si coecient de disimilaritate.
Denitia 1.1.5 O pseudometric a ce satisface, n plus, axioma
d) d (x; y) = 0 = x = y
se numeste semimetrica.
Observatia 1.1.2
Pentru oricare din spatiile considerate mai sus d (x; y) se va numi distan ta
dintre x si y n spatiul (X; d).
Fie K un corp comutativ, X ,= ? nzestrat a cu o operatie intern a
(adunare) si cu operatia de nmultire cu scalari:
X X (x; y) x + y X;
K X (a; x) ax X
Denitia 1.1.6 X se numeste spa tiu vectorial (spa tiu liniar) peste K dac a :
1. (x + y) + z = x + (y + z) ; (\) x; y; z X;
2. () 0 X astfel nct x + 0 = x; (\) x X;
3. (\) x X; () (x) X astfel nct x + (x) = 0;
4. x + y = y + x; (\) x; y X;
5. 1x = x; (\) x X;
6. a (bx) = (ab) x; (\) x X si (\) a; b K;
4 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
7. (a + b) x = ax + bx; (\) x X si (\) a; b K;
8. a (x + y) = ax + ay; (\) x; y X si (\) a K:
Fie X un spatiu vectorial peste R sau C.
Denitia 1.1.7 Se numeste produs scalar pe X o functie de dou a variabile,
; : X X R, pentru care sunt satisf acute urm atoarele axiome:
1. x; y = y; x; (\) x; y X;
2. ax; y = a x; y ; (\) x; y X si (\) a K:
3. x + y; z = x; z +y; z ; (\) x; y; z X;
4. x; x _ 0; (\) x X;
5. x; x = 0 = x = 0:
Observatia 1.1.3
Dac a X este spatiu vectorial peste R atunci X se numeste spa tiu vectorial real.
Denitia 1.1.8 Se numeste spa tiu euclidian, un spatiu vectorial nit dimen-
sional.
Spatiul R
n
nzestrat cu produsul scalar
x; y =
n

i=1
x
i
y
i
este un spatiu euclidian.
Dac a un element din R
n
se scrie ca un vector coloan a, x =
_
_
_
x
1
.
.
.
x
n
_
_
_
,
atunci produsul scalar se mai scrie (x; y) = x
0
y.
Observatia 1.1.4
n R se mai pot deni si alte produse scalare.
Denitia 1.1.9 Doi vectori x; y se numesc ortogonali (perpendiculari) dac a
x; y = 0.
Denitia 1.1.10 O norma pe un spatiu vectorial denit peste corpul K este
o functional a, || : X R, pentru care sunt vericate axiomele :
1. |x| _ 0; (\) x X (pozitiv a);
2. |x| = 0 = x = 0 (pozitiv denit a);
1.1. PRELIMINARII MATEMATICE 5
3. |ax| = [a[ |x| ; (\) x X si (\) a K (absolut omogen a);
4. |x + y| _ |x| +|y| ; (\) x; y X (subaditiv a).
Denitia 1.1.11 Un spatiu vectorial nzestrat cu o norm a se numeste spa tiu
normat.
Observatia 1.1.5
Orice spatiu euclidian este normat n raport cu norma indus a de produsul
scalar |x| = (x; x)
1
2
:
La rndul s au, norma induce o distant a
d (x; y) = |x y| = x y; x y
1
2
:
Rezult a c a orice spatiu euclidian poate nzestrat cu o metric a generat a de
produsul scalar.
1.1.2 Operatori liniari
Fie X un spatiu vectorial de dimensiune n. Consider am o baz a, e
1
; e
2
; : : : ; e
n
;
n X si e U : X X, un operator liniar.
Ue
i
este un vector din X deci se poate scrie ca o combinatie liniar a de
vectorii bazei, adic a:
Ue
i
=
n

j=1
A
ij
e
j
; i = 1; n:
Coecientii A
ij
determin a o matrice A de dimensiune n n numit a
matricea operatorului U n baza e
1
; e
2
; : : : ; e
n
.
Fie X spatiu euclidian si U operator liniar, U : X X . Se poate ar ata
c a exist a U

astfel nct
Ux; y = x; U

y ; x; y X
Operatorul U

se numeste adjunctul lui U.


Matricea operatorului U

n orice baz a ortogonal a a spatiului X este


transpusa matricei operatorului U n acea baz a.
Un operator se numeste autoadjunct dac a U

= U. Matricea unui oper-


ator autoadjunct este simetric a.
1.1.3 Vectori si valori proprii
Fie X un spatiu vectorial si U : X X.
Denitia 1.1.12 Un subspatiu X
0
al lui X se numeste invariant n raport cu
operatorul U, dac a (\) x X
0
= Ux X
0
, adic a U (X
0
) _ X
0
.
6 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Observatia 1.1.6
Un rol deosebit l joac a subspatiile invariante de dimensiune 1. Ele se numesc
direc tii invariante (direc tii proprii).
Denitia 1.1.13 R se numeste valoarea proprie a operatorului U dac a
() x X; x ,=0 astfel nct
Ux =x;
iar x se numeste vector propriu corespunz ator valorii proprii .
Multimea valorilor proprii ale lui U se numeste spectrul lui U.
Denitia 1.1.14 Multimea tuturor vectorilor proprii ai unui operator U; core-
spunz atori valorii proprii , la care se adaug a vectorul nul, se numeste sub-
spa tiul propriu al lui U, corespunz ator lui .
Propozitia 1.1.1 ([15])
Vectorii proprii x
1
; x
2
; : : : ; x
n
ai unui operator U, corespunznd valorilor pro-
prii distincte
1
;
2
; : : : ;
n
, sunt liniar independenti.
Observatia 1.1.7
ntr-un spatiu n-dimensional niciun operator U nu poate avea mai mult de n
vectori proprii cu valori proprii distincte.
Propozitia 1.1.2 ([15])
Subspatiul propriu al unui operator liniar U, corespunz ator unei valori proprii
este un spatiu invariant al lui U.
Propozitia 1.1.3 ([15])
Dac a U este un operator auto-adjunct actionnd pe un spatiu euclidian si
este o valoare proprie a lui U, atunci () x, vector unitar, astfel nct
= Ux; x ; |x| = 1:
Propozitia 1.1.4 ([15])
Orice operator autoadjunct U actionnd pe un spatiu euclidian n-dimensional
are n vectori proprii unitari liniar independenti, ortogonali doi cte doi.
1.1.4 Polinomul caracteristic
Fie A matricea operatorului liniar U ntr-o baz a xat a. Dac a E este op-
eratorul identitate atunci operatorul U E va avea n aceast a baz a matricea
AI, unde este I matricea identitate.
Dac a x este un vector propriu al lui U, corespunz ator valorii proprii ,
atunci:
(AI) x =0
iar x se mai numeste vector propriu al lui A.
1.1. PRELIMINARII MATEMATICE 7
Dac a A este matrice n n atunci egalitatea de mai sus reprezint a un
sistem omogen de n ecuatii cu n necunoscute. Sistemul admite o solutie nenul a
dac a si numai dac a det (AI) x =0.
Denitia 1.1.15 Membrul stng al ecuatiei n
det (AI) x =0:
se numeste polinomul caracteristic al matricei A.
Oric arei r ad acini a acestei ecuatii i corespunde cel putin un vector pro-
priu al operatorului liniar U. Cum ecuatia are cel putin o r ad acin a, real a sau
complex a, rezult a c a un operator liniar are cel pu tin un vector propriu.
Fie A; matricea operatorului U ntr-o baz a e xat a si A
0
; matricea
aceluiasi operator ntr-o alt a baz a, f . Operatorul U E; R va avea
n baza e matricea AI, iar n baza f , matricea A
0
I. Cum determinantul
matricei unui operator nu depinde de alegerea bazei, rezult a:
det (AI) = det
_
A
0
I
_
:
Propozitia 1.1.5 ([15])
Polinomul caracteristic al unui operator este invariant n raport cu alegerea
bazei.
Observatia 1.1.8
Toate conceptele spectrale (spectrul, ordinele de multiplicitate ale valorilor
proprii) sunt invariante la o transformare a bazei.
Dac a A este matricea unui operator U n baza e
1
; e
2
; : : : ; e
n
si A
0
este matricea aceluiasi operator n baza f
1
; f
2
; : : : ; f
n
atunci un calcul simplu
arat a c a
A
0
= B
1
AB
Dou a matrici, A si A
0
; ntre care exist a o asemenea egalitate se numesc
matrici asemenea (similare).
Din relatia de mai sus rezult a
BA
0
= AB =det
_
BA
0
_
= det (AB) = det Bdet A
0
= det Adet B:
Cum det B ,=0 = det A
0
= det A, adic a determinantul matricei unui
operator nu depinde de alegerea bazei. Rezult a:
Propozitia 1.1.6 ([15])
Determinantul matricei unui operator este un invariant n raport cu alegerea
bazei spatiului respectiv.
8 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Fie A; B dou a matrici asemenea. Atunci () C matrice, astfel nct
B = C
1
AC:
Se poate scrie, asadar, succesiv:
det (BI) = det
_
C
1
ACI
_
=
= det
_
C
1
(AI) C
_
= det C
1
det (AI) det C =
= det (AI) :
Rezult a: valoare proprie a lui B= valoare proprie a lui A. S-a
demonstrat astfel urm atoarea propozitie:
Propozitia 1.1.7
Dou a matrici asemenea au aceleasi valori proprii.
Pentru a aduce polinomul caracteristic la o form a convenabil a, l scriem
explicit
P () =

A
11
A
12
+ 0 A
1n
+ 0
A
21
+ 0 A
22
A
2n
+ 0

A
n1
+ 0 A
n2
+ 0 A
nn

Propozitia 1.1.8
Polinomul caracteristic P () al matricei A se poate scrie
P () = ()
n
+ I
1
()
n1
+ : : : + I
n1
() + I
n
unde I
k
este suma minorilor principali de ordinul k ai determinantului matricei
A.
Observatia 1.1.9
1. Coecientul I
1
al lui ()
n1
coincide cu tr A. Termenul liber, I
n
, este
determinantul lui A. Coecientul I
k
al lui ()
k
este suma minorilor
principali de ordinul k.
2. P () = (1)
n
_

n
I
1

n1
+ : : : + (1)
n
I
n
_
. Notnd cu m
i
ordinul de
multiplicitate al r ad acinii
i
si tinnd cont de relatiile ntre r ad acini si
coecienti rezult a I
n
= det (A) =
p

i=1
(
i
)
m
i
si I
1
= tr A =
p

i=1
m
i

i
unde
m
i
> 0; i = 1; p; m
j
= 0 dac a j > p.
3. Deoarece I
n
= det (A) este un invariant, rezult a c a si produsul valorilor
proprii ale unui operator este un invariant (nu depinde de alegerea bazei).
4. Deoarece dou a matrici asemenea au valori proprii identice rezult a c a
matricile asemenea au determinantii si urma identice.
1.1. PRELIMINARII MATEMATICE 9
1.1.5 Baza vectorilor proprii
Propozitia 1.1.9
a) O matrice real a, simetric a, are toate valorile proprii reale.
b) Vectorii proprii corespunznd la valori proprii distincte sunt ortogonali.
Propozitia 1.1.10 ([15])
Matricea unui operator ntr-o baz a format a din vectorii s ai proprii este diag-
onal a si elementele de pe diagonal a sunt valori proprii ale operatorului.
Demonstratie. Fie A
0
o matrice nn care se obtine din A prin intermediul
unei transform ari de similaritate, adic a
A
0
= B
1
AB;
unde B este matricea transform arii. Conditia ca matricea A
0
s a e di-
agonal a se scrie :
A
0
= B
1
AB =
_
_
_

1
0
.
.
.
0
n
_
_
_
de unde se obtine imediat
AB = B
_
_
_

1
0
.
.
.
0
n
_
_
_
Urmeaz a c a

k
A
ik
B
kj
= B
ij

j
; i; j = 1; n:
Fixnd indicele j obtinem n ecuatii :

k
A
ik
B
kj
= B
ij

j
; i = 1; n:
Fie acum vectorul b
j
=
_
_
_
B
1j
.
.
.
B
nj
_
_
_
format cu elementele coloanei j a ma-
tricei B.
Egalit atile de mai sus se pot scrie
Ab
j
=
j
b
j
;
deci b
j
este vector propriu al matricei A. Rezult a deci c a matricea transfor-
mat a A este diagonal a dac a matricea B a transform arii este aleas a astfel nct
coloanele sale s a e vectori proprii ai matricei initiale A. Se poate ar ata c a o
astfel de matrice exist a dac a toate valorile proprii ale lui A sunt diferite.
10 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Propozitia 1.1.11
O matrice A; real a si simetric a, poate adus a la forma diagonal a prin inter-
mediul unei transform ari de similaritate
A
0
= B
1
AB
dac a valorile proprii ale lui A sunt distincte.
Propozitia 1.1.12
Orice matrice real a si simetric a poate adus a la forma diagonal a prin inter-
mediul unei transform ari de similaritate.
1.1.6 Forme p atratice
Denitia 1.1.16 O forma biliniara pe un spatiu vectorial X este o apli-
catie F : X X X, liniar a n ambele argumente. Dac a dimX = n si
e
1
; e
2
; : : : ; e
n
este o baz a n X, atunci forma biliniar a F se poate scrie:
F (x; y) =
n

i=1
n

j=1
A
ij
x
i
y
j;
unde F
_
e
i
; e
j
_
= A
ij
; i; j = 1; n. Coecientii A
ij
sunt elementele unei matrice
p atrate A, numit a matricea formei biliniare F, n baza e
1
; e
2
; : : : ; e
n
.
Se observ a c a relatia de denitie se mai poate scrie:
F (x; y) = x
0
Ay:
Denitia 1.1.17 O form a biliniar a se numeste simetrica dac a
F (x; y) = F (y; x) ; x; y X
Observatia 1.1.10
Matricea unei forme biliniare simetrice este simetric a.
Denitia 1.1.18 O form a biliniar a pe X n care y = x se numeste forma
patratica pe X.
F (x; y) se numeste forma biliniara polara a formei F (x; x).
Propozitia 1.1.13
Forma polar a F (x; y) este unic determinat a de forma ei p atratic a.
ntr-o baz a xat a, forma p atratic a F se scrie:
F (x; x) =
n

i=1
n

j=1
A
ij
x
i
x
j
= x
0
Ax:
1.1. PRELIMINARII MATEMATICE 11
Denitia 1.1.19 Forma p atratic a x
0
Axsi matricea Ase numesc pozitiv semi-
denite dac a
x
0
Ax _ 0; (\) x X
si pozitiv denite dac a
x
0
Ax > 0; (\) x X; x ,= 0:
Observatia 1.1.11
1. Conditia ca A s a e pozitiv denit a se mai scrie x
0
Ax = 0 = x = 0.
2. Produsul scalar este o form a biliniar a simetric a corespunz atoare unei
forme p atratice pozitiv denite. Rezult a c a produsul scalar se poate
exprima sub forma x; y = x
0
Ay, unde A este o matrice simetric a,
pozitiv denit a.
Distanta indus a de o norm a generat a de un produs scalar se va scrie
d
2
(x; y) = |x y|
2
= x y; x y
si deci distanta are forma
d
2
(x; y) = (x y)
0
A(x y) :
Pentru diferite alegeri obtinem diferite tipuri de distante. Astfel, dac a
A este matricea unitate, obtinem distanta euclidian a
d
2
(x; y) =
n

i=1
(x
i
y
i
)
2
;
unde x
1
; x
2
; : : : ; x
n
sunt componentele vectorului n baza considerat a.
Propozitia 1.1.14
Dac a A este o matrice pozitiv semidenit a, atunci x
0
Ax = 0 = Ax = 0.
Propozitia 1.1.15
Fie A pozitiv semidenit a. Matricea A este pozitiv denit a = este nesingu-
lar a. n acest caz si matricea A
1
este pozitiv denit a.
Propozitia 1.1.16
Dac a matricea A de dimensiuni n n este simetric a si pozitiv semidenit a
atunci, (\) B de dimensiuni n n, matricea B
0
AB este simetric a si pozitiv
semidenit a. Dac a rang B = m si A este pozitiv denit a, atunci B
0
AB este
pozitiv denit a.
Observatia 1.1.12
Dac a Aeste pozitiv denit a si rang B = matunci B
0
A
1
Beste pozitiv denit a
si deci inversabil a.
12 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Propozitia 1.1.17
Matricea A este pozitiv denit a = toti minorii s ai principali sunt pozitivi,
adic a:
a
11
> 0; det
_
a
11
a
12
a
21
a
22
_
; : : : ; det A >0:
A este pozitiv semidenit a = minorii principali sunt nenegativi.
Propozitia 1.1.18
Fie A simetric a. A este pozitiv semidenit a =valorile sale proprii sunt neneg-
ative.
Propozitia 1.1.19
Fie A simetric a. A este pozitiv denit a = toate valorile sale proprii sunt
pozitive.
1.1.7 Derivarea. Metoda multiplicatorilor lui Lagrange pentru
forme p atratice
Denitia 1.1.20 Dac a functia f : R
n
R este derivabil a partial n raport
cu toate variabilele x
1
; x
2
; : : : ; x
n
n punctul x, punctul \f (x) denit prin
\f (x) =
_
_
_
_
@f(x)
@x
1
.
.
.
@f(x)
@x
n
_
_
_
_
se numeste gradientul func tiei f n punctul x.
Denitia 1.1.21 Fie A _ R
n
o multime nevid a si f : A R. Functia f
se numeste diferen tiabila Frchet n punctul x
0
A dac a exist a o functional a
liniar a F : R
n
R astfel nct
lim
khk!0
_
_
f
_
x
0
+ h
_
f
_
x
0
_
F (h)
_
_
|h|
= 0:
Propozitia 1.1.20
Dac a A _ R
n
si functia f : A R este diferentiabil a Frchet n punctul x
0
,
atunci exist a o unic a functional a liniar a F cu proprietatea
lim
khk!0
_
_
f
_
x
0
+ h
_
f
_
x
0
_
F (h)
_
_
|h|
= 0:
Denitia 1.1.22 Dac a functia f : A R; A _ R
n
este diferentiabil a Frchet
n punctul x
0
, functionala care veric a egalitatea din denitia 1.1.21 se nu-
meste derivata Frchet a functiei f n x
0
si se noteaz a
d
f
_
x
0
_
, iar valoarea
ei n punctul h, F (h) =
d
f
_
x
0
_
(h) se numeste diferen tiala func tiei f n x
0
cu cresterea h.
1.1. PRELIMINARII MATEMATICE 13
Propozitia 1.1.21
Dac a functia f : R
n
R este diferentiabil a n punctul x
0
, atunci f este
derivabil a partial n raport cu toate componentele din x
0
si are loc egalitatea
d
f
_
x
0
_
(h) =
_
\f
_
x
0
_
; h
_
=
n

i=1
@f (x)
@x
i
h
i
; (\) h R
n
:
Observatia 1.1.13
Dac a f este diferentiabil a n x
0
, atunci derivata
d
f
_
x
0
_
a lui f n punctul x
0
se poate reprezenta prin gradientul lui f n x
0
, adic a:
d
f
_
x
0
_
= \f
_
x
0
_
=
_
_
_
_
_
@f(x
0
)
@x
1
.
.
.
@f(x
0
)
@x
n
_
_
_
_
_
n cele ce urmeaz a se va utiliza pentru \f
_
x
0
_
si notatia
@f
@x
_
x
0
_
.
Denitiile si rezultatele de mai sus se extind usor pentru o functie g :
R
n
R
m
. n acest caz derivata n punctul x
0
se reprezint a printr-o matrice
@g
@x
_
x
0
_
= \g
_
x
0
_
=
_
_
_
_
\g
1
_
x
0
__
0
.
.
.
_
\g
m
_
x
0
__
0
_
_
_
=
_
_
_
_
@g
1(x
0
)
@x
1

@g
1(x
0
)
@x
n

@g
m(x
0
)
@x
1

@g
m(x
0
)
@x
n
_
_
_
_
:
Denitia 1.1.23 Fie I _ R si f : I R. Prin derivata func tiei f n punctul
x
0
n raport cu matricea A de dimensiuni n m se ntelege matricea
@f
_
x
0
_
@A
=
_
_
_
_
@f(x
0
)
@a
11

@f(x
0
)
@a
1m

@f(x
0
)
@a
n1

@f(x
0
)
@a
nm
_
_
_
_
:
Propozitia 1.1.22
Dac a x; y R
n
si M este matrice atunci:
a)
@
@x
(x
0
y) =
@
@x
(y
0
x) = y;
b)
@
@y
(x
0
My) = M
0
x;
c)
@
@x
(x
0
Mx) = Mx +M
0
x;
d)
@
@x
(x
0
My) = My;
e)
@
@x
(Mx) = M;
f)
@
@M
(x
0
My) = xy
0
:
14 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Observatia 1.1.14
Dac a M este matrice simetric a atunci c) devine
@
@x
(x
0
Mx) = 2Mx. Dac a M
este matrice unitate atunci
@
@x
(x
0
x) = 2x.
Fie F (x; x) = x
0
Ax; x R
n
o form a p atratic a simetric a. Consider am
valorile formei p atratice F pe sfera unitate, adic a pentru acei x pentru care
|x|
2
= (x; x) = 1. Ne intereseaz a care dintre punctele sferei unitate sunt
puncte stationare pentru F, adic a veric a ecuatia
@
@x
F (x; x) = 0. Punctele
de extrem se vor g asi printre punctele stationare. Problema determin arii
punctelor stationare este o problem a de extrem conditionat, pentru rezolvarea
c areia vom folosi metoda multiplicatorilor lui Lagrange. Restrictia |x|
2
= 1
se mai scrie :
g (x) = 1 x
0
x =0;
deci avem problema:
_
F (x; x) min
g (x) = 0
:
Conform metodei lui Lagrange, construim functia L : R
n
R R,
L(x;) = F (x; x) + g (x)
care se mai scrie si
L(x;) = x
0
Ax +
_
x
0
x 1
_
:
Conditiile necesare ca punctul
_
x
0
;
0
_
s a e un punct de extrem cu
leg aturi sunt:
@L
_
x
0
;
0
_
@x
= 0;
@L
_
x
0
;
0
_
@
= 0:
Deoarece A este matrice simetric a prima ecuatie devine:
2Ax 2x =0 = Ax =x:
Rezult a c a:
Propozitia 1.1.23
Vectorii sferei unitate care sunt vectorii proprii ai matricei A asociate unei
forme p atratice simetrice
F (x; x) = x
0
Ax;
reprezint a puncte stationare ale lui F.
Valorile formei p atratice n punctele stationare sunt date de
F (x; x) = x
0
Ax = x
0
x =|x|
2
:
Rezult a c a valoarea formei p atratice F (x; x) = x
0
Ax ntr-un punct
stationar x este egal a cu valoarea proprie corespunz atoare a matricei A a
formei p atratice.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 15
n particular, maximul (minimul) formei p atratice simetrice F (x; x) pe
sfera unitate este egal cu cea mai mare (cea mai mic a) valoare proprie a lui
A.
Vectorul propriu corespunznd celei mai mari valori proprii este un vector
ce porneste din origine si trece prin punctul de pe sfera unitate n care este
atins maximul.
1.2 Analiza n componente principale (ACP)
Inventat a de Karl Pearson n 1901 si introdus a n statistica matematic a
de Harold Hotelling n 1933, analiza n componente principale a nceput s a e
utilizat a efectiv odat a cu aparitia si extinderea calculatoarelor electronice.
Analiza n componente principale, ACP, poate prezentat a din diverse
puncte de vedere:
pentru statisticianul clasic, analiza n componente principale nseamn a
a estima, pornind de la un esantion dat, axele principale ale elipsoidului
indicator al unei distributii normale multidimensionale. Aceasta este
prezentarea intial a a lui Hotelling urmat a apoi de manualele clasice de
analiz a multivariat a (cazul lucr arii fundamentale [2]);
pentru psihologi, analiza n componente principale este un caz particular
de analiz a factorial a utilizat a n psihometrie (cazul dispersiilor nule sau
egale, conform [33]);
n ne, pentru analistii de date, analiza n componente principale este o
tehnic a de reprezentare a datelor cu un caracter optimal din punct de
vedere al unor criterii algebrice sau geometrice, utilizat a, n general, f ar a
vreo referire la ipoteze de natur a statistic a sau la un model particular.
Acest punct de vedere, adoptat n cele ce urmeaz a, este foarte r aspndit
la ora actual a. Este probabil cel mai vechi punct de vedere, reg asindu-se
n lucr arile lui Pearson. Desigur, n prezentarea acestuia nu este vorba
de analiza n componente principale asa cum este ea expus a ast azi, dar
pot deja ntrev azute ideile esentiale ale metodei. O discutie mai larg a
asupra acestui subiect se g aseste n articolul de sintez a [51].
Analiza n componente principale este utilizat a pentru a pune n evident a:
sistemul de relatii existente ntre variabile (asocierea sau opozitia lor);
reprezentarea indivizilor n raport cu variabilelele observate (indivizi care
prezint a caracteristici comune sau antagoniste).
Eventualul utilizator al analizei n componente principale trebuie s a posede
un tabel dreptunghiular de m asur atori n care coloanele reprezint a variabile
16 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
numerice continue, sau care pot considerate continue, iar liniile reprezint a
indivizii pe care au fost m asurate aceste variabile. n biometrie se procedeaz a
frecvent la multiple m asur atori asupra unor organe sau animale, n economie
se nregistreaz a diversi indicatori privind agentii economici.
ntr-o manier a general a, conditia pe care trebuie s a o ndeplineasc a aceste
tabele numerice pentru a face obiectul unei analize n componente principale
este urm atoarea: una dintre dimensiunile tabelului (liniile n general) este
format a din unit ati avnd caracter repetitiv, cealalt a dimensiune poate mai
degrab a eterogen a. n exemplele de mai jos liniile au acest caracter repetitiv.
Acestea vor numite indivizi sau observatii. Coloanele vor desemnate ca
variabile. Uneori liniile pot considerate ca realiz ari independente ale unor
vectori aleatori ale c aror componente corespund la diferite variabile. Dup a
provenienta variabilelor, trei mari categorii de tabele pot face obiectul unui
demers de analiz a n componente principale:
1. Tabelele de m asur atori: variabilele sunt obtinute n urma unui sondaj
sau recens amnt si sunt cantitative.
tabelul 1.2.1. Consumul mediu anual n 1972, exprimat n
franci francezi, pentru 7 tipuri de alimente,
n cazul a 8 categorii socio-profesionale
PAO PAA VIO VIA POT LEC
T

ARANI 167 1 163 23 41 8


SALARIA TI AGRICOLI 162 2 141 12 40 12
LIBER PROFESIONI STI 119 6 69 56 39 5
CADRE SUPERIOARE 87 11 63 111 27 3
CADRE MEDII 103 5 68 77 32 4
FUNC TIONARI 111 4 72 66 34 6
MUNCITORI 130 3 76 52 43 7
INACTIVI 138 7 117 74 53 8
(Surs a: A. Villeneuve, La consommation alimentaire des Franais, collections
de lINSEE, M34)
2. Tabelele de note: variabilele sunt obtinute n urma unor notatii.
Notele sunt variabile calitative ce pot , n general, asimilate cu vari-
abilele cantitative.
tabelul 1.2.2. Notele ob Tinute de 4 studen Ti la 3 materii
MATEMATIC

A FIZIC

A ENGLEZ

A
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 17
3. Tabelele de ranguri: variabilele sunt obtinute n urma unor clasa-
mente si sunt variabile calitative ordinale care pot transformate n
variabile continue.
tabelul 1.2.3. Clasamentul tablourilor a trei pictori,
PIC1 PIC3, realizat de patru exper Ti A D.
A B C D
PIC1 1 3 2 1
PIC2 3 1 1 3
PIC3 2 2 3 2
Dup a cum vom vedea, n functie de transform arile aduse tabelului de
date, analiza n componente principale prezint a numeroase variante: norul
de puncte-indivizi poate centrat sau nu, redus sau nu. Dintre aceste vari-
ante, analiza n componente principale normat a (central-redus a) este cea mai
utilizat a.
1.2.1 Date si caracteristicile lor
Se presupune c a dispunem de observatii asupra a j variabile continue
m asurate pe : indivizi. Valorile sunt "listate" ntr-un tabel de : linii si j
coloane. Not am cu X = (r
ij
)
j=1;p
i=1;n
matricea asociat a tabelului, unde r
ij
este
valoarea luat a de variabila , m asurat a pe individul i.
O variabil a este identicat a prin vectorul-coloan a , al tabelului X (no-
tatie x
j
) iar un individ prin vectorul-linie i (notatie x
i
).
Dac a datele nu au fost culese n urma unui sondaj aleator cu probabilit ati
egale atunci ec arui individ i i se atribuie o pondere
1
j
i
, conform importantei
pe care o are n studiul ntreprins.
Denitia 1.2.1 Se numeste matrice (sau metrica) de ponderi matricea
D = diaq (j
1
, . . . , j
n
) , unde j
i
0, (\) i = 1, : si

i
j
i
= 1.
n cazul indivizilor echiponderati D =
1
n
I
n
, unde I
n
este matricea iden-
titate de dimensiune :.
S a not am c a x
j
poate interpretat ca o selectie de volum : asupra
variabilei , si c a, n acest context:
- media de selec tie a variabilei , este
m(x
j
) = r
j
=

i
j
i
r
ij
,
1
Termenii de "pondere" sau "mas a" sunt utilizati cu acelasi sens n statistic a si desem-
neaz a adesea frecventele relative sau probabilit atile a priori.
18 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
- dispersia de selec tie a variabilei , este
s
2
(x
j
) = :
2
j
=

i
j
i
(r
ij
r
j
)
2
,
- covarian ta de selec tie a variabilelor , si ,
0
este
cov
_
x
j
, x
j
0
_
=
jj
0 =

i
j
i
(r
ij
r
j
)
_
r
ij
0 r
j
0
_
,
- coecientul de corela tie de selectie a variabilelor , si ,
0
este
cor
_
x
j
, x
j
0
_
= r
jj
0 =

jj
0
:
j
:
j
0
.
Denitia 1.2.2 Se numeste punct mediu (centru de greutate) al norului de
puncte-individ e
i

n
i=1
vectorul g
0
= (r
1
, . . . , r
p
).
Se observ a c a:
g = X
0
D1
n
unde 1
0
n
= (1, . . . , 1) R
n
.
ntr-adev ar,
X
0
D1
n
=
_
_
_
_
_
r
11
r
21
. . . r
n1
r
12
r
22
. . . r
n2
.
.
.
.
.
.
r
1p
r
2p
r
np
_
_
_
_
_
_
_
_
_
_
j
1
0 . . . 0
0 j
2
. . . 0
.
.
.
0 0 . . . j
n
_
_
_
_
_
_
_
_
_
_
1
1
.
.
.
1
_
_
_
_
_
=
=
_
_
_
_
_
j
1
r
11
j
2
r
21
j
n
r
n1
j
1
r
12
j
2
r
22
. . . j
n
r
n2
.
.
.
.
.
.
j
1
r
1p
j
2
r
2p
j
n
r
np
_
_
_
_
_
_
_
_
_
_
1
1
.
.
.
1
_
_
_
_
_
=
=
_
i
j
i
r
i1

i
j
i
r
i2
. . .

i
j
i
r
ip
_
0
=
_
r
1
r
2
. . . r
p
_
0
= g.
Denitia 1.2.3 Se numeste tabel centrat asociat lui X matricea
Y = (j
ij
)
j=1;p
i=1;n
unde j
ij
= r
ij
r
j
.
Se numeste tabel centrat-redus asociat lui X matricea
Z = (.
ij
)
j=1;p
i=1;n
unde .
ij
=
j
ij
:
j
.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 19
Lema 1.2.1
a) Y = X1
n
g
0
= (I
n
1
n
1
0
n
D) X.
b) Z = YD1
s
unde D1
s
= diag
_
1
s
1
, . . . ,
1
s
p
_
.
c) Matricea de variant a-covariant a asociat a tabelului X este
V = X
0
DXgg
0
= Y
0
DY.
d) Matricea de corelatie asociat a tabelului X este
R = D1
s
VD1
s
= Z
0
DZ.
Demonstratie. a) Conform denitiei,
Y =
_
_
_
_
_
r
11
r
1
r
12
r
2
. . . r
1p
r
p
r
21
r
1
r
22
r
2
. . . r
2p
r
p
.
.
.
.
.
.
r
n1
r
1
r
n2
r
2
. . . r
np
r
p
_
_
_
_
_
=
=
_
_
_
_
_
r
11
r
12
. . . r
1p
r
21
r
22
. . . r
2p
.
.
.
.
.
.
r
np
r
n2
r
np
_
_
_
_
_

_
_
_
_
_
r
1
r
2
. . . r
p
r
1
r
2
. . . r
p
.
.
.
.
.
.
r
1
r
2
r
p
_
_
_
_
_
=
=
_
_
_
_
_
r
11
r
12
. . . r
1p
r
21
r
22
. . . r
2p
.
.
.
.
.
.
r
np
r
n2
r
np
_
_
_
_
_

_
_
_
_
_
1
1
.
.
.
1
_
_
_
_
_
_
r
1
r
2
. . . r
p
_
= X1
n
g
0
dar
X1
n
g
0
= X1
n
_
X
0
D1
n
_
0
= X1
n
1
0
n
DX =
_
I
n
1
n
1
0
n
D
_
X.
b) Rezult a imediat din denitia lui Z.
c) Relatia V = Y
0
DY rezult a din denitia lui V. Pe de alt a parte,

kk
0 =

i
j
i
(r
ik
r
k
) (r
ik
0 r
k
0 ) =
=

i
j
i
r
ik
r
ik
0

i
j
i
r
ik
r
k
0

i
j
i
r
k
r
ik
0 +

i
j
i
r
k
r
k
0 =
=

i
j
i
r
ik
r
ik
0 r
k
0

i
j
i
r
ik
r
k

i
j
i
r
ik
0 + r
k
r
k
0

i
j
i
=
=

i
j
i
r
ik
r
ik
0 r
k
0 r
k
r
k
r
k
0 + r
k
r
k
0 =

i
j
i
r
ik
r
ik
0 r
k
r
k
0
== V = X
0
DXgg
0
; am folosit faptul c a r
k
=

i
j
i
r
ik
20 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
d)
R = D1
s
VD1
s
= D1
s
Y
0
DYD1
s
=
_
YD1
s
_
0
D
_
YD1
s
_
= Z
0
DZ
unde prima egalitate rezult a din denitia lui R.
Observatia 1.2.1
Relatia Z
0
DZ =
n

i=1
j
i
e
i
e
0
i
este o formul a util a implement arii pe calculator a
metodei deoarece evit a introducerea n memoria RAM a ntregii matrici X.
1.2.1.1 SPA TIUL INDIVIZILOR
S a analiz am exemplul din tabelul 1.2.2.:
MATEMATICA FIZICA ENGLEZA
STUD1 9 8 8
STUD2 10 9 6
STUD3 9 7 10
STUD4 7 5 10
Individul stud1 este caracterizat de cele trei note obtinute: 9 la matem-
atic a, 9 la zic a si 8 la englez a. La fel si indivizii stud2 stud4. Reamintim
c a notatia pentru individul i este e
0
i
. Asadar, pentru exemplul de mai sus:
e
0
1
= (9 8 8), e
0
2
= (10 9 6) etc.
n general, un individ e
0
i
este denit de j coordonate corespunznd valo-
rilor celor j variabile m asurate pe acest individ. l putem, deci, considera ca un
element dintr-un spatiu vectorial F R
p
, pe care l numim spa tiul indivizilor
(g. 1.2.1.). Multimea celor : indivizi formeaz a un "nor de puncte-individ"
n spatiul F, cu g centrul de greutate al norului. n continuare vom nzestra
acest spatiu cu o metric a ce permite denirea distantei dintre indivizi.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 21
fig. 1.2.1. Principiul reprezent

Arii geometrice
Fie MM
p;p
(R), o matrice simetric a, pozitiv denit a, de dimensiune j,
cu coecienti reali.
Denitia 1.2.4 Se numeste matricea produsului scalar ntre indivizi matricea
W = (n
ij
)
j=1;n
i=1;n
, unde n
ij
= e
i
, e
j

si e
i
, e
j
= e
0
i
Me
j
este produsul scalar pe spatiul F denit de metrica M.
Se observ a c a
W = XMX
0
si c a distanta dintre doi indivizi, e
i
si e
j
, din spatiul F este dat a de relatia
d
2
(e
i
, e
j
) = e
i
e
j
, e
i
e
j

M
= |e
i
e
j
|
2
M
n teorie, alegerea metricii depinde de utilizator, singurul care poate pre-
ciza metrica adecvat a. n practic a, metricile cele mai uzitate n ACP sunt:
M= I
p
, ce induce produsul scalar uzual si distanta euclidian a;
M = D 1
s
2
. Utilizarea acestei metrici revine la adimensionalizarea vari-
abilelor deoarece ecare valoare este mp artit a cu abaterea standard de
selectie a variabilei corespunz atoare (
x
ij
s
j
).
Metrica M= I
p
d a ec arei variabile aceeasi important a, independent de
dispersia sa. Utilizarea ei va privilegia variabilele cu dispersie mare, pentru
care diferentele ntre indivizi sunt mari, si va neglija diferentele ntre cele-
lalte variabile. n schimb metrica M= D 1
s
2
echilibreaz a inuenta variabilelor
transformndu-le n variabile cu dispersia de selectie unu.
Observatia 1.2.2
Dac a M= diaq (:
1
, . . . , :
p
) atunci
d
2
(e
i
, e
j
) =
p

k=1
:
k
(r
ik
r
jk
)
2
iar coecientii
_
_
:
k
_
k=1;p
pot considerati ca ponderi ale variabilelor x
j
n
distanta dintre indivizi.
Lema 1.2.2
Matricea produsului scalar ntre indivizi poate ntotdeauna exprimat a n
functie de metrica I
p
.
22 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Demonstratie. ntr-adev ar, dac a M este simetric a si pozitiv denit a atunci
ea poate scris a ca M= T
0
T (conform algoritmului lui Cholesky din [15]).
Atunci e
i
, e
j

M
= e
0
i
Me
j
= e
0
i
T
0
Te
j
= (Te
i
)
0
(Te
j
) = (Te
i
)
0
I
p
(Te
j
), ceea
ce nseamn a c a W =(XT
0
) I
p
(TX
0
), adic a W este matricea produsului scalar
al tabelului XT
0
fat a de metrica M= I
p
.
Corolarul 1.2.1
Utilizarea metricii M = D 1
s
2
pentru tabelul Y revine la folosirea metricii
M= I
p
pentru tabelul centrat-redus Z.
Reamintim c a ipoteza fundamentala a unui demers ACP este aceea c a n-
treaga informatie este continut a n distantele dintre punctele-individ ale noru-
lui. Acest lucru justic a introducerea notiunii de inertie total a
2
.
Denitia 1.2.5 Se numeste iner tie totala (globala) a norului de puncte-individ
media ponderat a a p atratelor distantelor de la punctele-individ la centrul de
greutate al norului, adic a:
1
g
=
n

i=1
j
i
(e
i
g)
0
M(e
i
g) =
n

i=1
j
i
|e
i
g|
2
M
.
Prin analogie, iner tia ntr-un punct oarecare, a R
p
, se deneste ca ind
1
a
=
n

i=1
j
i
|e
i
a|
2
M
.
Propriet atile inertiei globale, puse n evident a de enunturile de mai jos,
sunt utile n demersul ce urmeaz a.
Propozitia 1.2.1 (formula lui Huygens)
Inertia fat a de un punct satisface urm atoarea relatie:
1
a
= 1
g
+ (g a)
0
M(g a) = 1
g
+|g a|
2
M
Demonstratie. ntr-adev ar,
1
a
=
n

i=1
j
i
(e
i
a)
0
M(e
i
a) =
=
n

i=1
j
i
[(e
i
g) + (g a)]
0
M[(e
i
g) + (g a)] =
=
n

i=1
j
i
(e
i
g)
0
M(e
i
g) +
n

i=1
j
i
(e
i
g)
0
M(g a) +
+
n

i=1
j
i
(g a)
0
M(e
i
g) +
n

i=1
j
i
(g a)
0
M(g a) .
2
Termenul iner tie este mprumutat din mecanic a si este sinonim, n acest context, cu
termenul statistic dispersie.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 23
Se observ a c a primul termen al sumei este chiar 1
g
, c a produsul (g a)
0
M(g a)
nu depinde de i, c a
n

i=1
j
i
= 1 si c a produsele (e
i
g)
0
M(g a) si
(g a)
0
M(e
i
g) sunt scalare. Cu aceasta egalitatea de mai sus devine
1
a
= 1
g
+ 2
__
n

i=1
j
i
e
i
0
Mg g
0
Mg
_
+
_
g
0
Ma
n

i=1
j
i
e
i
0
Ma
__
+
+|g a|
2
M
Se noteaz a b
0
= (Mg)
0
= (/
1
, . . . ,/
p
) si reamintind c a q
j
=
n

i=1
j
i
r
ij
rezult a
n

i=1
j
i
e
i
0
Mg g
0
Mg =

i
j
i
p

j=1
r
ij
/
j

j=1
q
j
/
j
=
=
p

j=1
/
j
_

i
j
i
r
ij
_

j=1
q
j
/
j
= 0.
Analog g
0
Ma
n

i=1
j
i
e
i
0
Ma = 0.
Corolarul 1.2.2
Pentru un nor de puncte-individ dat, g, centrul de greutate al norului, mini-
mizeaz a inertia total a.
Lema 1.2.3
Inertia total a este media p atratelor distantelor dintre punctele-individ, adic a:
21
g
=
n

i=1
n

j=1
j
i
j
j
|e
i
e
j
|
2
M
.
Demonstratie. Se aplic a formula lui Huygens pentru ecare punct-individ,
apoi se adun a cele n relatii.
j
1
1
e
1
= j
1
1
g
+|e
1
g|
2
M
j
1
1
e
2
= j
2
1
g
+|e
2
g|
2
M
.
.
.
j
1
1
e
n
= j
n
1
g
+|e
n
g|
2
M
n

j=1
j
j
1
e
j
=
n

j=1
j
j
1
g
+
n

j=1
j
j
|e
i
g|
2
M
=
n

j=1
j
j
n

i=1
j
i
|e
i
e
j
|
2
M
= 1
g
+ 1
g
.
24 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Lema 1.2.4
1. 1
g
= tr (MV) = tr (VM), unde cu tr (A) =
n

i=1
a
ii
s-a notat urma
matricii A M
n;n
(R) .
2. Dac a centrul de greutate al norului este n originea axelor de coordonate,
adic a g = 0, atunci 1
g
= tr (WD) = tr (DW).
Demonstratie.
1. ntr-adev ar
tr (MV) = tr
_
MY
0
DY
_
=
n

i=1
My
i
j
i
y
0
i
=
n

i=1
j
i
(e
i
g)
0
M(e
i
g) = 1
g
.
Analog tr (VM) = 1
g
.
2. Dac a g = 0 atunci 1
g
=
n

i=1
j
i
e
i
0
Me
i
. Pe de alt a parte,
tr (WD) = tr
_
XMX
0
D
_
=
n

i=1
e
i
0
Me
i
j
i
= 1
g
=
n

i=1
j
i
e
i
0
Me
i
=
= tr
_
DXMX
0
_
= tr (DW) .
Observatia 1.2.3
1. Dac a M= I
p
inertia este egal a cu suma dispersiilor de selectie a celor j
variabile.
2. Dac a M = D 1
s
2
atunci 1
g
= tr
_
D 1
s
2
V
_
= tr
_
D1
s
VD1
s
_
= tr (R) =
p

j=1
r
jj
=
p

j=1
1 = j, asa cum rezult a din Lema 1.2.4. Inertia este, n acest
caz, egal a cu num arul variabilelor si nu depinde de valorile acestora.
1.2.1.2 SPA TIUL VARIABILELOR
Fiecare variabil a x
j
poate considerat a ca un vector al unui spatiu vec-
torial E _R
n
numit spa tiul variabilelor. Multimea celor j variabile formeaz a
un "nor de puncte-variabil a" n E (g. 1.2.1.). Metrica utilizat a n spatiul
variabilelor este dat a de D, matricea diagonal a a ponderilor indivizilor. Cu
acestea se observ a:
Lema 1.2.5
Dac a variabilele sunt centrate atunci:
a) produsul scalar indus de metrica D este egal cu covarianta de selectie
dintre cele dou a variabile necentrate;
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 25
b) norma ("lungimea") unei variabile este egal a cu abaterea standard de
selectie a variabilei necentrate;
c) unghiul dintre dou a variabile este egal cu coecientul de corelatie liniar a
de selectie al variabilelor necentrate.
Demonstratie. ntr-adev ar:
1. y
j
, y
k

D
= y
0
j
Dy
k
=
n

i=1
j
i
(r
ij
r
j
) (r
ik
r
k
) = cov (x
j
, x
k
) .
2. |y
j
|
2
D
= y
j
, y
j

D
= y
0
j
Dy
j
=
n

i=1
j
i
(r
ij
r
j
)
2
=s
2
(x
j
).
3. Fie 0
jk
unghiul dintre variabilele y
j
si y
k
. Atunci
cos (0
jk
) =
y
j
, y
k

D
|y
j
|
D
|y
k
|
D
=
cov (x
j
, x
k
)
: (x
j
) : (x
k
)
=

jk
:
j
:
k
= cor (x
j
, x
k
) .
Corolarul 1.2.3
a) Mediile de selectie ale variabilelor y
j

p
j=1
sunt nule, dispersiile de se-
lectie sunt egale cu dispersiile de selectie ale variabilelor x
j

p
j=1
si coe-
cientii de corelatie de selectie sunt egali cu coecientii de corelatie de
selectie ai variabilelor x
j

p
j=1
.
b) Mediile de selectie ale variabilelor z
j

p
j=1
sunt nule, dispersiile de se-
lectie sunt unitare si coecientii de corelatie liniar a de selectie sunt egali
cu coecientii de corelatie liniar a de selectie a variabilelor x
j

p
j=1
.
Din cele de mai sus rezult a:
Lema 1.2.6
d
2
(z
j
, z
k
) = 2 (1 r
jk
)
Demonstratie.
d
2
(z
j
, z
k
) = z
j
z
k
, z
j
z
k

0
D
=
n

i=1
j
i
(.
ij
.
ik
)
2
=
=
n

i=1
j
i
.
2
ij
+
n

i=1
j
i
.
2
ik
2
n

i=1
j
i
.
ij
.
ik
.
Conform corolarului de mai sus,
n

i=1
j
i
.
2
ij
= :
2
(z
j
) = 1 = :
2
(z
k
) =
n

i=1
j
i
.
2
ik
si
26 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
n

i=1
j
i
.
ij
.
ik
= cor (z
j
, z
k
) = r
jk
,
ceea ce implic a relatia din enunt.
Sistemul de proximit ati dintre dou a puncte-variabil a din E, indus de
relatia din Lema 1.2.6, este familiar statisticianului:
- dou a variabile puternic corelate sunt foarte apropiate una de cealalt a
(deoarece r
jk
- 1 implic a
d
2
(z
j
, z
k
) - 0) sau, din contr a, foarte dep ar-
tate (deoarece r
jk
- 1 implic a
d
2
(z
j
, z
k
) - 4), dup a cum relatia liniar a
care le leag a este direct a sau invers a;
- dou a variabile necorelate, deci ortogonale, sunt la distant a medie (deoa-
rece r
jk
- 0 implic a
d
2
(z
j
, z
k
) - 2 ).
fig. 1.2.2. Corela Tiile Si distan Tele ntre punctele-variabil

A
Proximitatea ntre dou a puncte-variabile se interpreteaz a, deci, n ter-
meni de corelatii
fig. 1.2.3. Sistemul de proximit

A Ti ntre dou

A puncte-variabil

A
Din Corolarul 1.2.3 punctul a) rezult a c a toate punctele-variabil a se a a
pe hipersfera de raz a 1, centrat a n originea axelor. Aceast a hipersfer a se
numeste sfera de corela tie.
Planurile n care vor proiectate variabilele intersecteaz a sfera dup a
cercurile diametrale, de raz a 1, numite cercuri de corela tie, n interiorul c arora
se a a proiectiile punctelor-variabil a.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 27
fig. 1.2.4. Reprezentarea sferei Si cercului de corela Tie
Observatia 1.2.4
Operatia de centrare a tabelului X are n spatiile R
p
si R
n
interpret ari geo-
metrice diferite.
- n R
p
aceast a transformare echivaleaz a cu o translatie a originii axelor
n centrul de greutate (punctul mediu) al norului.
- n R
n
aceast a transformare este o proiectie pe hiperplanul ce trece prin
originea axelor si este ortogonal pe dreapta ce trece prin originea axelor
si are ca parametri directori j
i

n
i=1
. Matricea P = I
n
1
n
1
0
n
D aso-
ciat a acestei transform ari este idempotent a (P
2
= P ) si M-simetric a
(P
0
M= MP ), cu M= I
n
. Ea este matricea proiectiei M-ortogonale
pe subspatiul generat de vectorii coloan a liniari independenti ai matricii
Y. Coordonatele acestor vectori satisfac relatia

i
j
i
j
ij
= 0, (\) , = 1, j,
ce reprezint a ecuatia unui hiperplan n R
n
care trece prin originea axelor
si are ca normal a n punctul 0
n
dreapta de parametri directori j
i

n
i=1
.
Dac a D =
1
n
I
n
atunci hiperplanul este ortogonal pe prima bisectoare.
Denitia 1.2.6 (conform [14]) Se numeste studiu un triplet (Y, M, D) unde:
- Y este matricea centrat a asociat a tabelului de date indivizi-variabile;
- M este o metric a n spatiul vectorial al indivizilor, F ;
- D este metrica ponderilor n spatiul vectorial al variabilelor, E.
Studiul este caracterizat de dou a obiecte:
- matricea W = YMY
0
a produsului scalar ntre indivizi;
- matricea V = Y
0
DY de variant a-covariant a a variabilelor centrate.
28 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.2.2 Analiza general a. Descompunerea n valori singulare
S-a ar atat mai sus cum liniile si coloanele unui tabel dreptunghiular
permit denirea norilor de puncte.
Pozitia punctelor n nor este dat a de multimea distantelor ntre toate
punctele si determin a forma norului.
fig 1.2.5. Nor de puncte ce ilustreaz

A o rela Tie liniar

A ntre
variabile
fig. 1.2.6. Nor de puncte ce ilustreaz

A o rela Tie neliniar

A ntre
variabile
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 29
fig 1.2.7. Nor de puncte ce ilustreaz

A absen Ta unei rela Tii ntre


variabile
Forma norului este cea care caracterizeaz a natura si intensitatea relatiilor
ntre indivizi (liniile) si ntre variabile (coloanele) si relev a structurile de in-
formatii continute n date.
De exemplu, un nor de puncte alungit uniform de-a lungul unei drepte
(g. 1.2.5.) traduce existenta unei relatii liniare dominante ntre puncte,
n timp ce o form a parabolic a (g. 1.2.6.) ilustreaz a existenta unei relatii
neliniare iar o form a sferic a (g 1.2.7.) indic a, mai degrab a, absenta unei
relatii.
O modalitate simpl a de a reda vizual forma unui nor este aceea de a-l
proiecta pe o dreapt a, sau mai bine pe un plan, minimiznd deform arile pe
care aceast a proiectie le implic a; aceasta este esenta analizei generale. n cele
ce urmeaz a se va prezenta detaliat programul enuntat.
Matricea W = YMY
0
este o matrice simetric a, de dimensiune :, al c arui
termen general n
ij
= e
0
i
Me
j
este un produs scalar ntre indivizii i si ,. Indi-
vizii apartin unui spatiu vectorial euclidian (F, M) de dimensiune j, deoarece
sunt j variabile.
Denitia 1.2.7 Se numeste imagine euclidiana a indivizilor asociat a pro-
duselor scalare n
ij
, un nor compus din : puncte
1;:::;

n
si dintr-un punct
O din F astfel nct aceste puncte s a reconstituie produsele scalare n
ij
, adic a
O
i;
O
j
= n
ij
, (\) i, , = 1, :, unde produsul scalar , este denit de
metrica euclidian a I
p
.
Matricea V = Y
0
DY este o matrice simetric a, de dimensiune j, al c arui
termen general
ij
= y
0
i
Dy
j
este un produs scalar ntre variabilele i si ,.
Variabilele apartin unui spatiu vectorial euclidian (E, D) de dimensiune : (de-
oarece sunt : indivizi).
Denitia 1.2.8 Se numeste imagine euclidiana a variabilelor asociat a pro-
duselor scalare
ij
, un nor compus din p puncte 1
1;:::;
1
p
si dintr-un punct
O din E astfel nct aceste puncte s a reconstituie produsele scalare
ij
, adic a
O1
i;
O1
j
=
ij
, (\) i, , = 1, j, unde produsul scalar , este denit de
metrica euclidian a I
n
.
Dac a dimensiunea spatiului vectorial n care se lucreaz a este egal a cu 3
atunci imaginea euclidian a a unui nor de puncte poate vizualizat a. Dac a
dimensiunea spatiului este strict superioar a lui 3 atunci acest lucru devine
imposibil. n acest caz trebuie c autat a o imagine euclidian a aproximativ a. S a
not am c a exist a o innitate de imagini euclidiene ale aceluiasi nor de puncte.
Dou a imagini euclidiene sunt echivalente dac a ele reconstituie aceleasi produse
scalare.
30 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.2.1.3 ANALIZA NORULUI DE PUNCTE-INDIVID
S a ne plas am, mai nti, n spatiul F R
p
al indivizilor, n care tabelul Y
poate reprezentat ca un nor de : puncte-individ centrate n punctul mediu
al norului si ale c aror j coordonate reprezint a liniile lui Y. Principiul metodei
ACP const a n reprezentarea aproximativ a a norului de puncte-individ ntr-un
subspatiu de dimensiune mult mai mic a (de regul a egal a cu 2). Se pleac a, deci,
de la o imagine euclidian a dintr-un spatiu an de dimensiune j si se ajunge la
o imagine euclidian a ntr-un spatiu an de dimensiune j
3
.
Demersul de mai sus se realizeaz a prin proiectia punctelor-individ pe un
subspatiu F
q
de dimensiune , obtinut astfel nct media p atratelor distantelor
ntre proiectii s a e maxim a sau, tinnd cont de Lema 1.2.3., inertia norului
proiectat pe F
q
s a e maxim a sau, n ne, deformarea distantelor prin proiectie
s a e minim a.
Cu notatiile de mai sus, problema ce trebuie rezolvat a se formuleaz a
astfel:
"o a :c q a:ca:c a H = F
q
a:t)c| ^i:c^ at max
n

i=1
d
2
(y
i
, 0) "
4
Solutia problemei este dat a de urm atoarea teorem a:
Teorema 1.2.1 Subspa tiul de dimensiune pe care se proiecteaza optim, n
sensul celor mai mici patrate, cele : puncte din R
p
este generat de primii
vectori proprii ai matricii A = VMM
p;p
(R) corespunzatori valorilor proprii
`
1
`
2
. . . `
q
, unde V este matricea de varian ta-covarian ta asociata
tabelului X si M este metrica spa tiului indivizilor.
Demonstratie. S a not am cu 1
1;:::;
1
n
proiectiile pe Hale punctelor
1;:::;

si s a observ am c a:
O
i
2
= O1
i
2
+
i
1
i
2
, i = 1, :,
conform teoremei lui Pitagora, sau
n

i=1

i
1
i
2
=
n

i=1
O
i
2

i=1
O1
i
2
, i = 1, :, (1)
Cum O
i
2
sunt xe pentru i = 1, :, deoarece norul de puncte-individ este dat,
a minimiza deform arile produse prin proiectii este echivalent cu a minimiza
3
Dac a rg(Y) = q atunci problema aproxim arii este practic rezolvat a. ntr-adev ar, este
sucient s a g asim o baz a a subspatiului vectorial de dimensiune q din R
p
ce contine norul
de puncte-individ si s a calcul am coordonatele punctelor n noua baz a. Vom putea astfel
reconstitui cei np coecienti ai tabelului Y pornind de la cei qp + np = (n + p)q coecienti
deniti mai sus.
4
Dac a se lucreaz a pe tabelul X atunci problema se formuleaz a astfel: S a se g aseasc a
H F
q
astfel nct max
(H)
n
P
i=1
d
2
(e
i
; g)
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 31
suma ponderat a a p atratelor distantelor de la punctele
1;:::;

n
la subspatiul
H, adic a a aa min
n

i=1
j
i

i
1
i
2
sau, conform relatiei (1), max
n

i=1
j
i
O1
i
2
.
Fie a un vector M-normat din R
p
, adic a a
0
Ma =1. Coordonata proiectiei
1
i
a punctului
i
pe dreapta
a
avnd ca suport pe a este O1
i
= y
0
i
Ma .
Coordonatele tuturor punctelor 1
i
pe
a
sunt YMa, de unde rezult a c a:
n

i=1
j
i
O1
i
2
= a
0
MY
0
DYMa = a
0
MVMa = a
0
MAa.
Asadar, dac a H =
a
, atunci g asirea lui H s-a redus la urm atoarea problem a
de programare p atratic a cu restrictii liniare:
_
max
(a)
a
0
MAa
a
0
Ma =1
.
Pentru a rezolva problema de mai sus se utilizeaz a metoda multiplicatorilor lui
Lagrange (vezi paragraful 1.1.7). Fie, deci, lagrangeanul L = a
0
MAa`(a
0
Ma1),
cu ` multiplicator Lagrange. Rezult a
0L
0a
= 2MAa 2`Ma deoarece MA este o matrice simetric a.
Dar
0L
0a
= 0 =MAa =`Ma (2)
nmultind la stnga relatia (2) cu a
0
si tinnd cont c a a este M-normat rezult a
` = a
0
MAa.
Valoarea parametrului ` este, deci, maximul c autat. Cum matricea M este
pozitiv denit a rezult a c a ea este inversabil a si nmultind relatia (2) la stnga
cu M
1
se obtine
Aa = `a,
adic a a este vector propriu al matricii A, corespunznd celei mai mari valori
proprii `, dac a aceasta este unic a; s a le not am cu a
1
respectiv `
1
.
S a c aut am vectorul a
2
din R
p
, M-normat si M-ortogonal pe a
1
(adic a
a
0
2
Ma
2
=1 si a
0
1
Ma
2
=0) care maximizeaz a forma p atratic a a
0
2
MAa
2
. Analog
cu demersul de mai sus, se anuleaz a derivatele lagrangeanului
L = a
0
2
MAa
2
`
2
_
a
0
2
Ma
2
1
_
j
2
a
0
1
Ma
2
.
0L
0a
2
= 0 =2MAa
2
2`
2
Ma
2
j
2
Ma
1
= 0.
nmultind relatia de mai sus cu a
0
1
la stnga, se obtine
a
0
1
MAa
2
`
2
a
0
1
Ma
2
j
2
a
0
1
Ma
1
= 0, sau
`
2
a
0
1
Ma
2
j
2
= 0 =j
2
= 0.
32 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
R amne, ca n cazul precedent
MAa
2
= `
2
Ma
2
ceea ce implic a faptul c a a
2
este al doilea vector al matricii A relativ la a doua
valoare proprie `
2
, dac a aceasta este unic a.
Demonstratia se repet a analog pentru ceilalti vectori M-normati, a
k

R
p
, / _ , M-ortogonali cu vectorii a
j
g asiti nainte (pentru a
0
k
Ma
j
=0, , < /)
si care maximizeaz a forma p atratic a a
0
k
MAa
k
. Se obtine MAa
k
= `
k
Ma
k
si
cum M este inversabil a, Aa
k
= `a
k
.
Observatia 1.2.5
1. Teorema 1.2.1 poate demonstrat a folosind formula proiectorului M-
ortogonal pe H(conform [53]) sau bazndu-se pe descompunerea M= T
0
T
(conform [41]).
2. Cum A este o matrice M-simetric a, pozitiv denit a, cu coecienti reali,
valorile sale proprii sunt reale si pozitive (conform [15]). Vectorii proprii
ai matricii A sunt M-ortonormati.
Denitia 1.2.9 Matricea A se numeste matricea iner tiei .
Denitia 1.2.10 Imaginea euclidian a a norului de puncte-individ obtinut a
prin proiectia pe subspatiul H dat de Teorema 1.2.1 se numeste imaginea
euclidiana a punctelor-individ asociate aproximatiei de ordinul a produselor
scalare.
Lema 1.2.7
1
g
= tr (A) =
p

j=1
`
j
Demonstratie. Matricea inertiei, A = VM, este real a si M-simetric a. Atunci,
conform [15]
A = LL
1
cu L matricea vectorilor proprii corespunz atori valorilor proprii `
1
, `
2
, . . . , `
p
ai matricii A si =diag (`
1
, `
2
, . . . , `
p
). Cu acestea
tr (A) = tr
_
LL
1
_
= tr
_
LL
1

_
,
deoarece tr (BC) = tr (CB) dac a produsele BC si CB au sens. Rezult a
tr (A) = tr () = tr (diag (`
1
, `
2
, . . . , `
p
)) =
p

j=1
`
j
si din Lema 1.2.4 rezult a
1
g
= tr (VM) = tr (A) .
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 33
Denitia 1.2.11 Se numesc axe principale de iner tie vectorii proprii, M-
normati, a
j
, ai matricii de inertie A .
Denitia 1.2.12 Se numeste factor principal asociat axei principale a
j
si se
noteaz a cu u
j
forma liniar a din R
p
denit a de relatia u
j
= Ma
j
.
Lema 1.2.8
Factorii principali u
j

p
j=1
sunt vectorii proprii ai matricii MV asociati valo-
rilor proprii `
j

p
j=1
ale matricii A = VM.
Demonstratie. ntr-adev ar
MVu
j
= MVMa
j
= MAa
j
= `
j
Ma
j
= `
j
u
j
si u
0
j
M
1
u
j
= a
0
j
MM
1
Ma
k
= a
0
j
Ma
k
= c
jk
.
Denitia 1.2.13 Se numeste plan factorial principal subsatiul F
2
, generat de
vectorii u
1
, u
2
.
Denitia 1.2.14 Se numeste componenta principala asociat a factorului prin-
cipal u
j
si se noteaz a cu c
j
forma liniar a din R
n
denit a de relatia c
j
= Yu
j
.
Observatia 1.2.6
Din denitie, c
j
este proiectia M-ortogonal a a indivizilor pe axa principal a
a
j
. ntr-adev ar,
Lema 1.2.9
Componentele principale c
j

p
j=1
sunt vectorii proprii ai matricii WD, asociati
valorilor proprii `
j

p
j=1
ale matricii A. Componentele principale sunt D-
ortogonale, deci necorelate.
Demonstratie.
WDc
j
= YMY
0
DYMa
j
= YMVMa
j
= YMAa
j
=
= `
j
YMa
j
= `
j
Yu
j
= `
j
c
j
.
c
0
j
Dc
k
= u
0
j
Y
0
DYu
k
= u
0
j
Vu
k
= a
0
j
MVMa
k
=
= a
0
j
MAa
k
= a
0
j
M(`
k
a
k
) = `
k
a
0
j
Ma
k
= `
k
c
jk:
Lema 1.2.10
a) Mediile de selectie ale componentelor principale sunt nule (pe datele
centrate si centrat-reduse).
b) Dispersia de selectie a componentei principale c
j
este `
j
- valoarea pro-
prie a matricii inertiei, A, pentru (\) , = 1, j.
34 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Demonstratie.
1. ntr-adev ar, cum c
j
= Yu
j
, atunci
m(c
j
) =
n

i=1
j
i
c
ij
=
n

i=1
j
i
p

k=1
j
ik
n
kj
=
p

k=1
_
n

i=1
j
i
j
ik
_
n
kj
=
=
p

k=1
m(y
k
) n
kj
= 0,
conform Corolarului 1.2.3. Analog pentru c
j
= Zu
j
.
2.
s
2
(c
j
) = c
0
j
Dc
j
= u
0
j
Y
0
DYu
j
= u
0
j
Vu
j
= a
0
j
MVMa
j
=
= a
0
j
MAa
j
= a
0
j
M(`
j
a
j
) = `
j
a
0
j
Ma
j
= `
j
.
Propozitia 1.2.2
1. Componentele principale sunt combinatii liniare de variabilele initiale,
de dispersie maxim a si care satisfac restrictiile u
0
j
M
1
u
j
= 1.
2. n cazul unei ACP normate, componentele principale c
j

p
j=1
asoci-
ate valorilor proprii `
j

p
j=1
ale matricii A sunt variabilele cele mai
"legate" de variabilele initiale, z
1
, . . . , z
p
, n sensul c a suma p atratelor
coecientilor de corelatie cor (c
j
, z
k
)
p
k=1
este maxim a, pentru oricare
, = 1, j.
Demonstratie.
a) S a consider am o combinatie liniar a de variabilele initiale x
1
, . . . , x
p
; e
aceasta c =
p

j=1
n
j
x
j
sau vectorul c = Xu. Ne propunem s a g asim pe
u
0
= (n
1
, . . . , n
p
) astfel nct
_
max
(u)
s
2
(c
j
)
u
0
M
1
u =1
=
_
max
(u)
c
0
Dc
u
0
M
1
u =1
=
_
max
(u)
u
0
X
0
DXu
u
0
M
1
u =1
Solutia problemei de programare p atratic a cu restrictii liniare de mai
sus este, conform unui rationament analog cu cel din Teorema 1.2.1,
vectorul propriu u
1
al matricii MV asociat celei mai mari valori proprii
`
1
(cum MV este simetric a si pozitiv denit a, `
1
exist a, este real si strict
pozitiv). Dar u
1
este, conform denitiei, chiar factorul principal rezultat
dintr-o ACP pe tabelul X iar valoarea maxim a a functiei este `
1
.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 35
b) S a reamintim mai nti c a, n cazul unei ACP normate, X Z si M =
I
p
. Cu acestea:
cor
2
(c, z
j
) =
cov
2
(c, z
j
)
s
2
(c) s
2
(z
j
)
=
(c
0
Dz
j
)
2
s
2
(c)
p

j=1
cor
2
(c, z
j
) =
1
s
2
(c)
p

j=1
_
c
0
Dz
j
_ _
c
0
Dz
j
_
0
=
=
1
s
2
(c)
c
0
D
_
_
p

j=1
z
j
z
0
j
_
_
Dc,
si cum
p

j=1
z
j
z
0
j
= ZZ
0
rezult a
p

j=1
cor
2
(c, z
j
) =
c
0
DZZ
0
Dc
c
0
Dc
. Problema s-a
redus la a g asi max
(c)
c
0
DZZ
0
Dc
c
0
Dc
.
S a remarc am c a DZZ
0
Dsi D sunt matrici reale, simetrice si de ordin :.
Un punct de extrem al ctului de mai sus se obtine anulnd derivata sa, ceea
ce implic a
(c
0
Dc) (2DZZ
0
Dc) (c
0
DZZ
0
Dc) (2Dc)
(c
0
Dc)
2
= 0.
Din (c
0
Dc) DZZ
0
Dc =(c
0
DZZ
0
Dc) Dc rezult a
D
1
_
DZZ
0
D
_
c =
_
c
0
DZZ
0
Dc
c
0
Dc
_
c.
Prin urmare, c este vectorul propriu al matricii ZZ
0
D, asociat valorii proprii
` =
_
c
0
DZZ
0
Dc
c
0
Dc
_
. Maximul este, deci, atins dac a aceast a valoare proprie este
cea mai mare.
Din ipotez a, c este o combinatie liniar a de variabile initiale, adic a c = Zu.
nlocuind n relatia de mai sus se obtine
ZZ
0
DZu =`Zu
si cum Z
0
DZ = R =ZRu =`Zu iar Z este de rang j, rezult a Ru =`u, adic a
u este vectorul propriu al matricii R, asociat valorii proprii maxime. n ACP
normat A = R si axele principale coincid cu factorii principali, deci c = Zu
este chiar componenta principal a obtinut a prin proiectia indivizilor pe axa
principal a a = u.
Un rezumat al elementelor principale ce intervin ntr-o ACP pe norul de
puncte-indivd se g aseste n tabelul de mai jos:
36 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
tabelul 1.2.4. Propriet

A Tile elementelor principale dintr-o acp


pe norul de puncte-individ
Elemente principale Denitie Propriet ati Relatii
Axe principale: VMa = `a M-ortonormate
a R
p
Factori principali: u = Ma M
1
- ortonormati MVu = `u
u (R
p
)
?
Componente principale: c = Yu D-ortogonale WDc = `c
c R
n
sau c = Zu s
2
(c) = ` si analoaga
1.2.2.1 ANALIZA NORULUI DE PUNCTE-VARIABIL

A
S a consider am acum spatiul E R
n
, al variabilelor, n care tabelul Y
poate reprezentat ca un nor de j puncte-variabil a ale c aror : coordonate
reprezint a coloanele lui Y.
Principiul metodei ACP n acest caz este identic cu cel utilizat pentru
reprezentarea norului de puncte-individ si const a n g asirea axelor principale
si a subspatiului an dimensional, E
q
R
n
, generat de aceste axe si care
aproximeaz a optim norul de puncte-variabil a. Aceasta nseamn a s a e max-
imizat a media p atratelor distantelor dintre cele j proiectii pe E
q
, adic a de
rezolvat problema de programare p atratic a cu restrictii liniare
_
max
(b)
b
0
DYMY
0
Db
b
0
Db =1
.
Teorema 1.2.1 arat a c a b este vectorul propriu al matricii B = YMY
0
D
(D-simetric a, real a), corespunznd celei mai mari valori proprii j. Ecuatia
axei factoriale b din R
n
este:
_
YMY
0
Db =jb
b
0
Db =1
.
ecuatia factorului principal v din (R
n
)
?
este v = Db si ecuatia componentei
principale d din R
p
este d = Y
0
v sau d = Z
0
v. Analog ca n cazul norului de
puncte-individ se poate enunta
Lema 1.2.11
a) Factorii principali v
i
(R
n
)
?
, i = 1, : sunt D
1
-ortonormati si satisfac
relatiile DYMY
0
v
i
= j
i
v
i
.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 37
b) Componentele principale d
i
R
p
, i = 1, : sunt M-ortogonale, au dis-
persia de selectie egal a cu j si satisfac relatiile X
0
DXMd
i
= j
i
d
i
.
Demonstratie.
a) ntr-adev ar
v
0
i
D
1
v
j
= b
0
i
DD
1
Db
j
= b
0
i
Db
j
= c
ij
si
DYMY
0
v = DYMY
0
Db =jDb =jv.
b) ntr-adev ar
d
0
i
Md
j
= v
0
i
YMY
0
v
j
= b
0
i
D
_
YMY
0
Db
j
_
=
= b
0
i
D
_
j
j
b
j
_
= j
j
_
b
0
i
Db
j
_
= j
j
c
ij
,
X
0
DXMd = X
0
DXMX
0
v = X
0
D
_
XMX
0
Db
_
= X
0
D(jb) = jd,
s
2
(d) = d
0
Md = v
0
XMX
0
v = b
0
DXMX
0
Db =
= b
0
D(jb) = jb
0
Db =j.
Denitia 1.2.15 Se numeste cerc de corela tie principal subspatiul E
2
generat
de vectorii v
1
, v
2
.
n cazul ACP normat norul de puncte-variabil a se a a pe hipersfera de
corelatie deci planul factorial va intersecta aceast a hipersfer a dup a un cerc
diametral (vezi Corolarul 1.2.3 si Observatia 1.2.4).
Un rezumat al elementelor principale ce intervin ntr-o ACP pe norul de
puncte-variabil a se g aseste n tabelul de mai jos:
tabelul 1.2.5. Propriet

A Tile elementelor principale dintr-o acp


pe norul de puncte-variabil

A
Elemente Denitie Propriet ati Relatii
principale
Axe principale: YMY
0
Db = jb D-ortonormale
b R
n
Factori principali: v = Db D
1
- ortonormati DYMY
0
v = jv
v (R
n
)
?
Componente d = Y
0
v M-ortogonale X
0
DXMd = jd
principale: sau d = Z
0
v s
2
(d) = j si analoaga
d R
p
38 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.2.2.2 RELA TII DE TRANZI TIE NTRE CELE DOU

A SPA TII
Se observ a c a, din punct de vedere numeric, o analiz a n componente principale
a unui studiu se reduce la calculul primelor valori si vectori proprii asociati
ai matricilor VM= Y
0
DYM M
p;p
(R) si WD = YMY
0
D M
n;n
(R). O
ntrebare natural a este urm atoarea: exist a o relatie ntre elementele principale
dintr-o ACP pe spatiul (F, M) si elementele principale dintr-o ACP pe spatiul
(E, D)? R aspunsul la aceast a ntrebare este oferit de urm atoarea propozitie:
Propozitia 1.2.3
(relatia de tranzitie ntre spatiul indivizilor si spatiul variabilelor)
Toate valorile proprii nenule ale matricilor Y
0
DYM si YMY
0
D sunt egale
avnd, eventual, acelasi ordin de multiplicitate si, pentru `
j
,= 0, sunt ade-
v arate urm atoarele relatii de tranzitie ntre cele dou a spatii, F R
p
si E R
n
:
_
b
j
=
1
_

j
YMa
j
=
1
_

j
Yu
j
=
1
_

j
c
j
a
j
=
1
p

j
Y
0
Db
j
=
1
_

j
Y
0
v
j
=
1
_

j
d
j
, , = 1, rg (Y
0
Y).
Demonstratie. n R
p
exist a relatia
Y
0
DYMa
j
= `
j
a
j
(1)
iar n R
n
relatia
YMY
0
Db
j
=j
j
b
j
(2)
nmultind la stnga egalitatea (1) cu YM se obtine
_
YMY
0
D
_
(YMa
j
) = `
j
(YMa
j
) (3)
relatie care arat a c a oric arui vector propriu a
j
al lui Y
0
DYM corespunz ator
unei valori proprii `
j
,= 0 i corespunde un vector propriu YMa
j
al matricii
YMY
0
Drelativ la aceeasi valoare proprie `
j
. Cum cu j
1
a fost notat a valoarea
proprie maxim a a matricii YMY
0
D rezult a, n mod necesar, c a `
1
_ j
1
.
Pe de alt a parte, nmultind la stnga egalitatea (2) cu Y
0
D se obtine
_
Y
0
DYM
_ _
Y
0
Db
j
_
=j
j
_
Y
0
Db
j
_
(4)
relatie care arat a c a oric arui vector propriu b
j
al lui YMY
0
D corespunz ator
unei valori proprii j
j
,= 0 i corespunde un vector propriu Y
0
Db
j
al matricii
Y
0
DYMrelativ la aceeasi valoare proprie j
j
. Cum cu `
1
a fost notat a valoarea
proprie maxim a a matricii Y
0
DYM rezult a, n mod necesar, c a j
1
_ `
1
, ceea
ce arat a, n nal, c a j
1
= `
1
.
Analog se poate ar ata c a toate valorile proprii nenule ale celor dou a
matrici, Y
0
DYM si YMY
0
D, sunt egale, avnd eventual acelasi ordin de
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 39
multiplicitate, adic a
5
:
`
j
= j
j
,= 0, , = 1, rg (Y
0
Y)
`
j
= 0, , = rg (Y
0
Y) + 1, j
j
j
= 0, , = rg (Y
0
Y) + 1, :
(se poate ar ata usor, avnd n vedere propriet atile matricilor M si D, c a
rg (Y
0
DYM) = rg (Y
0
Y) = rg (YMY
0
D) = rg (YY
0
)).
Revenind la relatia (3) se observ a c a aceasta este vericat a de orice vec-
tor de forma b =/YMa, cu / constant a ce se determin a din conditia de D-
ortonormalitate a lui b. ntr-adev ar:
1 = b
0
Db =/
2
a
0
MY
0
DYMa =/
2
a
0
M(`a) = /
2
`a
0
Ma =/
2
`,
ceea ce implic a / =
1
p

deci b =
1
p

YMa dac a ` ,= 0.
Analog, relatia (4) este vericat a de orice vector de forma a =/Y
0
Db
cu / constant a ce se determin a din conditia de M-ortonormalitate a lui a. Se
obtine / =
1
p

deci b =
1
p

YMa =
1
p

YMa pentru j = ` ,= 0.
Observatia 1.2.7
1. Propozitia 1.2.3 demonstreaz a c a este sucient s a calcul am valorile si
vectorii proprii ai matricii cu dimensiunea cea mai mic a iar apoi, prin
relatiile de tranzitie, s a obtinem elementele pincipale din cel alalt spatiu.
Cum, n general, num arul de variabile este mai mic dect num arul de
indivizi, adic a j < :, este sucient ca analiza n componente principale
s a se efectueze pe norul de puncte-individ, elementele principale pentru
norul de puncte-variabi a obtinndu-se prin relatiile de tranzitie.
2. Coordonalele punctelor pe o ax a factorial a n R
p
sunt proportionale cu
componentele axei factoriale din R
n
corespunz atoare aceleiasi valori pro-
prii si reciproc. ntr-adev ar c = Xu si d = X
0
v si tinnd cont de relatiile
de tranzitie rezult a c =
_
b si d =
_
a.
Referitor la analiza n componente principale trebuie s a remarc am:
3. Orientarea axelor factoriale este arbitrar a deoarece vectorii proprii sunt
determinati modulo semnul lor. Acest lucru nu mpieteaz a asupra formei
norului, adic a a distantelor ntre puncte.
4. Analiza n componente principale nu pune n evident a dect leg aturile
liniare ntre variabile. Un coecient de corelatie slab ntre dou a variabile
semnic a doar c a acestea sunt independente liniar, n timp ce poate
exista o relatie de ordin superior lui 1 (relatie neliniar a).
5
n relatiile al aturate, ca si n cele ce urmeaz a, se utilizeaz a conventia: n Rela tie(j),
j = a; b; dac a a > b atunci Rela tie(j) nu exist a.
40 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
5. Coordonata unui punct-variabil a z
k
pe axa b
j
este mai mic a sau egal a
cu 1 n valoare absolut a, neind altceva dect coecientul de corelatie
al variabilei cu factorul v
j
considerat ca o variabil a articial a ale c arui
coordonate sunt date de cele : proiectii ale indivizilor pe aceast a ax a,
conform relatiilor de tranzitie. n plus, n cazul datelor centrat-reduse,
p

j=1
cor
2
(z
k
, v
j
) = a
0
k
Ma
k
= 1 .
1.2.2.3 RECONSTITUIREA DATELOR INI TIALE
Metodele de analiz a factorial a rezid a toate pe reprezentarea geometric a a
unei propriet ati a matricilor dreptunghiulare si anume descompunerea n valori
singulare. Descompunerea a fost obtinut a de Eckart si Young n 1936 pentru
matrici dreptunghiulare si generalizeaz a lucr arile lui Sylvester din 1889 relativ
la matrici p atratice; Gi n [28] mentioneaz a, relativ la aceast a problematic a,
si lucr arile lui Beltrami din 1873 si pe acelea ale lui Jordan din 1874.
n principal, descompunerea n valori singulare semnic a faptul c a, n
conditii destul de generale, o matrice dreptunghiular a poate reprezentat a n
mod unic ca o sum a optimal a (n sensul minimului celor mai mici p atrate)
de matrici de rang 1 (produse de matrici coloan a cu matrici linie). n cazul
acesta, pornind de la relatia c = Yu, nmultind la dreapta membrii egalit atii
cu u
0
M
1
si sumnd dup a num arul de axe
6
se obtine Y
_
p

j=1
u
j
u
0
j
M
1
_
=
p

j=1
c
j
u
0
j
M
1
. Dar
p

j=1
u
j
u
0
j
M
1
= 1 c aci u
j
sunt M
1
-ortonormati, deci
Y =
p

j=1
c
j
u
0
j
M
1
.
Relatia de mai sus se numeste formula de reconstituire a tabelului de
date Y pornind de la componentele si factorii principali. Analog, se poate
reconstitui tabelul X si, de asemenea,
MV =
p

j=1
`
j
u
j
u
0
j
M
1
si
VM =
p

j=1
`
j
a
j
a
0
j
M.
Dac a M= I, adic a n cazul metricii euclidiene, axele principale coincid
cu factorii principali si, conform formulelor de tranzitie, se obtine formula de
6
Unii vectori proprii b pot s a corespund a unei valori proprii nule. n acest caz ei sunt
alesi astfel nct s a completeze baza ortonormat a format a din axele precedente.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 41
reconstituire
Y =
p

j=1
c
j
u
0
j
=
p

j=1
_
`
j
v
j
u
0
j
cu v
j
vectori proprii normati ai matricii YY
0
si u
j
vectori proprii normati ai
matricii Y
0
Y.
Dac a n formula de mai sus sumarea se face doar dup a primii < j
termeni atunci se obtine cea mai bun a aproximare, n sensul celor mai mici
p atrate, a lui Y printr-o matrice de rang (desigur dac a n sumarea de mai
sus valorile proprii sunt ordonate descresc ator). S a observ am c a, privite doar
din acest punct de vedere, metodele de analiz a factorial a se reduc la metode
de compresie a datelor.
1.2.3 Interpretarea si calitatea rezultatelor unei ACP
ACP construieste variabile noi, articiale si reprezent ari grace ce permit
vizualizarea relatiilor ntre variabile si a eventualelor grupe de indivizi si de
variabile. Interpretarea rezultatelor este o faz a delicat a ce trebuie ntreprins a
respectnd urm atoarele etape:
1. studiul calit atii reprezent arilor n planurile factoriale;
2. interpretarea rezultatelor pornind de la datele utilizate n ACP (inter-
pretarea intern a);
3. interpretarea rezultatelor pornind de la indivizi si / sau variabile su-
plimentare care nu au fost utilizate n construirea reprezent arilor ACP
(interpretarea extern a);
4. reprezentarea simultan a a indivizilor si variabilelor ce fac obiectul ACP.
1.2.3.1 CALITATEA REPREZENT

ARILOR N PLANURILE FAC-


TORIALE
Axele factoriale permit obtinerea celei mai bune vizualiz ari aproximative,
n sensul celor mai mici p atrate, ale distantelor dintre indivizi, respectiv dintre
variabile. n acest sens, primul demers care se impune este legat de m asurarea
calit atii acestei aproxim ari.
Se observ a c a, dac a ultimele j valori proprii ale matricii Y, ordonate n
prealabil descresc ator, sunt considerate "neglijabile" atunci, conform descom-
punerii n valori singulare, Y - Y
?
=
q

j=1
_
`
j
v
j
u
0
j
n cazul metricii euclidiene.
Aceasta nseamn a c a cei :j coecienti ai matricii Y pot reprezentati doar
prin cei (: + j) termeni ai sumei de mai sus, ceea ce reprezint a, din punct
42 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
de vedere numeric, un cstig important dac a j. Cu acestea, o m asur a
natural a a calit atii aproxim arii este dat a de raportul
t
q
=

j
j
i
j
j
_
j
?
ij
_
2

j
j
i
j
j
j
2
ij
sau, conform Lemei 1.2.7
t
q
=
tr
_
(Y
?
)
0
DY
?
_
tr (Y
0
DY)
=
q

j=1
`
j
p

j=1
`
j
=
q

j=1
`
j
1
g
.
Raportul t
q
_ 1 se numeste rata iner tiei sau procentul de dispersie da-
torat primilor factori. Interpretarea sa ca m asur a a calit atii numerice a
aproxim arii este destul de clar a dar semnicatia sa statistic a este delicat a.
ntr-adev ar, din punct de vedere statistic, interpretarea rapotului comport a
dou a aspecte:
- alegerea num arului de axe principale;
- g asirea intervalului de ncredere pentru dispersia coordonantelor punctelor-
individ pe axa principal a corespunz atoare.
Principalul scop al ACP constnd n reducerea dimensiunii spatiului in-
divizilor, alegerea lui - num arul de axe principale ce trebuie retinute, este o
problem a important a care, din p acate, nu are o solutie riguroas a. S a remar-
c am, nainte de toate, c a reducerea dimensiunii nu este posibil a dect dac a
exist a o redundant a ntre variabilele. Dac a acestea sunt independente, ceea ce
este un rezultat important n sine, ACP va inecient a n reducerea dimen-
siunii. Exist a mai multe proceduri care s a ghideze alegerea num arului de axe
(vezi [41]). n cele ce urmeaz a ne vom opri asupra:
a) regulilor empirice, si
b) criteriilor bazate pe anumite propriet ati statistice ale valorilor proprii.
a)Reguli empirice Regulile empirice se bazeaz a pe forma secventei de va-
lori proprii; dou a reguli, atribuite lui Cattell si respectiv Kaiser vor citate
cu titlu istoric.
Regula cotului (sau the scree-test) introdus a de Cattell n 1966 (vezi,
de exemplu, [41]) const a n studiul histogramei valorilor proprii ordonate de-
scresc ator n vederea decel arii unei schimb ari de pant a urmnd a retinute
acele valori proprii, deci num ar de axe, aate la stnga punctului de discon-
tinuitate observat.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 43
Fundamentarea criteriului cotului este dat a de observatia c a valorile pro-
prii descresc regulat dac a datele sunt putin structurate (variabilele nu sunt
prea corelate ntre ele); se poate deci presupune c a a intervenit un factor de
structurare de ecare dat a cnd diagrama valorilor proprii prezint a o schim-
bare evident a de pant a.
Al doilea criteriu empiric este cel enuntat de Kaiser n 1961 (vezi, de
exemplu, [41]) ce recomand a retinerea acelor valori proprii superioare mediei
tuturor valorilor proprii (s a remarc am, conform Lemei 1.2.7 si Observatiei
1.2.3, c a n cazul ACP normate media valorilor este 1). Datorit a simplit atii
sale, acest criteriu este foarte r aspndit si implementat drept criteriu standard
n majoritatea pachetelor de programe de analiz a factorial a.
b)Criterii bazate pe propriet atile statistice ale valorilor proprii Lu-
cr arile relative la studiul distributiei valorilor si vectorilor proprii ct si lu-
cr arile relative la comportamentul asimptotic al acestor elemente sunt n num ar
mare dar putine rezultate sunt utilizabile practic. Cu exceptia mentiunilor ex-
plicite toate rezultatele ce vor prezentate presupun c a observatiile, n num ar
de :, urmeaz a o lege normal a j-dimensional a N
p
(j, ). n 1951, Bartlett
propune o metod a pentru testarea egalit atii a j valori proprii ale matri-
cilor sau R. Lawley este cel care, n 1956, aprofundeaz a studiul la cazul celor
mai mici j valori proprii ale lui . Anderson, generalizeaz a n 1963 aceste
rezultate si determin a legile limit a ale valorilor proprii f ar a s a presupun a, n
mod necesar, c a valorile teoretice corespunz atoare sunt distincte. El demon-
streaz a n particular, pentru a testa egalitatea celor mai mici r valori proprii

`
j
ale matricii de covariant a de selectie corectate, V
?
=
n
n1
V, c a statistica
A
2
= :r log
_
1
r
_
p

j=pr+1

`
j
_
p

j=pr+1

`
j
_1
p
este asimptotic distribuit a
2
cu
r(r+1)
2
1 grade de libertate.
Legat de g asirea intervalului de ncredere pentru dispersia coordonatelor
punctelor-individ pe axa principal a, reamintim c a aceasta este egal a cu val-
oarea proprie corespunz atoare (conform Lemei 1.2.10). T.W.Anderson a ar a-
tat c a ,dac a valorile teoretice `
j
ale lui sunt distincte ,
_
: 1
_

`
j
`
j
_
converge c atre o lege normal a N
_
0, 2`
2
j
_
. Se deduce imediat c a intervalul de
ncredere cu pragul de semnicatie de 95% este:

`
j
_
1 1, 96
_
2, (: 1)
_
< `
j
<

`
j
_
1 + 1, 96
_
2, (: 1)
_
.
Lungimea intervalului este o indicatie asupra stabilit atii valorii proprii
fat a de uctuatiile esantionului presupus repartizat gaussian. Intersectia in-
tervalelor a dou a valori proprii consecutive sugereaz a, deci, egalitatea acestor
44 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
valori proprii. Axele corespunz atoare sunt atunci denite modulo o rotatie,
ceea ce permite utilizatorului s a evite interpretarea unei axe instabile dup a
acest criteriu.
O mbun at atire a criteriului lui Kaiser este dat a n 2000 de En achescu si
En achescu. Acestia demonstreaz a c a, n cazul analizei n componente princi-
pale normate,

`
i
este semnicativ mai mare dect unu dac a

`
i
1 + 2
_
j 1
: 1
.
Generaliz ari ale rezultatelor asimptotice ale lui T.W.Anderson la cazul
ne-gaussian se pot g asi, printre altii, n [13] f ar a a avea, ns a, o utilizare prac-
tic a.
Intervalele de ncredere ale lui Anderson se refer a att la valorile proprii
ale matricilor de covariant a ct si la valorile proprii ale matricilor de corelatie.
Simul arile ntreprinse au ar atat c a rezultatele obtinute sunt n general pru-
dente: procentul de acoperire al adev aratei valori proprii este cel mai adesea
superior pragului de semnicatie anuntat ([41]). n orice caz, natura asimp-
totic a a rezultatelor ca si ipoteza subiacent a de normalitate, fac ca acestea s a
aib a doar un caracter indicativ.
Concluzionnd asupra calit atii reprezent arilor n planurile factoriale vom
spune c a rata inertiei deneste "puterea explicativ a" a factorilor; ea reprezint a
partea din dispersia total a datorat a celor factori retinuti. Aceast a apreciere
trebuie s a tin a cont att de num arul de indivizi ct si de num arul de varia-
bile; o rat a de inertie (relativ la o ax a) de 10% poate o valoare important a
dac a tabelul posed a 100 de variabile si poate o valoare neglijabil a dac a nu
sunt dect 10 variabile. Rata inertiei este deci o masura pesimista a calit atii
proiectiei imaginii euclidiene a indivizilor. Rata inertiei este, n plus, o ma-
sura globla a calit atii reprezent arii n planul factorial. Ea trebuie completat a
cu alte m asuri, locale, ale calit atii acestei reprezent ari.
Printre m asurile locale cele mai "populare" se num ar a cea a cosinusului
p atrat al unghiului dintre planul factorial si vectorul cu originea n proiectia
centrului de greutate al norului si cu vrful n punctul-individ. Fundamentarea
teoretic a a utiliz arii acestei m asuri se bazeaz a pe faptul c a distantele ntre
puncte se deformeaz a prin proiectie cu att mai putin cu ct punctele sunt
mai apropiate de planul n care sunt proiectate (desigur, cazul n care punctele
se a a pe o dreapt a paralel a cu planul de proiectie este neinteresant n acest
context). Valoarea acestei m asuri este dat a de urm atoarea lem a.
Lema 1.2.12
Calitatea reprezent arii unui punct-individ,
i
, n planul factorial principal este
cal (i) =
c
2
1i
+ c
2
2i
p

j=1
c
2
ji
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 45
Demonstratie. Fie
i
punctul considerat, 1
i
proiectia sa n planul factorial
principal si G proiectia centrului de greutate al norului n planul factorial prin-
cipal. Conform denitiei componentelor principale, n F,
i
are coordonatele
(c
1i
, c
2i
, . . . , c
pi
) iar 1
i
are coordonatele (c
1i
, c
2i
)
0
.
Cosinusul unghiului dintre

G
i
si planul factorial principal este cosinusul
unghiului dintre

G
i
si

G1
i
, notat cu 0. n triunghiul
i
1
i
G, dreptunghic n
1
i
(din constructie) cos
2
0 =
!
GP
i
2
!
GA
i
2
si cum

G1
i
2
= c
2
1i
+ c
2
2i
, conform teoremei
lui Pitagora, rezult a cos
2
0 =
c
2
1i
+c
2
2i
p
P
j=1
c
2
ji
.
Un mod mai bun de a aa dac a o observatie este bine reprezentat a ntr-
un subspatiu este acela de a da o interpretare statistic a p atratului distantei de
la observatie la acel subspatiu. Astfel, pentru observatii repartizate normal,
inertia global a este o sum a ponderat a de j variabile independente repartizate

2
1
, adic a 1
g
=
p

j=1
`
j

2
1:j
. Cum, n aceast a ipotez a 1 (I
g
) =
p

j=1
`
j
si 1
2
(I
g
) =
2
p

j=1
`
2
j
si, pe de alt a parte, distanta de la un punct-individ la planul factorial
principal este
d
2
_

i
,
_
w R
2
[w =a
1
u
1
+ a
2
u
2
__
=
p

j=3
c
2
ji
=
p

j=3
`
j
c
2
ji
`
j
,
o modalitate de a da o semnicatie statistic a acestei distante este de a o
compara cu o combinatie liniar a de
2
1
. Utiliznd intervalele de ncredere de
tip 2o se poate conchide c a punctele aate fat a de planul factorial principal la
o distant a mai mare de
p

j=3
`
j
+ 2

_
2
p

j=3
`
2
j
sunt prost reprezentate n acest subspatiu cu o probabilitate de 95% (conform
[24]).
Datorit a egalit atii `
j
= j
j
(conform Propozitiei 1.2.3) m asura global a a
calit atii proiectiei imaginii euclidiene a norului de puncte-variabil a este tot t
q
,
cu aceleasi observatii ca pentru norul de puncte-individ. n ceea ce priveste
m asurile locale trebuie s a remarc am c a, n cazul punctelor-variabil a intere-
seaz a unghiurile dintre proiectiile vectorilor cu vfurile n aceste puncte si nu
proximitatea proiectiilor n planul factorial principal (cercul de corelatie n
cazul ACP normate).
1.2.3.2 INTERPRETAREA "INTERN

A" Metoda cea mai nat-


ural a de a da o semnicatie unei componente principale c este de a o corela
cu variabilele initiale x
j
. n acest sens se vor calcula coecientii de corelatie
46 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
liniar a cor
_
c, x
j
_
si se vor pune n evident a coecientii cu valori absolute mari.
Valorile acestor coecienti sunt date de urm atoarea lem a.
Lema 1.2.13
n cazul unei ACP normate cor
_
c, z
j
_
=
_
`u
j
.
Demonstratie. Din denitie, cor
_
c, z
j
_
=
cov(c;z
j
)
s(c) s(z
j
)
=
cov(c;z
j
)
p

(conform
Corolarului 1.2.3 si Lemei 1.2.10). Dar cov
_
c, z
j
_
= c
0
Dz
j
= u
0
Z
0
Dz
j
adic a
este al ,-lea coecient al vectorului (Z
0
DZ) u. Cum, din denitie, Z
0
DZ = R
si cum Ru =`u (din Lema 1.2.8) rezult a cor
_
c, z
j
_
=
_
`u
j
.
Corolarul 1.2.4
Cercul de corelatie principal este, n spatiul variabilelor, corespondentul exact
al planului factorial principal.
Demonstratie. ntr-adev ar, n ACP normat a coordonatele proiectiei unui
punct-variabil a 1
j
sunt (d
1j
, d
2j
) care, conform formulelor de tranzitie, sunt
egale cu
__
`
1
a
1j
,
_
`
2
a
2j
_
. Dar n cazul unei ACP normate axele principale
coincid cu factorii principali deci,
(d
1j
, d
2j
) =
_
_
`
1
a
1j
,
_
`
2
a
2j
_
=
_
_
`
1
n
1j
,
_
`
2
n
2j
_
=
=
_
cor
_
c
1
, z
j
_
, cor
_
c
2
, z
j
__
conform Lemei 1.2.13.
A spune c a c
1
este foarte corelat a cu o variabil a x
j
nseamn a c a indivizii
cu o coordonat a pozitiv a mare pe axa unu sunt caracterizati de o valoare a
lui x
j
net superioar a mediei (c aci originea axelor principale este n centrul
de greutate al norului de puncte-individ). Reciproc, dac a indivizii nu sunt
anonimi, acestia pot ajuta la interpretarea axelor si componentelor principale
(vor evidentiati, de exemplu, indivizii opusi de-a lungul unei axe).
O m asur a natural a a contribu tiei unui punct-individ la o axa factoriala
este raportul dintre dispersia individului si dispersia ntregii axe. Din Lema
1.2.10 se cunoaste faptul c a
n

i=n
j
i
c
2
ji
= `
j
, deci contributia individului i la axa
principal a , este
cr
j
(i) =
j
i
c
2
ji
`
j
.
Cnd indivizii sunt anonimi, adic a au toti ponderile j
i
=
1
n
, contributiile
"cr" nu aduc mai multe informatii dect coordonatele acestora. Dac a cei :
indivizi au aceeasi pondere, 1,:, inertia unui punct variaz a direct proportional
cu distanta la centrul de greutate. Indivizii care contribuie determinant la
inertia axei sunt cei mai dep artati de punctul mediu si lectura coordonatelor
factoriale sau vizualizarea gracului sunt suciente pentru a interpreta factorii
n acest caz. Prezentarea indivizilor n planul factorial permite s a apreciem
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 47
repartitia lor si s a reper am zonele de densit ati mai mari sau mai slabe. Ca o
recomandare general a se va considera important a contributia care dep aseste
ponderea j
i
a individului, sau
1
4
n cazul indivizilor anonimi. Dac a j si : sunt
mari atunci componentele principale sunt deseori considerate ca ind selectii
asupra unor variabile aleatoare repartizate normal de medie zero si dispersie
`. n acest caz
c
2
ji

j
este distribuit a
2
1
si o contributie mai mare dect
3;84
n
poate considerat a semnicativ a cu un prag de ncredere de 95% (conform
[24]).
Considerarea contributiilor, cnd acestea nu sunt excesive, ajut a la inter-
pretarea axelor. n mod normal, n special pentru primele axe factoriale, nu
este de dorit ca un individ s a aib a o contributie excesiv a c aci acesta poate con-
stitui un factor de instabilitate, adic a omiterea individului poate modica pro-
fund rezultatele analizei. n cazul unui sondaj (indivizi anonimi) contributia
excesiv a a unui individ este adesea cauzat a de erori de preluare a datelor.
Pentru a pune n evident a aceste anomalii (si evident pentru a le elimina) C.
si D.En achescu recomand a urm atorul test empiric n cazul unei ACP normate:
daca patratul distan tei de la un punct-individ la centrul de greutate al
norului este mai mare dect j + 2
_
2
p

i=1
`
2
i
atunci observa tia respectiva poate
considerata o valoare aberanta.
ntr-adev ar, dac a observatiile sunt normal distribuite, 1
g
este o sum a
ponderat a de j variabile repartizate
2
1
cu media
p

i=1
`
i
= j (datorit a datelor
centrat-reduse) si dispersia 2
p

i=1
`
2
i
. Considernd intervalul de ncredere de
95% pentru 1
g
se obtine marginea din recomandarea de mai sus.
Dac a observatiile sunt independente atunci `
i
estimate pe baza acestor
observatii sunt de medie 1 si satisfac egalitatea
p

i=1
`
2
i
= j +2

i>j
r
2
ij
. Deoarece
media p atratului coecientului de corelatie ntre dou a variabile normale inde-
pendente este
1
n1
rezult a c a 1
_
p

j=1
`
2
j
_
= j +
p(p1)
n1
. Revenind la marginea
pentru valori aberante g asit a mai sus, n cazul independentei observatiilor o
putem rana nlocuind-o cu
j + 2
_
2j
_
1 +
j 1
: 1
_
sau j + 2, 8
_
j, pentru : mare.
Analiza unui nor de variabile facndu-se pornind din origine, variabilele
pot toate situate de aceeasi parte a unei axe factoriale. O astfel de dispozitie
apare atunci cnd toate variabilele sunt corelate pozitiv ntre ele. n acest
caz c
1
, prima component a principal a deneste un factor de talie. Conform
48 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
teoremei lui Perron
7
(vezi, de exemplu, [15]) c
1
este atunci corelat a pozitiv cu
toate variabilele si indivizii sunt ordonati pe prima ax a principal a cresc ator
dup a mediile
_
1
p
p

j=1
j
ij
_
n
i=1
. Ortogonalitatea axelor face s a nu existe dect
un singur factor de talie. A doua component a principal a diferentiaz a atunci
indivizii de talie comparabil a si aceast a component a se va numi factor de
forma.
1.2.3.3 INTERPRETAREA "EXTERN

A": VARIABILE SI IN-


DIVIZI SUPLIMENTARI Interpret arile interne au dezavantajul c a sunt
tautologice: se explic a un rezultat cu ajutorul datelor care au servit la obtinerea
lui. Riscul care apare ntr-un astfel de caz este acela de a confunda un artefact
introdus de metod a cu un fenomen semnicativ. Din contr a, dac a se g aseste o
corelatie puternic a ntre o component a principal a si o variabil a care nu a fost
utilizat a n analiz a, caracterul probant al fenomenului va mult mai ridicat.
De unde practica frecvent utilizat a de a mp arti n dou a multimea variabi-
lelor: o parte din variabile, numite variabile active, vor utilizate pentru
determinarea axelor principale si cealalt a parte a variabilelor numite variabile
pasive/suplimentare/ilustrative, vor corelate posteriori cu componentele
principale. n plus, variabilele active, denite ntr-un spatiu si utilizate la cal-
culul planurilor factoriale, trebuie s a formeze un ansamblu omogen ca textur a
(trebuie, adic a, s a aib a aceeasi natur a) pentru ca distantele ntre elemente s a
aib a un sens. Pentru a interpreta similitudinile ntre elemente acestea trebuie
s a e omogene si n continut, adic a s a priveasc a o aceeasi tem a. Se compar a
obiectele dup a un anumit punct de vedere si nu utiliznd f ar a discern amnt
toate atributele cunoscute si adesea disparate. Variabilele suplimentare nu
sunt ns a supuse acestor conditii de omogenitate.
Un tratament analog se poate aplica si multimii indivizilor, distingnd
ntre indivizi activi si indivizi suplimentari care nu particip a la calculul matri-
cilor de covariant a/corelatie. Indivizii suplimentari permit vericarea netau-
tologic a a ipotezelor formulate asupra indivizilor activi dup a o ACP.
Se noteaz a cu Y
+
M
n;s
(R)cele : variabile (coloane) continue, ilustra-
tive, si cu Y
+
M
t;p
(R) cei t indivizi (linii) suplimentari. Dup a eventuala
normare a datelor suplimentare, coordonatele noilor variabile pe axa , sunt
componentele vectorului
_
Y
+
_
0
v
j
sau
_
Z
+
_
0
v
j
iar coordonatele noilor indivizi pe axa , sunt componentele vectorului
(Y
+
) u
j
sau (Y
+
) u
j
7
Dac a o matrice p atratic a si simetric a are toti coecientii pozitivi atunci valoarea sa
proprie cea mai mare n modul este pozitiv a, r ad acin a simpl a a ecuatiei caracteristice si i se
asociaz a un vector propriu avnd componente pozitive.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 49
Dac a variabila suplimentar a este nominal a transformarea de mai sus nu
mai poate aplicat a. n aceast a situatie, analiza unei variabile nominale
suplimentare nu se mai face n R
n
ci n R
p
. Fiecare modalitate a variabilei
nominale este reprezentat a n spatiul indivizilor prin centrul de greutate al
subnorului de puncte-individ care au ales respectiva modalitate.
1.2.3.4 REPREZENTAREA SIMULTAN

A Analiza norului de va-


riabile este dedus a din analiza norului de indivizi: reprezentarea variabile-
lor pe axele factoriale n R
n
ajut a la interpretarea axelor factoriale n R
p
si
reciproc. Cei doi nori nu folosesc, ns a, acelasi reper, ceea ce face imposibil a
reprezentarea simultan a a indivizilor si variabilelor. Astfel:
- n spatiul R
p
, reprezentarea norului de n puncte-individ se face n reperul
G, u
1
, . . . , u
p
. Reprezentarea indivizilor n planul factorial furnizeaz a
cea mai bun a vizualizare aproximativ a a distantelor ntre indivizi. Vecin a-
tatea indivizilor n planul factorial se interpreteaz a n termeni de simili-
tudini de comportament fat a de variabilele observate;
- n spatiul R
n
, reprezentarea norului de j puncte-variabil a se face n
reperul O, v
1
, . . . , v
n
. Reprezentarea variabilelor n cercul de core-
latie furnizeaz a o sintez a grac a a matricii de corelatie. Vecin atatea
variabilelor n planul cercului de corelatie se interpreteaz a n termeni de
corelatii.
Lund n considerare cele de mai sus, suprapunerea celor dou a planuri
factoriale este lipsit a de sens. Trebuie s a ne ferim a interpreta distanta
dintre un punct-individ si un punct-variabil a deoarece aceste puncte
nu fac parte nici din acelasi nor, nici din acelasi spatiu si nici nu sunt
reprezentate n acelasi reper.
Dac a, ns a, se consider a n loc de puncte-variabil a directii de variabile n
R
p
, atunci se pot reprezenta simultan, n acest spatiu, att punctele-individ
ct si vectorii reprezentnd variabilele.
n spatiul R
p
al celor : puncte-individ, dup a transformarea tabelului de
date, dispunem de dou a sisteme de axe:
- vechile axe unitare e
1
, . . . , e
p
corespunznd celor j variabile nainte de
analiz a si reprezentnd sistemul de axe de referint a pentru coordonatele
initiale ale indivizilor (cu e
0
j
= (0, . . . 0, 1
j
, 0, . . . 0) , , = 1, j);
- noile axe unitare u
1
, . . . , u
p
formate din axele factoriale.
Posibilitatea unei reprezent ari simultane rezid a n acest context n proiectia,
ca individ suplimentar, a vechii axe e
j
pe noua ax a u
k
. Coordonata proiectiei
lui e
j
pe u
k
este e
0
j
u
k
= n
kj
. Este, astfel, posibil s a se reprezinte n R
p
directi-
ile date de variabilele initiale pe planul factorial al norului de indivizi. Aceste
50 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
directii pot materializate prin vectori unitari. Acesti vectori constituie repe-
rul originar n care a fost construit norul de indivizi si sunt, deci, ortogonali
doi cte doi. Este, acum, evident faptul c a aceast a reprezentare a variabilelor
este diferit a de reprezentarea norului de variabile descris a mai sus. Ceeace se
va numi reprezentare simultana este, deci, proiectarea reperului ortonormat al
axelor de origine n planul factorial al norului de indivizi.
Se reaminteste c a, n R
n
, n metrica euclidian a, coordonata variabilei ,
pe axa / este egal a cu coecientul de corelatie (conform formulei de tranzitie)
ntre variabil a si factor si este d
kj
=
_
`
k
n
kj
. Cei doi nori de variabile nu
coincid. Ei difer a unul de cel alalt, pe ecare ax a, prin coecientul de dilatatie
_
`
k
.
n cazul reprezent arii simultane, care este de fapt o reprezentare n R
n
,
distanta dintre dou a variabile nu se interpreteaz a n termeni de corelatie de-
oarece este vorba de extremit atile unor vectori ortonormati (distant a egal a cu
_
2 n spatiul complet). Interpretarea distantei ntre dou a variabile, n termeni
de corelatie, nu se poate face dect n R
n
(s a observ am, totusi, c a norul proiec-
tat al extremit atilor vectorilor unitari din R
p
si norul extremit atilor vectorilor
variabile n R
n
au, n general, forme asem an atoare, mai ales dac a vectorii pro-
prii sunt comparabili, deci dilat arile sunt putin deformante). Tinnd cont de
aceste consideratii, este licit s a compar am, n reprezentarea simultan a, pozitia
a doi indivizi fat a de ansamblul variabilelor, sau pozitia a dou a variabile fat a
de ansamblul indivizilor. Astfel, directia unei variabile deneste zone pentru
indivizi: de o parte indivizii ce iau valori mari pentru aceast a variabil a si n
partea opus a, indivizii care iau valori mici. Ne vor interesa distantele ntre
indivizi n directia variabilei. La intersectia axelor se g asesc valorile medii ale
tuturor variabilelor.
1.2.4 Analize neparametrice
Metodele de analiz a neparametric a nu difer a de ACP dect printr-o trans-
formare preliminar a a datelor. Aceste metode sunt recomandate atunci cnd
datele preliminare sunt heterogene, dau rezultate foarte robuste si se preteaz a
la interpret ari simple n termeni statistici.
1.2.4.1 ANALIZA RANGURILOR n analiza rangurilor, tabelul in-
itial este transformat n tabel de ranguri. Observatia i a variabilei , const a,
n acest caz, ntr-un clasament
ij
dat de rangul observatiei i n ordonarea
cresc atoare a celor : realiz ari ale variabilei ,. n aceste conditii, distanta ntre
dou a variabile, q
j
si q
k
, este denit a de formula:
d
2
(q
j
, q
k
) =
6
:(: 1) (: + 1)
n

i=1
(
ij

ik
)
2
.
Recunoastem n aceast a formul a complementul fat a de 1 al coecientului de
corela tie Spearman.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 51
Utilizarea rangurilor este justicat a n urm atoarele contexte:
datele initiale sunt ele nsele un clasament, caz n care acest tip de analiz a
se impune;
sc arile de m asur a a variabilelor pot att de diferite nct operatia
de reducere practicat a de analiza n componente principale normate nu
este sucient a. n plus, operatia de normare nu reduce, de exemplu,
nesimetria distributiilor.
atunci cnd este mai interesant sintetizarea unei familii de clasamente
dect a unei multimi foarte eterogene de m asur atori;
ipotezele priori f acute implicit asupra m asur atorilor sunt mult mai
slabe si, n consecint a, mai putin arbitrare: legea de repartitie a dis-
tantelor este acum neparametric a. Dispunem, deci, de praguri de n-
credere care nu mai depind dect de ipoteza de continuitate asupra dis-
tributiilor observatiilor, mai plauzibil a dect cea de normalitate;
n ne, reprezent arile obtinute sunt robuste, putin sensibile la existenta
valorilor aberante, ceea ce este adeseori o calitate apreciabil a.
Regulile de interpretare se deduc din cele ale analizei n componente prin-
cipale deoarece aceasta este analiza ce se aplic a dup a operatia de transformare
n ranguri. S a not am c a, n acest caz, nu este necesar a reducerea tabelului
de date deoarece toate rangurile au aceeasi dispersie. Proximitatea ntre dou a
variabile se interpreteaz a n termeni de corelatie a rangurilor: dou a variabile
sunt apropiate dac a prezint a clasamente asem an atoare ale observatiilor in-
itiale; dou a variabile sunt dep artate dac a prezint a clasamente practic opuse
ale observatiilor initiale. Dou a observatii vor apropiate dac a au ranguri
similare pentru ecare variabil a. S a mai not am c a, n reprezentarea simul-
tan a, se poate avea o idee asupra ntregului clasament al observatiilor pentru
o variabil a examinndu-se pozitiile respective ale acestei variabile si multimea
observatiilor.
n ne, caracterul neparametric al reprezent arii obtinute permite efectu-
area de teste de validare asupra valorilor proprii. Distributia valorilor proprii
obtinute din analiza unui tabel de ranguri nu depinde dect de parametrii :
si j, num arul de linii si de coloane al tabelului. Este posibil s a proced am la o
listare a pragurilor de ncredere a valorilor proprii.
1.2.4.2 ANALIZA N COMPONENTE ROBUSTE Criteriul de
ajustare al celor mai mici p atrate este, n mod particular, adaptat distributiei
normale. n cazul unei distributii uniforme (cazul analizei rangurilor) acesta
tinde s a dea o important a excesiv a observatiilor extreme. Pentru ca analiza
s a e mai robust a, distributia uniform a a rangurilor este "normalizat a".
52 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Fie cea de a /-a observatie din : observatii ordonate cresc ator si e
F
functia de repartitie normal a. Se nlocuieste observatia de rang / prin valoarea
j
k
dat a de transformarea j
k
=
F
1
_
k
n+1
_
unde
F
1
este inversa functiei de
repartitie normal a.
Pentru : mare, transformarea este echivalent a cu nlocuirea celei de a /
observatii cu media celei de a / observatii ntr-un esantion ordonat de : valori
normale.
1.2.5 Alte metode derivate
Numeroase tehnici sunt direct derivate din analiza n componente prin-
cipale - variantele neparametrice din paragraful precedent sunt un astfel de
exemplu.
Unele prezent ari ale analizei de corespondent a consider a aceast a metod a
ca o analiz a n componente principale particular a. Aceasta este posibil dac a se
trateaz a cele dou a spatii al liniilor si al coloanelor separat, dar nu aceasta
este optica aleas a aici. Acest tratament separat mascheaz a unul dintre apor-
turile metodologice fundamentale ale analizei factoriale descriptive. Analiza
n componente principale, e c a este vorba de analiza normat a sau nenormat a,
analizeaz a indivizii n raport cu centrul lor de greutate si variabilele n raport
cu originea axelor. Aceast a asimetrie de tratament corespunde la domenii de
aplicatie specice si induce reguli de interpretare particulare. Descompunerea
n valori singulare (sau nc a analiza general a, sau teorema lui Eckart si Young)
formeaz a miezul teoretic comun al celor dou a metode.
Vom cita, printre alte metode derivate, analiza par tiala a corela tiilor
sau analiza cu variabile instrumentale ([51]). n acest caz se urm areste nu
numai eliminarea eterogenit atii variabilelor, prin centrarea si reducerea lor, ci
si reducerea efectelor celorlalte variabile printr-o regresie multipl a prealabil a.
Analiza logaritmica ([38]) este o analiz a n componente principale nenormate a
tabelului (dublu centrat pe linii si pe coloane) variabilelor initiale logaritmate.
Aceast a variant a posed a propriet ati de stabilitate si robustete interesante.
n ne, alte tehnici cum ar regresia pe componente principale sau
clasicarea pe factori, sunt mai degrab a tehnici complementare dect derivate.
1.2.6 Alte demersuri
Descompunerea n valori singulare este o proprietate a tuturor matricilor
dreptunghiulare. Ea se bazeaz a pe distante euclidiene, adic a pe forme p atrat-
ice pozitiv denite si pe aproxim ari ale spatiilor vectoriale prin minimizarea
unui criteriu legat de distante. Sunt posibile si alte demersuri care modic a
tipul de distant a, sau natura subspatiilor, sau pe amndou a. Desigur, n acest
caz multe dintre propriet atile matematice simple ale analizei bazate pe metrica
euclidian a nu se mai reg asesc: unicitatea descompunerii, simetria rolurilor ju-
cate de linii si de coloane, simplitatea formulelor de reconstructie, pozitionarea
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 53
natural a a variabilelor suplimentare. Alte criterii de aproximare pot , totusi,
utile. n locul metodei celor mai mici p atrate min
_
e
2
i
_
(norma "1
2
") se
poate utiliza, de exemplu, metoda celor mai mici valori absolute min

[e
i
[
(norma "1
1
") care induce distanta city-block (pentru contributii la acest
punct de vedere se recomand a, printre altele, [18] ).
ntr-un spirit putin diferit, [45] enunt a un algoritm pentru a aproxima
(n sensul celor mai mici p atrate, adic a n 1
2
) o matrice de distante de tip 1
p
cu o matrice de disimilaritate dat a.
Pentru a studia anumite tabele de contingent a, n spet a tabele de schimb,
[19] propun utilizarea distan tei lui Hellinger: d
2
(x, y) =
_
_
r
i

_
j
i
_
2
(analiza vectoriala sferica).
n ne, f ar a a schimba nici metrica nici criteriul de aproximare, se pot
aproxima alte suprafete dect hiperplanele. Astfel, n cazul analizei n com-
ponente principale normate care este, n spatiul R
n
, analiza punctelor situate
pe o sfer a, [25] propune aproximarea unei hipersfere.
1.2.7 Exemplu
Descrierea datelor
n scopul studiului relatiilor dintre 10 tipuri de activit ati umane si al
clasic arii acestora, s-au cules date privind obiceiurile zilnice a 28 de grupuri de
indivizi de ambele sexe. Valorile din tabelul A.1. (Anex a) reprezint a num arul
de ore din 100 de zile alocat pentru un anume tip de activitate. Datele vor
analizate utiliznd tehnica analizei n componente principale.
Pentru acest set de date se identic a:
variabilele active:
WRK = carier a
TRSP = transport
HH = activit ati casnice
CHD = copii
SHP = cump ar aturi
CARE = ngrijire personal a
MEAL = hran a
variabilele suplimentare:
SLP = odihn a
TV = televizor
LSR = distractie
54 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
variabilele pentru desemnarea indivizilor activi:
GEN
indivizii: sunt reprezentati prin liniile tabelului si se grupeaz a, n functie
de sex, n indivizi activi si indivizi suplimentari. Vom alege de aceast a
dat a indivizii de gen feminin ca ind activi. Denumirile indivizilor au
urm atoarea semnicatie:
prima liter a a doua liter a a treia liter a
E=angajat M=b arbat U=USA
U=neangajat W=femeie W=Vest
M=c as atorit E=Est
S=nec as atorit Y=Iugoslavia
Dintre elemente prezentate mai sus doar variabilele si indivizii activi
particip a efectiv la determinarea axelor principale, n timp ce variabilele si in-
divizii suplimentari intervin doar n momentul interpret arii (vezi subcapitolul
1.2.3).
Efectuarea analizei si interpretarea rezultatelor
Aplicarea metodei de analiz a n componente principale n cadrul progra-
mului STATISTICA presupune parcurgerea mai multor pasi.
Pentru nceput se selecteaz a din bara de meniu tipul de analiz a utilizat
- Statistics, Multivariate Exporatory Techniques, Principal Components and
Classication Analysis.
n fereastra de dialog ap arut a (g. 1.2.8.) butonul Variables permite
selectarea variabilelor active, suplimentare, de identicare a indivizilor activi
si de etichetare, conform specicatiilor de mai sus. Se opteaz a pentru analiza
bazat a pe corelatii (analiza pe tabelul centrat redus) si pentru lucrul cu estima-
torul nedeplasat al dispersiei, oo,(1). Valorile lips a din tabelul de date se
trateaz a prin metoda Mean Substitution (nlocuirea cu media corespunz atoare
variabilei respective).
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 55
fig. 1.2.8. Fereastra de pornire
Dup a ap asarea butonului OK este activat a o nou a fereastr a de dialog
(g. 1.2.9) care ofer a informatii cu privire la contextul de lucru (elemente
active si suplimentare, valori proprii) si permite nceperea efectiv a a analizei.
fig. 1.2.9. Fereastra de rezultate
Patru submeniuri sunt disponibile:
Submeniul Quick - nglobeaz a cele mai importante optiuni din subme-
niurile Variables si Cases.
Submeniul Variables - ofer a informatii, sub form a grac a sau tabelar a,
despre variabile, vectori proprii si valori proprii.
56 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Submeniul Cases - ofer a informatii, sub form a grac a sau tabelar a, de-
spre indivizi.
Submeniul Descriptives - permite calculul unor indicatori statistici de
baz a, a matricilor de corelatie si covariant a, precum si realizarea unor
grace simple.
Calculul parametrilor descriptivi elementari (Descriptives, Summary de-
scriptives) ofer a o imagine de ansamblu (tabelul 1.2.6). Valorile medii (Mean)
si abaterile standard (Std. Dev.) vor servi la centrarea si reducerea datelor
si nu vor mai interveni direct n cele ce urmeaz a. Este important a observarea
mediilor si dispersiilor att n cazul variabilelor active ct si n cazul celor
suplimentare, aceast a etap a ind util a n depistarea de eventuale modele si
determinarea unor tehnici suplimentare de analiz a.
tabelul 1.2.6. Medii Si dispersii
Matricea de corelatie (tabelul 1.2.7.) furnizeaz a coecientii ce descriu
asocierea liniar a ntre variabile. De exemplu, cariera (WRK) pare a n
strns a relatie direct a cu transportul (TRSP), avnd un coecient de corelatie
de 0,77, dar puternic negativ corelat a (-0,82) cu activit atile casnice (HH).
Lectura acestei matrici ofer a o prim a idee asupra leg aturilor dintre variabile
iar analiza n componente principale va permite obtinerea unei sinteze a acestor
relatii.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 57
tabelul 1.2.7. Corela Tii
Urm atorul pas n cadrul ACP este determinarea dimensiunii spatiului de
proiectie, unde relatiile dintre variabile vor mai usor de observat. Pentru
aceasta examin am valorile proprii rezultate n urma diagonaliz arii matricei
corelatiilor dintre variabilele active. Tabelul 1.2.8., obtinut din submeniul
Variables, Eigenvalues, contine valorile proprii ordonate descresc ator, indic a
procentul de inertie explicat a de factorul asociat ec arei valori proprii precum
si procentul cumulat de inertie explicat a.
tabelul 1.2.8. Valori proprii
Regula cotului, ilustrat a grac prin diagrama Screeplot (g 1.2.10.) din
submeniul Variables, indic a drept ecient a folosirea n interpretare a maxim
cinci dimensiuni (vezi subcapitolul 1.2.3), iar criteriul lui Kaiser consider a su-
ciente doar dou a: n cazul ACP normate se retin componentele principale
corespunz atoare valorilor proprii superioare lui unu. Examinnd tabelul valo-
rilor proprii se observ a c a primele 2 dimensiuni ofer a o calitate a reprezent arii
n noul spatiu de 80.95%, valoare considerat a sucient a. Prin urmare, planul
de proiectie va planul factorial principal. Valoarea 2 se completeaz a n caseta
Number of factors din fereastra de rezultate.
58 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
fig. 1.2.10. Screeplot
Conform descrierii din introducerea capitolului, rolul analizei n compo-
nente principale este de a ilustra relatiile dintre variabile si de a evidentia
grup ari de indivizi n functie de aceste relatii. n cazul de fat a se pune n-
trebarea dac a exist a vreo leg atur a ntre cele zece tipuri de activit ati si, n
acest caz, ce structur a ntre indivizi induce aceast a leg atur a. Pentru aceasta
s a examin am tabelul 1.2.9. ce contine:
coordonatele proiectiilor variabilelor pe cei doi factori principali (Vari-
ables, Factor coordinates of variables).
contributiile variabilelor la inertia factorilor (Variables, Contributions).
Cu ct un punct este mai dep artat de origine cu att are o contributie
mai ridicat a. Evident, nu se pot calcula contributii n cazul elementelor
suplimentare deoarece acestea nu particip a efectiv la analiz a.
cosinusurile p atrate, ce dau calitatea reprezent arii variabilelor pe ecare
factor (Variables, Communalities). Cu ct cosinusurile p atrate sunt mai
apropiate de 1 cu att proiectiile punctelor sunt mai aproape de pozitiile
acestora n spatiul initial, deci informatia este mai bine conservat a n
noul spatiu.
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 59
tabelul 1.2.9. Coordonate, contribu Tii, cosinusuri p

Atrate
fig. 1.2.11. Cercul de corela Tie
Pentru c a analiza a fost realizat a plecnd de la matricea de corelatii,
deci de la datele centrat reduse, coordonatele din tabelul 1.2.9 reprezint a coe-
cientii de corelatie dintre variabile si cei doi factori principali. Asadar, primul
factor, corespunz ator valorii proprii 3.97, este puternic corelat pe de o parte
cu variabilele WRK si TRSP - corelatii negative, si pe de alt a parte cu HH
si CHD - corelatii pozitive. n plus, valorile coordonatelor pentru aceste va-
riabile sunt foarte apropiate de -1 (-0.94, -0.85), respectiv +1 (0.91, 0.77) si
cosinusurile p atrate au valori ridicate (0.88, 0.72, 0.83, 0.60). Putem spune
asadar c a primul factor principal opune activit atile specice lucrului n afara
casei (munc a si transport) celor casnice (cresterea copiilor si ngrijirea casei).
n mod similar, al doilea factor este evident legat de activit ati specice stilu-
lui de viat a al omului modern si organizat: cump ar aturile (SHP) si ngrijirea
60 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
personal a (CARE). Reprezentarea grac a a coordonatelor n cadrul cercului
de corelatie (g. 1.2.11.) este disponibil a n submeniul Variables, Plot var.
factor coordinates, 2D, si ofer a o mai bun a imagine asupra relatiilor din planul
variabilelor.
Variable contributions ilustreaz a contributia ec arei variabile initiale la
dispersia factoruilui respectiv. Valorile din tabelul 1.2.9 conrm a faptul c a
timpul petrecut la servici (WRK) si timpul petrecut acas a (HH) explic a mpre-
un a 43% din dispersia factorului 1 iar timpul petrecut la cump araturi (SHP)
si timpul petrecut pentru ngrijirea personal a (CARE) explic a mpreun a 77%
din dispersia factorului 2.
Variabilele suplimentare ilustrnd timpul liber (SLP, TV, LSR) sunt
legate de activit atile casnice (g. 1.2.11.).
n ceea ce priveste indivizii, sugestiv a este imaginea proiectiei n planul
factorial (g. 1.2.12.). Pentru a obtine acest grac, din submeniul Cases
se alege optiunea No names/numbers si se apas a butonul Plot cases factor
coordinates, 2D.
fig. 1.2.12. Planul indivizilor
Gracul obtinut a fost construit plecnd de la indivizii activi (de gen
feminin), cei suplimentari (de gen masculin) ind proiectati ulterior. Este
interesant a gruparea celor dou a tipuri de indivizi, conform c areia b arbatii sunt
situati la jum atatea stng a a primei axe (au deci coordonate negative pe primul
factor). Avnd n vedere interpretarea primului factor, pentru care munca si
transportul aveau coordonate negative semnicative si contributii ridicate, se
poate spune c a b arbatii care au participat la acest studiu acord a cea mai mare
parte a timpului carierei. Tot n gura 1.2.12. se evidentiaz a dou a grup ari
n cadrul indivizilor de sex feminin, situate la dreapta si la stnga primei
1.2. ANALIZA N COMPONENTE PRINCIPALE (ACP) 61
axe principale: (A) femeile care isi petrec majoritatea timpului n cas a si (B)
femeile care si petrec majoritatea timpului n exterior. Pentru o interpretare
mai detaliat a se opteaz a pentru reprezentarea punctelor nsotite de etichete
(optiunea Case Names din submeniul Cases).
fig. 1.2.13. Plotarea indivizilor eticheta Ti
Avem acum mai multe informatii despre compozitia grupurilor (A) si (B):
conform gurii 1.2.13. rezult a c a femeile care si petrec majoritatea timpului
n cas a sunt e c as atorite (prima liter a din codicare este M), e neangajate
(prima liter a din codicare este U), iar femeile c as atorite (S) sau/si angajate
(E) si petrec majoritatea timpului n exterior.
Se remarc a n mod deosebit patru tipologii:
(1) femeia "medie" - a c arei reprezentare n gura 1.2.13. este situat a la
cea mai mic a distant a fat a de centrul de greutate al norului de puncte-
individ. Aceasta este c as atorit a iar apropierea de grupul (B) indic a
faptul c a este mai degrab a o femeie activ a dect casnic a.
(2) femeia "casnica" - provenind din grupul (A) este neangajat a, preocupat a
ndeosebi de menaj si de cresterea copiilor.
(3) femeia "cumparatoare" - n bugetul de timp al acestei categorii, cump ar a-
turile (SHP) ocup a un loc important. Grupul ese ilustrat exclusiv de
femei din USA.
(4) femeia "narcisista" - provenind din grupul (B), acord a majoritatea tim-
pului ngrijirii personale. Acest grup este ilustrat exclusiv de femei din
USA si este alc atuit din femei care lucreaz a si femei singure.
62 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.3 Analiza corespondentelor simple (ACS)
Prezentat a sub acest nume si dezvoltat a n Franta de J.P. Benzecri [5],
metoda are ca precursori pe Guttman [31] si Hayashi [36].
Analiza corespondentelor este o metod a adaptat a tabelelor de con-
tingent a care permite studiul relatiilor ntre dou a sau mai multe variabile
nominale (discrete).
Se distinge ntre:
Analiza corespondentelor simple (ACS) n cazul studiului relatiilor
ntre dou a variabile nominale;
Analiza corespondentelor multiple (ACM) n cazul studiului relati-
ilor ntre mai multe variabile nominale;
Denitia 1.3.1 Se numeste tabel de contingen ta (sau de dependen ta sau n-
cruci sat) un tabel ale c arui linii, respectiv coloane desemneaz a dou a partitii
ale aceleiasi multimi, partitii date de modalit atile a dou a variabile nominale.
Fie X si Y dou a variabile nominale cu : respectiv j modalit ati descriind
o multime de / indivizi.
Fie K tabelul de contingent a cu : linii, j coloane si elementele /
ij
, unde
/
ij
este num arul de indivizi avnd simultan modalitatea i a variabilei X si
modalitatea , a variabilei Y.
Se noteaz a cu
/
i
=

j
/
ij
, /
j
=

i
/
ij
,
/ =

i;j
/
ij
=

i
/
i
=

j
/
j
,
si cu
)
ij
=
/
ij
/
frecventele relative, cu marjele:
)
i
=

j
)
ij
, )
j
=

i
)
ij
, ) =

i;j
)
ij
= 1.
Grac, tabelul se prezint a astfel:
X / Y j
1
j
2
j
j
j
p
r
1
.
.
. /
1
r
2
.
.
. /
2
.
.
.
.
.
.
r
i
/
ij
/
i
.
.
.
r
n
/
n
/
1
/
2
/
j
/
p
/
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 63
Dou a lecturi sunt posibile, dup a cum este privilegiat a una sau alta din-
tre variabile: pe linii, cu frecventele
_
)
ij
)
i
_
i=1,a
)=1,j
, respectiv pe coloane, cu
frecventele
_
)
ij
)
j
_
.
1.3.1 Schema general a de ACS
Analiza corespondentelor simple revine la efectuarea unei analize gene-
rale a unui nor de puncte ponderate ntr-un spatiu cu o metric a special a.
1.3.1.1 GEOMETRIA NORILOR SI ELEMENTELE DE BAZ

A
Fie
F =
_
_
_
)
11
)
12
. . . )
1j
.
.
.
.
.
.
)
a1
)
a2
. . . )
aj
_
_
_
- matricea de dimensiune :j a frecventelor
relative;
D
a
= diag ()
i
) - matricea :: cu diagonala principal a continnd mar-
jele liniilor;
D
j
= diag ()
)
) - matricea jj cu diagonala principal a contnnd marjele
coloanelor.
fig. 1.3.1. Transform

Arile tabelului de contingen T

A
64 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
fig. 1.3.2. Frecven Te, marje, profile
1.3.1.2 ALEGEREA DISTAN TEI SI A METRICII
Este resc s a ne gndim la distanta euclidian a ntre prolurile-linie, re-
spectiv prolurile-coloan a:
d
2
_
i, i
0
_
=

)
_
)
i)
)
i

)
i
0
)
)
i
0

_
2
si analoaga.
Aceast a distant a favorizeaz a coloanele care au o mas a )
)
important a,
adic a modalit atile , care sunt bine reprezentate n populatia studiat a. Pentru
a remedia acest lucru ct si din alte considerente discutate n continuare, se
pondereaz a ecare diferent a cu inversa masei coloanei, obtinndu-se distanta

2
d
2

_
i, i
0
_
=

)
1
)
)
_
)
i)
)
i

)
i
0
)
)
i
0

_
2
si analoaga
d
2

_
,, ,
0
_
=

i
1
)
i
_
)
i)
)
)

)
i)
0
)
)
0
_
2
.
Propozitia 1.3.1
Distanta
2
este invariant a la agregarea liniilor, respectiv a coloanelor, cu
acelasi prol.
Demonstratie.
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 65
fig. 1.3.3. Echivalen Ta distribu Tional

A: invarian Ta distan Telor


ntre coloane fa T

A de agregarea liniilor
d
2
_
,, ,
0
_
=
i
1
1

i=1
1
)
i
_
)
i)
)
)

)
i)
0
)
)
0
_
2
+
1
)
i
1

_
)
i
1
)
)
)

)
i
1
)
0
)
)
0
_
2
+
+
1
)
i
2

_
)
i
2
)
)
)

)
i
2
)
0
)
)
0
_
2
+
a

i=i
2
+1
1
)
i
_
)
i)
)
)

)
i)
0
)
)
0
_
2
Distanta dup a agregarea liniilor cu acelasi prol i
1
si i
2
este
d
2
v
_
,, ,
0
_
=
i
1
1

i=1
1
)
i
_
)
i)
)
)

)
i)
0
)
)
0
_
2
+
1
)
i
0

_
)
i
0
)
)
)

)
i
0
)
0
)
)
0
_
2
+
+
a

i=i
2
+1
1
)
i
_
)
i)
)
)

)
i)
0
)
)
0
_
2
.
Dar
)
i
1
j
)
i
1

=
)
i
2
j
)
i
2

= r
)
, (\) , = 1, j, deoarece liniile au acelasi prol. Pe de
alt a parte, prin agregarea liniilor i
1
si i
2
rezult a
/
i
1
)
+ /
i
2
)
= /
i
0
)
, (\) , = 1, j =
_
)
i
1
)
+ )
i
2
)
= )
i
0
)
, (\) ,
)
i
1

+ )
i
2

= )
i
0

=
)
i
0
)
)
i
0

= r
)
deoarece /
i
1
)
= /
i
1

r
)
, /
i
2
)
= /
i
2

r
)
si
)
i
0
j
)
i
0

=
)
i
1
j
+)
i
2
j
)
i
1

+)
i
2

=
I
i
1
j
+I
i
2
j
I
i
1

+I
i
2

=
v
j(I
i
1

+I
i
2
)
(I
i
1

+I
i
2
)
=
r
)
.
66 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Asadar
(i
1
) =
1
)
i
1

_
)
i
1
)
)
)

)
i
1
)
0
)
)
0
_
2
= )
i
1

__
)
i
1
)
)
i
1

1
)
)

_
)
i
1
)
0
)
i
1

1
)
)
0
_
2
=
= )
i
1

_
r
)
)
)

r
)
0
)
)
0
_
2
= )
i
1

1
(i
2
) =
1
)
i
2

_
)
i
2
)
)
)

)
i
2
)
0
)
)
0
_
2
= )
i
2

__
)
i
2
)
)
i
2

1
)
)

_
)
i
2
)
0
)
i
2

1
)
)
0
_
2
=
= )
i
2

_
r
)
)
)

r
)
0
)
)
0
_
2
= )
i
2

1
= (i
1
) + (i
2
) = )
i
1

1+)
i
2

1=()
i
1

+)
i
2

) 1=)
i
0

1.
(i
0
) =
1
)
i
0

_
)
i
0
)
)
)

)
i
0
)
0
)
)
0
_
2
= )
i
0

__
)
i
0
)
)
i
0

1
)
)

_
)
i
0
)
0
)
i
0

1
)
)
0
_
2
=
= )
i
0

_
r
)
)
)

r
)
0
)
)
0
_
2
= )
i
0

1
= (i
1
) + (i
2
) = (i
0
) = d
2
_
,, ,
0
_
= d
2
v
_
,, ,
0
_
.
Analog pentru invarianta distantei ntre liniile prol la agregarea coloanelor.
Observatia 1.3.1
a) Proprietatea demonstrat a n propozitia de mai sus se numeste principiul
echivalen tei distribu tiilor. Distanta euclidian a nu are aceast a propri-
etate, spre deosebire de distanta Hellinger.
b) Echivalenta distributional a permite agregarea a dou a modalit ati (ale
aceleiasi variabile) cu prole identice (ceea ce face ca n R
j
ele s a se
confunde) ntr-o nou a modalitate cu o pondere sumat a f ar a ns a a afecta
prin aceasta nici distantele ntre modalit atile variabilei nou formate, nici
distantele ntre modalit atile celeilalte variabile.
fig. 1.3.4. analiza n R
3
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 67
Din punct de vedere practic, aceast a proprietate este fundamental a deoa-
rece garanteaz a o oarecare invariant a a rezultatelor fat a de nomenclatura
aleas a pentru constructia modalit atilor unei variabile, cu conditia re-
grup arii modalit atilor asem an atoare. Nu se pierde astfel informatia prin
agregarea unor clase si nu se csitg a informatie prin divizarea claselor
omogene.
c) Metrica spatiului R
j
, respectiv a spatiului R
a
, este, n acest caz M= D
1
j
,
respectiv M= D
1
a
.
d) Cum prolurile-linie, respectiv prolurile-coloan a au mase )
i

a
i=1
, re-
spectiv )
)

j
)=1
, matricile de pondere sunt N = D
a
respectiv N = D
j
.
tabelul 1.3.1. Tabel recapitulativ cu elementele de baz

A ale unei acs


Elemente de baz a Norul de : Norul de j
puncte-linie n R
j
puncte-coloan a n R
a
Matricea X (tabelul) X = D
1
a
F = X = D
1
j
F
0
=
=
_
)
ij
)
i
_
)=1,j
i=1,a
=
_
)
ij
)
j
_
i=1,a
)=1,j
Metrica si distanta M= D
1
j
M= D
1
a
d
2
(i, i
0
) = d
2
(,, ,
0
) =
=
j

)=1
1
)
j
_
)
ij
)
i

)
i
0
j
)
i
0

_
2
=
a

i=1
1
)
i
_
)
ij
)
j

)
ij
0
)
j
0
_
2
Ponderea (masa) N = D
a
= diaq ()
i
) N = D
j
= diaq ( )
)
)
masa liniei i: )
i
masa coloanei ,: )
)
Lema 1.3.1
1. Centrul de greutate al prolurilor-linie este x
G
l
= ()
1
, . . . , )
j
)
0
, centrul
de greutate al prolurilor-coloan a este x
G
c
= ()
1
, . . . , )
a
)
0
.
2. Inertia global a a norului de puncte-linie, respectiv puncte-coloan a m a-
soar a ecartul ntre legile empirice )
i)
si )
i
)
)
.
Demonstratie.
1. Din denitie g = X
0
D 1 deci n acest caz x
G
= X
0
N 1 cu ponderi
68 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
normate, deci
x
G
l
=
_
D
1
a
F
_
0
D
a
1
a
=
_
_
_
_
_
)
1
)
2
.
.
.
)
j
_
_
_
_
_
, x
G
c
=
_
D
1
j
F
_
0
D
j
1
j
=
_
_
_
_
_
)
1
)
2
.
.
.
)
a
_
_
_
_
_
.
2. Din denitie 1
G
l
=

i
j
i
d
2
(i, G
|
) respectiv 1
G
c
=

)
j
)
d
2
(,, G
c
), deci
1
G
l
=

i
)
i
d
2

(i, G
|
) =

i

)
)
i

1
)
)
_
)
i)
)
i
)
)
_
2
=

i

)
()
i)
)
i
)
)
)
2
)
i
)
)
respectiv
1
G
c
=

)
)
)
d
2

(,, G
c
) =

)

i
)
)

1
)
i
_
)
i)
)
)
)
i
_
2
=

)

i
()
i)
)
i
)
)
)
2
)
i
)
)
.
Reamintim c a dou a variabile aleatoare discrete, lund :, respectiv j va-
lori, cu distributia de probabilitate comun a j
i)

)=1,j
i=1,a
si distributiile marginale
j
i
respectiv j
)
sunt independente dac a si numai dac a j
i)
= j
i
j
)
, ceea
ce se traduce n termeni de estimatii empirice ale acestor distributii n
)
i)
= )
i
)
)
.
Statistica testului
H
0
: j
i)
= j
i
j
)
(\) i, ,
H

: () i
1
astfel nct j
i
1
)
,= j
i
1

j
)
este A
2
= /

i

)
()
ij
)
i
)
j
)
2
)
i
)
j
care, conform demonstratiei lui K. Pearson,
~
2
(a1)(j1)
dac a volumul de selectie pe baza c aruia au fost estimate )
i)
,
adic a /, tinde la . Aceasta este motivatia pentru care distanta folosit a n
ACS se numeste
2
si m asoar a ct de independente din punct de vedere
statistic sunt liniile fat a de coloanele tabelului de contingent a K si reciproc.
1.3.1.3. CRITERIUL DE MAXIMIZAT SI MATRICEA DE DI-
AGONALIZAT
Dorim s a reprezent am grac proximitatea ntre prole. Ne plas am, pe
rnd, n cele dou a spatii, n centrul de greutate al norului corespunz ator. Este
o particularitate a ACS, n comparatie cu ACP, echivalenta dintre analiza
general a realizat a pe tabloul necentrat (adic a cu originea n O) si cea realizat a
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 69
pe tabloul centrat (adic a cu originea n G) cu conditia s a neglij am, n primul
caz, axa factorial a care uneste pe O cu G (aceast a ax a este asociat a valorii
proprii egal a cu unu, numit a valoare proprie trivial a). Pentru simplicarea
calculelor vom ntreprinde analiza general a pe tabloul necentrat n R
j
- spatiul
prolurilor-linie.
Conform celor anterioare
_
max
&
_

i
)
i
d
2
(i, 0)
_
u
0
D
1
j
u = 1
=u este vector propriu al matricii S = F
0
D
1
a
FD
1
j
, asociat
_
_
u
0
Mu = 1
X
0
NXMu = `u
= X
0
Mu
_
_
celei mai mari valori proprii ` ,= 1.
Analog, n R
a
_
max

)
)
)
d
2
(,, 0)
_
v
0
D
1
a
v = 1
,
_
_
v
0
Mv = 1
X
0
NXMv = `v
' = XMv
_
_
= v este vector propriu al matricii T = FD
1
j
F
0
D
1
a
asociat celei mai mari
valori proprii ` ,= 1.
Propozitia 1.3.2
ACS pe tablelul centrat este echivalent a cu ACS pe tabelul necentrat.
Demonstratie. Pentru xarea ideilor s a ration am n R
j
.
n cazul tabelului necentrat, se observ a c a
x
0
G
l
D
1
j
..
M
x
G
l
= 1 (1)
deoarece D
1
j
x
G
l
=
_

_
1
.
.
.
1
_

_

j
|
si x
0
G
l
_

_
1
.
.
.
1
_

_
=
j

)=1
)
)
= 1,
si c a S x
G
l
= x
G
l
, (2)
deoarece S = F
0
D
1
a
FD
1
j
= :
))
0 =

i
)
i)
)
i)
0
)
i
)
)
0
iar

)
0
:
))
0 x
)
0
G
l
=

)
0

i
)
i)
)
i)
0
)
i
)
)
0
)
)
0 =

i
)
i)
)
i

)
0
)
i)
0 = )
)
= x
)
G
l
altfel spus, x
G
l
este vector propriu M-normat al matricii S, asociat valorii
proprii `
1
= 1. S a l not am cu u
1
= x
G
l
. Din constructia spatiului H
u
0
1
Mu
c
= 0, c = 2, j
70 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
unde
_
u
0
c
Mu
c
= 1
Su
c
= `
c
u
c
.
n cazul tabelului centrat, se noteaz a cu S

matricea obtinut a prin centrarea


tabelului X. Se observ a c a
S

= S x
G
l
x
0
G
l
D
1
j
= S u
1
u
0
1
M,
S

u
c
= Su
c
u
1
u
0
1
Mu
c
= Su
c
= `
c
u
c
, c = 2, j
S

u
1
= Su
1
u
1
u
0
1
Mu
1
= u
1
u
1
= 0 = 0 u
1
.
Asadar
u

c
= u
c+1
si `

c
= `
c+1
, c = 1, j 1
u

j
= u
1
si `

j
= 0 si `
1
= 1.
Asadar n R
j
, analog n R
a
, ACS pe tabloul centrat cu termenul general
)
ij
)
i
)
)
este echivalent a cu ACS pe tabloul cu termenul general
)
ij
)
i
.
Observatia 1.3.2
a) n ACS punctele sunt continute n hiperplanul H de dimensiune j 1
(pentru R
j
) datorit a faptului c a

i
)
ij
)
i
= 1, (\) i = 1, :.
b) i) Cum

)
x
)
G
l
=

)
)
)
= 1 = G
|
H.
ii) x
0
G
l
Mx
G
l
= 1 = G
|
se a a la distanta 1 de origine. CumOG
|
, x
G
l
=
0 (deoarece (x x
G
l
) Mx
G
l
=

)
r
)


)
r
)
G
l
c aci x H deci

)
r
)
= 1) = OG
|
l H.
fig. 1.3.5. Analiza n R
3
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 71
n analiza n raport cu originea, prima directie u
1
este axa ce leag a
originea de centrul de greutate al norului si este ortonormal a pe H. Inertia
proiectat a pe aceast a ax a este 1, egal a cu distanta dintre O si G
|
deoarece
toate punctele norului se proiecteaz a pe aceast a ax a n acelasi punct G
|
. Ur-
m atoarele j1 axe (u
1
, u
2
, . . . , u
j
) continute n H constituie o baz a, denind
directii de inertie maxim a ale norului. Ele coincid cu primele j1 axe ale ACS
n raport cu G
|
si
_
u

1
, u

2
, . . . , u

j
_
. n aceast a analiz a, a j-a ax a corespunde
lui u
1
= OG
|
si nu indic a nicio directie n H deoarece nu este continut a n H
. Inertia sa (valoarea proprie asociat a) este nul a.
1.3.1.4 AXELE FACTORIALE
Presupunem c a j : . Conform analizei generale:
tabelul 1.3.2. Tabel recapitulativ cu elementele de baz

A
ale unei acs
Elemente de baz a n R
j
n R
a
Matricea de diagonalizat S = F
0
D
1
a
FD
1
j
T = FD
1
j
F
0
D
1
a
Axele factoriale Su
c
= `
c
u
c
Tv
c
= `
c
v
c
Coordonatele factoriale
c
= D
1
a
FD
1
j
u
c
'
c
= D
1
j
F
0
D
1
a
v
c

ci
=

)
)
ij
)
i
)
j
n
c)
,
c)
=

i
)
ij
)
i
)
j

ci
Lema 1.3.2
Coordonatele factoriale sunt variabile cu media empiric a 0 si dispersia em-
piric a `
c
.
Demonstratie. Datorit a echivalentei dintre ACS necentrat a si ACS centrat a,
media empiric a este

i
)
i

ci
=

i
)
i

)
_
)
i)
)
i
)
)
_
1
)
)
n
c)
=
=

i
)
i

)
)
i)
)
i
)
)
n
c)

i
)
i

)
n
c)
=
=

)
_

i
)
i)
_
n
c)
)
)

)
n
c)
= 0.
72 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Deci, conform denitiei dispersiei empirice,

i
)
i

2
ci
=
0
c
D
a

c
= u
0
c
D
1
j
F
0
D
1
a
D
a
D
1
a
FD
1
j
u
c
=
= u
0
c
D
1
j
F
0
D
1
a
FD
1
j
u
c
= u
0
c
D
1
j
Su
c
=
= u
0
c
D
1
j
`
c
u
c
= `
c
u
0
c
D
1
j
u
c
. .
1
= `
c
Analog pentru

)
)
)
,
2
ci
= `
c
.
1.3.1.4 RELA TIILE DINTRE CELE DOU

A SPA TII
Analiza general a a ar atat c a matricile S si T au aceleasi valori proprii
nenule si c a ntre vectorii proprii normati u
c
ai lui S asociati lui `
c
si vectorii
proprii normati v
c
ai lui T asociati aceleiasi valori proprii exist a relatiile:
v
c
=
1
_
`
c
FD
1
j
u
c
,
u
c
=
1
_
`
c
F
0
D
1
a
v
c
.
nlocuind n formulele coordonatelor factoriale:

c
=
_
`
c
D
1
a
v
c
(pe componentele
ci
=
_
`
c
)
i

ci
) =
1
_
`
c
D
a

c
= v
c
,
'
c
=
_
`
c
D
1
j
u
c
(pe componentele ,
c)
=
_
`
c
)
)
n
c)
) =
1
_
`
c
D
j

c
= u
c
,
care nlocuite n formulele coordonatelor factoriale dau formulele quasi-
baricentrice

c
=
1
_
`
c
D
1
a
F'
c
cu
ci
=
1
_
`
c
j

)=1
)
i)
)
i
,
c)
,
'
c
=
1
_
`
c
D
1
j
F
c
cu ,
c)
=
1
_
`
c
a

i=1
)
i)
)
)

ci
.
Astfel, modulo coecientul de dilatatie
1
p
A

, proiectiile punctelor
unui nor sunt, pe o ax a, coordonatele baricentrice ale proiectiilor
punctelor celuilalt nor.
Matricea cu termenul general
_
)
ij
)
i
_
)=1,j
i=1,a
ce permite calculul coordo-
natelor unui punct i pe baza tuturor punctelor , nu este alta dect matricea
prolurilor linie. Coordonata modalit atii i a unei variabile reprezint a media
modalit atilor , ale celeilalte variabile, ponderate de frecventele conditionate
ale prolului i. Analog, coordonata modalit atii , reprezint a media multimii
modalit atilor i ponderate de frecventele conditionate ale prolului ,.
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 73
Lema 1.3.3
Valorile proprii `
c
sunt subunitare (`
c
_ 1, (\) c).
Demonstratie. Din
ci
=
1
p
A

)=1
)
ij
)
i
,
c)
=
_
`
c

ci
=

)=1
)
ij
)
i
,
c)
=
min
)
_
,
c)
_
j

)=1
)
i)
)
i
. .
1
_
_
`
c

ci
_ max
)
_
,
c)
_
j

)=1
)
i)
)
i
. .
1
=
max
i
_
_
`
c

ci
_
_ max
)
_
,
c)
_
. (1)
Analog
max
)
_
_
`
c
,
c)
_
_ max
i
(
ci
) . (2)
Cum `
c
_ 0, din (1) si (2) = max
)
__
`
c
,
c)
_
_ max
)
_
,
c)
_
= `
c
_ 1.
Relatiile quasi-baricentrice justic a reprezentarea simultan a a liniilor
si a coloanelor.
fig. 1.3.6. Schema reprezent

Arii simultane
R amne n continuare valabil a observatia de la ACP legat a de faptul c a
distanta dintre un punct-linie si un punct-coloan a este lipsit a de sens deoa-
rece acestea se situeaz a n spatii diferite. ACS ofer a totusi posibilitatea de a
74 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
pozitiona si interpreta un punct dintr-un nor n raport cu punctele din cel alalt
nor.
1.3.2 Reguli de interpretare a rezultatelor
Inertia M asurnd distanta de la independenta statistic a, 1
G
- 0 si `
1
_ `
2
semnic a puncte grupate n jurul lui G ntr-o form a aproximativ circular a (nu
exist a directie privilegiat a) generat a de prole independente statistic.
Dac a
`
1
1 = o dihotomie a punctelor,
`
2
1 = 3 subnori,
`
1
, `
2
, . . . , `
j
1 = exist a o corespondent a aproape
biunivoc a ntre modalit atile variabilelor.
Inertie slab a
1. INDEPENDEN T

A 2. DEPENDEN T

A
1
G
- 0 1
G
- 0
`
1
_ `
2
`
1
`
2
Inertie mare
3. DEPENDEN T

A 4. DEPENDEN T

A
1
G
0 1
G
0
`
1
_ `
2
`
1
`
2
Form a "sferic a" Form a "nesferic a"
S a consider am cteva forme clasice de nori de puncte pentru a ar ata cum
poate reorganizat tabelul de date corespunz ator, pornind de la proiectia
acestora.
n cazul norului de puncte mp artit n doi subnori, tabelul de date poate
reorganizat prin ordonarea coordonatelor liniilor si coloanelor pe primul factor.
Se obtine schematic gura 1.3.7.:
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 75
fig. 1.3.7. Norul de puncte mp

Ar Tit n dou

A.
Pot exista situatii n care analiza separat a a celor doi subnori deniti de
tabelele corespunz atoare (I
1
, J
1
) si (I
2
, J
2
) s a e interesant a.
n cazul norului de puncte mp artit n trei subnori, tabelul de date poate
reorganizat analog prin permutarea liniilor si coloanelor. El poate face de
asemenea obiectul unor ACS separate.
fig 1.3.8. Norul de puncte mp

Ar Tit n trei
Se poate ntlni situatia n care norul de puncte are o form a parabolic a.
Permutnd liniile si coloanele, tabelul poate reordonat sub forma unei matrici
diagonale relativ nc arcate:
fig 1.3.9. Efectul guttman Si structura posibil

A a tabelului
Aceast a situatie pune n evident a efectul Guttman care corespunde
unei redundante a celor dou a variabile: cunoasterea liniei i permite deducerea
coloanei j. Toat a informatia este dat a aproape n totalitate de primul factor.
76 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Matricea asociat a tabelului nu este, totusi, de rang 1 si dispunem de
p-1 factori. Al doilea factor este o functie de ordinul doi de primul factor,
al treilea factor este o functie de ordinul trei, etc. Informatia dat a de axele
de rang superior traduce acelasi fenomen, totusi examinarea celui de-al doilea
factor raneaz a interpretarea primului factor (conform [61]).
n general efectul Guttman apare atunci cnd variabilele sunt ordonate
(variabile continue transformate n variabile nominale). O ax a, adesea prima,
opune valorile extreme iar o alt a ax a opune valorile intermediare valorilor ex-
treme. Uneori, efectul Guttman pune n evident a o structur a neliniar a care
poate interesant a dac a forma parabolic a nu este perfect a. Punctele de rup-
tur a sunt, n acest caz, interesante.
Inertia (dispersia) explicat a de un factor `
c
=

i
)
i

2
ci
= Cr
c
(i) =
)
i

2
i
A

, (\) i = 1, : n R
j
reprezint a contributia elementului i la axa c ( )
i

2
ci
=
dispersia individului, `
c
=dispersia ntregii axe).
Analog Cr
c
(,) =
)
j
,
2
j
A

, (\) i = 1, j n R
a
.
fig. 1.3.10. Contribu Tia la axa c: trei situa Tii posibile
Calitatea reprezent arii unui punct Din denitie d
2
c
(i, G) =
2
ci
. Cum
n ACS punctele se a a n spatiul H de dimensiune j 1 =

c
d
2
c
(i, G) =
d
2
(i, G).
Un punct i din R
j
poate mai aproape sau mai departe de axa c. Proxi-
mitatea ntre dou a puncte proiectate pe axa c este cu att mai bine reectat a
cu ct aceste puncte sunt mai apropiate de axa pe care sunt proiectate.
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 77
fig. 1.3.11. Proiec Tia punctului i pe axa c
Calitatea reprezent arii unui punct i pe axa c poate evaluat a de:
cos
2
c
(i) =
d
2
c
(i, G)
d
2
(i, G)
Aceast a cantitate, numit a cosinusul patrat, reprezint a contribu tia relativa
a factorului c la pozi tia punctului i. Cu ct cosinusul p atrat este mai apropiat
de 1 cu att proiectia punctului este mai aproape de pozitia acestuia n spatiu.
fig. 1.3.1.2. Calitatea reprezent

Arii unui punct i pe axa c


Din denitie rezult a c a

c
cos
2
c
(i) = 1, (\) i puncte active.
Cosinusul p atrat pentru un element ilustrativ este subunitar dac a acesta
apartine lui R
j
. n ACS elementele active apartin lui R
j1
.
1.3.3 Exemplu
Descrierea datelor
Un exemplu de aplicare a metodei analizei corespondentelor simple l
constituie identicarea si descrierea unor anit ati ntre diverse categorii so-
cioprofesionale si diverse tipuri de media. Studiul a fost realizat pe 4433 de
persoane ce ilustreaz a categoriile socioprofesionale mentionate mai jos si care
78 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
au avut n total 12388 "contacte media". Se porneste de la tabelul de conti-
gent a A.2. (Anex a), notat cu K.
Pentru acest set de date se indentic a cele dou a variabile nominale:
categoria socioprofesional a - variabila nominal a X cu : = 8 modalit ati
pe care le vom denumi "indivizi":
AGR=agricultori
PTR=patroni
CSUP=cadre superioare
CMED=cadre medii
FUNC=functionari
MCAL=muncitori calicati
MNECAL=muncitori necalicati
INACT=inactivi
tipul de media - variabila nominal a Y cu j = 6 modalit ati pe care le vom
denumi "variabile":
rad=radio
tel=televiziune
cot_nat=cotidian national
cot_loc=cotidian local
rev=reviste
ghid_tv=ghid de televiziune.
Indivizii si variabilele de mai sus reprezint a elementele active, care par-
ticip a la determinarea axelor principale. Pentru acuratetea interpret arii reprezen-
t arilor obtinute, n planul factorial principal vor proiectate ulterior si alte
caracteristici ale populatiei studiate (indivizi suplimentari): sexul (2 modal-
it ati), vrsta (5 modalit ati), nivelul de educatie (4 modalit ati), conform tabelu-
lui A.3. (Anex a).
Pentru tabelul elementelor active, valoarea aat a la intersectia liniei i cu
coloana , (/
i)
) reprezint a num arul de indivizi apartinnd categoriei sociopro-
fesionale i care au avut ntr-un interval de timp analizat cel putin un contact
cu tipul de media ,. O persoan a apartinnd unei categorii socioprofesionale
poate intra n contact cu mai multe tipuri de media. Num arul total de contacte
cu media pentru o categorie socioprofesional a este dat de suma valorilor de pe
linie (/
i
) . De exemplu, agricultorii au avut /
1
= 96 + 118 + . . . + 17 = 354
contacte cu media; Suma valorilor de pe coloan a (/
)
) reprezint a num arul de
contacte avute cu tipul , de media al tuturor celor 8 categorii socioprofesion-
ale. De exemplu, pentru radio /
1
= 96 + 122 + . . . + 1474 = 3297 contacte.
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 79
Efectivul total (/), adic a num arul de contacte cu toate tipurile de media ale
tuturor categoriilor socioprofesionale este dat de suma tuturor valorilor /
i
(sau a tuturor valorilor /
)
) si este 12388.
Acelasi tip de calcule se poate face si pentru tabelul indivizilor suplimen-
tari.
Efectuarea analizei si interpretarea rezultatelor
Aplicarea analizei corespondentelor simple cu ajutorul programului STA-
TISTICA implic a parcurgerea pasilor prezentati n continuare.
Se porneste de la tabelul A2 al elementelor active. Pentru nceput se
selecteaz a din bara de meniu tipul de analiz a utilizat Statistics, Multivari-
ate Exploratory Techniques, Correspondence Analysis. n fereastra de dialog
ap arut a (g.1.3.13.) se opteaz a pentru analiza corespondentelor simple (Cor-
respondence Analysis (CA)), se indic a tipul de tabel analizat - n cazul acesta
tabel de contingent a (Frequencies w/out grouping vars) si se apas a butonul
Variables with frequencies pentru selectarea variabilelor care particip a la anal-
iz a - n acest caz toate.
fig. 1.3.13. Fereastra de pornire
Dup a ap asarea butonului OK, o nou a fereastr a (g 1.3.14.) permite
generarea rezultatelor specice analizei corespondentelor simple. Tot aici este
prezentat un rezumat al datelor de plecare: num arul de indivizi activi si varia-
bile active, probabilitatea estimat a (j) a ipotezei H
0
de independent a a liniilor
fat a de coloanele tabelului de contingent a (vezi subcapitolul 1.3.1.2 pentru de-
talii ), inertia global a (
2
), num arul gradelor de libertate (35 = (8 1) (6 1))
si valorile proprii (rezultate n urma diagonaliz arii matricii S a norului de
puncte linie).
80 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
fig. 1.3.14. Fereastra de rezultate
Se introduc etichetele si valorile din tabelul A.3. (Anex a) n tabelul
generat prin selectarea succesiv a a Supplementary points, Add row points si se
revine n submeniul Advanced. Dimensiunea spatiului de proiectie se decide
examinnd diagrama valorilor proprii (Plot) si aplicnd regula cotului sau,
pentru mai multe detalii, tabelul 1.3.3. (Eigenvalues) care contine:
- valorile singulare
- valorile proprii
- procentul din inertia total a explicat de ecare valoare proprie, deci de
ecare dimensiune,
- procentul cumulat de inertie explicat a
- valoarea din inertia total a explicat a de ecare valoare proprie, deci de
ecare dimensiune.
Se observ a c a primele dou a valori proprii explic a aproape 95% din in-
ertie, deci dou a dimensiuni (planul principal) ofer a un grad sucient de pre-
cizie reprezent arii proiectiilor. Asadar se completeaz a n cmpul Number of
dimensions din submeniul Quick valoarea 2, apoi se revine n submeniul Ad-
vanced.
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 81
tabelul 1.3.3. Valori proprii, procente de iner Tie
Butonul Row and column coordinates produce dou a tabele - tabelul
1.3.4. si tabelul 1.3.5., ce contin rezultatele, att pentru elementele active ct
si pentru cele suplimentare, reprezentnd:
- coordonatele proiectiilor punctelor pe cele dou a dimensiuni,
- ponderile (masele),
- calitatea reprezent arii punctelor n planul factorial, dat a de suma cosi-
nusurilor p atrate pentru cele dou a axe factoriale,
- contributiile calculate pentru ecare dintre cele dou a dimensiuni (Inertia
aici).
Valori ca ponderea si contributia nu sunt calculate pentru punctele su-
plimentare, acestea neparticipnd efectiv la analiz a.
O observatie interesant a este aceea c a modalitatea cotidian na tional,
avnd o mas a (deci frecvent a relativ a) mic a (0, 04), are totusi o contributie
ridicat a (0, 74) si o foarte bun a reprezentare relativ la prima ax a factorial a
(0, 99). Aceast a ax a este caracterizat a, n planul indivizilor, de cadrele supe-
rioare, avnd coordonate si contributii ridicate, precum si o apropiere semni-
cativ a de ax a.
Cea de-a doua ax a principal a separ a ghidul TV de reviste si presa local a,
n planul variabilelor si functionarii si muncitorii de agricultori si patroni, n
planul indivizilor.
82 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
tabelul 1.3.4. Rezultate specifice n planul indivizilor
tabelul 1.3.5. Rezultate specifice n planul variabilelor
Este evident acum faptul c a prima ax a factorial a corespunde unei inter-
pret ari punctuale: categoria socioprofesional a care a avut cele mai multe con-
tacte cu presa cotidian a national a (cot_nat) este aceea a cadrelor superioare
(CSUP), caracterizat a totodat a de un nivel superior al educatiei (SUP).
Pentru o mai bun a vizualizare se realizeaz a proiectia simultan a a ele-
mentelor (variabile si indivizi) (Row and col, 2D), obtinndu-se gracul din
g. 1.3.15. (din care am eliminat, pentru claritate, punctele suplimentare).
Proiectiile n acest plan ale indivizilor secundari ofer a informatii suplimentare
(g. 1.3.16.)
1.3. ANALIZA CORESPONDEN TELOR SIMPLE (ACS) 83
fig. 1.3.15 Indivizi activi si variabile active
fig. 1.3.16. Indivizi suplimentari
A doua ax a opune catagoriile sociale tinere, avnd o educatie medie (sco-
lal a profesional a), care prefer a ghidurile TV, agricultorilor si patronilor cu
vrste medii evident superioare si avnd un nivel sc azut al educatiei, care
prefer a cotidienele locale si revistele.
84 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Revenind la observatia asupra variabilei cot_nat, ne intereseaz a ce se n-
tmpl a dac a excludem aceast a variabil a din calculul efectiv al axelor, considernd-
o suplimentar a si eliminnd astfel contributia ridicat a pe care aceasta o are
la prima ax a factorial a. Se reia asadar analiza pornind de la tabelul 1.3.1.,
de data aceasta selectnd n fereastera de nceput ca ind active toate vari-
abilele, mai putin cot_nat. Calculele ulterioare relev a faptul c a noile valori
proprii (tabelul 1.3.6.) sunt foarte aproiate de cele vechi (tabelul 1.3.3.), iar
coordonatele pe prima ax a (tabelul 1.3.7.) difer a cu maxim 0,01 de cele vechi
(tabelul 1.3.5.) A doua ax a factorial a, pe care cot_nat are coordonata -0,54
si cosinusul p atrat 0,88, este foarte apropiat a de vechea prim a ax a principal a.
Acest ultim demers arat a c a rezultatele ACS pe acest exemplu sunt ro-
buste (eliminarea unei modalit ati cu contributie mare nu modic a semnicativ
rezultatele)
tabelul 1.3.6. Valori proprii, procente de iner Tie dup

A
eliminarea cot_nat
tabelul 1.3.7. Rezultate specifice n planul variabilelor dup

A
eliminarea cot_nat
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 85
1.4 Analiza corespondentelor multiple (ACM)
Analiza corespondentelor multiple (ACM) este o generalizare posibil a a
analizei de corespondent a.
Numele apare ntr-o lucrare a lui Lebart [40] dar principiile metodei urc a
pn a la Guttman [31], Burt [8], Hayashi [36].
Sub numele de Homogeneity Analysis este dezvoltat a de echipa lui J. De
Leew ncepnd cu 1973, iar sub numele de Dual Scaling de c atre Nishisato
[49].
Se noteaz a cu:
: - num arul ntreb arilor puse la : indivizi;
j
q
- num arul modalit atilor ntreb arii , = 1, : ;
R = (r
iq
)
q=1,c
i=1,a
- tabelul de date condensat, unde r
iq
= num arul modal-
it atii ntreb arii aleas a de individul i, deci r
iq
_ j
q
.
Ipoteza fundamental a: Modalita tile ecarei ntrebari se exclud reciproc,
iar o modalitate este obligatoriu aleasa.
Exemplul 1.4.1
La ntrebarea " Starea dvs. civila este...", cu modalit atile
1. celibatar 4. divor tat
2. casatorit sau traind marital 5. nu raspund
3. vaduv
exist a cinci modalit ati de r aspuns ce satisfac ipoteza fundamental a
Un astfel de tabel (g 1.4.1.) nu este exploatabil: sumele pe linii si pe
coloane nu au niciun sens. Variabilele trebuie recodate.
fig. 1.4.1 Tabel de date sub form

A codificat

A condensat

A.
86 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
n acest sens se noteaz a cu j =
c

q=1
j
q
num arul total de modalit ati ale
celor : ntreb ari si se construieste, pornind de la R tabelul
Z =[Z
1
, Z
2
, . . . , Z
q
, . . . , Z
c
]
cu : linii si j coloane, tabel ce descrie cele : r aspunsuri ale celor : indivizi
printr-un codaj binar.
Z se obtine din R astfel:
.
i),q
=
_
1, dac a r
iq
,= 0
0, altfel
n notatia de mai sus Z
q
este un tabel :j
q
ecare linie continnd j
q
1
zerouri si un singur unu.
Denitia 1.4.1 Tabelul Z se numeste tabel disjunctiv complet.
fig. 1.4.2. Construc Tia tabelului disjunctiv complet
Marjele tabelului Z sunt:
.
i
=
j

)=1
.
i),q
= :,
.
)
=
a

i=1
.
i),q
= num arul de indivizi care au ales modalitatea , a ntreb arii .
Rezult a
: =
j
q

)=1
.
)
= .
q
si
. =
a

i=1
.
i
=
c

q=1
.
q
=
a

i=1
j

)=1
.
i)
= :: = efectivul total.
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 87
Denitia 1.4.2 B = Z
0
Z se numeste tabelul de contingen ta Burt asociat tabelu-
lui disjunctiv complet Z.
Termenul general se scrie : /
))
0 =
a

i=1
.
i)
.
i)
0
Marjele sunt : /
)
=
j

)
0
=1
/
))
0 = : .
)
Efectivul total este : / =
j

)=1
/
)
= :
2
:.
Tabelul B este format din :
2
blocuri unde se disting:
blocurile de tip Z
0
q
Z
q
0 indexate de (,
0
), de dimensiune j
q
j
q
0 , care
se obtin prin ncrucisarea r aspunsurilor la ntreb arile si
0
;
blocurile de tip Z
0
q
Z
q
, obtinute prin ncrucisarea r aspunsurilor la
aceeasi ntrebare.
Tabelul B este o matrice diagonal a avnd n vedere c a dou a modalit ati
ale aceleiasi ntreb ari nu pot alese simultan (datorit a ipotezei fundamentale).
Termenii de pe diagonal a sunt efectivele .
)
ale modalit atilor ntreb arii .
fig. 1.4.3. Construc Tia tabelului Burt pornind de la tabelul
disjunctiv complet Z
Se noteaz a cu D matricea diagonal a j j denit a de relatiile
d
))
= /
))
= .
)
d
))
0 = 0, (\) , ,= ,
0
cu ,, ,
0
= 1, j
Matricea D poate de asemenea considerata ca ind format a din :
2
blocuri. Numai cele : matrici diagonale D
q
= Z
0
Z, = 1, : ce formeaz a
blocurile diagonale ale lui B sunt matrici nenule:
88 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
fig. 1.4.4. Tabloul burt B Si matricea diagonal

A D asociat

A
(datele sunt din fig. 1.4.1. Si din fig. 1.4.2.)
1.4.1 Principiile ACM
Analiza corespondentelor multiple este analiza corespondentelor simple
aplicat a unui tabel disjunctiv complet.
fig. 1.4.5. Analiza de coresponden T

A multipl

A
n consecint a:
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 89
se aplic a aceleasi transform ari tabelului de date pentru obtinerea prolurilor-
linie/prolurilor-coloan a;
aceleasi ponderi ale punctelor functie de prolurile marginale;
aceeasi distant a, distanta
2
.
Asadar indivizii sunt toti afectati de o pondere identic a, egal a cu :
i
=
:
i
ac
=
1
a
, i = 1, :.
Fiecare modalitate , este ponderat a de frecventa sa, :
)
=
:
j
ac
.
n R
a
distanta
2
ntre modalit ati, pe un tabel disjunctiv se scrie:
d
2
_
,, ,
0
_
=
a

i=1
:
_
.
i)
.
)

.
i)
0
.
)
0
_
2
si este nul a dac a modalit atile , si ,
0
sunt alese de aceiasi indivizi. n plus,
modalit atile de efectiv sc azut, adic a cele alese de putini indivizi, sunt dep artate
fat a de celelalte modalit ati.
n R
j
distanta
2
ntre indivizi, pe un tabel disjunctiv, se scrie
d
2
_
i, i
0
_
=
1
:
j

)=1
:
.
)
_
.
i)
.
i
0
)
_
2
si este nul a dac a indivizii i si i
0
au ales aceleasi modalit ati . Ei sunt cu att
mai dep artati cu ct au r aspuns mai diferit.
n plus, trebuie observat c a o modalitate , intervine n distanta dintre
indivizi cu att mai mult cu ct masa ei este mai mic a.
Relund rezultatele analizei de corespondent a si notatiile adoptate rezult a:
F =
1
::
Z, cu termenul general )
i)
=
.
i)
::
,
D
j
=
1
::
D, cu termenul general )
)
= c
i)
.
)
::
,
D
a
=
1
:
I
a
, cu termenul general )
i
=
c
i)
:
.
Pentru a g asi axele factoriale u
c
se diagonalizeaz a matricea
S = F
0
D
1
a
FD
1
j
=
1
:
Z
0
ZD
1
cu termenul general (atentie! : neindexat semnic a, n acest subcapitol,
num arul de ntreb ari)
:
))
0 =
1
: .
)
0
a

i=1
.
i)
.
i)
0 .
90 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
n R
j
, ecuatia celei de-a c-a axe factoriale u
c
este
1
:
Z
0
ZD
1
u
c
= `
c
u
c
.
si ecuatia celui de-al c-lea factor '
c
= D
1
u
c
(modulo o constant a) este
1
:
D
1
Z
0
Z'
c
= `
c
'
c
.
Analog, n R
a
, ecuatia celui de-al c-lea factor
c
este
1
:
ZD
1
Z
0

c
= `
c

c
.
Factorii '
c
si
c
(de norm a `
c
) reprezint a coordonatele punctelor linie
si ale punctelor coloan a pe axa factorial a c.
Relatiile de tranzitie ntre factorii '
c
si
c
sunt:
'
c
=
1
_
`
c
D
1
Z
0

c
;

c
=
1
:
_
`
c
Z'
c
.
Coordonatele factoriale ale individului i pe axa c sunt date de:

c,i
=
1
_
`
c
j

)=1
.
i)
.
i
,
c,)
=
1
:
_
`
c

)2j(i)
,
c,)
unde j (i) desemneaz a multimea modalit atilor alese de individul i.
Corolarul 1.4.1
Modulo coecientul
1
p
A

individul i se g aseste proiectat n planul factorial


principal n centrul de greutate (punctul de coordonate media aritmetic a) al
modalit atilor pe care le-a ales.
Analog, coordonatele factoriale ale modalit atii , pe axa c sunt date de:
,
c,)
=
1
_
`
c
a

i=1
.
i)
.
)

c,i
=
1
.
)
_
`
c

i2a())

c,i
unde :(,) desemneaz a multimea indivizilor care au ales modalitatea ,.
Observatia 1.4.1
n formulele de mai sus, modalit atile/indivizii nu sunt ponderati; coordonatele
sunt simple medii aritmetice.
Norul modalit atilor din R
a
poate descompus n : submultimi, a -a
submultime (subnor) corespunznd multimii j
q
a modalit atilor variabilei .
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 91
Corolarul 1.4.2
Centrele de greutate ale celor : submultimi ale norului modalit atilor din R
a
coincid cu centrul de greutate al norului global.
Demonstratie. ntr-adev ar, coordonatele punctelor subnorului relativ la
variabila sunt coordonatele lui Z
q
D
1
q
iar elementele de pe diagonala prin-
cipal a a lui
1
a
D
q
sunt masele relative ale celor j
q
puncte ale subnorului.
Deoarece

)2j(q)
.
i)
= 1, a i-a component a a centrului de greutate al sub-
norului este
G
q,i
=

)2j(q)
d
))
:

.
i)
d
))
=
1
:
= G
i
,
unde j () desemneaz a multimea modalit atilor variabilei nominale . Rezult a
c a G
q,i
nu depinde de .
Observatia 1.4.2
1. Dac a tabelul Z nu este complet disjunctiv, adic a dac a pentru cel putin un
individ nicio modalitate a unei ntreb ari nu a fost aleas a, modalit atile
acelei variabile nu mai sunt centrate n centrul de greutate al norului
global.
2. Codicarea disjunctiv a complet a permite transformarea unei variabile
continue ntr-o variabil a nominal a ale carei modalit ati sunt clase ordo-
nate. In aceast a situatie este util s a se traseze traiectoria care poate
sugera leg aturi neliniare ntre aceast a variabil a si axele factoriale.
Coordonatele modalit atilor n R
a
sunt coloanele tabelului ZD
1
. Aces-
tea genereaz a un subspatiu a c arui dimensiune este rangul lui ZD
1
, deci
rangul lui Z =[Z
1
, Z
2
, . . . , Z
q
, . . . , Z
c
]. Reamintim c a toate subspatiile gen-
erate de coloanele lui Z
q
, = 1, : au n comun prima bisectoare, deoarece

)2j(q)
.
i)
= 1. Rangul maxim al lui Z este deci
j
1
+ (j
2
1) + . . . (j
c
1) = j : + 1.
Rangul maxim al matricii de diagonalizat D
1
Z
0
Z va deci j : + 1.
Dar n analiza norului n raport cu originea O, prima bisectoare este vectorul
propriu corespunznd valorii proprii 1.
n analiza n raport cu centrul de greutate G vor g asite deci j: valori
proprii nenule. Alegnd o baz a n suportul norului, ne putem restrnge la a
c auta valorile proprii ale unei matrici de ordin j :.
92 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.4.2 Calculul inertiei
Distanta de la o modalitate , la centrul de greutate G este
d
2
(,, G) = (, G)
0
D
1
a
(, G) = :
a

i=1
_
.
i)
.
)

1
:
_
2
=
= :
_
a

i=1
.
2
i)
.
2
)
2
1
:
a

i=1
.
i)
.
)
+
1
:
2
a

i=1
1
_
=
= :
_
1
.
2
)
a

i=1
.
2
i)
2
1
:

1
.
)
a

i=1
.
i)
+
1
:
2
:
_
=
= :
_
1
.
)
2
1
:
+
1
:
_
=
:
.
)
1
deoarece .
2
i)
= .
i)
si
a

i=1
.
i)
= .
)
.
Inertia 1 (,) a unei modalit ati , este, prin denitie:
1 (,) = :
)
d
2
(,, G) cu :
)
=
.
)
::
rezult a
1 (,) =
1
:
_
1
.
)
:
_
.
Corolarul 1.4.3
Inertia unei modalit ati este cu att mai mare cu ct efectivul .
)
al acestei
modalit ati, adic a num arul de indivizi care au ales-o, este mai mic.
Maximul
1
c
va atins pentru modalit atile de efectiv nul. n consecint a,
se va evita n momentul codic arii, introducerea unor modalit ati susceptibile
de a alese de putini indivizi, tocmai pentru a nu introduce perturbatii n
primele axe factoriale.
Inertia 1 () a unei ntreb ari este, prin denitie,
1 () =
j
q

)=1
1 (,) =
1
:
(j
q
1) .
Corolarul 1.4.4
Inertia unei ntreb ari este cu att mai mare cu ct num arul de modalit ati
asociat, j
q
, este mai mare. Minimul
1
c
este atins de ntreb arile cu doar dou a
modalit ati de r aspuns. n consecint a, dac a se doreste ca toate ntreb arile
s a joace un rol aproximativ egal atunci se va echilibra sistemul de ntreb ari
(variabilele vor decupate ntr-un num ar egal de modalit ati).
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 93
Inertia total a este
1 =
c

q=1
1 () =
j

)=1
.
)
::
d
2
(,, G) =
j
:
1, deoarece
c

q=1
j
q
= j
n particular 1 = 1 dac a toate ntreb arile au dou a modali ati de r aspuns,
adic a j = 2:.
n consecint a depinznd exclusiv de num arul de ntreb ari si de modal-
it atile asociate acestora, inertia global a nu are, n cazul ACM (ca si n cazul
ACP normat, de altfel), nicio semncatie statistic a, deoarece nu depinde de
leg atura ntre variabile.
1.4.3 Reguli de interpretare
A spune c a exist a anit ati ntre r aspunsuri este acelasi lucru cu a spune c a
exist a indivizi care au prole asem an atoare din punct de vedere al atributelor
alese spre a-i descrie. Tinnd cont de distantele ntre elementele tabelului
disjunctiv complet si de relatiile baricentrice particulare se poate arma c a:
Proximitatea ntre indivizi semnic a faptul c a au ales global aceleasi
modalit ati ca r aspuns la ntreb arile puse.
Proximitatea ntre modalit ati ale unor ntreb ari diferite semnic a faptul
c a ele au fost alese ca r aspuns de grupe de indivizi asem an atori (c aci
asa cum s-a demonstrat mai sus, ele corespund centrelor de greutate ale
acelor grupe de indivizi).
Proximitatea ntre modalit atile aceleiasi ntreb ari semnic a faptul c a
grupele de indivizi care le-au ales sunt asem an atoare (din constructie,
modalit atile unei aceleiasi variabile se exclud).
Regulile de interpretare a rezultatelor (coordonate, contributii, cosinus
p atrat) privind elementele active ale unei ACM sunt asem an atoare cu cele core-
spunz atoare unei ACS. n plus, se poate calcula contributia unei variabile-
ntreb ari la factorul c sumnd contributiile modalit atilor acesteia la factorul
respectiv:
Cr
c
() =

)2j(q)
Cr
c
(,) =
j
q

)=1
.
)
::

,
2
c,)
`
c
=
1
::`
c
j
q

)=1
.
)
,
2
c,)
1.4.4 Principii de transformare a variabilei continue n vari-
abil a discret a
Pentru a active ntr-o ACM, variabilele continue trebuie transformate
n variabile nominale (discrete). n acest proces apar urm atoarele probleme:
94 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Cte clase trebuie alese si cum?
Unde trebuie plasate marginile claselor?
Din rezultatele de mai sus au reiesit urm atoarele cerinte: constituirea
de modalit ati de efective comparabile si decuparea variabilelor astfel nct s a
existe un num ar de modalit ati comparabile. Din practic a, un num ar de 4-8
modalit ati par s a acopere majoritatea aplicatiilor.
n consecint a este vorba de a g asi un compromis ntre un decupaj acce-
ptabil tehnic din punct de vedere al principiilor de mai sus si un decupaj care
exhib a cel mai bine informatia ce trebuie retinut a. n concluzie, nu se poate
recurge la algoritmi orbi pentru a elabora un decupaj satisf ac ator. Astfel,
se poate retine o modalitate cu un efectiv sc azut dac a aceasta este important a
pentru studiu; analog, pentru a selectiona bornele claselor unei variabile con-
tinue se vor respecta, mai degrab a, pragurile naturale n contextul studiului
s au, reiesite ca semnicative dup a examenul histogramei, dect decupajul n
clase de mase egale dar (uneori) inadecvate.
Transformarea variabilelor continue n variabile nominale duce la pierdera
unei p arti din informatia brut a dar prezint a unele avantaje:
Utilizarea simultan a a variabilelor nominale si continue n ACM;
Validarea a posteriori a datelor, permitnd observarea ulterioar a a even-
tualelor clase contigue;
Punerea n evident a a eventualelor leg aturi neliniare ntre variabile con-
tinue. Asupra acestui ultim aspect vom insista putin:
Dndu-se j variabile continue, r
1
, r
2
, . . . , r
j
, ACP caut a o combinatie
liniar a de dispersie maximal a
max \
_
_
j

)=1
n
)
r
)
_
_
.
Dac a se urm areste punerea n evident a a unor relatii neliniare se vor c auta
tranform ari functionale, )
1
_
r
1
_
, )
2
_
r
2
_
, . . . , )
j
(r
j
) ale variabilelor astfel nct
s a se realizeze
max \
_
_
j

)=1
)
)
_
r
)
_
_
_
.
Num arul de indivizi ind nit trebuie s a ne limit am la transform ari
functionale alese ntr-o multime nit a.
S a alegem )
)
, functii scar a (constante pe portiuni). Se cunoaste faptul
c a aceste functii permit aproximarea oric arei functii continue (teorema lui
Weierstrass).
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 95
Concret, se va mp arti intervalul de variatie a lui r
)
n :
)
clase. )
)
_
r
)
_
va deci o functie cu valorile a
1
, a
2
, . . . , a
n
j
pe intervale de decupaj ce se ex-
pliciteaz a sub forma unei combinatii liniare de functii indicator ale intervalului
de decupaj, avnd coecienti a
1
, a
2
, . . . , a
n
j
.
Criteriul max \
_
j

)=1
)
)
_
r
)
_
_
este identic cu max \
_
j

)=1
Z
)
a
)
_
.
Solutia este dat a de primele componente ale ACM pe tabelul
Z =[Z
1
, Z
2
, . . . , Z
q
, . . . , Z
c
] .
Sub rezerva de a avea suciente informatii n ecare clas a se poate ast-
fel utiliza, pentru evidentierea unor leg aturi neliniare, n locul unei ACP pe
tabelul X o ACM pe tabelul Z obtinut din X ca mai sus.
1.4.5 Valori-test pentru modalit ati suplimentare
Coordonata factorial a ,
c)
a unei modalit ati , pe axa c este, modulo
coecientul
1
p
A

, media aritmetic a a coordonatelor


c,i
ale indivizilor care au
ales aceast a modalitate ca r aspuns, adic a
,
c)
=
1
.
)
_
`
c

i2a())

ci
S a presupunem c a o modalitate suplimentar a j a fost aleas a de :
)
indivizi
(:
)
= .
)
). Ne propunem s a test am dac a aceast a modalitate a fost aleas a
ntmpl ator, sau dac a alegerea ei are o semnicatie.
Fie ipoteza H
c
: cei :
)
indivizi au fost alesi aleator din esantionul de :
indivizi (alegerea este presupus a f ar a revenire).
n ipoteza H
c
media coordonatelor
ci
ale celor :
)
indivizi este o vari-
abil a aleatoare
r
c
j
=
1
:
)
a

i2a())

ci
de 1
_
r
c
j

= 0 si 1
2
1
o
_
r
c
j

=
aa
j
a1

A

a
j
repartizat a hipergeometric.
Rezult a 1 [
ci
] = 0 si 1
2
1
o
[
ci
] =
aa
j
a1

1
a
j
.
Denitia 1.4.3 t
ci
=
_
:
)
aa
j
a1
,
c,)
se numeste valoare-test si m asoar a, n
num ar de ecarturi-tip, distanta ntre modalitatea ,, adic a quasi-baricentrul
celor :
)
indivizi, si originea axei factoriale c.
Conform teoremei limit a-central a, distributia lui t
ci
tinde la o (0, 1).
Astfel, pozitia unei modalit ati este intersant a ntr-o directie c dat a, dac a
subnorul al c arui baricentru este, ocup a o zon a apropiat a de aceast a ax a si
destul de dep artat a de centrul de greutate global n directia axei.
96 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Valoarea-test este un criteriu care permite o apreciere rapid a a pozitiei,
semnicativ a sau nu, a unei modalit ati pe o ax a. Se consider a, n general,
ca ocupnd o pozitie semnicativ a, modalit atile a c aror valoare-test, n modul,
este mai mare sau egal a cu 2, ceea ce corespunde unui prag de semnicatie de
95%.
Propozitia 1.4.1
Analiza corespondentelor aplicat a unui tabel disjunctiv complet Z este echiva-
lent a cu analiza tabelului Burt asociat, n sensul c a produce aceiasi factori.
Demonstratie. '
c
este al c-lea vector propriu factor al unei ACS pe un
tabel Z al matricii S =
1
c
D
1
Z
0
Z =
1
c
D
1
B , adic a
S'
c
= `
c
'
c
.
Pentru ACS-ul tabelului B asociat lui Z, tabelul frecventelor relative F
este
1 =
1
::
2
B si D
j
= D
a
=
1
::
D.
Matricea de diagonalizat este
S

=
1
:
2
D
1
BD
1
B =S

= S
2
.
Se stie c a
1
:
D
1
B'
c
= `
c
'
c
[
1
:
D
1
B =
=
1
:
2
D
1
BD
1
B'
c
= `
c
1
:
D
1
B'
c
=
= `
c
`
c
'
c
= `
2
c
'
c
.
Rezult a
S

'
c
= `
2
c
'
c
Factorii celor dou a analize sunt deci coliniari n R
j
dar valorile proprii asociate
difer a; cele rezultate din analiza lui D, notate `
1
sunt egale cu p atratul celor
rezultate din analiza lui Z, adic a `
1
= `
2
.
Factorul '
c
rezultat din analiza lui Z si reprezentnd coordonatele facto-
riale ale modalit atilor, are ca norm a pe `
c
, n timp ce factorul corespunznd
analizei lui B, notat '
1

, are ca norm a pe `
2
c
.
Corolarul 1.4.5
Relatia care leag a cele dou a sistme de coordonate factoriale este
'
1

= '
c
_
`
c
.
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 97
1.4.6 Exemplu
Descrierea datelor
Pentru 27 de rase de cini au fost culese informatii privind anumite n-
susiri zice si temperamentale, conform tabelului A.4. (Anex a). Se doreste
studierea leg aturilor existente ntre rase si aceste nsusiri, folosind metoda
analizei corespondentelor multiple.
Pentru acest set de date se identic a 8 variabile nominale astfel:
variabile nominale active:
TALIE, avnd j
1
= 3 modalit ati: 1 =mic a, 2 =mijlocie, 3 =mare;
MAS

A, avnd j
2
= 3 modalit ati: 1 =mic a, 2 =mijlocie, 3 =mare;
VIT=VITEZ

A, avnd j
3
= 3 modalit ati: 1 =mic a, 2 =mijlocie,3 =mare;
INT=INTELIGEN T

A, avnd j
4
= 3 modalit ati: 1 =sc azut a, 2 =medie,
3 =ridicat a;
AFECT=AFEC TIUNE, avnd j
5
= 2 modalit ati: 1 =moderat a,
2 =mare;
AGR=AGRESIVITATE, avnd j
6
= 2 modalit ati: 1 =moderat a,
2 =mare;
variabile nominale suplimentare :
FN=FUNC TIA, avnd j = 3 modalit ati: 1=cine de companie,
2=cine de vn atoare, 3=cine de paz a;
R=RASA, unde
BEAU=Beauceron EPAF=Epagneul Francez
BASS=Basset FOXH=Fox Hound
CIOB=Ciob anesc German FOXT=Fox Terrier
BOXE=Boxer GASC=Marele Albastru de Gasconia
BULD=Bull Dog LABR=Labrador
BULM=Bull Masti LEVR=Ogar
CANI=Caniche MAST=Masti
CHIH=Chihuahua PEKI=Pechinez
COCK=Cocker POIN=Pointer
COLL=Colley STBE=Saint Bernard
DALM=Dalmatian SETT=Setter
DOBE=Dobermann TECK=Teckel
DOGG=Dog German TERN=Terre-Neuve
EPAB= Epagneul Breton
98 CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
Ca si n exemplele anterioare, doar variabilele active particip a efectiv
la calculul valorilor proprii si deci la determinarea dimensiunilor spatiului de
proiectie, n timp ce variabilele suplimentare intervin doar n momentul inter-
pret arii.
Asadar, pentru acest exemplu:
: = 27 indivizi (rasele de cini), s = 6 num arul de variabile active;
tabelul A.4 = tabelul de date condensat, pe baza c aruia se construieste
tabelul Burt;
o linie din acest tabel, de exemplu prima, se citeste astfel: Un membru
al rasei Beauceron este caracterizat de talie mare, mas a mijlocie, vitez a
mare, inteligent a ridicat a, afectiune mare, agresivitate mare si este con-
siderat cine de paz a;
j = 16 modalit ati ale variabilelor active, deci 16 coloane n tabelul Burt;
inertia total a este 1 =
j
c
1 =
16
6
1 = 1, 67 (vezi subcapitolul 1.4.2.).
Efectuarea analizei si interpretarea rezultatelor
Aplicarea analizei corespondentelor n cadrul programului STATISTICA
presupune parcurgerea mai multor pasi.
Pentru nceput se selecteaz a din bara de meniu tipul de analiz a utilizat -
Statistics, Multivariate Exporatory Techniques, Correspondence Analysis si n
fereastra de dialog ap arut a se opteaz a pentru analiza corespondentelor multi-
ple.
fig. 1.4.6. Fereastra de start
n continuare se indic a tipul de tabel analizat - n cazul acesta, tabel sub form a
condensat a (Raw Data), se apas a butonul Variables (Factors in Burt Table)
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 99
pentru selectarea variabilelor care particip a la analiz a - n acest caz toate si,
dup a conrmarea alegerii, se apas a butonul Supplementary columns (variables)
pentru selectarea variabilelor suplimentare (R si FN). Dup a ap asarea butonu-
lui OK, o nou a fereastr a (g. 1.4.7.) permite generarea rezultatelor speci-
ce analizei corespondentelor multiple. Tot aici este prezentat un rezumat
al datelor de plecare: variabile active si suplimentare mpreun a cu num arul
de modalit ati corespunz ator, num arul total de modalit ati active si valorile
proprii.
fig. 1.4.7. Fereastra de rezultate
Conform denitiei din subcapitolul 1.4.1, analiza corespondentelor multi-
ple este analiza corespondentelor simple realizat a pe tabelul disjunctiv complet
provenit din tabelul sub form a codicat a condensat a (tabelul 1.4.1.). Progra-
mul STATISTICA produce toate rezultatele specice acestei analize plecnd
de la tabelul Burt asociat tabelului disjunctiv complet. La baza acestui de-
mers st a propozitia 1.4.1. Tabelul Burt pentru acest exemplu se reg aseste n
submeniul Review, Observed frequencies.
100CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
fig. 1.4.8. Screeplot
Pasul urm ator l reprezint a determinarea spatiului de proiectie. Dia-
grama Scree Plot din submeniul Advanced (g 1.4.8.) indic a cea de-a treia
valoare proprie, considerat a n ordine descresc atoare, ca ind un factor de
structurare. Din tabelul 1.4.1. se deduce c a primele trei dimensiuni ofer a o
calitate a reprezent arii de 64, 63%. Analiza descris a n continuare a fost real-
izat a n planul factorial principal (se completeaz a valoarea 2 n c asuta Number
of dimensions din submeniul Options), planul dat de factorii corespunz atori
valorilor proprii 0.48 si 0.38.
tabelul 1.4.1. Valori proprii, procente de iner Tie
Butonul Summary: Column coordinates produce tabelul ce contine rezul-
tatele specice pentru modalit atile active (tabelul 1.4.2.) si suplimentare
(tabelul 1.4.3.):
coordonatele proiectiilor pe cele dou a dimensiuni,
ponderile (masele) (calculate doar pentru modalit ati active),
calitatea reprezent arii n planul factorial, dat a de suma cosinusurilor
p atrate pentru cele dou a axe factoriale,
contributiile calculate pentru ecare dintre cele dou a dimensiuni (1:crtia
aici) (calculate doar pentru modalit ati active).
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 101
tabelul 1.4.2. Rezultate specifice modalit

A Tilor active
tabelul 1.4.3 Rezultate specifice modalit

A Tilor suplimentare
Aceste rezultate se interpreteaz a ca n cazul exemplului din subcapitolul
dedicat ACS, cu mentiunea c a, pentru ecare variabil a activ a, contributia la
orice factor se calculeaz a nsumnd contributiile tuturor modalit atilor vari-
abilei la factorul respectiv. De exemplu, variabila TALIE are o contributie de
0,12 + 0,046 + 0,13 = 0,30 la primul factor.
Realiznd proiectia simultan a a variabilelor active si suplimentare n
planul factorial principal (submeniul Advanced, 2D) se obtine gracul din g.
1.4.9. Se observ a, asadar, c a:
n cazul variabilelor cu dou a modalit ati (AFECT, AGR), modalit atile
sunt situate n cadrane opuse;
exist a puncte pe grac care, desi corespund unor rase diferite, se supra-
pun: BULD si TECK, CHIH si PEKI, DALM si LABR. Aceasta este o
consecint a grac a a faptului c a valorile din tabelul A.4. pentru aceste
perechi se identic a aproape n totalitate. n general, rasele nvecinate
102CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
posed a aceleasi caracteristci zice si temperamentale (vezi subcapitolul
1.4.3).
fig. 1.4.9. variabile active Si suplimentare
Prima ax a principal a opune:
rasele agresive, n medie rapide, caracterizate de talie si mas a mari
- cinii de paz a (FN:3) precum Dog German (DOGG), Dobermann
(DOBE), Fox Hound (FOXH) etc. si
rasele de talie si mas a mici, dar afectiune ridicat a - cinii de companie
(FN:1) precum Caniche (CANI), Cocker (COCK), Fox Terrier (FOXT)
etc.
A doua ax a principal a opune:
rasele inteligente, pentru care talia, masa si viteza au valori medii - cainii
de vn atoare (FN:2) precum Beauceron (BEAU), Ciob anesc German
(CIOB), Doberman (DOBB) etc. si
rasele mai putin inteligente si lente: Basset (BASS), Masti (MAST).
Pentru o mai bun a vizualizare, se pot elimina din gura 1.4.9. punctele
corespunz atoare variabilelor active (sau suplimentare) astfel: se selecteaz a un
punct de pe grac, se apas a butonul drept al mouse-ului si se alege optiunea
Point Labels.
1.4. ANALIZA CORESPONDEN TELOR MULTIPLE (ACM) 103
fig. 1.4.10. Point labels
n fereastra de dialog ap arut a (g 1.4.10.) se deselecteaz a optiunea Display
point labels pentru variabilele active - Plot 1:ColCoords si se pas a butonul OK.
Se obtine gracul din gura 1.4.11.
fig. 1.4.11. Variabile suplimentare
104CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
1.5 Sintez a
t
a
b
e
l
u
l
1
.
5
.
1
.
P
r
o
p
r
i
e
t
A
T
i
l
e
e
l
e
m
e
n
t
e
l
o
r
p
r
i
n
c
i
p
a
l
e
d
i
n
A
C
P
,
A
C
S
,
A
C
M

n
s
p
a
T
i
u
l
i
n
d
i
v
i
z
i
l
o
r
(
R
j
)
r
e
s
p
e
c
t
i
v
a
l
v
a
r
i
a
b
i
l
e
l
o
r
(
R
a
)
(
1
)
E
L
E
M
E
N
T
E
S
P
A

T
I
U
L
A
C
P
A
C
S
A
C
M
T
a
b
e
l
u
l
F

R
j
X
=
(
r
i
)
)
)
=
1
,
j
i
=
1
,
a
,
Y
=
(
j
i
)
)
)
=
1
,
j
i
=
1
,
a
X
=
D

1
a
F
=
_
)
i
j
)
i

_
)
=
1
,
j
i
=
1
,
a
,
Z
=
(
.
i
)
)
)
=
1
,
j
i
=
1
,
a

t
a
b
e
l
s
a
u
Z
=
(
.
i
)
)
)
=
1
,
j
i
=
1
,
a
(
)
i
)
=
I
i
j
I
;
)
i
.
=
j

)
=
1
)
i
)
)
d
i
s
j
u
n
c
t
i
v
c
o
m
p
l
e
t
E

R
a
a
c
e
l
e
a
s
i
c
a

n
R
j
X
=
D

1
j
F
0
=
_
)
i
j
)

j
_
i
=
1
,
a
)
=
1
,
j
a
c
e
l
e
a
s
i
c
a

n
R
j
(
)
.
)
=
a

i
=
1
)
i
)
)
P
o
n
d
e
r
i
F
j
i

0
c
u
a

i
=
1
j
i
=
1
)
i
.
,
i
=
1
,
:
)
i
.
=
c
i
j
a
,
i
=
1
,
:
(
M
a
t
r
i
c
e
a
d
e
D
=
d
i
a
q
(
j
i
)
,
i
=
1
,
:
D
a
=
d
i
a
q
(
)
i
.
)
D
a
=
1a
I
a
p
o
n
d
e
r
i
)
E
)
.
)
,
,
=
1
,
j
)
.
)
=
c
i
)
:

j
a
c
,
,
=
1
,
j
D
j
=
d
i
a
q
(
)
.
)
)
D
j
=
1
a
c
D
,
D
=
d
i
a
q
(
.

)
)
M
e
t
r
i
c
a
F
M
=
d
i
a
q
(
:
)
)
,
,
=
1
,
j
,
M
=
D

1
j
=
d
i
a
q
_
1
)

j
_
M
=
D

1
j
=
:
:
D

1
M
=
I
j
s
a
u
M
=
D
1

c
2
E
D
=
d
i
a
q
(
j
i
)
,
i
=
1
,
:
M
=
D

1
a
=
d
i
a
q
_
1
)
i
:
_
M
=
D

1
a
=
:
I
a
1.5. SINTEZ

A 105
t
a
b
e
l
u
l
1
.
5
.
1
.
P
r
o
p
r
i
e
t
A
T
i
l
e
e
l
e
m
e
n
t
e
l
o
r
p
r
i
n
c
i
p
a
l
e
d
i
n
A
C
P
,
A
C
S
,
A
C
M

n
s
p
a
T
i
u
l
i
n
d
i
v
i
z
i
l
o
r
(
R
j
)
r
e
s
p
e
c
t
i
v
a
l
v
a
r
i
a
b
i
l
e
l
o
r
(
R
a
)
(
2
)
E
L
E
M
E
N
T
E
S
P
A

T
I
U
L
A
C
P
A
C
S
A
C
M
D
i
s
t
a
n
t
a
F
d
2
(
e
i
,
e
)
)
=
|
e
i

e
)
|
2M
d
2
(
i
,
i
0
)
=
d
2
(
i
,
i
0
)
=
=
j

I
=
1
:
I
(
r
i
I

r
)
I
)
2
=
j

)
=
1
1
)

j
_
)
i
j
)
i

)
i
0
j
)
i
0

_
2
=
1c
j

)
=
1
a
:

j
_
.
i
)

.
i
0
)
_
2
E
c
o
s
(
0
)
I
)
=

j
k
c
j
c
k
=
r
)
I
,
d
2
(
,
,
,
0
)
=
a

i
=
1
1
)
i

_
)
i
j
)

)
i
j
0
)

j
0
_
2
d
2
(
,
,
,
0
)
=
a

i
=
1
:
_
:
i
j
:

:
i
j
0
:

j
0
_
2
r
)
I
=
c
o
e
f
.
d
e
c
o
r
e
l
a
t
i
e
M
a
t
r
i
c
e
a
d
e
F
A
=
Y
0
D
Y
M
=
V
M
S
=
F
0
D

1
a
F
D

1
j
S
=
1c
Z
0
Z
D

1
d
i
a
g
o
n
a
l
i
z
a
t
E
B
=
Y
M
Y
0
D
=
W
D
T
=
F
D

1
j
F
0
D

1
a
T
=
1c
Z
D

1
Z
0
A
x
e
f
a
c
t
o
r
i
a
l
e
F
a

R
j
p
t
.
c
a
r
e
u

R
j
p
t
.
c
a
r
e
u

R
j
p
t
.
c
a
r
e
A
a
=
`
a
S
u
c
=
`
c
u
c
S
u
c
=
`
c
u
c
E
b

R
j
p
t
.
c
a
r
e
v

R
a
p
t
.
c
a
r
e
v

R
a
p
t
.
c
a
r
e
B
b
=
j
b
T
v
c
=
`
c
v
c
T
v
c
=
`
c
v
c
106CAPITOLUL 1. METODE EXPLORATORII MULTIDIMENSIONALE
t
a
b
e
l
u
l
1
.
5
.
1
.
P
r
o
p
r
i
e
t
A
T
i
l
e
e
l
e
m
e
n
t
e
l
o
r
p
r
i
n
c
i
p
a
l
e
d
i
n
A
C
P
,
A
C
S
,
A
C
M

n
s
p
a
T
i
u
l
i
n
d
i
v
i
z
i
l
o
r
(
R
j
)
r
e
s
p
e
c
t
i
v
a
l
v
a
r
i
a
b
i
l
e
l
o
r
(
R
a
)
(
3
)
E
L
E
M
E
N
T
E
S
P
A

T
I
U
L
A
C
P
A
C
S
A
C
M
C
o
o
r
d
o
n
a
t
e
l
e
F
c
=
Y
M
a
=
Y
u

R
a
(
c
=
Z
u
)

c
=
D

1
a
F
D

1
j
u
c

c
=
v
c
p
e
a
x
e
l
e
c
u
p
r
o
p
r
.
s
2
(
c
)
=
`

c
i
=

)
)
i
j
)
i

j
n
c
)
f
a
c
t
o
r
i
a
l
e
E
d
=
Y
0
D
b
=
Y
0
v

R
j
(
d
=
Z
0
v
)
'
c
=
D

1
j
F
0
D

1
a
v
c
'
c
=
D

1
u
c
c
u
p
r
o
p
r
.
s
2
(
d
)
=
j
,
c
)
=

i
)
i
j
)
i

c
i
c
s
i
d
s
e
n
u
m
e
s
c
s
i
c
o
m
p
o
n
e
n
t
e
p
r
i
n
c
i
p
a
l
e
R
e
l
a
t
i
i
d
e
b
)
=
1
_
A
j
Y
M
a
)
=
1
_
A
j
c
)

c
=
1
p
A

1
a
F
'
c
,

c
=
1
c
p
A

Z
'
c
,
t
r
a
n
z
i
t
i
e

c
i
=
1
p
A

)
=
1
)
i
j
)
i

,
c
)

c
i
=
1
c
p
A

)
2
j
(
i
)
,
c
)
a
)
=
1
p
A
j
Y
0
D
b
)
=
1
_
A
j
d
)
'
c
=
1
p
A

1
j
F

c
,
'
c
=
1
p
A

1
Z
0

c
,
,
c
)
=
1
p
A

i
=
1
)
i
j
)

c
i
,
c
)
=
1
:

j
p
A

i
2
a
(
)
)

c
i
Capitolul 2
METODE DE
CLASIFICARE
Tehnicile de clasicare automat a sunt destinate s a produc a grup ari de
linii sau de coloane ale unui tabel; este vorba, cel mai adesea, de obiecte sau
indivizi descrisi printr-un num ar de variabile sau de caractere.
Circumstantele utiliz arii acestor metode sunt analoage cu cele ale metode-
lor de analiz a factorial a descrise n capitolul 1: utilizatorul se g aseste n fata
unui tabel rectangular de valori numerice. Acest tabel poate un tabel de vari-
abile continue, un tabel de contingen ta sau un tabel de prezen ta-absen ta (tabel
ce contine valori de zero sau unu dup a cum un individ sau un obiect posed a
sau nu un anumit caracter sau atribut). n anumite aplicatii, utilizatorul poate
dispune de un tabel p atrat, simetric, de similarit ati sau de distante.
Exist a mai multe familii de algoritmi de clasicare: algoritmi ce conduc
direct la parti tii, cum sunt metodele de agregare n jurul centrilor mobili, algo-
ritmi ascenden ti (sau algoritmi care construiesc clasele prin aglomerarea suc-
cesiv a a cte dou a obiecte si care furnizeaz a o ierarhie de repatitii de obiecte),
n ne, algoritmi descenden ti (sau divizivi) care procedeaz a prin dihotomii
succesive ale multimii obiectelor si care furnizeaz a o ierarhie de partitii. Ne
vom limita n aceast a lucrare la primele dou a tehnici de clasicare:
- grup arile se pot face prin c autarea direct a a unei partitii, afectnd ele-
mentele la centrii provizorii ai claselor, apoi prin recentrarea claselor si
agregarea iterativ a a elementelor. Este vorba de tehnicile de agregare n
jurul centrilor mobili, tehnici nrudite cu metoda norilori dinamici sau
metoda k-means, metode gratiante n cazul tabelelor mari (sectiunea
2.1).
- grup arile se pot face prin aglomerarea progresiv a a elementelor dou a
cte dou a. Este cazul clasic arii ascendente ierarhice cu agregare dup a
mai multe criterii. n lucrare sunt prezentate tehnica saltului minimal,
echivalent a dintr-un anumit punct de vedere cu c autarea arborelui mini-
107
108 CAPITOLUL 2. METODE DE CLASIFICARE
mal, si tehnica agregarii dupa dispersie, interesant a prin compatibilitatea
rezultatelor sale cu unele rezultate din analiza factorial a (sectiunea 2.2).
Aceste tehnici prezint a avantaje diferite, dar pot utilizate si mpreun a.
Este, astfel, posibil a o strategie de clasicare bazat a pe un algoritm mixt bine
adaptat partition arii multimilor formate din mii de indivizi (sectiunea 2.3).
Metodele de clasicare sau de tipologie (stiinta care le studiaz a se nu-
meste taxonomie) au ca scop regruparea indivizilor ntr-un num ar restrns de
clase omogene. Este vorba deci, spre deosebire de demersul analizei factoriale,
despre descrierea datelor procednd la o reducere a num arului de indivizi (fat a
de o reducere a num arului de variabile).
n cele ce urmeaz a se vor avea n vedere doar metodele de clasicare
automat a. Clasele vor obtinute pe baza algoritmilor formalizati si nu prin
metode subiective sau vizuale ce fac apel la initiativa practicianului!
2.1 Generalit ati
n taxonomie, informatia util a se prezint a sub forma unui tabel n n;
continnd distantele sau disimilarit atile dintre cei n indivizi de clasicat.
Reamintim
Denitia 2.1.1 Fie E multimea celor n obiecte de clasicat. Se numeste
distan ta o functie d : E E R
+
; cu propriet atile:
1. d (i; j) = d (j; i) ; (\) i; j E (simetric a);
2. d (i; j) _ 0; (\) i; j E (pozitiv a);
3. d (i; j) = 0 =i = j; (\) i; j E (idempotent a);
4. d (i; j) _ d (i; k) + d (k; j) ; (\) i; j; k E (tranzitiv a).
Pentru ca o distant a s a e euclidian a ea trebuie s a e generat a de un
produs scalar.
Cnd datele sunt prezentate sub forma unui tabel X de n indivizi cu p
caracteristici numerice, cele mai des utilizate distante sunt:
- distanta euclidian a clasic a, cu metrica M= I;
- distanta euclidian a cu metrica M= D 1
s
2
;
- distanta Mahanalobis, cu metrica M= V
1
;
- distanta L
1
n care d (i; j) =

k

x
k
i
x
k
j

;
2.1. GENERALIT

A TI 109
- distanta Minkowski, L
q
, n care d (i; j) =
_

k
_
x
k
i
x
k
j
_
q
_1
q
.
Denitia 2.1.2 Se numeste similaritate o functie s : E E R
+
, cu pro-
priet atile:
1. s (i; j) = s (j; i) ; (\) i; j E (simetric a);
2. s (i; j) _ 0; (\) i; j E (pozitiv a);
3. s (i; i) _ s (i; j) ; (\) i; j E (nu exist a un individ mai asem an ator dect
el nsusi).
Denitia 2.1.3 Se numeste disimilaritate o functie d : E E R
+
, cu
propriet atile:
1. d (i; j) = d (j; i) ; (\) i; j E (simetric a);
2. d (i; j) _ 0; (\) i; j E (pozitiv a);
3. d (i; i) = 0; (\) i; j E:
O situatie frecvent ntlnit a este cea n care datele se prezint a sub forma
urm atoare: n indivizi sunt descrisi prin prezenta/absenta a p caracteristici
(datele initiale sunt, deci, sub form a binar a).
Datele binare sunt "compactate" n n numere ce caracterizeaz a ecare
cuplu de indivizi (deci 4 tabele n n) astfel:
a = num arul de caracteristici comune;
b = num arul de caracteristici posedate de i dar nu de j;
c = num arul de caracteristici posedate de j dar nu de i;
d = num arul de caracteristici neposedate nici de i si nici de j;
Atentie! Cu toate c a logic a si d sunt complementare, cele dou a numere
nu joac a acelasi rol pentru datele reale; de exemplu, faptul c a dou a vegetale
nu cresc n acelsi loc, nu nseamn a n mod necesar c a sunt asem an atoare.
Pe baza acestor 4 tabele se construieste tabelul de similaritate sau, prin
complementare fat a de 1, tabelul de disimilaritate, utiliznd diferiti indici:
- Jaccard:
a
a+b+c
;
- Dice:
2a
2a+b+c
;
- Ochiai:
a
_
(ab)(a+c)
;
- Russel si Rao:
a
a+b+c+d
;
- Rogers si Tanimoto:
a+d
a+d+2(b+c)
etc.
110 CAPITOLUL 2. METODE DE CLASIFICARE
2.2 Aspecte combinatorii ale clasic arii
La prima vedere s-ar putea crede, deoarece E multimea indivizilor de
clasicat este nit a (card(E) = n < ), c a problema clasic arii este relativ
facil a: se genereaz a toate partitiile posibile iar apoi se alege aceea/acelea care
satisface/satisfac un criteriu de optimalitate dat.
Din p acate, acest algoritm nu poate implementat nc a n practic a de-
oarece, chiar un calculator ce poate trata un milion de partitii pe secund a are
nevoie de 126 de mii de ani pentru a putea genera toate partitiile unei multimi
de numai 25 de indivizi!
Va trebui deci, n majoritatea situatiilor, s a ne multumim cu solutii
aproximative.
Se noteaz a cu P
n;k
num arul de partitii n k clase a unei multimi de n
elemente (num arul lui Stirling de speta a doua).
Se observ a usor c a:
P
n;1
= 1 = P
n;n
; P
n;n1
=
n(n 1)
2
P
n;1
= 2
n1
1:
Se demonstrez a prin inductie c a:
P
n;k
= P
n1;k1
+ kP
n1;k
:
Se poate, de asemenea, ar ata c a:
P
n;k
=
1
k!
k

i=1
C
i
k
(1)
ki
i
n
si deci, cnd n , P
n;k
-
k
n
n!
.
Se noteaz a cu P
n
=
n

k=1
P
n;k
num arul total de partitii ale unei multimi
de n elemente (numerele lui Bell). Dac a se convine ca P
0
= 1; atunci se poate
ar ata prin inductie c a
P
n
= P
0
+ (n 1) P
1
+ C
2
n+1
P
2
+ : : : + P
n1
si c a P
n
=
1
e
1

k=1
k
n
n!
:
2.3 Metode de clasicare neierarhic a
Aceste metode permit clasicarea rapid a a unor multimi destul de mari,
optimiznd local un criteriu de tip inertie.
Se presupune c a:
- cei n indivizi sunt puncte dintr-un spatiu euclidian din R
p
; ceea ce per-
mite denirea distantelor euclidiene dintre indivizi;
2.3. METODE DE CLASIFICARE NEIERARHIC

A 111
- se doreste clasicarea indivizilor n k clase, unde k este cunoscut priori.
Scopul ec arei clasic ari ind acela de a obtine clase ct mai omogene,
iar omogenitatea ind caracterizat a, din punct de vedere statistic, de dispersie,
rezult a c a o clas a va cu att mai omogen a cu ct inertia norului de puncte
ce o alc atuieste este mai mic a.
Fie deci g
1
; g
2
; : : : ; g
k
centrele de greutate ale celor k clase. Atunci
iner tia clasei C
i
este:
I
i
=

j2C
i
p
j
d
2
(j; g
i
) ;
cu p
j
ponderea individului j;
iner tia intraclase este:
I
W
=
k

i=1
P
i
I
i
;
cu P
i
ponderea clasei i (num arul de inidivizi din clasa i);
iner tia interclase este:
I
B
=
k

i=1
P
i
d
2
(g
i
; g) ;
cu g centrul de greutate al ntregului nor de n indivizi.
Cum, conform principiului lui Knig-Huygens, iner tia totala a norului
este
I = I
W
+ I
B
;
un criteriu vizual de clasicare pentru a determina, n medie, clase omogene,
const a n a c auta acea partitie n k clase pentru care inertia intraclase este
minim a, deci inertia interclase este maxim a.
fig. 2.3.1. Descompunerea iner Tiei conform principiului lui
Huygens
112 CAPITOLUL 2. METODE DE CLASIFICARE
Trebuie s a remarc am, mai nti, c a acest criteriu presupune cunoasterea
priori a num arului de clase si c a nu este posibil a compararea a dou a partitii
cu num ar diferit de clase, avnd n vedere c a cea mai bun a partitie de k clase
va avea o inertie intraclase superioar a oric arei partitii de k + 1 clase, iar la
limit a, cea mai bun a partitie este cea trivial a, n care ecare individ formeaz a
o clas a (n acest caz I
W
= 0; c aci ecare individ este propriul s au centru de
greutate).
2.3.1 Metoda centrelor mobile (a lui Forgy)
Fie E o multime de n indivizi caracterizati de p variabile. Vom pre-
supune spatiul R
p
; ce contine norul de n puncte-individ, dotat cu o distant a
corespunz atoare, notat a d (adesea distanta euclidian a uzual a sau distanta
2
).
Se doreste constituirea a k clase. Etapele algoritmului sunt urm atoarele:
Pasul 1: Se aleg, n general aleator, k puncte distincte din E. Fie acestea c
1
; c
2
; : : : ; c
k
.
Se initializeaz a:
j = 0; contorul de num arare a iteratiilor
I
(j)
W
= ; inertia intraclase (cu un num ar foarte mare, dat).
Pasul 2: Se mparte multimea E n k clase astfel: pentru ecare i, cu i = 1; k,
E
c
i
=
_
e E [ d (e; c
i
) < d (e; c
m
) ; m = 1; k; m ,= i
_
Cazul egalit atii se rezolv a prin tragere la sorti, n sensul c a e este asignat
aleator acelor partitii pentru care d
_
e; c
i
1
_
= d
_
e; c
i
2
_
= : : : = d
_
e; c
i
e
_
.
Dac a card(E
c
i
) = 0; atunci se genereaz a aleator un nou centru c
i
. Geo-
metric, ecare clas a este un domeniu poliedral convex determinat de
hiperplanele mediatoare pe segmentele c
i
c
m
cu m ,= i si m = 1; k:
Pasul 3: Se calculeaz a centrele de greutate ale partitiei E
c
i

k
i=1
si se noteaz a cu
g
i

k
i=1
.
Se calculeaz a I
(j+1)
W
= inertia intraclase a partitiei E
c
i

k
i=1
.
Pasul 4: Dac a j > N; unde N, dat, reprezint a num arul total de iteratii admis
sau dac a

I
(j+1)
W
I
(j)
W

_ "; unde ", dat, reprezint a pragul sub care


ameliorarea inertiei intraclase este considerat a nesemnicativ a, atunci
STOP.
Altfel
c
i
= g
i
; i = 1; k ;
j = j + 1;
salt la Pasul 2.
2.3. METODE DE CLASIFICARE NEIERARHIC

A 113
Propozitia 2.3.1
Algoritmul converge ntr-un num ar nit de pasi, altfel spus I
(j+1)
W
_ I
(j)
W
si
j < .
Demonstratie. Avnd n vedere c a algoritmul este iterativ, este sucient
s a demonstr am inegalitatea pentru j = 1, iar pentru simplicarea calculelor
presupunem c a ponderile indivizilor sunt egale cu p iar ponderile claselor cu
P.
Atunci, trebuie demonstrat c a I
(2)
W
_ I
(1)
W
:
Conform algoritmului, E
c
i
este partitia avnd punctele ec arei clase
grupate ct mai aproape de c
i
si cu centrele de greutate
_
g
(1)
i
_
, deci
I
(1)
W
=
k

i=1
P

j2E
c
i
pd
2
_
j; g
(1)
i
_
= pP
k

i=1

j2E
c
i
d
2
_
j; g
(1)
i
_
;
iar E
g
i
este partitia avnd punctele ec arei clase grupate ct mai aproape
de
_
g
(1)
i
_
si cu centrele de greutate
_
g
(2)
i
_
, deci
I
(2)
W
=
k

i=1
P

j2E
g
i
pd
2
_
j; g
(2)
i
_
= pP
k

i=1

j2E
g
i
d
2
_
j; g
(2)
i
_
;
114 CAPITOLUL 2. METODE DE CLASIFICARE
fig. 2.3.2. etapele algoritmului lui Forgy
Conform relatiei lui Huygens
k

i=1

j2E
g
i
d
2
_
j; g
(1)
i
_
= I
(2)
W
+

i
d
2
_
g
(1)
i
; g
(2)
i
_
;
deoarece
_
g
(1)
i
_
i
nu sunt centrele de greutate ale lui E
g
i
.
Rezult a
I
(2)
W
_
k

i=1

j2E
g
i
d
2
_
j; g
(1)
i
_
;
cu inegalitate strict a dac a g
(1)
i
,= g
(2)
i
; (\) i = 1; k .
Dar

j2E
g
i
d
2
_
j; g
(1)
i
_
_

j2E
c
i
d
2
_
j; g
(1)
i
_
prin constructia celor dou a par-
titii, deoarece E
g
i
este partitia n care ecare clas a E
g
i
p astreaz a punctele
cele mai apropiate de g
(1)
i
, deci

j2E
g
i
d
2
_
j; g
(1)
i
_
este minim a. Egalitatea are
loc doar dac a E
g
i
= E
c
i
.
2.3. METODE DE CLASIFICARE NEIERARHIC

A 115
Cu acestea
I
(2)
W
_
k

i=1

j2E
g
i
d
2
_
j; g
(1)
i
_
_ I
(1)
W
Cum card(E
c
i
) = n < rezult a P
n;k
< ceea ce implic a j < .
Experienta arat a c a viteza de convergent a este rapid a.
Trebuie remarcat si faptul c a, la ecare pas neind necesar dect calculul
a nk distante, acelea dintre cei n indivizi si cele k centre de greutate, nu este
necesar a mentinerea n memorie a tabelului cu cele
n(n1)
2
distante dintre
indivizi.
Inconvenientele metodei sunt:
k trebuie cunoscut priori;
optimul este dependent de alegerea initial a a punctelor.
n metoda precedent a se asteapt a ca toti indivizii s a e afectati unei clase
pentru a calcula centrul de greutate.
Metoda k-mediilor (k-means) a lui MacQueen (conform [42]), recalculeaz a
centrele de greutate dup a ecare afectare.
Pentru a nl atura dependenta metodei de punctele initiale se utilizeaz a
metoda norilor dinamici a lui E. Diday (conform [17]), care este o generalizare
a metodei centrelor mobile n sensul c a ecare clas a nu mai este reprezentat a
de centrul s au de greutate ci de un nucleu de g-puncte (cele mai centrale, de
exemplu), de o ax a principal a, de un plan principal.
2.3.2 Exemplu
Descrierea datelor
Revenind la exemplul raselor de cini (subcapitolul 1.4.6) reamintim c a
n urma aplic arii analizei corespondentelor multiple au fost identicate patru
grup ari principale:
cinii de vn atoare
cinii de paz a
cinii de companie
rase lente si mai putin inteligente.
Acest rezultat va comparat cu rezultatul obtinut utiliznd metoda de
clasicare neierarhic a k-means pentru identicarea partitiei optime n k = 4
clustere a multimii raselor de cini. Reamintim c a o conditie principal a pentru
utilizarea acestei metode este cunoasterea priori a num arului de clase (vezi
subcapitolul 2.3). Datele de intrare se reg asesc n tabelul A.4. (Anex a) cu
116 CAPITOLUL 2. METODE DE CLASIFICARE
mentiunea c a, de aceast a dat a, variabila care d a denumirile raselor (R) nu va
mai constitui o variabil a suplimentar a ci o variabil a de etichetare a indivizilor.
Pentru a realiza aceast a modicare, n bara de meniu se apas a Cases, Case
Names Manager si, n fereastra ap arut a, se completeaz a numele variabilei de
unde se preiau numele indivizilor - R (g. 2.3.3.).
fig. 2.3.3. Case names manager
Efectuarea analizei si interpretarea rezultatelor
Din bara de meniu se selecteaz a Statistics, Multivariate Exporatory Tech-
niques, Cluster Analysis si, n fereastra de dialog ap arut a, se alege metoda de
analiz a K-Means Clustering. Dup a ap asarea butonului OK, n fereastra core-
spunz atoare metodei selectate se acceseaz a meniul Advanced.
fig. 2.3.4. Fereastra de start
Butonul Variables aseaz a lista variabilelor pentru analiz a, dintre acestea
urmnd a selectate toate mai putin variabila FNsi variabila R. n continuare,
ca entit ati de clasicat, se aleg rndurile tabelului (adic a indivizii - rasele de
cini) si se indic a num arul de clustere n care se face clasicarea - 4. Pentru
num arul de iteratii ale algoritmului de clasicare (vezi subcapitolul 2.3.1) si
centrele initiale ale clusterelor se p astreaz a set arile implicite.
2.3. METODE DE CLASIFICARE NEIERARHIC

A 117
Pentru activarea ferestrei ce permite generarea rezultatelor specice clasi-
c arii prin metoda k-means (g. 2.3.5.) se apas a butonul OK. n acest a fereas-
tr a este prezentat si un rezumat al datelor de plecare: num arul indivizilor (27
rase de cini) si al variabilelor (6 nsusiri) care particip a la analiz a, num arul
de clustere formate (4) si num arul de iteratii ale algoritmului de clasicare (2).
fig. 2.3.5 Fereastra de rezultate
Generarea tuturor rezultatelor se va face din meniul Advanced. Con-
form indicatiilor initiale, algoritmul a mp artit multimea raselor de cini n
patru clase, urm arind formarea de grup ari omogene si bine denite, cu alte
cuvinte, valorile inertiei inter-clase dep asesc semnicativ valorile inertiei intra-
clase. Tabelul 2.3.1., rezultat prin ap asarea butonului Analysis of variance,
pune n evident a valorile mari ale inertiei inter-clase (Between SS) comparativ
cu cele ale inertiei intra-clase (Within SS) pentru variabilele TALIE, MASA,
VITEZA. Mai mult, valorile testelor F la pragurile de semnicatie p desem-
neaz a aceste variabile ca ind principalele criterii de asignare a indivizilor la
clustere.
tabelul 2.3.1. Analiza varian Tei
Butonul Members of each cluster and distances genereaz a, pentru ecare
dintre cele patru clase, cte un tabel continnd membrii clasei respective si
118 CAPITOLUL 2. METODE DE CLASIFICARE
distanta de la ecare membru la centrul clasei din care face parte (tabelul
2.3.2.).
Caracteristicile specice ec arei clase sunt date de mediile variabilelor
ce particip a la analiz a, calculate pentru ecare clas a. Aceste rezultate sunt
disponibile n format tabelar, prin ap asarea butonului Descriptive statistics
for each cluster, sau n format grac, prin ap asarea butonului Graph of means
(g 2.3.6.).
tabelul 2.3.2. Membrii clusterelor Si distan Tele la centre
fig. 2.3.6. Graficul mediilor pe clustere
2.3. METODE DE CLASIFICARE NEIERARHIC

A 119
Examinnd tabelul 2.3.2. si gracul din gura 2.3.6.. rezult a:
Clusterul 1 este caracterizat, n ansamblu, de: talie, mas a si agresiv-
itate maxime, vitez a si afectiune minime, inteligent a medie si cuprinde
rasele TERN, STBE, MAST, BULM (vezi si g 2.3.7.).
Clusterul 2 este caracterizat, n ansamblu, de: talie si vitez a maxime,
mas a medie, inteligent a medie (majoritatea membrilor au inteligent a
medie sau ridicat a), afectiune medie (majoritatea membrilor manifest a
afectiune scazut a, variabila AFECT are doar 2 modalit ati), agresivitate
medie si cuprinde rasele DOBE, CIOB, BEAU, SETT, POINT, LEVR,
FOXH, COLL, GASC, EPAF, DOGG.
Clusterul 3 este caracterizat, n ansamblu, de: talie, mas a si vitez a
medii, inteligent a si afectiune maxime, agresivitate minim a si cuprinde
rasele LABR, EPAB, DALM, BOXE, CANI.
Clusterul 4 este caracterizat, n ansamblu, de: talie, mas a si inteligent a
minime, vitez a si agresivitate reduse (cu exceptia FOXT, membrii sunt
caracterizati de modalitatea VIT1 - vitez a mic a), afectiune ridicat a (cu
exceptia BASS, membrii sunt caracterizati de modalitatea AFECT2 -
afectiune ridicat a, si variabila AFECT are doar 2 modalit ati) si cuprinde
rasele: COCK, FOXT, BASS, TECK, PEKI, CHIH, BULD. Se poate
spune, deci, c a acesta reprezint a clusterul cinilor de companie.
fig. 2.3.7. Identificarea clusterlor ob Tinute prin metoda
k-means
120 CAPITOLUL 2. METODE DE CLASIFICARE
Concluzii:
clasicarea obtinut a prin metoda k-means se reg aseste aproape identic
n reprezentarea grac a a variabilelor obtinut a prin analiza corespon-
den telor multiple.
cu toate acestea, clusterele obtinute prin metoda k-means nu coincid
n totalitate cu grup arile identicate conform interpret arii rezultatelor
ACM.
Aceast a nepotrivire se datoreaz a, probabil, faptului c a:
informatiile asupra raselor de cini (talie, mas a...) nu sunt suciente
pentru a ncadra cu precizie o ras a ntr-o anumit a clas a;
valorile reale ale variabilelor talie, mas a, etc. au fost "reduse" la o sin-
gur a valoare, n functie de num arul de modalit ati ale variabilei - 1, 2, 3
sau 1, 2, conform apartenentei la un anume interval de valori.
alegerea unui num ar prea mic de intervale de valori, deci de modalit ati,
pentru ecare variabil a.
2.4 Metode de clasicare ierarhic a
Principiile generale comune diverselor tehnici de clasicare ascendente
ierarhice sunt simple. Aceste principii tin mai mult de bunul simt dect de
o teorie formalizat a de aceea este dicil s a li se g aseasc a o paternitate. Ex-
punerile cele mai sistematice si cele mai vechi sunt poate cele ale lui Sokal si
Sneath (n [57]) apoi cele ale lui Lance si Williams (n [39]).
Algoritmul const a n crearea, la ecare etap a, a unei partitii obtinute prin
agregarea celor mai apropiate dou a elemente. Se va desemna prin element n
acelasi timp indivizii sau obiectele de clasat ct si grup arile de indivizi generate
de algoritm. Exist a diferite criterii de agregare, de unde si un num ar important
de variante ale acestei tehnici.
Algoritmul nu furnizeaz a o partitie n q clase a unei multimi de n obiecte,
ci o ierarhie de partitii. Aceast a ierarhie se prezint a sub forma unui arbore
numit si dendograma si contine n 1 partitii. Interesul pentru acest arbore
este dat de faptul c a acesta poate furniza o idee despre num arul de clase ce
exist a efectiv n populatie. Fiecare t aiere a dendogramei furnizeaz a o partitie
avnd cu att mai putine clase, si acestea ind cu att mai putin omogene, cu
ct t aierea se face mai sus.
2.4.1 Aspecte formale
Denitia 2.4.1 Fie E o multime nit a. O multime de multimi, H P(E),
se numeste ierarhie dac a si numai dac a
2.4. METODE DE CLASIFICARE IERARHIC

A 121
a) E si p artile lui E formate dintr-un element apartin lui H;
b) A B A; B; ? ; (\) A; B H:
Denitia 2.4.2 Elementele din H se numesc parti tii ale multimii E.
Denitia 2.4.3 Elementele unei partitii a lui E se numesc clase.
Observatia 2.4.1
1. Fiec arei ierarhii i corespunde un arbore de clasicare.
2. Fiecare clas a dintr-o ierarhie este reuniunea claselor incluse n ea.
Dac a card(E) = n < , atunci card(H) = n deoarece, datorit a conditiei
b) din denitie, o partitie cu k clase se formeaz a prin regruparea a dou a clase
ale partitiei cu k + 1 clase.
Cum partitia P
n
, cu n clase, este format a din elementele multimii E si
contine cte un element n ecare clas a, iar partitia P
1
, cu o clas a, este format a
din multimea E (ambele partitii apartin ierarhiei H; conform conditiei a) din
denitie), H contine practic n 2 partitii netriviale ale lui E.
Denitia 2.4.4 Se numeste indice al ierarhiei H; o aplicatie i : H R
+
cresc atoare ((\) A; B H cu A B = i (A) < i (B)) si care ndeplineste
conditia i (C) = 0; (\) C P
n
.
Denitia 2.4.5 Indicele i al ierarhiei H, dac a exist a, se mai numeste si nivel
de agregare iar ierarhia dotat a cu un astfel de indice se numeste ierarhie in-
dexata.
Exemplul 2.4.1
Fie E = a; b; c; d; e, atunci n = 5 = card(E)
cu
i (a) = i (b) = i (c) = i (d) = i (e) = 0
i (f) = i (a; b) = 0; 5 i (h) = i (c; d; e) = 2; 5
i (g) = i (c; d) = 2 i (j) = i (a; b; c; d; e) = 4
122 CAPITOLUL 2. METODE DE CLASIFICARE
Observatia 2.4.2
a) n exemplul de mai sus indicele indic a nivelul la care dou a clase s-au
grupat (motivatie pentru utilizarea denumirii de nivel de agregare). Cu
ct indicele este mai mare cu att multimea este mai eterogen a.
b) Cunoscnd arborele de clasicare este facil s a se obtin a o partitie cu un
num ar mai mic sau mai mare de clase. Pentru aceasta, este sucient s a
se taie arborele la un nivel dat si s a se considere clasele date de ramurile
care cad. Astfel, dac a n exemplul de mai sus se taie arborele de-a lungul
liniei punctate, se obtine o partitie n 3 clase: a; b ; c; d ; e .
Propozitia 2.4.1
Fie E o multime si : E E R
+
o disimilaritate strict a pe E. Atunci
i (A) =
_
0; dac a A = i ; i E
min (i; j) ; dac a A = A
1
' A
2
; A
1
A
2
= ?; i A
1
; j A
2
induce pe E o ierarhie indexat a cu nivelul de agregare i.
Demonstratie. Din denitie, i este o functie pozitiv a si simetric a.
Trebuie demonstrate dou a armatii:
a) c a i induce pe E o ierarhie, H;
b) c a i este indicele acelei ierarhii, adic a i este o functie cresc atoare de
partitii din H.
a) Fie P
n
partitia format a din n clase a multimii E. Din denitia functiei
de disimilaritate, i (A) = 0; (\) A P
n
. Se formeaz a partitia P
n1
agregnd elementele i si j din P
n
pentru care (i; j) este minim. Cum
este o disimilaritate strict a, perechea (i; j) este unic a. Din constructie,
A B A; B; ? ; (\) A; B H.
Se formeaz a partitia P
n2
agregnd elementele i; j din P
n1
pentru care
(i; j) este minim si asa mai departe pn a la obtinerea partitiei P
1
.
Se deneste H = P
1
; P
2
; : : : ; P
n
. Din constructie, H veric a cele dou a
conditii din denitia ierarhiei.
b) Fie A; B H cu A B. Rezult a B = A'C si AC = ?. Din denitie
(i; j) < (i; k) ; (\) i; j A; k C; deoarece este strict a si dac a
() k
0
astfel nct (i; j) < (i; k
0
) atunci din agregarea lui A rezult a k
0
apartine lui A si nu lui C.
Pentru un j A; xat pentru moment dar altfel oarecare, min
i2A
(i; j) <
min
i2A
_
min
k2C
(i; k)
_
= i (B)(din denitie).
Din constructie, i (A)
_
min
i2A
(i; j) [j A
_
: Cum inegalitatea de mai
sus este valabil a oricare ar j A, rezult a i (A) < i (B).
2.4. METODE DE CLASIFICARE IERARHIC

A 123
2.4.2 Strategii de agregare
n functie de natura spatiului n care se g asesc ndivizii de agregat, se
vor folosi:
- metoda Ward, dac a indivizii formeaz a un nor ntr-un spatiu euclidian,
de exemplu R
p
, deci dac a ntre ei se poate calcula o distant a euclidian a;
- strategii de agregare pe disimilarit ati, dac a ntre indivizi se poate calcula
o disimilaritate strict a.
2.4.2.1 METODA WARD Pe baza distantei euclidiene se poate evalua
inertia si astfel se poate utilza principiul de agregare ce reuneste acele clase
pentru care inertia interclase descreste cel mai putin. Conform principiului lui
Huygens, inertia global a este suma inertiilor interclase si intraclase. Cu ct
clasele sunt mai omogene cu att inertia intraclase este mai mic a, deci inertia
interclase este mai mare. Clase omogene nseamn a clase cu indivizi ct mai
putini, deci partitii ct mai bogate. Este resc ca, prin fuzionarea a dou a
clase, inertia intraclase s a creasc a, deci inertia interclase s a scad a. Se va alege,
deci, acea fuzionare pentru care inertia interclase scade cel mai putin, adic a
sunt grupate clasele cele mai asem an atoare (adic a cele mai apropiate).
Lema 2.4.1
Pierderea de inertie interclase este dat a de formula
(A; B) =
P
A
P
B
P
A
+ P
B
d
2
(g
A
; g
B
) ;
unde A si B sunt dou a clase cu ponderile P
A
; respectiv P
B
si centrele de
greutate g
A
; respectiv g
B
.
Demonstratie. Inertia interclase este I
B
=
k

j=1
P
j
d
2
(g
j
; g). Suma va contine,
deci, si termenii P
A
d
2
(g
A
; g) + P
B
d
2
(g
B
; g).
Dup a fuziunea celor dou a clase, dac a se noteaz a cu g
AB
centrul de greu-
tate al noii clase, atunci cei doi termeni vor nlocuiti de (P
A
+ P
B
) d
2
(g
AB
; g) :
Deci pierderea de inertie interclase este dat a de diferenta
P
A
d
2
(g
A
; g) + P
B
d
2
(g
B
; g) (P
A
+ P
B
) d
2
(g
AB
; g) : (1)
Din constructie, g
AB
=
P
A
g
B
+P
B
g
B
P
A
+P
B
adic a centrul de greutate al noii clase
este pe segmentul g
A
g
B
.
n gg
A
g
B
, utiliznd o generalizare a teoremei medianei, m
2
c
=
1
2
a
2
+
1
2
b
2

1
4
c
2
, rezult a
d
2
(g; g
AB
) =
P
A
P
A
+ P
B
d
2
(g
A
; g)+
P
B
P
A
+ P
B
d
2
(g
B
; g)
P
A
P
B
(P
A
+ P
B
)
2
d
2
(g
A
; g
B
) :
(2)
124 CAPITOLUL 2. METODE DE CLASIFICARE
fig. 2.4.1. Teorema generalizat

A a medianei, aplicat

A n gg
A
g
B
Introducnd rezultatul din formula (2) n formula (1) se obtine rezultatul
din enuntul lemei.
Lema 2.4.2
ntr-o ierarhie indexat a, agregat a pe baza unei distante euclidiene, suma indi-
cilor de agregare este egal a cu inertia total a.
Demonstratie. Conform principiului lui Huygens I = I
W
+I
B
; unde I
B
este
inertia interclase si I
W
este inertia intraclase.
La momentul initial, cnd E este mp artit a n n clase,
I
W
(P
n
) = 0 =I
B
(P
n
) = I:
La momentul nal, cnd E are o singur a clas a,
I
B
(P
1
) = 0 =I
W
(P
1
) = I:
Cum pierderea de inertie interclase, adic a I
B
(P
s
) I
B
(P
s1
) ; este egal a
tocmai cu indicele de agregare, rezult a
n

s=2
i (P
s
) =
n

s=2
[I
B
(P
s
) I
B
(P
s1
)] = I
B
(P
n
) I
B
(P
1
) = I
Lema 2.4.3 (generalizarea formulei Lance-Williams)
(C; (A; B)) =
(P
A
+ P
C
) (A; C) + (P
B
+ P
C
) (B; C) P
C
(A; B)
P
A
+ P
B
+ P
C
:
Observatia 2.4.3
Lema 2.4.3 permite calculul disimilarit atii dintre dou a clase f ar a a necesar a
folosirea distantelor euclidiene ntre centrele de greutate al acestor clase. n
plus, nici centrele de greutate nu mai trebuie calculate.
Asadar, odat a calculate disimilarit atile dintre indivizi, se poate lucra
numai pe matrici de disimilarit ati prin aplicarea succesiv a a formulei Lance-
Williams.
2.4. METODE DE CLASIFICARE IERARHIC

A 125
Demonstratie. Conform Lemei 2.4.1
(C; (A; B)) =
P
C
P
AB
P
C
+ P
AB
d
2
(g
C
; g
AB
) ;
unde P
AB
= P
A
+ P
B
; conform teoremei generalizate a medianei. Cum
d
2
(g
C
; g
AB
) =
P
A
P
A
+ P
B
d
2
(g
A
; g
C
) +
P
B
P
A
+ P
B
d
2
(g
B
; g
C
)

P
A
P
B
(P
A
+ P
B
)
2
d
2
(g
A
; g
B
) ;
iar, pe de alt a parte, tot din Lema 2.4.1
P
C
P
A
P
C
+ P
A
d
2
(g
C
; g
A
) = (A; C) ;
P
C
P
B
P
C
+ P
B
d
2
(g
C
; g
B
) = (B; C) ;
P
A
P
B
P
A
+ P
B
d
2
(g
A
; g
B
) = (A; B) :
Rezult a
d
2
(g
C
; g
AB
) =
1
P
C
P
AB
[(P
C
+ P
A
) (A; C) + (P
C
+ P
B
) (B; C)
P
C
(A; B)]
deci
(C; (A; B)) =
(P
A
+ P
C
) (A; C) + (P
B
+ P
C
) (B; C) P
C
(A; B)
P
A
+ P
B
+ P
C
:
Rezultatul lemei permite enuntarea urm atorului ALGORITM:
Pasul 1 Se nlocuieste matricea D a distantelor euclidiene dintre indivizi cu ma-
tricea

n
= (
ij
)
j>i
i=1;n
cu
ij
= (A; B) =
P
i
P
j
P
i
+ P
j
d
2
(e
i
; e
j
) :
Pasul 2 n matricea
n
se caut a min
i;j
(i; j), se elimin a linia si coloana j, iar linia
si coloana lui i se noteaz a cu

ij, formndu-se matricea
n1
. Indicele
de agregare al clasei

ij este
ij
.
Pasul 3 Se calculeaz a elementele matricii
n1
astfel:
- se copiaz a coloanele matricii
n
;
126 CAPITOLUL 2. METODE DE CLASIFICARE
- coloana

ij se calculeaz a dup a formula generalizat a a lui Lance-Williams:

_
k;

ij
_
=
(P
i
+ P
k
)
ik
+ (P
j
+ P
k
)
jk
P
k

ij
P
i
+ P
j
+ P
k
Pasul 4 Se pune n = n 1 si
n
=
n1
;
Dac a n = 1 atunci STOP; altfel, salt la Pasul 2.
fig. 2.4.2. Aglomerarea progresiv

A a 5 puncte
Observatia 2.4.4
La etapa initial a, inertia intraclase este nul a si inertia interclase este egal a
cu inertia total a a norului deoarece ecare element terminal constituie, la
acest nivel, o clas a. n etapa nal a, inertia interclase devine nul a iar inertia
intraclase este echivalent a cu inertia total a pentru c a, la acest nivel, exist a o
partitie cu o singur a clas a ( g. 2.4.2).
fig. 2.4.3. Calitatea global

A a unei parti Tii


2.4.2.2 STRATEGII DE AGREGARE PE DISIMILARIT

A TI Dac a
ntre indivizi este dat a o matrice de disimilaritate strict a, atunci se pot imag-
ina mai multe solutii, mai mult sau mai putin arbitrare. Cele mai utilizate
sunt:
- distanta saltului minimal (single linkage), care favorizeaz a multimile cu
puncte apropiate:
d
(A; B) = min (e
i
; e
j
) ; e
i
A; e
j
B
2.4. METODE DE CLASIFICARE IERARHIC

A 127
- distanta diametrului (complete linkage), ce repar a limitele primei dis-
tante, dar punctele trebuie s a e apropiate:
d
(A; B) = max (e
i
; e
j
) ; e
i
A; e
j
B
- distanta mediei (unweighted pair-group average linkage)
d
(A; B) =
P
x
(x; z) + P
y
(y; z)
P
x
+ P
y
cu A = x; y ; B = z :
Observatia 2.4.5
Ierarhiile induse de diferitele distante sunt n general diferite. Se recomand a
asadar, utilizarea mai multor tipuri de clasic ari. Acestea nu trebuie s a difere
prea mult cnd se priveste partea superioar a a arborelui de clasicare. Dac a
totusi acest lucru se ntmpl a, se poate conchide c a multimea indivizilor se
preteaz a prost la orice clasicare.
Exemplu:
Fie matricea de disimilaritate dintre indivizii a; b; c; d; e :
a b c d e
a 0 3 7 3 4
b 0 4 4 1
c 0 2 6
d 0
1
2
e 0
Intr-adev ar, aceasta este o matrice de disimilaritate deoarece (c; e) >
(c; d) + (d; e) =6 > 2 +
1
2
:
S a aplic am algoritmul de clasicare ierarhic a ascendent a folosind, pe
rnd, tipurile de disimilarit ati enumerate mai sus.
Astfel, pentru disimilaritatea saltului minimal (Inf) se obtin urm atoarele
etape:
1. f = d; e ; i (f) =
1
2
a b c f
a 0 3 7 3
b 0 4 1
c 0 2
f 0
2. g = f; b ; i (g) = 1
a c g
a 0 7 3
c 0 2
g 0
128 CAPITOLUL 2. METODE DE CLASIFICARE
3. h = c; g ; i (h) = 2
a h
a 0 3
h 0
4. i = a; h ; i (i) = 3 .
Pentru disimilaritatea diametrului (Sup) se obtin urm atoarele etape :
1. f = d; e ; i (f) =
1
2
a b c f
a 0 3 7 4
b 0 4 4
c 0 6
f 0
2. g = a; b ; i (g) = 3
c f g
c 0 6 7
f 0 4
g 0
3. h = f; g ; i (h) = 4
c h
c 0 6
h 0
4. i = h; c ; i (i) = 7:
2.5. CLASIFICARE MIXT

A 129
Analog pentru disimilaritatea medie se obtine urm atoarea dendogram a:
n poda faptului c a ecare arbore ncepe cu agregarea lui d si e ntr-o
singur a clas a, f, urmeaz a imediat diferente importante atunci cnd se cal-
culeaz a distantele de la f la ceilalti indivizi:

dinf
(b; f) = inf (
d
(b; d) ;
d
(b; e)) = 1;

dsup
(b; f) = sup(
d
(b; d) ;
d
(b; e)) = 4;

dmed
(b; f) = 2; 5:
S a not am, ns a, c a una din principalele dicult ati n clasicare const a n
denirea unei distante sau disimilarit ati ntre indivizi, mai ales cnd acestia
sunt descrisi prin caractere calitative.
2.5 Clasicare mixt a
Algoritmii de clasicare sunt mai mult sau mai putin adaptati pentru
volume mari de date. Astfel:
130 CAPITOLUL 2. METODE DE CLASIFICARE
metodele de agregare n jurul centrilor mobili pot manipula volume mari
cu preturi mici dar au dezavantajul c a produc partitii dependente de
num arul ales de clase si de centrii initiali;
metodele de agregare ierarhice sunt deterministe (n sensul c a dau
ntotdeauna acelasi rezultat dac a datele initiale sunt aceleasi), dau indi-
catii privind num arul de clase ce trebuie retinut dar sunt prost adaptate
la volume mari de date.
Combinarea celor dou a metode a dat nastere unui algoritm mixt (hybrid
clustering, [64]).
Algoritmul de clasicare mixt a contine trei etape: multimea elementelor
de clasicat este partitionat a (centrii mobili) n cteva zeci, eventual sute de
partitii omogene; se procedeaz a apoi la agregarea ierarhic a a acestor grupe
cu scopul ca dendrograma obtinut a s a sugereze num arul de clase nale ce
trebuie retinute; n ne, se optimizeaz a (folosind iar asi tehnica centrilor mobili)
partitia obtinut a prin t aierea arborelui.
Etapele algoritmului sunt:
1. Partitionarea initial a. Aceast a etap a vizeaz a obtinerea rapid a si cu
un pret sc azut a unei partitii de n obiecte n k clase omogene, unde k este
mult mai mare dect s; num arul de clase dorit, dar mult mai mic dect
n. n acest scop este utilizat algoritmul centrilor mobili. Optimalitatea
nu este, desigur, atins a, dar partitia obtinut a poate ameliorat a pornind
de la grup arile stabile (grupuri de indivizi sau elemente care apar mereu
n aceleasi clase). Aceste grup ari vor elementele de baz a n etapa
urm atoare.
2. Agregarea ierarhic a a claselor obtinute. Aceast a etap a const a n
efectuarea unei clasic ari ierarhice ascendente n care elementele termi-
nale ale arborelui sunt cele k clase ale partitiei initiale. Scopul acestei
etape este de a reconstitui clasele care au fost fragmentate si de a agrega
elementele aparent dispersate n jurul centrelor de origine. Arborele este
construit dup a strategia Ward care tine seam a de mase n momentul
alegerii elementelor de agregat.
3. Partitia nal a. Partitia nal a a populatiei este dat a prin t aierea ar-
borelui obtinut n etapa precedent a. Omogenitatea claselor obtinute
poate optimizat a prin reafectare.
Figura 2.5.1. schematizeaz a etapele algoritmului de clasicare mixt a.
2.5. CLASIFICARE MIXT

A 131
fig. 2.5.1. Schema clasific

Arii mixte
2.5.1 Alegerea claselor prin "t aierea" arborelui
Alegerea nivelului de t aiere si astfel, al num arului de clase ale partitiei,
poate facilitat a de inspectia vizual a a arborelui. T aierea trebuie s a se fac a
n intervalul dintre indici de valori mici, corespunznd unor clase omogene, si
indici de valori mari ce disociaz a clase bine conturate.
ntr-o manier a general a, cu ct se grupeaz a mai multi indivizi, altfel spus
cu ct ne apropiem de vrful arborelui, cu att mai mare va distanta ntre
dou a clase vecine iar indicele de agregare va mai mare. T aind arborele la
nivelul unui salt important al acestui indice se poate spera n obtinerea unei
partitii de bun a calitate, n sensul c a indivizii grupati sub nivelul de t aiere
erau apropiati si cei grupati deasupra nivelului de t aiere sunt necesarmente
dep artati (ceea ce corespunde denitiei unei bune partitii).
n practic a situatia nu este ns a att de clar denit a. Ca si n cazul ana-
lizei factoriale, se utilizeaz a criterii empirice: histograma indicilor de agregare.
132 CAPITOLUL 2. METODE DE CLASIFICARE
fig 2.5.2 Histogramele indicilor de nivel
2.5.2 Caracterizarea statistic a a claselor
Elementele unei aceleiasi clase se aseam an a din punct de vedere al cri-
teriilor alese pentru a le descrie. R amne de precizat care sunt criteriile care
se a a la originea grup arilor obtinute. Se procedeaz a la descrierea automat a a
claselor, ceea ce constituie n practic a o etap a indispensabil a oric arei proceduri
de clasicare.
Descrierea automat a a claselor este, n general, bazat a pe compararea
mediilor sau a procentelor din interiorul claselor cu mediile sau procentele
obtinute pe ntreaga populatie. Pentru a selectiona variabilele continue sau
modalit atile variabilelor nominale caracteristice ec arei clase, se m asoar a ecar-
tul dintre valorile specice clasei si valorile globale. Aceste statistici pot
convertite ntr-un criteriu numit valoare-test, care permite operarea unei se-
lectii asupra variabilelor, desemnnd astfel variabilele cele mai reprezentative
(conform [47]).
2.5.2.1 VALORI-TEST PENTRU VARIABILE CONTINUE Pen-
tru a caracteriza o clas a prin variabile continue, se compar a x
k
; media variabilei
x n clasa k, cu media x n ntreg norul. Valoarea-test este aici
t
k
=
x
k
x
s
k
(x)
;
cu s
2
k
(x) =
nn
k
n1
s
2
(x)
n
k
; estimatorul dispersiei lui x n clasa k si s
2
(x)
dispersia empiric a a lui x n ntreg norul. Se recunoaste aici, n s
2
k
(x) ; dispersia
unei medii n cazul extragerii f ar a revenire a k elemente.
n ipoteza nul a a unei extrageri aleatoare, f ar a revenire, a n
k
indivizi din
clasa k, variabila x
k
; reprezentnd media empiric a n acea clas a, are ca medie
si dispersie empiric a global a pe x respectiv s
2
k
(x).
2.5. CLASIFICARE MIXT

A 133
Valoarea test urmeaz a, aproximativ, o distributie Gauss-Laplace centrat
redus a (teorema limit a central a). Ea m asoar a distanta ntre media clasei si
media general a n ecarturi tip.
E de la sine nteles c a aceast a interpretare nu are sens dect pentru o
variabil a x suplimentar a, care nu a participat la constructia claselor (nu se
poate stipula o independent a ntre claselele unei partitii si variabilele care au
participat la denirea partitiei). Se calculeaz a apoi probabilitatea ca variabila
s a dep aseasc a valoarea absolut a a diferentei observate. Cu ct valoarea test
este mai mare (cu att probabilitatea este mai mic a) cu att ipoteza de a
avea valori ale variabilei x extrase la ntmplare dintre valorile posibile este
discutabil a. n acest caz, media n clas a difer a de media general a si variabila
este caracteristic a clasei. Ordonarea variabilelor n functie de probabilit atile
cresc atoare de a dep asi media general a este echivalent a cu ordonarea n functie
de valorile-test descresc atoare.
Dac a interpretarea probabilistic a a valorilor-test pentru variabilele active
nu este licit a, este totusi posibil s a e folosite pentru a obtine un clasament
al acestora n vederea caracteriz arii ec arei clase. Modulele acestor valori-test
reprezint a atunci simple m asuri ale similarit atii ntre variabile si clas a.
2.5.2.2 VALORI-TEST PENTRU VARIABILE NOMINALE O
modalitate (sau categorie) a unei variabile nominale este considerat a carac-
teristic a pentru clas a dac a abundenta n clas a este apreciat a ca semnicativ
superioar a fat a de restul populatiei. Notnd cu n
jk
num arul de indivizi avnd
modalitatea j din cei n
k
indivizi ai clasei k, cu n
j
num arul total de indivizi
avnd modalitatea j dintr-un total de n, abundenta modalit atii j este denit a
comparnd procentul ei n clas a, adic a
n
jk
n
k
, cu procentul n toat a populatia,
adic a
n
j
n
.
n ipoteza nul a, unde cei n
k
indivizi ai clasei k sunt extrasi aleator, f ar a
revenire, din populatia de n indivizi, procentajul indivizilor clasei k avnd
modalitatea j pe de-o parte, si procentajul indivizilor avnd modalitatea j n
ntreaga populatie, pe de alt a parte, ar trebui s a coincid a, modulo o uctuatie
aleatoare, adic a:
n
jk
n
k
-
n
j
n
:
n ipoteza de independent a, cei N indivizi ai clasei k care au modali-
tatea j reprezint a o variabil a aleatoare care urmeaz a o lege hiper-geometric a
Hg
_
n
k
; n;
n
j
n
_
(n
k
reprezint a num arul de succese dintr-un total de n cu prob-
abilitatea de succes de
n
j
n
).
Suntem, deci, interesati de calculul lui
p
k
(j) = Prob (N _ n
kj
) =
x=n
k

x=n
jk
Prob(N = x) =
C
x
n
j
C
n
k
x
nn
j
C
n
k
n
134 CAPITOLUL 2. METODE DE CLASIFICARE
Cu ct aceast a probabilitate este mai mic a, cu att ipoteza unei extrageri
aleatoare este mai dicil de acceptat. Vom folosi aceast a probabilitate pentru a
ordona modalit atile caracteristice clasei (cea mai caracteristic a corespunznd
celei mai mici probabilit ati).
Aceast a probabilitate este adesea foarte mic a; este comod s a i se substi-
tuie valoarea t
k
(N) a variabilei Gauss-Laplace corespunznd aceleiasi proba-
bilit ati. Ea m asoar a distanta ntre proportia n clas a si proportia general a n
num ar de abateri standard a legii normale. Cum
E (N) = n
k
n
j
n
si s
2
k
(N) = n
k
n n
k
n 1

n
j
n
_
1
n
j
n
_
=
= t
k
(N) =
N E (N)
s
k
(N)
:
Aceasta este valoarea-test pentru o modalitate a unei variabile nominale.
Acesta este un criteriu statistic doar pentru variabilele ilustrative.
2.5.3 Exemplu
Descrierea datelor
n cadrul subcapitolelor 1.4.6 respectiv 2.3.2, am analizat un set de date
(tabelul A.4. (Anex a)) reprezentnd informatii asupra unor nsusiri zice si
temperamentale a 27 de rase de cini. Rezultatele obtinute relativ la clasi-
carea acestor rase sunt usor diferite pentru cele dou a analize. Pentru a ne
decide asupra unei interpret ari, vom aplica o metod a de clasicare ierarhic a -
Joining (Tree Clustering), al c arei avantaj l reprezint a capacitatea de oferi o
idee asupra num arului de clase existente efectiv n cadrul populatiei raselor de
cini. Se vor folosi pentru aceast a analiz a datele de intrare din tabelul A.4.,
modicate conform indicatiilor din subcapitolul 2.3.2.
Efectuarea analizei si interpretarea rezultatelor
Din bara de meniu se selecteaz a Statistics, Multivariate Exporatory Tech-
niques, Cluster Analysis si, n fereastra de dialog ap arut a, se alege metoda de
analiz a Joining (tree clustering). Dup a ap asarea butonului OK, n fereastra
corespunz atoare metodei selectate se acceseaz a meniul Advanced. Butonul
Variables aseaz a lista variabilelor pentru analiz a, dintre acestea urmnd a
selectate toate mai putin variabila FN si variabila R. n continuare se specic a:
tipul datelor de intrare (input le) - se alege optiunea Raw data deoarece
tabelul A.4. nu reprezint a o matrice de distante sau de corelatii;
entit atile de clasicat (cluster) - se alege optiunea Cases (rows) deoarece
scopul analizei pentru acest exemplu este clasicarea raselor de cini;
2.5. CLASIFICARE MIXT

A 135
strategia de agregare (amalgamation (linkage) rule) - se alege strate-
gia bazat a pe distanta diametrului (Complete Linkage). Rezultatele
obtinute folosind metoda Ward sunt similare (vezi subcapitolul 2.4.2.);
tipul de distant a (Distance measure) - se alege distanta euclidian a (Euclid-
ean distances) deoarece indivizii sunt v azuti ca puncte n spatiul euclid-
ian R
6
(6 reprezint a num arul de variabile m asurate pe ecare individ)
fig. 2.5.3. Fereastra de start
Pentru activarea ferestrei ce permite generarea rezultatelor specice clasi-
c arii prin metoda k-means (g. 2.5.3.) se apas a butonul OK. n noua fereas-
tr a este prezentat si un rezumat al datelor de plecare: num arul indivizilor (27
rase de cini) si al variabilelor (6 nsusiri) care particip a la analiz a, metoda de
analiz a (Joining), strategia de agregare (Complete Linkage) si tipul distantei
(Euclidean Distances).
Generarea tuturor rezultatelor se va face din meniul Advanced. Primul
pas n realizarea clasic arii prin metoda Joining l reprezint a calculul matricei
distantelor (butonul Distance Matrix) - distantele euclidiene, n acest caz. O
submatrice a acestei matricii este prezentat a n tabelul 2.5.1.
136 CAPITOLUL 2. METODE DE CLASIFICARE
fig. 2.5.4. Fereastra de rezultate
tabelul 2.5.1. submatrice a matricei distan Telor euclidiene
Etapele rezultate n urma algoritmului de agregare bazat pe strategia
Complete Linkage pot vizualizate prin ap asarea butonului Amalgamation
schedule. Tabelul obtinut, redat partial n continuare (tabelul 2.5.2.), contine
pe prima coloan a indicii de agregare si pe ecare linie membrii clusterului for-
mat n urma agreg arii la nivelul respectiv. Se constat a c a primele "grup ari"
se realizeaz a ntre indivizii pentru care variabilele care i caracterizeaz a au va-
lori identice: BULD si TECK, respectiv CHIH si PEKI, DALM si LABR, iar
indicii de agregare sunt nuli, egali cu distantele dinte acesti indivizi. Imaginea
arborelui de clasicare (butonul Horizontal/Vertical hierarchical plot) sinte-
tizeaz a aceste informatii ntr-o maniera mai sugestiv a (g. 2.5.6.).
2.5. CLASIFICARE MIXT

A 137
tabelul 2.5.2. etape de agregare
fig. 2.5.6. Arborele de clasificare
Clusterele rezultate n urma aplic arii metodei Joining (g 2.5.6. si tabelul
2.5.3.) sunt apoape identice cu grup arile generate de metoda k-means (tabelul
138 CAPITOLUL 2. METODE DE CLASIFICARE
2.3.2.), singura diferent a ind dat a de trecerea rasei FOXT din clusterul 4 n
clusterul 3.
tabelul 2.5.3. Membrii clusterelor ob Tinute prin metoda joining
Capitolul 3
METODE EXPLICATIVE
UZUALE
Acest capitol face leg atura ntre demersurile exploratori i prezentate n
capitolele 1 si 2, si demersul inferen tial si conrmatoriu care constituie partea
clasic a cea mai ampl a a statisticii matematice.
S a recapitul am, pe scurt, caracteristicile celor dou a familii de metode
c arora le corespund demersuri complementare.
Statistica descriptiva si exploratorie permite realizarea de rezumate si
grace mai mult sau mai putin elaborate, descrierea multimilor de date sta-
tistice si stabilirea de relatii ntre variabile, f ar a a acorda un rol privilegiat
vreunei variabile. Concluziile obtinute n aceast a etap a privesc doar datele
studiate, f ar a a generalizate la o populatie mai larg a. Analiza exploratorie
se sprijin a, n mod esential, pe notiuni elementare - acelea de medie si disper-
sie, pe reprezent ari grace si pe tehnici descriptive multidimensionale de tipul
celor abordate n primele dou a capitole.
Statsitica inferen tiala si conrmatorie permite validarea sau inrmarea,
pornind de la teste statistice sau modele probabiliste, a ipotezelor formulate
priori (adic a urmarea unui demers exploratoriu) si extrapolarea acestora de la
nivelul esantionului la cel al unei populatii mai mari. Statistica conrmatorie
face apel, n special, la metodele numite explicative
8
si previzionale. Dup a cum
le indic a numele, acestea sunt destinate s a explice, apoi s a prevad a, urmnd
anumite reguli de decizie, o variabil a privilegiat a, cu ajutorul uneia sau mai
multor variabile explicative.
Demersurile sunt complementare, explorarea si descrierea trebuind, n
general, s a precead a etapele explicative si predictive. ntr-adev ar, o explorare
preliminar a este adesea util a pentru a avea o prim a idee despre natura leg a-
8
Statistica nu explic a nimic, dar furnizeaz a elemente potentiale de explicatii. De altfel,
termenii de variabil a explicativ a sau variabil a de explicat nu sunt cei mai judiciosi. Se mai
spune independent si dependent sau exogen si endogen. Ultimii doi termeni sunt poate cei
mai adecvati dar nu sunt destul de evocatori. Adjectivul independent este, n schimb, surs a
de confuzie.
139
140 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
turilor ntre variabile si pentru a trata cu prudent a variabilele corelate, si deci
redundante, ce risc a s a ncarce inutil modelul.
Metodele explicative prezentate n sectiunile 3.13.3 acoper a utiliz arile
cele mai curente.
Analiza discriminanta (sectiunile 3.1 si 3.2) este, schematic vorbind,
analog a cu regresia multipl a cnd variabila endogen a j este discret a. n acest
caz, variabila de explicat deneste clasele unei partitii priori a populatiei.
Scopul analizei l constituie studierea legaturilor ntre variabilele explicative
si clasele partitiei (sectiunea 3.1). Se denesc astfel functii discriminante care
vor permite, ntr-o etap a decizional a, afectarea de noi indivizi la aceste clase
(sectiunea 3.2).
Tehnicile de segmentare prin arbore binar (sectiunea 3.3) sunt prezen-
tate n cadrul acestui capitol din diferite motive. Pe de o parte ele se aplic a
la toate variabilele, oricare ar statutul sau natura lor, pe alt a parte ele inte-
greaz a simultan faza explicativ a si cea decizional a. Aceste tehnici constituie,
astfel, o metod a de previziune foarte accesibil a ale c arei rezultate sunt usor de
interpretat.
3.1 Analiza discriminant a
Este desemnat a sub numele de analiza discriminanta o familie de tehnici
destinate s a claseze (s a afecteze la clase preexistente) indivizi caracterizati
printr-un num ar de variabile continue sau discrete.
Metoda si are originea n lucr arile lui R. A. Fisher [26] sau, ntr-o manier a
mai putin direct a, n cele ale lui P.C. Mahalanobis [43].
Analiza discriminant a este una dintre tehnicile de analiz a multidimen-
sional a cele mai folosite n practic a (diagnostic automat, controlul calit atii,
previziunea riscului, recunoasterea formelor).
3.1.1 Notatii si formularea problemei
Dispunem de : observatii (sau indivzi) asupra a j variabile (r
1
, r
2
, . . . , r
j
),
observatii repartizate n clase denite priori de variabila j nominal a, avnd
modalit ati. n cele ce urmeaz a vom nota cu y vectorul :-dimensional, cu
componente numere naturale, reprezentnd num arul clasei din care face parte
observatia / individul i si cu Y matricea disjunctiv a : corespunz atoare.
Analiza discriminant a si propune, ntr-o prim a etap a, s a caracterizeze
ct se poate de bine cele clase cu ajutorul celor j variable explicative, iar apoi,
ntr-o a doua etap a, s a rezolve problema afect arii unui individ nou, caracterizat
prin cele j variabile, la una dintre clasele deja identicate pe baza esantionului
de : indivizi (numit e santion de nva tare).
Se disting, n consecint a, dou a demersuri:
primul, descriptiv, ce const a n c autarea functiilor de discriminare liniare
3.1. ANALIZA DISCRIMINANT

A 141
pe esantionul de volum : (adic a g asirea combinatiilor liniare de variabile
explicative ale c aror valori separ a cel mai bine cele clase);
al doilea, decizional, ce const a n aarea claselor de afectare a celor :
t
indivizi noi, descrisi prin variabilele explicative (r
1
, r
2
, . . . , r
j
) (numit
e santion de test). Este vorba aici de o problema de clasare n clase
preexistente, n opozitie cu problemele de clasicare (capitolul 2) care
constau n construirea de clase ct mai omogen posibil ntr-un esantion
dat.
fig. 3.1.1. Principiul analizei discriminante
3.1.2 Analiza factorial a discriminant a
Fie tabelul observatiilor X M
aj
(R) cu X = (r
i)
)
)=1,j
i=1,a
Cei : indivizi sunt mp artiti n clase (clasele sunt presupuse disjuncte
si se cunoaste afectarea ec arui individ la o clas a).
Fiecare clas a / caracterizeaz a un subnor 1
I
de :
I
indivizi, unde
q

I=1
:
I
= :.
Se noteaz a cu g
I
centrul de greutate al clasei / si cu g centrul de greutate
al norului, adic a
g
I
=
_
r
I
)
_
)=1,j
unde r
I
)
=
1
:
I

i1
I
r
i)
respectiv
g = (r
)
)
)=1,j
, cu r
)
=
1
:
a

i=1
r
i)
=
q

I=1
:
I
:
r
I
)
.
fig. 3.1.2. Reprezentarea norului de indivizi discrimina Ti
142 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Pentru precizarea ideilor, se consider a o multime X de date (puncte)
dintr-un spatiu bidimensional. Valorile caracteristicilor r
1
si r
2
ale punctelor
sunt date de proiectiile norului X pe axele de coordonate Or si Oj. Structura
claselor lui X se poate detecta, n acest caz, prin simpla inspectie vizual a.
n unele situatii se poate constata c a nu exist a n X o structur a de
clase bine denit a si astfel diferiti observatori pot indica diferite moduri de
grupare a datelor n clase. Aceasta relev a faptul c a puterea de discriminare
a caracteristicilor (axelor) este slab a pentru datele considerate. Exist a dou a
posibilit ati: e c a nu s-au ales cele mai bune caracteristici ale datelor, e
c a datele sunt, prin natura lor, foarte asem an atoare. Pentru a evita aceast a
situatie, este uneori posibil a determinarea unui nou sistem de coordonate fat a
de care structura de clase a norului X s a e mai evident a dect n sistemul
initial. Axele noului sistem au, deci, o putere de discriminare a claselor din X
superioar a celei a axelor initiale. n unele situatii este sucient a determinarea
unei singure axe discriminante, astfel nct proiectiile norului X pe aceast a
ax a s a constea din clase compacte si bine separate. n g. 3.1.3., axa 1 are o
bun a putere discriminant a n timp ce axa 2, care este axa principal a uzual a,
nu permite o separare a proiectiilor celor dou a grupe.
fig. 3.1.3. Axe cu propriet

A Ti de discriminare diferite
M arirea puterii discriminante a axelor poate , asadar, reclamat a de
datele problemei, cu scopul de a putea "vedea" o anumit a structur a n date.
Determinarea axelor discriminante poate servi si ca o tehnic a de reducere
a dimensiunii spatiului variabilelor. Prin aceast a tehnic a sunt selectate cele
mai relevante caracteristici. Reducerea dimensiunii poate impus a si de nece-
sitatea vizualiz arii claselor prin proiectarea datelor ntr-un spatiu cu una sau
dou a dimensiuni. n acest caz, cerinta fundamental a este ca, prin proiectarea
datelor ntr-un spa tiu de dimensiune redusa, la clase compacte si bine sepa-
rate din spa tiul ini tial sa corespunda clase compacte si bine separate din noul
spa tiu.
Fie combinatia liniar a, pentru individul i, format a cu cele j variabile
a (i) =
j

)=1
a
)
(r
i)
r
)
) , i = 1, :.
Variabila a = (a (i))
a
i=1
este centrat a, deci de medie empiric a 0. Atunci dis-
3.1. ANALIZA DISCRIMINANT

A 143
persia empiric a a lui a este
1
2
(a) =
1
:
a

i=1
a
2
(i) =
1
:
a

i=1
_
_
j

)=1
a
)
(r
i)
r
)
)
_
_
2
=
1
:
a

i=1
j

)=1
j

)
0
=1
a
)
a
)
0 (r
i)
r
)
)
_
r
i)
0 r
)
0
_
.
Inversnd ordinea de sumare si notnd
t
))
0 =
1
:
a

i=1
(r
i)
r
)
)
_
r
i)
0 r
)
0
_
= cov
_
x
)
, x
)
0
_
dispersia empiric a a variabilei a se poate scrie
1
2
(a) =
j

)=1
j

)t=1
a
)
a
)
0 cov
_
x
)
, x
)
0
_
= a
t
Ta, unde T =
_
t
))
0
_
)t=1,j
)=1,j
.
Ca si n analiza dispersional a (vezi, de exemplu, [60]) se poate descom-
pune matricea de covariant a, T, ntr-o component a intraclase (n interiorul
claselor) si o component a interclase (ntre clase) obtinndu-se formula de de-
scompunere a lui Huygens, sau ecua tia analizei dispersionale.
S a pornim de la identitatea
r
i)
r
)
=
_
r
i)
r
I
)
_

_
r
I
)
r
)
_
.
Atunci
t
))t
=
1
:
q

I=1
_
_

i1
I
(r
i)
r
)
)
_
r
i)t
r
)
0
_
_
_
=
=
1
:
q

I=1
_
_

i1
I
__
r
i)
r
I
)
_

_
r
I
)
r
)
__

__
r
i)
0 r
I
)
0
_

_
r
I
)
0 r
)
0
__
_
_
=
=
1
:
q

I=1

i1
I
_
r
i)
r
I
)
__
r
i)
0 r
I
)
0
_

1
:
q

I=1

i1
I
_
r
I
)
r
)
__
r
I
)
0 r
)
0
_
.
deoarece, din denitia lui r
I
)

i1
I
_
r
i)
r
I
)
__
r
I
)
0 r
)
0
_
=
_
r
I
)
0 r
)
0
_

i1
I
_
r
i)
r
I
)
_
=
=
_
r
I
)
0 r
)
0
_
_
_

i1
I
r
i)
:r
I
)
_
_
= 0
144 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
si n mod analog

i1
I
_
r
I
)
r
)
__
r
i)
0 r
I
)
0
_
= 0.
Notnd cu
d
))
0 =
1
:
q

I=1

i1
I
_
r
i)
r
I
)
__
r
i)
0 r
I
)
0
_
si cu
c
))t
=
q

I=1
:
I
:
_
r
I
)
r
)
__
r
I
)
0 r
)
0
_
se poate scrie
T = DE (1)
unde D =
_
d
))
0
_
)
0
=1,j
)=1,j
si E =
_
c
))
0
_
)
0
=1,j
)=1,j
.
Astfel, dispersia unei combinatii liniare de variabile, a, se descompune n
a
t
Ta = a
t
Da a
t
Ea. (2)
Reamintim c a, dintre toate combinatiile liniare de variabile, sunt c au-
tate cele care au o dispersie intraclase minim a si o dispersie interclase maxim a.
Rezult a c a, n proiectie pe axa discriminant a a, ecare subnor trebuie s a e,
n m asura posibilului, n acelasi timp bine grupat si bine separat de ceilalti
subnori.
Trebuie g asit a astfel nct
a
0
Ea
a
0
Da
s a e maxim a (sau echivalentul,
a
0
Da
a
0
Ea
minim a) sau, conform (2), s a se maximizeze ) (a) =
a
0
Ea
a
0
Ta
(raportul dintre
dispersia inter-clase si dispersia total a).
Asadar, un punct stationar al lui ) (a) se a a rezolvnd ecuatia
)
t
(a) = 0 ==
(a
t
Ta) (2Ea) (a
t
Ea) (2Ta)
(a
t
Ta)
2
= 0
deoarece
o
oa
(a
t
Ea) = 2Ea dac a E este simetric a (si este deoarece E si T sunt
matrici de covariant a, n plus T este inversabil a). Rezult a
_
a
t
Ta
_
Ea =
_
a
t
Ea
_
Ta
Ea=
_
a
t
Ea
a
t
Ta
_
Ta [ T
1
T
1
Ea=
_
a
t
Ea
a
t
Ta
_
a =) (a) a (3)
Asadar ) (a) este maxim a dac a este egal a cu `, valoarea proprie maxim a
a matricii T
1
E iar a este vector propriu corespunz ator lui ` maxim
3.1. ANALIZA DISCRIMINANT

A 145
Observatia 3.1.1
1. T
1
E este o matrice jj, n general nesimetric a. Din punct de vedere al
calcului numeric, avnd n vedere c a j, este mai usor a aa vectorii
si valorile proprii ale unei matrici simetrice de dimensiune si a g asi
o exprimare a lui a n functie de aceste elemente.
2. Se observ a c a E este produsul unei matrci C M
jq
(avnd coe-
cientii c
)I
=
_
a
I
a
_
r
I
)
r
)
_
) cu transpusa sa, deci, revenind n (3),
T
1
CC
t
a = `a sau CC
t
a = `Ta si considernd a = T
1
Cw rezult a
CC
t
T
1
Cw =`Cw (4)
Dac a w este vector propriu corespunz ator lui `, al matricii C
t
T
1
C
atunci el veric a relatia (4) si a si ` veric a relatia (3). Cumsi C
t
T
1
C
M
qq
(R) este simetric a, n practic a se diagonalizeaz a aceast a matrice iar
apoi se a a a = T
1
Cw.
3. `
nnx
se numeste putere discriminanta si din (1) este mai mic a sau egal a
cu unu. ntr-adev ar, din (1) rezult a a
t
Ta = a
t
Da a
t
Ea. Dar T este
pozitiv denit a (deoarece este matrice de covariant a)=a
t
Ta 0, (\) a,
deci n egalitatea de mai sus se poate mp arti cu scalarul a
t
Ta si se obtine
1 =
a
t
Da
a
t
Ta

a
t
Ea
a
t
Ta
.
Cum scalarii a
t
Da, a
t
Ea si a
t
Ta sunt pozitivi (ca dispersii intraclase,
respectiv interclase si total a)= 0 _
a
0
Ea
a
0
Ta
= ) (a) _ 1, (\) a, deci 0 _
`
nnx
_ 1.
`
nnx
= 1 corespunde cazului A) din g. 3.1.4. n proiectia pe
axa a dispersiile intraclase sunt nule. Cei / nori sunt ecare ntr-
un hiperplan ortogonal pe a. Discriminarea pe aceast a ax a este
perfect a dac a centrele de greutate se proiecteaz a n puncte diferite.
`
nnx
= 0 corespunde cazului n care cea mai bun a ax a discrimi-
nant a nu poate s a separe centrele de greutate g
i
pentru c a acestea
sunt confundate. Norii sunt, deci, concentrici si neliniari separabili
(cazul B) din g. 3.1.4.) Este posibil a existenta unei suprafete de
decizie neliniare; n cazul de fat a este vorba de o functie p atratic a.
146 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
fig 3.1.4. exemplificarea diferitelor puteri de
discriminare ale unei axe
Valoarea proprie este o masura pesimista a puterii de discriminare a unei
axe: cazul C) din g. 3.1.4. arat a c a cele dou a clase sunt liniar separabile pe
axa considerat a n poda faptului c a ` < 1.
Num arul de valori proprii nenule, deci al axelor discriminante, este egal
cu 1 n cazul obisnuit, unde : j si variabilele nu sunt legate prin
relatii liniare.
Odat a g asite axele cu puterea de discriminare cea mai bun a, pasul ur-
m ator const a n g asirea suprafetelor de decizie.
3.1.3 Metode geometrice
Metodele geometrice de analiz a discriminant a, esentialmente descriptive,
se bazeaz a pe notiunea de distan ta si nu utilizeaz a nici o notiune probabilist a.
Pentru detalii privind aceast a sectiune pot consultate monograile [1], [21].
3.1.3.1 SUPRAFE TE DE DECIZIE
n context geometric, discriminarea poate interpretat a ca o mp artire
a spatiului variabilelor n regiuni, numite regiuni de decizie, ecare regiune
ind asociat a cu o clas a de obiecte. Regiunile de decizie si implicit clasele
corespunz atoare, se zic separabile dac a pot separate prin suprafete din spatiul
variabilelor.
Suprafetele de separare ale regiunilor de decizie se numesc si suprafe te
de decizie. Dac a suprafetele de decizie sunt hiperplane, clasele se zic liniar
separabile.
3.1. ANALIZA DISCRIMINANT

A 147
Suprafetele de decizie pot descrise cu ajutorul unei multimi de func tii
de discriminare sau func tii de decizie.
fig. 3.1.5. dou

A clase liniar separabile din R


2
, notate
1
Si
2
Clasele ce apar n multe probleme concrete nu pot , n general, pre-
cis denite, deoarece apartenenta unor elemente la una sau alta dintre clase
poate incert a. Aceste clase f ar a margini precise, n care tranzitia de la
apartenent a la neapartenent a este mai degrab a gradual a, pot descrise prin
mul timi nuan tate (fuzzy sau cu apartenen ta divizata. Vezi, de exemplu, [22]).
Va considerat, n cele ce urmeaz a, cazul claselor separabile. Functia
de discriminare ataseaz a ecare obiect/vector unei regiuni 1 din spatiul va-
riabilelor, regiune delimitat a prin intermediul unei multimi de suprafete de
decizie. O func tie de discriminare instruibila (cu nva tare) tinde s a reduc a
num arul obiectelor clasate incorect (misclasate), f acnd acest num ar ct mai
mic posibil, eventual nul. Acest lucru se realizeaz a prin ajustarea multimii R
a regiunilor de decizie ca r aspuns la observatiile f acute asupra unei multimi
de obiecte de instruire. Multimea obiectelor de instruire se numeste mul time
de instruire. Ajustarea regiunilor de decizie ca rezultat al observatiilor asupra
multimii de instruire reprezint a faza de nva tare sau instruire a functiei de
discriminare.
Dac a se cunoaste dinainte num arul claselor si dac a pentru ecare obiect
din multimea de instruire stim clasa c aruia acesta i apartine, nv atarea se
numeste supervizata sau cu profesor. Dac a structura de instruire nu este
cunoscut a, adic a pentru nici un obiect din aceast a multime nu cunoastem
dinainte clasa de apartenent a, instruirea se numeste nesupervizata sau fara
profesor.
Procedura conform c areia regiunile de decizie sunt ajustate ca r aspuns
la observatiile privind clasarea vectorilor din multimea de instruire, constituie
procedura de instruire. Dup a ce clasele si suprafetele de decizie sunt stabilite
prin faza de instruire (functia de discriminare este instruit a), functiei de dis-
criminare i se prezint a date ale c aror clase nu se cunosc. Aceast a faz a, n care
148 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
obiecte noi sunt asociate uneia sau alteia dintre clasele stabilite, se numeste
faza de lucru/decizionala/de afectare. Uneori faza de instruire si cea de lucru
pot s a coincid a sau s a se suprapun a partial. Este ceea ce se ntmpl a n cazul
clasic arii nesupervizate.
S a consider am c a n multimea obiectelor (reprezentate sub form a de vec-
tori) sunt prezente clase, notate
1
, . . . ,
q
. Distingem urm atoarele trei
cazuri de separabilitate:
Cazul 1. Fiecare clas a este separat a de toate celelalte printr-o singur a
suprafat a de decizie. Exist a, deci, functii de decizie. Not am cu q
i
(x) : R
j

R functia de decizie corespunz atoare clasei


i
. Ecuatia suprafetei de decizie
ce separ a clasa de toate celelalte clase este q
i
(x) = 0.
Pentru ecare clas a
i
regula de afectare este
dac a x
i
, atn:ci q
i
(x) 0.
Dac a pentru un punct x, nou considerat,
q
i
(x) 0 si q
)
(x) < 0, , = 1, , , ,= i
atunci x este atasat clasei
i
.
Regiunea de decizie 1, corespunz atoare clasei
i
va , asadar,
1
i
=
_
x R
j
[q
i
(x) 0 si q
)
(x) < 0, , = 1, , , ,= i
_
.
Punctele ce nu apartin niciunei regiuni de decizie formeaz a o regiune de
nedeterminare (RN). Suprafetele de decizie apartin regiunii de nedeterminare.
Este posibil ca regiunea de nedeterminare RN s a contin a si alte puncte dect
cele apartinnd suprafetelor de decizie.
fig. 3.1.6. Cazul 1 de separabilitate
3.1. ANALIZA DISCRIMINANT

A 149
Cazul 2. Fiecare clas a este separat a de oricare alta printr-o suprafat a
de decizie. Clasele sunt, asadar, dou a cte dou a separabile. Exist a, deci,
q(q1)
2
suprafete de decizie generate de functiile q
i)
(x) : R
j
R. Suprafata de
decizie corespunz atoare claselor
i
si
)
are ecuatia q
i)
(x) = 0. Functiile de
decizie satisfac conditia q
i)
(x) = q
)i
(x) , \x R
j
.
Punctele clasei
i
se a a de partea pozitiv a a suprafetei q
i)
(x) = 0 .
Regula de decizie este:
x
i
=q
i)
(x) 0, (\) , ,= i.
Regiunea de decizie 1 corespunz atoare clasei
i
este
1
i
= x R
j
[q
i)
(x) 0, (\) , ,= i .
La fel ca si n conditiile cazului l de separabilitate, este posibil s a existe
o regiune de nedeterminare neapartinnd nici unei regiuni de decizie.
fig. 3.1.7. Cazul 2 de separabilitate
Cazul 3. Exist a / functii de decizie. Regula de decizie se formuleaz a
astfel:
x
i
= q
i
(x) q
)
(x) , (\) , ,= i.
Regiunea de decizie 1 corespunz atoare clasei
i
va asadar
1
i
= x R
j
[ q
i
(x) q
)
(x) , (\) , ,= i .
Suprafata de decizie dintre clasele
i
si
)
are ecuatia
q
i
(x) = q
)
(x) , (\) x R
j
, , ,= i.
Obiectele clasei
i
se a a de partea pozitiv a a suprafetei de separare.
150 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Observatia 3.1.2
Separabilitatea de tip 3 implic a separabilitatea de tip 2. ntr-adev ar, s a con-
sider am
q
i)
(x) = q
i
(x) q
)
(x)
si s a admitem separabilitatea claselor
1
, . . . ,
q
n conditiile cazului 3. Dac a
x apartine regiunii clasei
i
, atunci q
i
(x) q
)
(x) , \, ,= i. Deci q
i)
(x)
0, \, ,= i. Rezult a asadar c a, dac a clasele sunt separabile n conditiile cazului
3, ele sunt separabile si conform cazului 2. Reciproca nu este, n general,
valabil a.
n conditiile cazului 3 de separabilitate nu exist a alte regiuni de nedeter-
minare dect suprafetele de separare (vezi g 3.1.8.).
fig. 3.1.8. Cazul 3 de separabilitate
n cele ce urmeaz a, prin separabilitatea a dou a clase vom ntelege, n
absenta altei preciz ari, separabilitatea n conditiile cazului 3.
3.1.3.2 FUNC TII DE DECIZIE AFINE SI LINIARE
De o mare important a practic a este cazul claselor liniar separabile. n
aceast a situatie functiile de decizie sunt functii ane.
O func tie ana de decizie, q, este o aplicatie liniar a q : R
j
R , adic a q
se poate scrie sub forma
q (x) = w
t
x n
j1
, x R
j
cu
w =(n
1
, . . . , n
j
)
t
si n
i
R, i = 1, j.
Vectorul w se numeste vector pondere sau vector parametru.
3.1. ANALIZA DISCRIMINANT

A 151
O conventie uzual a este s a se adauge n
j1
ca ultim a component a a vec-
torului w. Se deneste astfel vectorul pondere extins, v =(n
1
, . . . , n
j
, n
j1
)
t
si,
respectiv, vectorul caracteristica extins y =(r
1
, . . . , r
j
, 1)
t
. Vectorii y vor el-
emente ale spa tiului extins al caracteristicilor, spatiu notat cu Y. Prin aceast a
m arire a dimensiunii spatiului caracteristicilor, propriet atile geometrice ale
claselor nu sunt alterate. Cu noile notatii introduse functia an a de decizie
se transform a ntr-o functie liniar a de decizie q : Y R, Y R
j1
, dat a de
expresia
q (y) = v
t
y, y Y
Dac a q
i
este functia liniar a de decizie corespunznd clasei
i
atunci, n
conformitate cu cazul 3 de separabilitate, un obiect y este atasat clasei
i
dac a
q
i
(y) q
)
(y) , (\) , ,= i
Consider am o functie r : Y 1, 2, . . . , ce ataseaz a ec arui vector y
indicele unei clase. Regula de decizie se reformuleaz a astfel:
r (y) = i =q
i
(x) q
)
(x) , (\) , ,= i
n cazul cnd exist a doar dou a clase, putem considera o singur a functie
de decizie q : Y R, dat a de relatia
q (y) = q
1
(y) q
2
(y) .
Dac a q (y) 0, atunci y apartine clasei
1
, iar dac a q (y) < 0, atunci y
apartine clasei
2
.
3.1.3.3 ECUA TIA UNUI HIPERPLAN
Ecuatia unui hiperplan, H, ce trece printr-un punct x
0
si este normal pe
un vector unitar u se poate scrie sub forma
u, x x
0
= u
t
(x x
0
) = 0
cu produsul scalar uzual.
Ecuatia dreptei ce trece printr-un punct z
0
si este ortogonal a pe hiper-
planul H se scrie
x z
0
= tu, t R
adic a
x = z
0
tu, t R.
Pentru a g asi intersectia lui H cu dreapta nlocuim ecuatia dreptei n
ecuatia hiperplanului. Obtinem
u
t
(z
0
tu x
0
) = 0
152 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
si deci
tu
t
u = u
t
(x
0
z
0
)
de unde, tinnd cont c a |u| = 1, g asim
t =
u
t
(x
0
z
0
)
|u|
2
= u
t
(x
0
z
0
)
Punctul de intersectie al dreptei cu hiperplanul H va asadar
x
1
= z
0
u
t
(x
0
z
0
) u.
Distanta de la punctul z
0
la hiperplan este, deci,
d (H, z
0
) = |x
1
z
0
| =
=

u
t
(x
0
z
0
)

|u| =
=

u
t
(x
0
z
0
)

Distanta de la originea spatiului la hiperplan se obtine considernd n


relatia de mai sus z
0
= 0 si deci
1 = d (H, 0) =

u
t
x
0

.
3.1.3.4 HIPERPLANE DE SEPARARE
n cazul 3 de separabilitate regiunile de decizie sunt m arginite de hiper-
plane sau de portiuni de hiperplane. Dac a regiunile 1
i
si 1
)
au o frontier a
comun a, suprafata de decizie ce le separ a este hiperplanul de ecuatie
q
i
(y) q
)
(y) =
_
v
t
i
v
t
)
_
y =0
Observ am c a, n spatiul extins al caracteristicilor, toate hiperplanele de
separare trec prin originea spatiului.
n spatiul caracteristicilor, ecuatia suprafetei de decizie este
q
i
(x) = q
)
(x)
deci se poate scrie
w
t
i
xn
i,j1
= w
t
)
xn
),j1
sau w
t
xw
j1
= 0
unde am notat
w = w
i
w
)
n
j1
= n
i,j1
n
),j1.
Din relatia de mai sus rezult a c a ecuatia hiperplanului de separare n
spatiul caracteristicilor se mai poate scrie sub forma
w
t
|w|
x
n
j1
|w|
= 0
3.1. ANALIZA DISCRIMINANT

A 153
Comparnd aceast a ecuatie cu ecuatia general a
u
t
x u
t
x
0
= 0
a hiperplanului ce trece prin punctul x
0
, obtinem c a vectorul unitar normal
pe hiperplan este
u =
w
|w|
si
u
t
x
0
=
n
j1
|w|
.
Rezult a c a distanta de la origine la hiperplanul de separare se poate scrie
1 =

u
t
x
0

=
[n
j1
[
|w|
.
Distanta de la punctul z
0
la hiperplan va
d (H, z
0
) =

u
t
(x
0
z
0
)

=
=

n
j1
|w|

w
t
|w|
z
0

=
=
1
|w|

w
t
z
0
n
j1

.
Formulele stabilite se vor dovedi utile n studiul geometriei functiilor
discriminante liniare.
3.1.4 Functii discriminante de distant a minim a
n aceast a sectiune ne propunem s a ar at am cum clasarea prin mini-
mizarea unei functii criteriu ne conduce la o clas a de functii discriminante
liniare. Functia criteriu considerat a aici este distanta de la vectorii caracter-
istic a la prototipurile claselor.
P atratul distantei euclidiene de la un vector x din X la prototipul L
i
al
clasei
i
, se scrie
d
2
(x, L
i
) = |x L
i
|
2
= (x L
i
)
t
(x L
i
) =
= x
t
x 2x
t
L
i
L
t
i
L
i
Un vector x este atasat acelei clase
i
de al c arei prototip x este mai
aproape, adic a
x
i
dac a d (x, L
i
) = min
)
d
_
x, L
)
_
.
154 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Distantele ind ntotdeauna pozitive, a minimiza d este echivalent cu a
minimiza d
2
. Deoarece x
t
x nu depinde de clasa i, distanta de la x la prototipul
L
i
se mai scrie
d
2
(x, L
i
) = x
t
x 2
_
x
t
L
i

1
2
L
t
i
L
i
_
.
O clasicare echivalent a cu regula de asignare de mai sus se obtine con-
sidernd functia g
i
: R
j
R dat a de
g
i
(x) = x
t
L
i

1
2
L
t
i
L
i
.
Regula de decizie devine:
x
i
dac a g
i
(x) = max
)
g
)
(x)
Am obtinut c a g
i
este o functie an a de decizie. Notnd
c
i
= L
i
si c
i,j1
=
1
2
L
t
i
L
i
.
se poate scrie g
i
sub forma standard
g
i
(x) = c
t
i
xc
i,j1.
Suprafata de decizie ce separ a clasele
i
si
)
are ecuatia
g
i
(x) = g
)
(x) .
adic a, tinnd cont de forma lui g
i
, rezult a
(L
i
L
)
)
t
x
1
2
_
L
t
)
L
)
L
t
i
L
i
_
= 0,
ceea ce se mai poate scrie sub forma
(L
i
L
)
)
t
_
x
1
2
(L
i
L
)
)
_
= 0.
Notnd
c = L
i
L
)
si x
0
=
1
2
(L
i
L
)
) ,
ecuatia suprafetei de decizie devine:
c
t
(x x
0
) = 0
Suprafata de separare este, deci, un hiperplan ce trece prin punctul x
0
si este ortogonal pe vectorul c. Cu alte cuvinte, hiperplanul de separare este
ortogonal pe dreapta ce uneste prototipurile claselor, pe care o intersecteaz a
ntr-un punct situat la jum atatea distantei dintre prototipuri.
Functia discriminant a cu distant a minim a este adecvat a pentru cazurile
cnd punctele unei clase tind s a se aglomereze n vecin atatea unui punct pro-
totip, formnd un nor (cluster) de puncte.
3.2. METODE PROBABILISTE DE DISCRIMINARE 155
3.2 Metode probabiliste de discriminare
Aceast a sectiune este dedicat a aspectului inferen tial al analizei discrimi-
nante, prin abordarea probabilist a a metodelor de discriminare. Principalul
instrument folosit este teoria bayesiana a deciziilor. Se vor considera diferite
metode de estimare a parametrilor necunoscuti din densitatea de probabilitate
atasat a multimii datelor.
3.2.1 Preliminarii
Denitia 3.2.1 Fie (\, K, 1) un cmp de probabilitate si , 1 Kcu 1 (1)
0. Probabilitatea
1
1
: K R cu 1
1
() = 1 ([1) =
1 ( 1)
1 (1)
se numeste probabilitatea condi tionata a evenimentului A relativ la evenimen-
tul B.
Lema 3.2.1
Fie (\, K, 1) un cmp de probabilitate si
i

i1
un sistem complet de eveni-
mente. Are loc urm atoarea egalitate (formula lui Bayes a probabilitatii
cauzelor)
1 (
i
[1) =
1 (
i
1)
1 (1)
=
1 (
i
)
1(1
.
)
1(
.
)
1 (1)
=
1 (
i
) 1 (1[
i
)

i
1 (
i
) 1 (1[
i
)
.
cu 1 (
i
) probabilit ati priorice si 1 (1[
i
) probabilit ati posteriori.
Denitia 3.2.2 Fie(\, K, 1) un cmp de probabilitate, A variabil a aleatoare
si K cu 1 () 0. Functia 1

: R [0, 1[ dat a prin


1

(r) = 1 (r[) = 1 (A < r[) , (\) r R


se numeste func tie de reparti tie a variabilei aleatoare X condi tionata de eveni-
mentul A.
Denitia 3.2.3 Analog, ) ([) : R R se numeste densitate de reparti tie
condi tionata, unde 1 (r[) =
_
a
o
) (t[) dt.
Observatia 3.2.1
) (r[) = 1
t
(r[) aproape peste tot.
Lema 3.2.2
1 ([A = r) =
1())(a[)
)(a)
.
156 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Fie (A, 1 ) variabil a aleatoare bidimensional a, cu densitatea de probabi-
litate / si functia de repartitie 1, adic a
1 (r, j) =
_
a
o
_
j
o
/(t, :) dt d:.
Functia de repartitie a lui X este
1
A
(r) = 1 (A < r) = 1 (A < r, 1 < ) = 1 (r, ) =
_
a
o
_
R
/(t, :) dt d:.
si densitatea de probabilitate a lui X este
) (r) = 1
t
A
(r) =
_
R
/(r, :) d:.
Analog, densitatea de probabilitate a lui Y este
q (j) = 1
t
Y
(j) =
_
R
/(t, j) dt.
Lema 3.2.3
Dac a / este densitatea de probabilitate a variabilei aleatoare (A, 1 ), ) este
densitatea de probabilitate a variabilei aleatoare A si q este densitatea de
probabilitate a variabilei aleatoare 1 , atunci
1. ) (r) =
_
R
/(r, j) dj;
2. q (j) =
_
R
/(r, j) dr;
3. ) (r[j) =
I(a,j)
j(j)
dac a q (j) 0, altfel arbitrar;
4. q (j[r) =
I(a,j)
)(a)
dac a ) (r) 0, altfel arbitrar;
5. ) (r) =
_
R
) (r[j) q (j) dj;
6. q (j) =
_
R
q (j[r) ) (r) dr;
7. q (j[r) =
)(a[j)j(j)
)(a)
=
)(a[j)j(j)
R
R
)(a[t)j(t)ot
(formula lui Bayes pentru den-
sitati de probabilitate).
3.2.2 Formularea bayesian a a problemei de discriminare
Problema de discriminare (sau clasare. Atentie! nu de clasicare),
formulat a n termenii teoriei statistice a deciziei este urm atoarea:
Dndu-se:
1 grupe (popula tii), H
1
, H
2
, . . . , H
1
, specicate prin distribu tiile lor de
probabilitate, 1
i
(x) = 1 (A = x[x H
i
) cu i = 1, 1,
3.2. METODE PROBABILISTE DE DISCRIMINARE 157

i
, i = 1, 1, probabilita ti priori ca un individ (observa tie) sa provina
din popula tiile H
i
,i = 1, 1 (
i

1
i=1
formeaza un sistem complet de
probabilita ti, adica

i

i
= 1),
X spa tiul observa tiilor asupra a j variabile aleatoare,
1
, . . . ,
j
(predic-
tori),
C(,[i)
1
i,)=1
, costurile erorii de clasare (costul clasarii unei observa tii
provenind din popula tia H
i
n popula tia H
)
, i ,= , ),
sa se gaseasca o parti tie R = 1
i

1
i=1
a spa tiului X (adica A =
1

i=1
1
i
,
1
i
1
)
= ?, i ,= ,, i, , = 1, 1 ) astfel nct
1

i=1

i
_
_
_
1

i,=),)=1
C(,[i)1 (,[i, R)
_
_
_
sa e minima.
n cele de mai sus au fost notate cu 1 (,[i, R) =
_
1

1
i
(x)dx, i ,= ,,
i, , = 1, 1, probabilit atile de eroare pentru o partitie R dat a.
3.2.2.1 REGULA BAYES PENTRU DISTRIBU TII CUNOSCUTE
n aceast a sectiune presupunem cunoscute
i

1
i=1
si 1
i

1
i=1
. Aceasta va per-
mite s a se construiasc a procedura de clasare cu propriet ati de optimalitate,
dar cu aplicabilitate practic a direct a redus a, deoarece n realitate, cel putin
distributiile 1
i

i
sunt necunoscute.
Fie 1 = 1, , 1 spatiul etichetelor claselor si e 1
Y
(r) =
1

i=1

i
c
i
(r)
distributia de probabilitate pe 1 , unde s-a notat cu c
i
(r) functia Dirac (adic a
c
i
(r) = 1 dac a r = i si 0 n rest).
Denitia 3.2.4 O functie c : X 1 ce estimeaz a clasa c(x) =j 1 a lui x,
dup a ce x X a fost observat, se numeste plasator.
Pentru a aprecia calitatea plasatorului este natural s a se studieze proba-
bilitatea de misclasare pentru clasa /:
j:c(/) = 1[c(x) ,= /[ x H
I
[.
Se consider a /(c(x), ,) func tia de pierdere discreta pentru plasatorul c
fat a de clasa , si riscul functional al plasatorului,
I
(c) =
Mj
[/(c(x), ,)[ =
1

i=1

i
j:c(i) =
1

i=1

i
1

i,=),)=1
_
1

1
i
(x)dx
158 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
deoarece, n acest caz particular, distributia de probabilitate pe X 1 este,
din constructie, j(x, i) =
i
1
e(x)
(x), cu e(x) 1 notatie pentru clasa lui x.
Dac a se consider a costurile misclas arii C(,[i)
1
i,)=1
egale cu unitatea,
ipotez a natural a n multe situatii practice, exceptie f acnd situatiile din medi-
cin a (cnd costul erorii de a considera un bolnav s an atos, poate dramatic,
fat a de costul erorii consider arii unui om s an atos ca bolnav) atunci un plasator
va optim dac a minimizeaz a riscul functional
I
(c) (adic a exact functionala
din enuntul problemei de clasare).
S a mai not am c a probabilitatea posteriori a unei clase i, dndu-se A = x
este
1(i[x) =

i
1
i
(x)
1

)=1

)
1
)
(x)
.
Cu acestea se pot enunta urm atoarele rezultate:
Teorema 3.2.1 (a regiunilor [2]) Parti tia R a lui X care minimizeaza
riscul func tional este R = 1
i

1
i=1
cu
1
i
=
_
_
_
x X[
1

),=i,)=1

)
1
)
(x) _
1

),=I,)=1

)
1
)
(x), / ,= i, / = 1, 1
_
_
_
, i = 1, 1.
Demonstratie. Pentru simplicarea demonstratiei s a presupunem 1 = 2
(doar dou a populatii) si C(1[2) = C(2[1). Atunci media costului misclasic arii
este

1
_
1
2
1
1
(x)dx
2
_
1
1
1
2
(x)dx (1)
Pentru a minimiza pe (1), un x dat va asignat populatiei ce maxi-
mizeaz a probabilitatea a posteriori a clasei sale. Astfel, dac a

1
1
1
(x)

1
1
1
(x)
2
1
2
(x)
_

2
1
2
(x)

1
1
1
(x)
2
1
2
(x)
(2)
atunci x va asignat lui H
1
, altfel va asignat lui H
2
.
Cum este minimizat a probabilitatea de misclasare n ecare punct, este
minimizat costul misclas arii pe tot spatiul.
Asadar regiunile de decizie sunt:
1
1
: x X,
1
1
1
(x) _
2
1
2
(x) (3)
1
2
: x X,
1
1
1
(x) <
2
1
2
(x)
Dac a
1
1
1
(x) =
2
1
2
(x), punctul poate clasicat e n H
1
e n H
2
(arbitrar, n (3) a fost asignat lui H
1
).
Dac a
1
1
1
(x)
2
1
2
(x) = 0, la fel, punctul poate asignat oric arei
regiuni.
3.2. METODE PROBABILISTE DE DISCRIMINARE 159
S a ar at am acum c a (3) este cea mai bun a procedur a. Pentru orice partitie
R
-
= (1
-
1
, 1
-
2
) a lui X, probabilitatea de misclasare este

1
_
1
+
2
1
1
(x)dx
2
_
1
+
1
1
2
(x)dx =
_
1
+
2
(
1
1
1
(x)
2
1
2
(x)) dx (4)

2
_
1
+
1
1
2
(x)dx
2
_
1
+
2
1
2
(x)dx
Dar
2
_
1
+
1
1
2
(x)dx
2
_
1
+
2
1
2
(x)dx =
2
_

1
2
(x)dx (=
2
dac a supp1
2
_
X sau constant a, n caz contrar).
Relatia (4) va minim a dac a 1
-
2
va include punctele x pentru care

1
1
1
(x)
2
1
2
(x) < 0 si va exclude punctele pentru care
1
1
1
(x)
2
1
2
(x) 0;
adic a 1
-
2
= 1
2
=1
-
1
= 1
1
(ca partitii ale aceluiasi spatiu).
Dac a, n plus 1
_
1
1
(x)
1
2
(x)
=
q
1
q
2
[H
i
_
= 0, i = 1, 2, atunci procedura Bayes
este unic a, exceptie o multime de probabilitate zero.
Dac a C(1[2) ,= C(2[1) ,= 1 atunci regiunile de decizie se scriu
1
1
: x X,
1
1
(x)
1
2
(x)
_
C(1[2)
2
C(2[1)
1
(5)
1
2
: x X,
1
1
(x)
1
2
(x)
<
C(1[2)
2
C(2[1)
1
Observatia 3.2.2
Regiunile de decizie Bayes se nscriu n cazul 3 de separabilitate.
Corolarul 3.2.1 ( [2])
Plasatorul care minimizeaz a riscul functional este c
1
(x), dac a 1(,[x) = max
1i1
1(i[x).
Dac a maximul din enuntul de mai sus este atins pentru / 1 clase,
atunci lui c
1
(x) i se va asigna una dintre cele / valori, selectat a aleator.
Dac a probabilitatea ca maximul s a e atins pentru mai mult de un i,
pentru x dat, este zero, atunci plasatorul si deci si partitia R sunt unice,
modulo o multime de m asur a nul a.
Nu exist a nici o restrictie pentru tipul de densit ati 1
1
, . . . , 1
I
. n parti-
cular, acestea nu trebuie s a e densit ati fat a de m asura Lebesque.
Denitia 3.2.5 Plasatorul c
1
(x) se numeste plasator Bayes, riscul functional
pe care acesta l minimizeaz a se numeste risc Bayes sau eroare Bayes, iar
partitia R care determin a si este determinat a de plasatorul Bayes, se numeste
procedura de discriminare (clasare) bayesiana.
160 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Dat a ind importanta conceptului, vom prezenta si alte propriet ati ale
procedurilor de discriminare bayesian a.
Fie r(i, ,, R) = C(,[i)1 (,[i, R) costul misclas arii unei observatii din pop-
ulatia H
i
n populatia H
)
prin procedura de clasare dat a de partitia R a spati-
ului X (numit a n cele ce urmeaz a procedura de clasare).
Denitia 3.2.6 Procedura R este mai buna dect procedura R
-
=
r(i, ,, R) _ r(i, ,, R
-
), (\) i ,= ,, i, , = 1, 1
si cel putin una dintre inegalit ati este strict a.
Denitia 3.2.7 Procedura R este admisibila dac a si numai dac a nu exist a o
procedur a R
-
mai bun a dect ea.
Denitia 3.2.8 O clas a de proceduri este completa dac a pentru orice proce-
dur a ce nu apartine clasei, exist a ntotdeauna o procedur a n clas a care este
mai bun a dect ea.
Denitia 3.2.9 O clas a de proceduri este minimala si completa dac a nici una
din submultimile sale nevide nu formeaz a o clas a complet a.
Propozitia 3.2.1 ([2])
Dac a 1(1
)
(x) = 0[x H
i
) = 0, (\) i ,= ,, i, , = 1, 1 atunci orice procedur a
bayesian a este admisibil a.
Cu alte cuvinte, Propozitia 3.2.1 arm a c a o conditie necesar a pentru ca
o procedur a s a e admisibil a (s a nu existe o procedur a de clasare mai bun a
dect ea) este ca suporturile tuturor distributiilor de probabilitate 1
i

1
i=1
s a
difere ntre ele doar pe o multime de probabilitate nul a.
Demonstratie. Fie R = (1
1
, 1
2
). Prin reducere la absurd presupunem c a
procedura Bayes R nu este admisibil a. Atunci () R
-
o procedur a astfel nct
1(1[2, R
-
) _ 1(1[2, R) si
1(2[1, R
-
) _ 1(2[1, R)
cu cel putin una din inegalit ati strict a.
Dar R este procedur a Bayes (adic a minimizeaz a media costului / proba-
bilit atii de misclasare), deci

1
1(2[1, R)
2
1(1[2, R) _
1
1(2[1, R
-
)
2
1(1[2, R
-
) = (1)

1
[1(2[1, R) 1(2[1, R
-
)[ _
2
[1(1[2, R
-
) 1(1[2, R)[
Dac a
1
0 si 1(1[2, R
-
) _ 1(1[2, R) =membrul stng al inegalit atii (1)
este nepozitiv = 1(2[1, R) _ 1(2[1, R
-
). Contradictie, R
-
nu este admisibil a.
Dac a
2
0, similar =1(1[2, R) _ 1(1[2, R
-
) deci iar asi contradictie.
3.2. METODE PROBABILISTE DE DISCRIMINARE 161
Dac a
1
= 0 atunci
0 _ 1(1[2, R
-
) 1(1[2, R) (2)
si regiunea 1
1
: x X,
1
1
1
(x) _
2
1
2
(x) a oric arei proceduri Bayes va contine
doar punctele x pentru care 1
2
(x) = 0 =1(1[2, R) = 0, deoarece 1(2[1, R) =
_
1
1
1
2
(x)dx si din inegalitatea de mai sus rezult a 1(1[2, R
-
) = 0.
Din ipoteza 1(1
2
(x) = 0[x H
1
) = 0 rezult a, ca evenimente comple-
mentare, 1(1
2
(x) 0[x H
1
) = 1.
S a observ am c a
1(2[1, R) = 1(1
2
(x) 0[x H
1
) = 1 (3)
si cum R
-
este admisibil a trebuie ca si
1(2[1, R
-
) = 1
Din (2) si (3) rezult a c a nici una din inegalit atile de denitie a admisi-
bilit atii lui R
-
nu sunt vericate. Contradictie.
Dac a
1
= 0 atunci 1(2[1, R) _ 1(2[1, R
-
), contradictie cu ipoteza de
admisibilitate a lui R
-
.
Propozitia 3.2.2 ([2])
Dac a 1(
1
.
(x)
1

(x)
= /[x H
I
) = 0, ((\)) i ,= ,, i, ,, / = 1, 1 si 0 _ / < , atunci
ecare procedur a admisibil a este o procedur a bayesian a.
Cu alte cuvinte Propozitia 3.2.2 arm a c a o conditie sucient a pentru
ca o procedur a bayesian a s a e admisibil a este ca oricare dou a distributii de
probabilitate 1
i
respectiv 1
)
, i, , = 1, 1, s a e proportionale ntre ele cel mult
pe o multime de probabilitate nul a.
Demonstratie. n conditia 1(
1
1
(x)
1
2
(x)
= /[x H
I
) = 0, / = 1, 2, 0 _ / < ,
faptul c a
1
1
(x)
1
2
(x)
= nseamn a c a 1
2
(x) = 0.
Atunci, oricare ar
1
, procedura Bayes este unic a. n plus, functia de
repartitie a lui
1
1
(x)
1
2
(x)
este continu a.
Fie R o procedur a admisibil a. Atunci exist a / astfel nct
1(2[1, R) = 1(
1
1
(x)
1
2
(x)
_ /[x H
1
) = 1(2[1, R
-
),
unde R
-
este procedura Bayes corespunznd lui
q
2
q
1
= /, indc a 1
-
1
:
1
1
1
2

q
2
q
1
si 1
-
2
:
1
1
1
2
_
q
2
q
1
.
Cum R este admisibil a
1(1[2, R) _ 1(1[2, R
-
) (1)
162 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Din propozitia de mai sus rezult a c a R
-
Bayes este admisibil a, deoarece
sunt vericate ipotezele propozitiei din cazurile particulare / = 0, / = , deci
1(1[2, R) _ 1(1[2, R
-
) (2)
Din (1) si din (2) = 1(1[2, R) = 1(1[2, R
-
), deci R este o procedur a
Bayes. Din unicitatea procedurii Bayes, R este aceeasi cu R
-
.
Cu acestea, rezultatul cheie al analizei discriminante clasice este:
Teorema 3.2.2 ([2]) Daca 1(
1
.
(x)
1

(x)
= /[x H
I
) = 0, ((\)) i ,= ,, i, ,, / = 1, 1
si 0 _ / < , atunci clasa procedurilor bayesiene este minimala si completa.
Acest rezultat justic a de ce, atunci cnd ipotezele din Propozitia 3.2.1,
Propozitia 3.2.2 si cele de la nceputul acestui paragraf sunt ndeplinite, n-
treaga cercetare se reduce la a construi o procedur a admisibil a sau la a apro-
xima, ntr-un anumit sens, o astfel de procedur a.
3.2.2.2 CLASIFICAREA BAYES N CAZUL A DOU

A POPU-
LA TII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
CUNOSCU TI Fie / = 2 populatii caracterizate de densit atile de probabi-
litate
1
i
(x) =
1
(2)
1
2
j
[[
1
2
oxp
_

1
2
(x
i
)
t

1
(x
i
)
_
, i = 1, 2
adic a A H
i
= A ~ (
i
, ) cu
i
M
j1
(R) vectorul medie si
M
jj
(R) matricea de variant a-covariant a.
Raportul densit atilor este
1
1
(x)
1
2
(x)
=
oxp
_

1
2
(x
1
)
t

1
(x
1
)

oxp
_

1
2
(x
2
)
t

1
(x
2
)
=
= oxp
_

1
2
_
(x
1
)
t

1
(x
1
) (x
2
)
t

1
(x
2
)

_
Conform teoremei de mai sus, regiunea de clasicare n H
1
, si anume
1
1
, este multimea punctelor x R
j
pentru care raportul densit atilor este _ c,
cu c o constant a convenabil aleas a. Cum functia logaritmic a este monoton
cresc atoare, conditia de denire a lui 1
1
poate rescris a ca:

1
2
_
(x
1
)
t

1
(x
1
) (x
2
)
t

1
(x
2
)

_ lnc.
Dup a desfacerea parantezelor si efectuarea reducerilor, termenul stng al
inegalit atii de mai sus devine:
x
t

1
(
1

2
)
1
2
(
1

2
)
t

1
(
1

2
)
3.2. METODE PROBABILISTE DE DISCRIMINARE 163
Observatia 3.2.3
Primul termen al formulei de mai sus este binecunoscuta func tie discriminanta
a lui Fisher.
Corolarul 3.2.2 (al teoremei regiunilor)
Dac a H
i
, i = 1, 2 sunt populatii multidimensionale, normal distribuite de
medie
i
si matricea de variant a-covariant a comun a , atunci cele mai bune
regiuni de clasicare sunt date de:
1
1
: x
t

1
(
1

2
)
1
2
(
1

2
)
t

1
(
1

2
) _ lnc
1
2
: x
t

1
(
1

2
)
1
2
(
1

2
)
t

1
(
1

2
) < lnc.
Dac a probabilit atile priorice
1
si
2
sunt cunoscute, atunci c este dat
de
c =

2
C(1[2)

1
C(2[1)
.
Observatia 3.2.4
Cazul particular cnd
1
=
2
si C(1[2) = C(2[1) implic a c = 1 si lnc = 0.
Dac a not am cu 1
i
=
1

i
prototipul populatiei H
i
, atunci suprafata
de separare a celor dou a regiuni este hiperplanul
(1
1
1
2
)
t
[x
1
2
(1
1
1
2
)[ = 0
iar clasicatorul obtinut este un clasicator cu distant a minim a.
Dac a probabilit atile priorice nu sunt cunoscute atunci C = lnc va
ales astfel nct costurile misclas arii s a e egale. Mai riguros:
Teorema 3.2.3 (a egalit atii costurilor misclas arii) Daca H
i
~ (
i
, ) ,
i = 1, 2, regiunile Bayes sunt date de rela tiile din corolarul 3.2.2 cu C = lnc
ales astfel nct
C(1[2)
_
1 1
_
C
1
2
c
_
c
__
= C(2[1)1
_
C
1
2
c
_
c
_
unde C(i[,) sunt cele doua costuri ale misclasarii, c = (
1

2
)
t

1
(
1

2
)
este distan ta Mahalanobis dintre cele doua popula tii, iar 1(r) este func tia de
reparti tie a variabilei aleatoare Gauss-Laplace, adica 1(r) =
_
a
o
1
_
2
c

I
2
2
dt.
Demonstratie. Fie l = X
t

1
(
1

2
)
1
2
(
1

2
)
t

1
(
1

2
) .
Regiunile Bayes sunt, conform Corolarului 3.2.2,
1
1
: l _ C si 1
2
: l < C,
164 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
iar costurile misclas arii sunt
C(2[1)
_
1
2
)(l[X H
1
)dl = C(2[1)
_
c
o
)
1,l
(t)dt,
pentru l construit pe baza unei observatii X H
1
, si
C(1[2)
_
1
1
)(l[X H
2
)dl = C(1[2)
_
o
c
)
2,l
(t)dt,
pentru l construit pe baza unei observatii X H
2
.
Solutia minimax de alegere a lui C impune ca C(2[1)
_
c
o
)
1,l
(t)dt =
C(1[2)
_
o
c
)
2,l
(t)dt.
Pentru a naliza demonstratia mai r amn de evaluat )(l[X H
i
), dis-
tributiile conditionate ale lui l.
Fie X H
1
=X ~ (
1
, ) , atunci
l = X
t

1
(
1

2
)
1
2
(
1

2
)
t

1
(
1

2
)
este distribuit a normal (c aci combinatii liniare de normale reprezint a tot o
normal a), de medie
1[l[ =
t
1

1
(
1

2
)
1
2
(
1

2
)
t

1
(
1

2
) =
1
2
(
1

2
)
t

1
(
1

2
)
si dispersie
1
2
[l[ = 1
2
[X
t

1
(
1

2
)[ =
= (
1

2
)
t

1
1
2
[X[
1
(
1

2
) =
= (
1

2
)
t

1
(
1

2
) =
= (
1

2
)
t

1
(
1

2
) .
Notnd distanta dintre cele dou a populatii cu c rezult a l ~
_
1
2
c, c
_
.
Dac a A ~ (
2
, ) , atunci l ~
_

1
2
c, c
_
.
n concluzie
)
1,l
(t) =
1
_
2c
c

1
2
(
I
1
2
o
)
2
o
si )
2,l
(t) =
1
_
2c
c

1
2
(
I+
1
2
o
)
2
o
Cu acestea, egalitatea costurilor misclasic arii se scrie
C(2[1)
_
c
o
1
_
2c
c

(
I
1
2
o
)
2
2o
dt = C(1[2)
_
o
c
1
_
2c
c

(
I+
1
2
o
)
2
2o
dt.
n membrul stng al egalit atii se face transformarea . =
t
1
2
c
_
c
, iar n
membrul drept al egalit atii se face transformarea . =
t
1
2
c
_
c
3.2. METODE PROBABILISTE DE DISCRIMINARE 165
Cu jacobianul transform arii (acelasi pentru ambele transform ari) egal cu
1
_
c
, se obtine n nal
C(2[1)
_
c
1
2
o
p
o
o
1
_
2
c

:
2
2
d. = C(1[2)
_
o
c+
1
2
o
p
o
1
_
2
c

:
2
2
d..
si tinnd cont c a
_
o
a
1
_
2
c

2
2
dj = 1 1(r), se obtine egalitatea din enuntul
teoremei.
Observatia 3.2.5
1. Reprezentarea grac a a problemei este dat a n gura urm atoare:
fig. 3.2.1. Zona de misclasare n cazul a dou

A popula Tii
normale unidimensionale
Zona hasurat a este zona de misclasare.
S a not am c a cele dou a conditii pentru ca procedura de clasicare s a e
minimal a si complet a, anume 1(1
1
(x) = 0[x H
2
) = 0 si 1(1
2
(x) =
0[x
1
) = 0 ct si 1(
1
1
(x)
1
2
(x)
= /[x H
1
) = 0 si 1(
1
2
(x)
1
1
(x)
= /[x H
2
) = 0
sunt ndeplinite.
2. Dac a C(1[2) = C(2[1) atunci egalitatea probabilit atilor de misclasare
implic a C = 0 si deci probabilitatea misclas arii este
_
o
p
o
2
1
_
2
c

2
2
dj =
1 1
_
_
c
2
_
.
3. Determinarea lui C care satisface cu o precizie sucient a conditia din
enuntul teoremei se a a rezolvnd numeric, pe baza tabelelor existente,
ecuatia /1(r)1(r
_
c) = 1, unde / =
C(2[1)
C(1[2)
iar C =
_
c
_
r
1
2
_
c
_
.
4. n conditiile de denire a regiunilor (1
1
, 1
2
) apare termenul =
1
(
1

2
).
Este interesant de notat c a x
t
este functie liniar a care maximizeaz a
[1(x
t
d[X
1
) 1(x
t
d[X
2
)[
2
1
2
(x
t
d)
166 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
(nu conteaz a de unde vine x c aci cele dou a populatii au aceeasi matrice
de variant a-covariant a, ).
Acesta este demersul folosit de Fisher pentru obtinerea functiei de dis-
criminare liniar a ce-i poart a numele.
Num ar atorul ctului de mai sus este
_

t
1
d
t
2
d

2
= d
t
[(
1

2
) (
1

2
)
t
[d
iar numitorul este
d
t
1[(X1(X)) (X1(X))
t
[d = d
t
d.
Problema s-a redus la urm atoarea problem a de optimizare p atratic a cu
restrictii
_
max
dR

d
0
[(
1

2
)(
1

2
)
0
[d
d
0
d
d
t
d =1
care se rezolv a folosind tehnica multiplicatorilor lui Lagrange.
Fie deci lagrangeanul
L = d
t
[(
1

2
) (
1

2
)
t
[d`
_
d
t
d1
_
cu ` multiplicatorul lui Lagrange.
0L
0d
= 0 =2[(
1

2
) (
1

2
)
t
[d =2`d
deoarece este simetric a.
Cum (
1

2
)
t
d =: este un scalar, ecuatia de mai sus se rescrie

2
=
`
:
d =d =
:
`

1
(
1

2
)
deoarece este pozitiv denit a, deci inversabil a.
d este proportional cu . Pentru determinarea lui
c
A
se utilizeaz a -
normarea lui d, adic a
d
t
d =1 =
_
:
`
_
2
(
1

2
)
1
(
1

2
) = 1 =
:
`
=
1
|
1

2
|
.
Asadar x
t
este functia liniar a care are cea mai mare dispersie ntre clase
(dispersia interclase) relativ la dispersia n clase (dispersia intraclase).
Atunci cnd populatiile sunt cunoscute, criteriul folosit este optim din
punct de vedere al minimiz arii erorii de clasare. Cnd probabilit atile priori
nu sunt cunoscute, procedura genereaz a o clas a de proceduri admisibile. Ce
se poate spune despre cazul estimatiilor?
3.2. METODE PROBABILISTE DE DISCRIMINARE 167
3.2.2.3 CLASIFICAREA BAYES N CAZUL A DOU

A POPU-
LA TII NORMALE, MULTIDIMENSIONALE, CU PARAMETRII
NECUNOSCU TI
Estimatori de resubstitutie (plug-in) Fie x
(i)
1
, . . . , x
(i)
a
.
(
i
, ) , i =
1, 2, dou a selectii bernoulliene.
Se cunosc rezultatele urm atoare:
x
i
=
1
:
i
a
.

)=1
x
(i)
)
, i = 1, 2,
[(:
1
1) (:
2
1)[ S = [:
1
:
2
2[ S =
2

i=1
a
.

)=1
_
x
(i)
)
x
i
__
x
(i)
)
x
i
_
t
sunt estimatori nedeplasati, de verosimilitate maxim a, ai lui
i
, i = 1, 2 si .
Fie
Z
12
= X
1
2
_
x
(1)
x
(2)
_
,
Y
12
= x
(1)
x
(2)
atunci
V
12
= X
t
S
_
x
(1)
x
(2)
_

1
2
_
x
(1)
x
(2)
_
t
S
1
_
x
(1)
x
(2)
_
=
=
_
X
1
2
_
x
(1)
x
(2)
_
_
t
S
1
_
x
(1)
x
(2)
_
= Z
12
S
1
Y
12
.
Din constructie
Y
12
~
_

(1)

(1)
,
_
1
:
1

1
:
2
_

_
iar
Z
12
~
_
1
2
_

(1)

(2)
_
,
_
1
1
4:
1

1
4:
2
_

_
, dac a X ~
_

(1)
,
_
Z
12
~
_
1
2
_

(2)

(1)
_
,
_
1
1
4:
1

1
4:
2
_

_
, dac a X ~
_

(2)
,
_
si
cov(Z
12
, Y
12
) =
_
1
2:
1

1
2:
2
_
.
Dac a :
1
= :
2
atunci cov(Z, Y) = 0. n acest caz distributia lui \
cnd X
1
este aceeasi cu a lui \ cnd X
2
. Atunci, dac a 1
1
=
r X[\ (r) _ 0, probabilit atile de misclasare sunt egale.
168 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Asimptotic, cum
x
(1)

(1)
, x
(2)

(2)
, cnd :
1
, :
2
si
S , cnd :
1
, :
2
.
rezult a
S
1
_
x
(1)
x
(2)
_

1
_

(1)

(2)
_
si
_
x
(1)
x
(2)
_
t
S
1
_
x
(1)
x
(2)
_

_

(1)

(2)
_
t

1
_

(1)

(2)
_
cnd :
1
, :
2
, adic a distributia asimptotic a a lui \ este U
12
.
Concluzie: Pentru selectii sucient de mari folosirea estimatiilor n locul
valorilor exacte implic a erori mici.
Urmndu-l pe [2] vom substitui parametrii estimati n relatiile de denitie
ale regiunilor de decizie obtinnd
1
1
: x
t
S
1
_
x
(1)
x
(2)
_

1
2
_
x
(1)
x
(2)
_
t
S
1
_
x
(1)
x
(2)
_
_ ln/
1
2
: x
t
S
1
_
x
(1)
x
(2)
_

1
2
_
x
(1)
x
(2)
_
t
S
1
_
x
(1)
x
(2)
_
< ln/.
Anderson (n [2]) argumenteaz a c a acest criteriu minimizeaz a costurile
misclas arii dac a parametrii populatiilor sunt cunoscuti si continu a: it seems
intuitively reasonable that the above relations should give good results.
Dac a se doreste clasicarea selectiilor reunite ca un tot, atunci se uti-
lizeaz a urm atorii estimatori, respectiv criteriu:
: = :
1
:
2
,
x =
1
:
a

)=1
x
)
cu
x
)

1
,
2
,
(:
1
:
2
: 8) S = S
a

)=1
(x
)
x) (x
)
x)
t
respectiv
1
1
:
_
x
1
2
(x
1
x
2
)
_
t
S
1
(x
1
x
2
) _ c
Se poate ar ata c a n=1(1[2), 1(2[1) 0.
3.2. METODE PROBABILISTE DE DISCRIMINARE 169
Particulariz ari ale Teoremei 3.2.1.
a) Cazul 1 = 2 (dou a clase). Particulariznd regiunile de decizie de mai
sus, se obtine
1
1
= r X[
2
1
2
(r) _
1
1
1
(r) =
=
_
r X[
1
1
(r)
1
2
(r)
_

2

1
_
.
Punnd 1
i
= j
i
,
1
=
2
si
(i)
si estimati, rezult a
1
1
= r X[\
12
(r) _ 0 si 1
2
= X 1
1
.
Cnd
j = 1 atunci \
12
(r) = 0 =r =
a
(1)
a
(2)
2
, "suprafata" de decizie este un punct;
j = 2 atunci \
12
(r) = 0 = suprafata de decizie este o dreapt a;
j = 8 atunci \
12
(r) = 0 = suprafata de decizie este un plan;
j _ 4 atunci \
12
(r) = 0 = suprafata de decizie este un hiperplan.
b) Cazul 1 = 8 (trei clase). Particulariznd, se obtin urm atoarele regiuni
de decizie:
1
1
=
_
r X[
2
1
2
(r)
S
1
S
(r) _
1
1
1
(r)
S
1
S
(r),

2
1
2
(r)
S
1
S
(r) _
1
1
1
(r)
2
1
2
(r)
_
=
=
_
r X[
1
1
(r)
1
2
(r)
_

2

1
,
1
1
(r)
1
S
(r)
_

S

1
_
,
1
2
=
_
r X[
1
1
1
(r)
S
1
S
(r) _
1
1
1
(r)
2
1
2
(r),

1
1
1
(r)
S
1
S
(r) _
2
1
2
(r)
S
1
S
(r)
_
=
=
_
r X[
1
2
(r)
1
S
(r)
_

S

2
,
1
2
(r)
1
1
(r)
_

1

2
_
,
1
S
=
_
r X[
1
1
1
(r)
2
1
2
(r) _
1
1
1
(r)
S
1
S
(r),

1
1
1
(r)
2
1
2
(r) _
2
1
2
(r)
S
1
S
(r)
_
=
=
_
r X[
1
S
(r)
1
2
(r)
_

2

S
,
1
S
(r)
1
1
(r)
_

1

S
_
,
si punnd 1
i
= j
i
,
1
=
2
=
S
si
(i)
si estimati, rezult a
1
1
= r X[\
12
(r) 0, \
1S
(r) 0 ,
1
2
= r X[\
21
(r) 0, \
2S
(r) 0 =
= r X[\
12
(r) < 0, \
1S
(r) \
12
(r) ,
170 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
deoarece \
i)
(r) = \
)i
(r) si \
2S
(r) = \
1S
(r) \
12
(r) , si
1
S
= r X[\
S2
(r) 0, \
S1
(r) 0 = r X[\
1S
(r) < 0, \
12
(r) \
1S
(r)
Dac a j = 1 (o singur a caracteristic a) si presupunnd r
(1)
< r
(2)
< r
(S)
,
atunci regiunile de decizie devin semidrepte si segment de dreapt a, adic a:
1
1
: rR cu r <
r
(1)
r
(2)
2
,
1
2
: rR cu
r
(1)
r
(2)
2
_ r _
r
(2)
r
(S)
2
,
1
S
: rR cu
r
(2)
r
(S)
2
< r.
Cnd j = 2 regiunile de decizie devin semiplane (gura 3.2.2.).
fig. 3.2.2. Exemplu de regiuni de decizie n cazul normalei
bidimensionale
Estimatori de verosimilitate maxim a Fie ipoteza compozit a
H
0
:
x, x
(1)
1
, . . . , x
(1)
a
1
(
1
, )
x
(2)
1
, . . . , x
(2)
a
2
(
2
, )
H

:
x
(1)
1
, . . . , x
(1)
a
1
(
1
, )
x, x
(2)
1
, . . . , x
(2)
a
2
(
2
, )
3.2. METODE PROBABILISTE DE DISCRIMINARE 171
n ipoteza H
0
estimatorii de verosimilitate maxim a sunt:

(0)
1
=
:
1
x
1
x
:
1
1
,

(0)
2
= x
2
,

(0)
=
1
:
1
:
2
1
_
_
a
1

)=1
_
x
(1)
)

(0)
1
__
x
(1)
)

(0)
1
_
t

_
x
(0)
1
__
x
(0)
1
_
t

a
2

)=1
_
x
(2)
)

(0)
2
__
x
(2)
)

(0)
2
_
t
_
_
Se noteaz a
=
a
1

)=1
_
x
(1)
)

(0)
1
__
x
(1)
)

(0)
1
_
t

_
x
(0)
1
__
x
(0)
1
_
t
.
Deoarece
=
a
1

)=1
_
x
(1)
)
x
1
__
x
(1)
)
x
1
_
t
:
1
_
x
1

(0)
1
__
x
1

(0)
1
_
t

_
x
(0)
1
__
x
(0)
1
_
t
=
a
1

)=1
_
x
(1)
)
x
1
__
x
(1)
)
x
1
_
t

:
1
:
1
1
(x x
1
) (x x
1
)
t
Rezult a

(0)
=
1
:
1
:
2
1
_
C
:
1
:
1
1
(x x
1
) (x x
1
)
t
_
cu C =
2

i=1
a
.

)=1
_
x
(1)
)
x
i
__
x
(1)
)
x
i
_
t
.
Analog, sub H

estimatorii de verosimilitate maxim a sunt:



()
1
= x
1
,

()
2
=
:
2
x
2
x
:
2
1
,

()
=
1
:
1
:
2
1
_
C
:
2
:
2
1
(x x
2
) (x x
2
)
t
_
.
Raportul de verosimilitate devine, asadar
A =
1
a
2
a
2
1
(x x
2
)
t
C
1
(x x
2
)
1
a
1
a
1
1
(x x
1
)
t
C
1
(x x
1
)
iar
1
1
: x cu A _ C (acele puncte x care maximizeaz a pe A).
172 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Estimare bayesian a Natura discutiei din acest paragraf este foarte difer-
it a din punct de vedere conceptual de abordarea anterioar a. Anterior a fost
prezentat a o metodologie pornind de la un punct de vedere frecventist: s-a
presupus o selectie aleatoare dintr-o populatie avnd densitatea de probabi-
litate ) (r; 0) cu r X si 0 O. Parametrul necunoscut 0 este presupus
xat. O procedur a de inferent a frecventist a depinde de functia de verosimili-
tate 1(0) =
a

i=1
) (r
i
; 0) , unde 0 este necunoscut dar x.
n demersul bayesian experimentatorul presupune/crede, nainte de a
vedea datele ( priori), c a parametrul necunoscut 0 este o variabil a aleatoare
avnd o distributie de probabilitate proprie pe O (spatiul parametrilor), notat a
/(0) si numit a distribu tia priorica (prior distribution) a lui 0. ) (r; 0) devine,
n acest context, ) (r[0).
Distributia prioric a /(0) reect a adesea intuitia subiectiv a a statis-
ticianului privitoare la ce valori ale lui 0 sunt mai putin probabile cnd se
consider a ntreg spatiul parametrilor, O.
Distributia prioric a este, n cazul ideal, dat a/xat a nainte de nceperea
experimentului (a culegerii selectiei bernoulliene).
Paradigma bayesian a implic a combinarea informatiilor priorice cu cele
date de functia de verosimilitate si obtinerea a ceea ce se numeste distribu tie
posteriori, via teorema Bayes.
Ca fapt istoric este de retinut opozitia vehement a a lui R.A.Fisher la tot
ce era bayesian.
Se cunosc urm atoarele fapte:
- distributia comun a a lui r si 0 este dat a de
) (r[0) /(0) ((\)) r X si 0 O.
- distributia marginal a a lui r este, atunci,
:(r) =
_
O
) (r[0) /(0) d0
deci distributia lui 0 conditionat a de evenimentul A = r este, conform
teoremei lui Bayes,
/(0[x) = /(0[A = r) =
) (r[0) /(0)
:(r)
, :(r) 0, r X, 0 O.
Denitia 3.2.10 /(0[r) se numeste distribu tia posteriori a lui 0.
Denitia 3.2.11 Fie /(0) D, unde D este o familie de distributii particu-
lare. /(0) se numeste distribu tia priorica conjugata=/(0[r) D
3.2. METODE PROBABILISTE DE DISCRIMINARE 173
Propozitia 3.2.3
Dac a ~ (m, S) si x ~ (0, ) , atunci /(0[r) este densitatea de probabi-
litate a unei (, C) cu = S(S )
1
x (S )
1
m si
C = (S )
1
S.
Demonstratie. Dup a observarea lui x, densitatea conditionat a /(0[r) poate
scris a
/(0[x) =
/(0) ) (x[0)
_
R
/(0) ) (x[0) d0
= C/(0) ) (x[0) ,
cu C factor ce depinde de x dar nu si de 0.
Din ipotezele propozitiei rezult a
/(0[r) = c
1
oxp
_

1
2
( m)
t
S
1
( m)
_
oxp
_

1
2
(x )
t

1
( x)
_
=
= c
1
oxp
_

1
2
m
t
S
1
m
1
2
_

t
S 2
t
S
1
m
_
_

oxp
_

1
2
_

1
2
t
S
1
x x
t

1
x
_
_
.
n nal se obtine
/(0[r) = c
2
oxp
_

1
2
_

t
_

1
S
1
_
2
t
_

1
x S
1
m
_
_
, (1)
unde factorii care nu depind de 0 au fost absorbiti n c
1
si c
2
.
Deoarece paranteza dreapt a din exponentul egalit atii (1) este o form a
p atratic a, rezult a c a densitatea de probabilitate /(0[x) este o densitate a unei
variabile aleatoare normale. Pentru a determina parametrii acestei legi se scrie
/(0[x) sub forma
/(0[x) = c
S
oxp
_

1
2
( )
t
C
1
( )
_
= c
1
oxp
_

1
2
_

t
C
1
2C
1

_
_
(2)
Comparnd (1) cu (2) se obtine
C
1
=
1
S
1
si C
1
=
1
x S
1
m= = C
1
x CS
1
m.
Se observ a c a, dac a C
1
=
1
S
1
, atunci
C =(S)
1
S = S(S )
1
.
ntr-adev ar
C
1
=
_
(S )
1
S
_
1
= S
1
_
(S )
1
_
1
=
= S
1
(S )
1
=
1
S
1
= C
1
C
1
=
_
S(S )
1

_
1
=
1
_
S(S )
1
_
1
=
=
1
(S ) S
1
=
1
S
1
= C
1
.
nlocuind (2) n expresia lui rezult a formula din enunt.
174 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Corolarul 3.2.3
Dac a 0~
_
t, o
2
0
_
si r~
_
0, o
2
1
_
atunci densitatea posteriori a lui 0 este

_
j, o
2
_
cu j =
_
a
o
2
1

t
o
2
0
__
1
o
2
0

1
o
2
1
_
1
si o
2
=
o
2
0
o
2
1
o
2
0
o
2
1
=
_
1
o
2
0

1
o
2
1
_
1
.
Denitia 3.2.12 Fie A : \ R, variabil a aleatoare cu densitatea de proba-
bilitate ) (r, 0) depinznd de 0. O functie T : \ R se numeste statistica
sucienta pentru 0 dac a si numai dac a densitatea de probabilitate condition-
at a a lui A este independent a de 0, adic a
) (x[T (x) = t, 0) = ) (x[T (x) = t) , (\) t ^ _ R.
Fie X = (x
1
, . . . , x
a
) o selectie bernoullian a asupra unei variabile aleatoare
ce depinde de un parametru 0.
Fie c = c (T) un estimator a lui 0 si e func tia de pierdere ce se obtine
estimnd 0 pe prin c (T):
1
-
(0, c) = 1
-
(0, c (T)) = [c (T) 0[
2
.
Riscul functional este, atunci,
1
-
(0, c) =
L
[1
-
(0, c)[ =
_
.
1
-
(0, c (t)) ) (t[0) dt.
Denitia 3.2.13 Se numeste risc bayesian
r
-
(0, c) =
_
O
1
-
(0, c) /(0) d0.
Denitia 3.2.14 Se numeste estimator bayesian
r
-
(0, c
-
) = inf
c1
r
-
(0, c) , c
-
1,
unde 1 este clasa estimatorilor pentru care riscul bayesian este nit.
Teorema 3.2.4 n cazul func tiei de pierdere suma patratelor erorilor, esti-
matorul bayesian c
-
= c
-
(t) este media distribu tiei posteriori /(0[t) , adica
c
-
(t) =
_
O
0/(0[t) d0 =
L
[0[T (r) = t[ ,
pentru toate valorile posibile observate t ^.
Demonstratie. Pentru a determina pe c
-
(t) trebuie minimizat
r
-
(0, c
-
) =
_
O
_
.
1
-
(0, c (t)) ) (t[0) /(0) dt d0 =
=
_
.
__
O
1
-
(0, c (t)) ) (0[t) d0
_
:(t) dt.
3.2. METODE PROBABILISTE DE DISCRIMINARE 175
Conform teoremei Fubini si a faptului c a integranzii sunt nenegativi
_
O
1
-
(0, c (t)) ) (0[t) d0 =
_
O
_
0
2
20c (t) c
2
(t)

) (0[t) d0 =
= c(t) 2c (t)
L
[0[T (r) = t[ c
2
(t) ,
unde s-a notat c(t) =
_
O
0
2
) (0[t) d0 si s-a folosit egalitatea
_
O
) (0[t) d0 = 1.
Consider am expresia c(t) 2c (t)
L
[0[T (r) = t[ c
2
(t) ca o functie de c
pe care dorim s a o minimiz am. Minimul este atins deoarece expresia ca functie
de c este o parabol a cu coecientul c
2
lui pozitiv si
0
0c
_
c(t) 2c
L
[0[t[ c
2
_
= 0 =c
-
=
L
[0[T (r) = t[ .
Corolarul 3.2.4
Fie x
1
, . . . , x
a
variabile aleatoare independente si identic repartizate
_
0, o
2
1
_
cu 0 necunoscut si o
1
0 dat. Consider am statistica T =
1
a
a

i=1
x
i
, care este
sucient a pentru 0. Se presupune c a distributia priori a lui 0 pe spatiul O =
R este
_
t, o
2
0
_
cu t si o
0
0 R dati. Atunci distributia posteriori a lui
0 conditionat a de observatiile r
1
, . . . , r
a
este, conform propozitiei anterioare,

_
j, o
2
_
cu
j =
:o
2
0
:o
2
0
:o
2
1
T (r)
o
2
1
:o
2
0
o
2
1
t,
o
2
=
o
2
0
o
2
1
:o
2
0
o
2
1
.
Observatia 3.2.6
S a observ am c a j este o combinatie convex a ntre r (= T (r) ) si t, deci se
a a ntre aceste valori.
Dac a o
0
, dispersia mediei necunoscutei 0, este mai mare ca o
1
, atunci
j - r. n acest caz, cunoasterea mediei priorice t este de important a redus a.
Dac a, dimpotriv a, o
0
= 0, atunci j = t indiferent de observatiile efectuate.
Raportul a =
o
2
1
o
2
0
m asoar a ncrederea priori c a t este o estimare corect a
a mediei. Dac a a < atunci lim
ao
j = lim
ao
r.
n concluzie, dac a dispersia initial a este mic a, media estimat a tinde s a
r amn a n apropierea mediei initiale t chiar dac a media empiric a r difer a
considerabil de aceasta. Dac a raportul a este mic, atunci media si dispersia
priori au doar o inuent a redus a asupra estim arii parametrilor care sunt
determinati aproape exclusiv din datele empirice.
176 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
n lumina teoremei de mai sus, estimatorul Bayes al mediei unei variabile
aleatoare
_
j, o
2
_
este, dac a T (r) = t,
c (t) =

0
1
=
_
:
o
2
1
t
:
o
2
0
t
__
1
o
2
1

1
o
2
0
_
1
.
Analog, pentru cazul multidimensional se obtine

1
= S
_
S
1
:

_
1
t
1
:

_
S
1
:

_
1
m.
Fie x =(r
1
, . . . , r
a
) o selectie bernoullian a din populatiile H
1
si H
2
.
Dac a A H
1
, atunci densitatea de probabilitate este )
i
(r[0) , 0 0
i
si
densitatea prioric a este /
i
(0) , i = 1, 2. Dndu-se probabilit atile priorice
ale populatiilor H
1
, H
2
, e acestea
1
respectiv
2
, teorema Bayes calculeaz a
probabilit atile posteriori
1 (H
i
[x) =
:
i
(x)
i
:
1
(x)
1
:
2
(x)
2
, i = 1, 2,
unde :
i
(x) =
_
O
.
)
i
(r[0) /
i
(0) d0 este densitatea de probabilitate marginal a
a lui x conditionat de faptul c a provine din H
i
.
Este evident c a o procedur a bayesian a de discriminare este
- x H
1
dac a
1(H
1
[x)
1(H
2
[x)
= 1
12
(x)
q
1
q
2
_ 1;
- x H
2
n caz contrar,
unde 1
12
(x) =
n
1
(x)
n
2
(x)
este cunoscut ca factorul Bayes al popula tiei H
1
versus H
2
.
3.2. METODE PROBABILISTE DE DISCRIMINARE 177
3.2.3 Exemplu
Descrierea datelor
Acest exemplu are ca scop construirea unor functii liniare care s a discrimineze
ct mai bine ntre trei tipuri de irisi pornind de la m asur atorile de lungime si
l atime ale petalelor si sepalelor. La baza exemplului st a un set de date clasic
(tabelul A.5. din Anex a), introdus de Fisher n 1936, n care se identic a:
j = 4 variabile independente:
SEPALLEN=lungimea sepalelor,
SEPALWID=l atimea sepalelor,
PETALLEN=lungimea petalelor,
PETALWID=l atimea petalelor,
variabla dependent a (de grupare):
IRISTYPE=tipul de iris, cu = 8 modalit ati: SETOSA (Setosa),
VERISCOL (Veriscolor), VIRGINIC (Virginica), ce denesc clasele
(numeric egale ale) unei partitii priori a populatiei de : = 10
observatii.
Efectuarea analizei si interpretarea rezultatelor
n programul STATISTICA, optiunea pentru analiza discriminant a este
disponibil a n meniul Statistics, Multivariate Exploratory Techniques, Dis-
criminant Analysis. n fereastra activat a (g. 3.2.3.) se aleg variabilele
conform clasic arii de mai sus, specicndu-se toate codurile pentru variabila
de grupare (butoanele Codes for grouping variable, All ), se opteaz a pentru
analiza folosind metoda stepwise de selectie a variabilelor (pentru detalii vezi
subcapitolul 4.1.6.) si se apas a butonul OK.
fig. 3.2.3. Fereastra de pornire
178 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Noua fereastr a (g. 3.2.4.) permite denirea parametrilor analizei dis-
criminante si aplicarea unor metode descriptive de examinare a datelor. Pen-
tru nceput vom verica ndeplinirea conditiilor de realizare a analizei discri-
minante: normalitatea distributiei predictorilor n grupuri, homoscedastici-
tatea si absenta multicoliniarit atii, procedeu pentru care STATISTICA pune
la dipozitie o serie de grace si tabele n fereastra accesat a prin ap asarea bu-
tonului Review descriptive statistics din submeniul Descriptives.
fig. 3.2.4. fereastra de pornire (2)
Normalitatea distributiei predictorilor n grupuri se poate verica
examinnd diverse tipuri de grace disponibile n meniul Within:
histograma categorizat a - butonul Categorized histogram by group activeaz
o fereastr a pentru selectia variabilei independente de analizat. Gracul
rezultat indic a repartitia acesteia n grupurile formate de modalit atile
variabilei de grupare. Figura 3.2.5. reprezint a histograma categorizat a
a variabilei SEPALWID si indic a o repartitie normal a a acesteia pentru
cele trei tipuri de irisi. Acelasi tip de grac conrm a normalitatea n
cadrul grupurilor si pentru celelalte trei variabile independente.
diagrama Box Plot categorizat a - butonul Box plot of means by group
activeaz a o fereastr a de selectie a variabilei a c arei distributie urmeaz a s a
e redat a prin acest tip de diagram a. Ca specicatii de realizare a dia-
gramelor se bifeaz a optiunea Mean/SD/1.96*SD si se apas a butonul OK
pentru generarea gracului n care: tendinta central a e ilustat a de me-
die si redat a grac printr-un marcaj central, dreptunghiul (box) indic a
variabilitatea n jurul punctului central, ilustrat a prin deviatia standard
(SD) iar segmentele de la extremit atile dreptunghiurilor (whiskers) in-
dic a intervalul de predictie de 95%. Figura 3.2.6. reprezint a diagrama
Box Plot categorizat a a variabilei PETALLEN si indic a o repartitie uni-
modal a si simetric a (probabil normal a) pentru cele trei tipuri de irisi.
Analog pentru celelalte trei variabile independente.
3.2. METODE PROBABILISTE DE DISCRIMINARE 179
fig. 3.2.5. Histograma categorizat

A pentru variabila SEPALWID


fig. 3.2.6. Diagrama Box Plot categorizat

A pentru variabila
PETALLEN
gracele Normal Probability Plot categorizate - butonul Categorized nor-
mal probabiliy plot by group activeaz a o fereastr a pentru selectia vari-
abilei independente de analizat. Dac a gracul (1
cbc
, 1
tcc
) se supra-
pune peste prima bisectoare, atunci variabila predictor analizat a este
180 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
normal repartizat a n grupurile determinate de modalit atile variabilei
dependente. S-au notat cu 1
cbc
, p-cuantilele estimate ale variabilei pre-
dictor studentizat a si observat a ntr-o clas a dat a a variabilei dependente
si cu 1
tcc
, p-cuantilele teoretice ale variabilei Gauss-Laplace (normala
de medie zero si dispersia unu). Figura 3.2.6. reprezint a gracul Nor-
mal Probability Plot categorizat pentru variabila SEPALLEN si indic a
o repartitie normal a a acesteia pentru cele trei tipuri de irisi. Acelasi tip
de grac conrm a normalitatea n cadrul grupurilor si pentru celelalte
trei variabile independente.
fig. 3.2.7. Normal Probability Plot pentru variabila SEPALLEN
Homoscedasticitatea se refer a la egalitatea dispersiei predictorilor n
grupurile formate de modalit atile variabilei dependente. Butonul Categorized
scatterplot by group activeaz a o fereastr a pentru selectia variabilelor indepen-
dente de analizat. n gura 3.2.8. reprezentnd diagrama Scatterplot catego-
rizat a pentru variabilele SEPALLENsi PETALLEN, cele trei grace ilustreaz a
aproximativ aceeasi form a a norului de puncte (elipse cu diametrul mare aprox-
imativ egal cu 2) conrmnd egalitatea aproximativ a a variantei n grupurile
determinate de variabila dependent a. Aceast a concluzie este valabil a si pentru
celalte combinatii de cte dou a variabile predictor.
3.2. METODE PROBABILISTE DE DISCRIMINARE 181
fig. 3.2.8. Diagrama scatterplot categorizat

A pentru
variabilele SEPALLEN Si PETALLEN
Multicoliniaritatea se refer a la redundanta variabilelor predictor, mai
exact la situatia n care dou a variabile independente sunt foarte puternic core-
late sau n care una dintre acestea se poate exprima ca o combinatie liniar a
a celorlalte. n STATISTICA, evitarea fenomenului de multicoliniaritate se
realizeaz a prin setarea unei valori prag de tolerant a (de obicei 0,01). n cazul
analizei Forward Stepwise, o variabil a se introduce n model numai dac a val-
oarea 1 1
2
(unde 1
2
este coecientul de corelatie multipl a) nu se a a sub
pragul de tolerant a stabilit.
Concluziile obtinute permit realizarea efectiv a a analizei discriminante.
Se apas a butonul Cancel pentru a reveni la fereastra de pornire (g. 3.2.4) si
se acceseaz a submeniul Advanced pentru a specica detaliile analizei discrimi-
nante (g 3.2.9).
182 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
fig. 3.2.9. Specifica Tii pentru realizarea analizei discriminante
Ca metod a de selectie a variabilelor se alege Forward stepwise, care presupune
introducerea n model, la ecare pas, a variabilei celei mai semnicative din
punct de vedere al discrimin arii. Algoritmul Forward stepwise ruleaz a pn a
cnd una dintre conditiile urm atoare este ndeplinit a:
toate variabilele au fost introduse n model,
a fost atins num arul de pasi specicat n caseta Number of steps. Deoa-
rece n acest caz nu exist a specicatii priori n acest sens, num arul de
pasi este setat egal cu num arul variabilelor.
niciuna dintre variabilele care nu sunt n model nu este considerat a
semnicativ a din punct de vedere al discrimin arii, adic a valoarea F
corespunz atoare este mai mic a dect valoarea F to enter. n cazul
metodei Forward, valoarea F to remove nu intereseaz a deoarece nicio
variabil a nu va eliminat a din model. Pentru F to enter si F to remove
se p astreaz a set arile implicite.
pragul de tolerant a pentru variabila care urmeaz a s a e introdus a n
model este sub limita impus a de valoarea din caseta Tolerance. n cazul
acesta se m areste num arul pasilor cu unu si se analizeaz a variabila ur-
m atoare din punct de vedere al puterii de discriminare.
n caseta Display results se opteaz a pentru asarea rezultatelor la ecare
pas (At each step) si se apas a butonul OK pentru nceperea analizei.
Pasul 0.
n fereastra ap arut a (g 3.2.10) sunt prezentate: pasul analizei, num arul
de variabile din model si indicatorul Wilks lambda al puterii de discrimnare
a modelului.
3.2. METODE PROBABILISTE DE DISCRIMINARE 183
fig. 3.2.10. Fereastra de rezultate - pasul 0
La pasul zero nici una dintre variabile nu a fost intodus a n model, asadar
singura optiune accesibil a n fereastra de rezultate (g 3.2.10) este Variables
not in the model. Aceasta genereaz a tabelul 3.2.1. n care sunt disponibile
valorile corespunz atoare celor patru variabile independente pentru:
Wilks lambda - statistic a ce ilustreaz a puterea de discriminare a modelului
dup a ce variabila corespunz atoare a fost introdus a n model. Poate lua
valori n intervalul [0,1], 0 indicnd putere maxim a de discriminare.
Partial Wilks lambda - statistic a ce ilustreaz a puterea de discriminare a
ec arei variabile n cadrul modelului. Poate lua valori n intervalul [0,1],
0 indicnd putere maxim a de discriminare. La acest pas, valorile Partial
Wilks lambda coincid cu cele corespunz atoare Wilks lambda.
F to enter - j-cuantila estimat a a variabilei F care, n urma comparatiei
cu pragul de semnicatie xat, indic a variabilele ce pot introduse n
model la pasul urm ator.
Toleran ta - este denit a ca 1 1
2
al variabilei respective cu toate vari-
abilele din model si aceast a valoare este un indicator al redundantei vari-
abilei respective. Evident, la acest pas 1
2
= 1 pentru toate variabilele
deoarece nicio variabil a nu a fost nc a selectat a.
Pentru a trece la pasul urm ator se apas a butonul Next.
Pasul 2.
La pasul 2, modelul, care acum contine dou a variabile, are o putere
discriminant a semnicativ a (Wilks lambda= 0, 087; 1 = 807.1; j < 0.0001)
dup a cum se poate vedea n fereastera din g. 3.2.11.
184 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
fig. 3.2.11. Fereastra de rezultate - pasul 2
Variabilele care au fost introduse n model (butonul Variables in the
model ) sunt, n aceast a ordine, PETALLEN si SEPALWID si au un nivel de
semnicatie ridicat (tabelul 3.2.1). Celelalte dou a variabile (butonul Variables
not in the model ) ndeplinesc conditiile pentru a introduse n model si val-
oarea statisticii Wilks lambda pentru PETALWID este superioar a (tabelul
3.2.2), deci aceasta va variabila considerat a la pasul urm ator.
tabelul 3.2.1 Variabilele din model, la pasul 2
tabelul 3.2.2 Variabilele din afara modelului, la pasul 2
Pasul 4.
La pasul patru, toate variabilele au fost introduse n model iar acesta
are o putere de discriminare semnicativ a (Wilks lambda= 0, 028; 1 = 100.1;
j < 0.0000). n tabelul obtinut prin ap asarea butonului Variables in the model
(tabelul 3.2.3), valorile Partial Wilks lambda indic a faptul c a PETALLEN si
PETALWID au cele mai mari valori ale puterii de discriminare, deci petalele
sunt cele care deosebesc cel mai bine cele trei tipuri de irisi.
tabelul 3.2.3 Variabilele din model, la pasul 4
3.2. METODE PROBABILISTE DE DISCRIMINARE 185
n continuare se va folosi analiza canonic a (butonul Perform canonical
analysis din submeniul Advanced) pentru calculul functiilor de discriminare
ortogonale, al c aror num ar este dat de minimul dintre num arul variabilelor
independente si num arul modalit atilor variabilei dependente minus 1. Prin
urmare, n acest caz vor considerate dou a functii de discriminare.
fig. 3.2.12. Analiza canonic

A
Pentru a determina dac a cele dou a functii de discriminare sunt sem-
nicative din punct de vedere statistic, se analizeaz a testele de semnicatie
disponibile n tabelul 3.2.4., obtinut prin ap asarea butonului Summary: Chi
square test of succesive roots din submeniul Quick.
tabelul 3.2.4. Teste de semnifica Tie pentru func Tiile
discriminante
n general, primul rnd al tabelului contine valorile testelor de semni-
catie pentru efectul cumulat al functiilor de discriminare iar pe liniile urm a-
toare sunt asate valorile testelor de semnicatie dup a eliminarea cte unei
functii de discriminare. n tabelul 3.2.4.
Valorile proprii (Eigenvalues) reect a importanta functiilor identicate
n discriminarea claselor. Valoarea evident superioar a corespunz atoare
primei functii (82, 10) indic a faptul c a aceasta are cel mai important rol
186 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
n discriminare, cu toate c a, dup a cum vom vedea, ambele functii sunt
statistic semnicative.
Coecientii de corelatie canonic a (Canonical R) indic a intensitatea leg a-
turii dintre functiile discriminante si grupurile formate de modalit atile
variabilei dependente. Cu ct acesti coecienti au o valoare mai ridicat a,
cu att functiile considerate au un rol mai mare n discriminarea claselor,
Wilks lambda si Chi-square sunt statistici folosite pentru a testa sem-
nicatia functiilor de discriminare.
Valorile p indic a faptul c a, pentru acest exemplu, ambele functii sunt
semnicative din punct de vedere statistic.
Coecientii variabilelor independente n cadrul celor dou a functii de dis-
criminare (tabelul 3.2.5.) se genereaz a ap asnd butonul Coecients for canon-
ical variables si sunt disponibili n form a clasic a (Raw coecients) sau stan-
dardizat a (Standardized coecients). Acestia din urm a sunt cei care se folosesc
pentru interpretare.
tabelul 3.2.5. Coeficien Tii func Tiilor de discriminare
Ca o prim a observatie, se remarc a faptul c a 99% (Cum. Prop.) din
puterea de discriminare este atribuit a primei functii discriminante. Dup a cum
era de asteptat, aceasta este caracterizat a n mod deosebit de coecientii core-
spunz atori variabilelor PETALLEN si PETALWID, n timp ce pentru cea de-a
doua functie discriminant a coecientul variabilei SEPALWID este reprezenta-
tiv. Aceast a observatie este sustinut a si de coecientii de corelatie dintre va-
riabile si functiile de discriminare (tabelul 3.2.6.), care pot accesati ap asnd
butonul Factor structure din submeniul Advanced.
tabelul 3.2.6. Coeficien Tii de corela Tie
3.2. METODE PROBABILISTE DE DISCRIMINARE 187
Valorile functiilor discriminante calculate pe baza valorilor celor patru
predictori (scorurile canonice) sunt disponibile n submeniul Canonical sub
form a tabelar a (butonul Canonical scores for each case) sau grac a (butonul
Scatterplot of canonicl scores). Diagrama scatterplot rezultat a (g 3.2.13)
ofer a o imagine de ansamblu si conrm a concluziile de pn a acum.
fig. 3.2.13. Scatterplot pentru scorurile canonice
Avnd n vedere pasii realizati pn a acum, se poate concluziona c a dintre
cele trei tipuri de irisi, cei apartinnd grupului SETOSA sunt cel mai usor de
deosebit. Distinctia se face prin intermediul primei functii de discriminare, car-
acterizat a de coecienti negativi pentru dimensiunile petalelor si de coecienti
pozitivi pentru dimensiunile sepalelor. Pe gracul din gura 3.2.13, tipul SE-
TOSA este situat n extremitatea dreapt a, deci membrii s ai sunt caracterizati
de valori ridicate ale acestei functii. Asadar, cu ct irisul are petale mai lungi
si late si sepale mai nguste si scurte, cu att este mai putin probabil ca acesta
s a e de tip SETOSA.
Odat a ce modelul a fost construit si functiile de discriminare au fost
determinate, se pune problema aproxim arii gradului de precizie a predictiei
grupului din care face parte un (nou) individ. n acest scop, pentru individul
respectiv se calculeaz a valorile functiilor de clasicare pentru ecare dintre cele
trei clase, individul ind asignat acelui grup pentru care scorul este maxim.
(Atentie! Functiile de clasicare sunt diferite de functiile discriminante si sunt
calculate automat n cadrul analizei). Pentru a examina coecientii functiilor
de clasicare (tabelul 3.2.7.) se revine n fereastra de pornire (g. 3.2.4.)
ap asnd butonul Cancel, se acceseaz a submeniul Advanced si se apas a pe bu-
tonul Clasication functions.
tabelul 3.2.7. Valorile func Tiilor de clasificare
188 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Functiile de clasicare sunt date de formula:

i
= c
i
n
i1
11T111 n
i2
o111\11
n
iS
11T1\11 n
i1
o11111,
unde c
i
sunt constantele corespunz atoare grupurilor i si n
i)
, i = 1, 8, , = 1, 4
sunt coecientii din tabelul 3.2.7.
Atunci cnd se posed a informatii despre variabile nc a dinainte de n-
ceputul analizei exist a posibilitatea specic arii unor probabilit ati priori de
clasicare n cele trei grupe. Nu este cazul n acest exemplu, asadar probabilit atile
priori se vor considera proportionale cu dimensiunea grupurilor, deci egale
cu 1,8 = 0, 88.
Asign arile efective ale indivizilor din setul curent de date pot examinate
n tabelul 3.2.8. (butonul Clasication of cases), matricea de clasicare (bu-
tonul Clasication Matrix) oferind o sintez a a acestei situatii (tabelul 3.2.9.).
tabelul 3.2.8. Clasificarea unor indivizi din setul curent de date
tabelul 3.2.9. Matricea de clasificare
3.3. SEGMENTARE 189
Se observ a c a toti irisii de tip SETOSA au fost corect clasicati, fapt
la care ne asteptam n urma observatiilor de pn a acum, si c a irisii de tip
VERISCOL si VIRGINIC au fost corect clasicati n procent de 96% respec-
tiv 98%. Aceste rezultate indic a o precizie foarte bun a n clasicare, dar
trebuie tinut cont c a aceasta s-a f acut pe multimea indivizilor utilizati pentru
construirea modelului (mul timea de antrenare), asadar este foarte posibil ca
precizia s a scad a atunci cnd sunt clasicati indivizi noi (indivizi de test). Ma-
tricea de clasicare pentru multimea de test poate considerat a un estimator
nedeplasat al erorii de misclasare.
3.3 Segmentare
Metodele de segmentare urm aresc rezolvarea problemelor de discriminare
si de regresie prin mp artirea progresiv a a esantionului ntr-un arbore de decizie
binara.
Pionieri n acest domeniu sunt considerati a Sonquist si Morgan precum
si Morgan si Messenger cu metoda AID (Automatic Interaction Detection).
Au urmat numeroase contributii iar lucr arile lui Breiman cu metoda CART
(Classication and Regression Tree) au mbog atit domeniul si au resuscitat
interesul pentru segmentare.
Propriet atile metodei de segmentare pot sintetizate astfel:
avantajele metodei:
lizibilitatea regulilor de afectare, interpretarea rezultatelor ind di-
rect a si intuitiv a;
tehnica este neparametric a si impune putine restrictii asupra va-
riabilelor. Se pot utiliza concomitent ca variabile explicative, va-
riabile continue, ordinale si nominale, f ar a un codaj prealabil. n
plus, metoda ofer a din ociu selectia variabilelor, tinnd cont de
eventualele interactii;
tehnica este robust a fat a de valorile eronate sau aberante si ges-
tioneaz a valorile lips a att la constructia arborelui si la estimarea
erorii sale de misclasare, ct si n cazul unui nou subiect;
metoda foloseste acelasi principiu, tehnici, algoritm, att pentru
a analiza o variabil a discret a (analiza discriminant a), ct si una
continu a (analiza de regresie);
dezavantajele metodei:
regulile de afectare pot ap area uneori aberante si prea sensibile
la perturbatii usoare ale datelor ;
lipsa unei functii de afectare global a (ce utilizeaz a toate variabilele),
ce priveaz a utilizatorul de o reprezentare geometric a.
190 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
3.3.1 Formularea problemei, principiu si vocabular
Ne pozition am n cadrul analizei discriminante: o variabil a j "privile-
giat a", discret a, cu / modalit ati este "explicat a" de variabilele (r
1
, . . . , r
j
).
Metoda de segmentare const a n a calcula mai nti variabila r
)
care
explic a cel mai bine variabila j. Aceast a variabil a deneste o prim a mp artire
a esantionului n dou a submultimi, numite segmente. Se reitereaz a procedeul
n interiorul ec arui segment c autndu-se a doua cea mai bun a variabil a si asa
mai departe.
Se construieste astfel un arbore de decizie binara, prin mp artirea succe-
siv a a esantionului n cte dou a submultimi. Distingem astfel :
- segmentele intermediare sau nodurile, din care pornesc cte 2 segmente
descendente;
- segmentele terminale, care nu mai sunt mp artite;
- ramurile unui segment care contine toate segmentele descendente din t,
f ar a t;
- arborele binar complet, notat
nnx
;
- un sub-arbore , obtinut din
nnx
prin "tunderea" uneia sau mai multor
ramuri.
fig. 3.3.1. Arbore de decizie binar

A
3.3.1.1 CONSTRUC TIA ARBORELUI DE DECIZIE BINAR

A
Ideea de baz a const a n efectuarea diviziunii unui nod astfel nct cele dou a
segmente descendente s a e mai omogene dect nodul p arinte si ct mai diferite
ntre ele fat a de variabil a .
Asadar, fazele de construire ale arborelui sunt :
a) stabilirea, pentru ecare nod, a multimii diviziunilor admisibile;
3.3. SEGMENTARE 191
b) denirea unui criteriu de selectionare a "celei mai bune" diviziuni a unui
nod;
c) denirea unei reguli care s a permit a declararea unui nod ca terminal sau
intermediar;
d) afectarea ec arui nod terminal unei clase;
e) estimarea riscului de misclasare.
Variabilele explicative pot de natur a oarecare. S a le consider am, pentru
moment, variabile continue.
1. La nceput exist a un singur segment continnd toti indivizii;
2. Sunt examinate secvential toate variabilele explicative. Pentru o vari-
abil a dat a, r
)
, sunt trecute n revist a toate diviziunile posibile r
)
< c,
cu c o valoare oarecare din suportul lui r
)
. Fiecare diviziune mparte
esantionul n segmente descendente: segmentul din stnga, t
c
, contine
indivizii ce ndeplinesc conditia r
)
_ c, iar segmentul din dreapta, t
o
,
contine indivizii ce ndeplinesc conditia r
)
c .
Denitia 3.3.1 Se numeste diviziune admisibila o diviziune posibil a cu seg-
mentele descendente, nevide, ale lui r
)
.
Dintre toate diviziunile admisibile d
n
)
, unde : reprezint a a :-diviziune
(sau a : valoare ordonat a a variabilei din esantion), procedura selectioneaz a
pe "cea mai bun a", notat a d
-
)
, n sensul unui criteriu ce urmeaz a a precizat.
fig. 3.3.2. Diviziuni posibile pentru variabila r
Se obtine astfel, pentru ecare din cele j variabile, diviziunea optim a
"local a" si se va retine, n nal, din cele j diviziuni, pe cea notat a cu d
-
, care
va furniza cele dou a segmente "cele mai caracteristice" vis--vis de j.
192 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
fig. 3.3.3. Cea mai bun

A diviziune pentru toate variabilele


1. Se aplic a iterativ pasul 2 ec arui segment descendent obtinut.
Procedeul se opreste cnd toate segmentele sunt declarate terminale:
- e c a nu mai necesit a vreo diviziune;
- e pentru c a "talia lor" (num arul de indivizi afectati nodului) este
inferioar a unui efectiv xat (n practic a acesta se alege ntre 1 si 5).
2. Afectarea unui individ nou se face prin "coborrea" lui pe ramurile ar-
borelui.
Dac a printre variabilele explicative se num ar a si variabile discrete, atunci
diviziunile posibile pot :
- una singur a, dac a variabila explicativ a r
)
este binar a. n aceast a situatie
segmentul t
c
va contine toate observatiile pentru care r
)
= 1, iar seg-
mentul t
o
toate observatiile pentru care r
)
= 2 (am presupus c a valorile
luate de variabila binar a sunt 1 si 2);
- /1, dac a variabila explicativ a r
)
are / modalit ati ordonate: 1, 2, . . . , /,
cu / 2. ntr-adev ar, prima diviziune va dirija toate observatiile pen-
tru care r
)
= 1 spre segmentul t
c
si toate observatiile pentru care
r
)
2, 8, . . . , / spre segmentul t
o
. A doua diviziune va dirija toate
observatiile pentru care r
)
1, 2 spre segmentul t
c
si toate observati-
ile pentru care r
)
8, . . . , / spre segmentul t
o
. Diviziunea / 1 va
dirija toate observatiile pentru care r
)
1, 2, 8, . . . , / 1 spre segmen-
tul t
c
si toate observatiile pentru care r
)
= / spre segmentul t
o
;
- 2
I1
1, dac a variabila explicativ a r
)
are / modalit ati neordonate.
Pentru selectarea celei mai bune diviziuni a unui nod se pot utiliza mai
multe criterii. Breiman (n [7]) recomand a utilizarea criteriilor bazate pe noti-
unea de impuritate.
3.3. SEGMENTARE 193
Denitia 3.3.2 Impuritatea unui segment (nod) a, notat a i (a), este o functie
nenegativ a de 1 [1[a[ , . . . , 1 [/[a[ (unde 1 [r[a[ este probabilitatea condition-
at a de apartenent a la un grup G
v
, r = 1, / , a multimii observatiilor din nodul
a), care veric a urm atoarele conditii:
i) i (a) este maxim a pentru 1 [r[a[ =
1
I
, (\) r = 1, / (impuritatea unui
nod e maximal a cnd, pentru acest nod, probabilit atile de apartenent a
la diferite grupe sunt egale ntre ele);
ii) i (a) este nul a pentru 1 [r[a[ = 1 si 1 [:[a[ = 0, (\) r ,= : si r, : = 1, /
(impuritatea este nul a dac a nodul contine observatii apartinnd unui
singur grup);
iii) i (a) este o functie simetric a de probabilit ati 1 [r[a[ , r = 1, /.
Functiile de impuritate cele mai folosite sunt :
i (a) =
I

v=1
1 [r[a[ ln(1 [r[a[) si
i (a) =

v,=c
1 [r[a[ 1 [:[a[
Prima functie e derivat a din notiunea de informa tie sau de entropie
Shannon; a doua, numit a indicele de diversitate Gini, a fost propus a de Good-
man si Kruskal n 1954.
Fie o diviziune d care mparte nodul a n t
c
si t
o
cu probabilit atile j
c
=
1 [t
c
[a[ =
1(t
s
)
1(o)
, respectiv j
o
=
1(t
u
)
1(o)
.
Se deneste ^i (d, a) = i (a) j
c
i (t
c
) j
o
i (t
o
), reducerea impurita tii
nodului a datorata diviziunii d.
Lema 3.3.1
Orice diviziune d a unui nod a duce la o reducere pozitiv a sau nul a a impu-
rit atii, adic a:
^i (d, a) _ 0,
egalitatea ind obtinut a dac a si numai dac a 1 [r[t
c
[ = 1 [r[t
o
[ = 1 [r[a[ , (\)
r = 1, /.
Demonstratie.
j
c
i (t
c
) j
o
i (t
o
)
= j
c
) [1 [1[t
c
[ , . . . , 1 [/[t
c
[[ j
o
) [1 [1[t
o
[ , . . . , 1 [/[t
o
[[ _ (1)
_ ) [j
c
1 [1[t
c
[ j
o
1 [1[t
o
[ , . . . , j
c
1 [/[t
c
[ j
o
1 [/[t
o
[[
c aci i (a) este strict concav a.
194 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Pe de alt a parte
j
c
1 [r[t
c
[ j
o
1 [r[t
o
[ = 1 [r[a[ , (\) r = 1, /
deci
) [j
c
1 [1[t
c
[ j
o
1 [1[t
o
[ , . . . , j
c
1 [/[t
c
[ j
o
1 [/[t
o
[[
= ) [1 [1[a[ , . . . , 1 [/[a[[ = i (a) (2)
Asadar, din (1) si (2)
^i (d, a) _ 0 (3)
Dac a n (2)1 [r[t
o
[ = 1 [r[t
c
[, atunci (1) devine egalitate, deci si (3)
devine egalitate.
Cele dou a functii de impuritate de mai sus sunt strict concave, deci cri-
teriile de diviziune bazate pe cele dou a functii conduc ntotdeauna la reducerea
pozitiv a a impurit atii.
Cea mai bun a diviziune este aceea pentru care reducerea impurit atii este
maxim a, adic a:
d
-
)
= aigmax
no

^i
_
d
n
)
, t
_
,
unde d
)
este multimea diviziunilor admisibile ale variabilei r
)
.
Pe multimea j a variabilelor, diviziunea nodului t este efectuat a cu aju-
torul variabilei care asigur a
d
-
= max
1)j
_
d
-
)
_
.
3.3.1.2 REGULI DE AFECTARE La ecare etap a de construire a lui

nnx
este posibil ca toate nodurile terminale, a, ale arborelui curent s a e
afectate uneia din cele / grupe.
Fiec arei erori de clasare i se asociaz a un pre t de misclasare, (:,r) ,
:, r = 1, . . . , /. Costul misclasarii este atunci

v
(:,r) j (r[a) si nodul va
asignat acelei clase pentru care
:
-
= aigmin
1cI

v
(:,r) j (r[a) .
Dac a minimul este atins pentru cel putin dou a clase atunci nodul este
afectat arbitrar uneia dintre aceste clase.
Urm atoarea proprietate este foarte util a n practic a:
Lema 3.3.2
Dac a (:,r) = 1, (\) : ,= r si (:,:) = 0, (\) :, atunci nodul va asignat
clasei cu cei mai multi reprezentanti n ea.
3.3. SEGMENTARE 195
Demonstratie. ntr-adev ar, e :
0
acea clas a. Se observ a c a
j (r[a) =
:
v
:
o
,
cu :
v
num arul de indivizi din clasa :
0
aati n nodul a si :
o
num arul de indivizi
din nodul a.
Conform ipotezei,
I

r=1
r6=s
0
:
v
<
I

r=1
r6=
:
v
, , = 1, /, , ,= :
0
,
adic a un sistem de / 1 inegalit ati cu acelasi membru stng.
Reducnd termenii asemenea se obtin / 1 inegalit ati de forma
:
v
< :
c
0
, r = 1, /, r ,= :
0
adic a :
c
0
este maximal.
Costul misclas arii unei observatii apartinnd nodului a, notat c (a), este
c (a) = min
c

v
(:,r) j (r[a) .
Costul misclas arii datorat a nodului a, notat C (a), este
C (a) = c (a) j (a) ,
unde j (a) este probabilitatea nodului.
Riscul erorii de afectare datorat arborelui sau rata erorii aparente de
clasare datorat a arborelui , notat a TEA (taux derreur apparent) este
T1() =

o

C (a) =

o
`
(c)

v
(:,r) j (r[a)
v
=
=

c

v
(:,r)
:
cv
:
v
:
v
:
=

v
(:,r)
:
cv
:
,
cu
-

multimea nodurilor terminale ale lui ,
-

(:) multimea nodurilor terminale ale lui asignate clasei :,
-
v
probabilitatea priori ca un nod s a provin a din clasa r,
- :
cv
num arul de indivizi din clasa r clasati n clasa :, : ,= r.
196 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
3.3.2 Subarbori optimali
O ramur a
o
a arborelui
nnx
, avnd ca r ad acin a nodul intermediar a
este constituit a din toti descendentii lui a. Tunderea ramurii
o
din arborele

nnx
nseamn a ndep artarea din
nnx
a tuturor descendentilor lui a exceptie
el nsusi. Se noteaz a cu
nnx

o
arborele astfel obtinut. Dac a arborele
este obtinut din
nnx
prin tunderi succesive atunci este un subarbore a lui

nnx
.
Prin "cel mai bun" subarbore se ntelege acel arbore care contine minimul
de segmente terminale cu T1 minim a si furniznd o estimatie corect a a erorii
teoretice de clasare.
Metoda propus a de Breiman pentru obtinerea celui mai bun subarbore
se bazeaz a pe utilizarea unui esantion-test si prezint a un dublu avantaj:
- determin a "cel mai bun" subarbore f ar a s a utilizeze teste statistice pen-
tru denirea unei reguli de oprire a diviziunii ;
- determin a o estimatie precis a a erorii teoretice de clasare.
3.3.2.1 PROCEDURA DE SELEC TIE A SUBARBORELUI OPTI-
MAL Se mparte esantionul de baz a n dou a p arti: un e santion de nva tare
(de exemplu 2/3 din esantionul de baz a) si un e santion de testare (restul de
1/3 din esantionul de baz a).
Pornind de la esantionul de nv atare se construieste arborele
nnx
.
Operatia de "tundere" a arborelui
nnx
const a n construirea unui sir
optimal de subarbori inclusi,
1
, . . . ,
I
, . . . ,
1
, cu
1
=
nnx
,
I
subar-
borele cu / segmente terminale,
1
esantionul total. Fiecare subarbore
I
din
acest sir este optimal n sensul c a eroarea aparenta (EA) a subarborelui este
minimal a printre toti subarborii avnd acelasi num ar de segmente terminale,
adic a
1(
I
) = min
S
I
1()
cu o
I
multimea subarborilor lui
nnx
cu / segmente terminale.
Se selecteaz a din sirul de arbori optimali subarborele
-
care prezint a
eroarea teoretica (ET) minim a, adic a
1T (
-
) = min
1I1
1T (
I
)
Eroarea teoretica se estimeaz a dup a formula

1T () =

1
t
,
cu

1
t
=
e a
I
e a
:
2
t
, unde : este volumul esantionului test, :
t
este num arul de
indivizi din esantionul test apartinnd segmentului t, iar :
2
t
este dispersia de
3.3. SEGMENTARE 197
selectie a variabilei j n interiorul segmentului t, adic a
:
2
t
=
1
:
t
cnid(t)

i=1
_
j
i

j
t
_
,
unde

j
t
este media de selectie n interiorul segmentului t.
3.3.2.2 DIVIZIUNI ECHI-REDUCTIVE SI ECHI-DIVIZANTE
Cea mai bun a diviziune (d
-
) a unui nod este cea care asigur a cea mai mare
reducere a dispersiei reziduale sau a impurit atii prin trecerea de la acel nod la
segmentele descendente. Aceast a denitie este foarte strict a, putnd exista di-
viziuni aproximativ la fel de bune dar foarte importante la nivelul interpret arii.
Se pot deni astfel alte dou a tipuri de diviziuni:
diviziunile echi-reductive care asigur a, dup a diviziunea d
-
, cele mai mari
reduceri ale impurit atii sau cele mai mici dispersii reziduale. Ele permit
alegerea "celei mai bune" variabile explicative;
diviziunile echi-divizante care furnizeaz a repartiz arile cele mai apropiate
de cea mai bun a diviziune, d
-
. Ele permit clasarea indivizilor cu valori
lips a tocmai la variabila(lele) ce deneste(sc) diviziunea.
Diviziunile echi-reductive se obtin nlocuind variabila r
-
ce d a diviziunea
optim a d
-
cu variabila r
i
, r
i
,= r
-
, ce d a diviziunea d
-
i
cu reducerea impurit atii
cea mai bun a dup a d
-
; este, n alti termeni, a doua cea mai bun a diviziune a
nodului t. Prin extensie se pot deni a 3-a, a 4-a..., diviziune echi-reductiv a.
Diviziunile echi-divizante (numite uneori supleante) permit clasarea unui
individ nou ce are ca dat a lips a tocmai m asur atoarea ce deneste diviziunea.
n acest caz se caut a variabila care nlocuieste cel mai bine variabila care
divizeaz a nodul n sensul asigur arii unei separ ari a indivizilor ct mai apropiate
de separarea realizat a de d
-
. Analog se pot deni a 2-a, a 3-a,..., diviziune
echi-divizant a.
198 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
3.3.3 Exemplu
Se consider a datele din tabelul A.6. ce ilustreaz a 100 de puncte generate
uniform n p atratul [0., 1.[
2
si etichetate cu 1 respectiv 2 astfel nct "s a
mpart a" p atratul initial n patru p atrate aproximativ egale. n acest tabel
CoordX si CoordY reprezint a coordonatele carteziene ale punctului iar CLS
reprezint a eticheta clasei din care face parte. Figura 3.3.4. red a asezarea
punctelor n plan si a fost obtinut a selectnd din bara de meniu Graphs, Cate-
gorized Graphs, Scatterplots si desemnnd axele conform specicatiilor de mai
sus, cu optiunea Overlaid.
fig. 3.3.4. Scatterplot
Folosind datele din tabelul A.6, se doreste construirea unui plasator care
s a asigneze oric arui punct nou considerat, din p atratul initial, eticheta clasei
din care face parte, minimiznd eroarea de misclasare. Ne a am in fata unei
probleme de analiz a discriminant a a c arei rezolvare ecient a, n sensul min-
imiz arii erorii de misclasare, presupune folosirea arborilor de decizie binar a.
Aceasta deoarece functiile de discriminare nu sunt liniare (sunt liniare doar pe
portiuni) iar distributiile de probabilitate nu satisfac ipotezele teoremei 3.2.2.
Constructia arborilor de decizie binar a n cadrul pachetului de programe
STATISTICA presupune parcurgerea etapelor prezentate n continuare.
Pentru nceput se precizeaz a tipul de analiz a utilizat a: Statistics, Multi-
variate Exploratory Techniques, Calssication Trees iar n fereastra generat a
(g. 3.3.5.) se indic a variabilele pentru analiz a: variabila dependent a - CLS
si predictorii de tip continuu - CoordX si CoordY.
3.3. SEGMENTARE 199
fig 3.3.5. Fereastra de start
Constructia arborilor binari de clasifcare presupune divizarea (split) ec arui
nod astfel nct cei doi i rezultati s a e mai omogeni dect nodul p arinte si
ct mai diferiti ntre ei relativ la variabila considerat a (variabila de split). n
submeniul Methods se opteaz a pentru efectuarea diviziunii utiliznd tehnica
C&RT style exhaustive search for univariate splits, ce presupune considerarea
tuturor posibilit atilor de split pentru ecare variabil a predictor si ecare nod
si alegerea variantei optime n sensul minimiz arii unui criteriu precizat. n
acest caz, criteriul ales este indicele lui Ginni de m asur a a impurit atii (vezi
subcapitolul 3.3.1.1). Deoarece num arul de puncte din cele dou a clase este egal
si nu sunt disponibile informatii suplimentare, se p astreaz a optiunile implicite
referitoare la probabilit atile priori si costurile de misclasare (g. 3.3.6.).
fig 3.3.6. Submeniul methods
Metoda de "tundere" a arborilor (vezi subcapitolul 3.3.2) este Prune on
misclassication error din submeniul Stopping options si tot aici se specic a
minimul de puncte dintr-o anumit a clas a admis ntr-un nod terminal: : = . O
metod a ecient a de estimare a performantelor subarborilor obtinuti si selectare
a celui de dimesiune optim a, este v-fold cross-validarea, n cadrul c areia, pentru
ecare dimensiune a arborelui:
1. se mparte multimea celor 100 de puncte (mul timea de antrenare) n
sugbrupuri aleatoare, de dimensiuni egale,
200 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
2. pentru i = 1
(a) se retine subgrupul i ca multime de test si se construieste subar-
borele (se face antrenarea) pe baza celorlalte 1 subgrupuri,
(b) se m asoar a riscul empiric pe subgrupul de test i.
3. estimatorul nal nedeplsat al riscului real se calculeaz a ca medie arit-
metic a a riscurilor empirice corespunz atoare celor subgupuri de test.
n submeniul Advanced se completeaz a 10 ca valoare a lui v pentru v-fold
crossvalidation si se apas a butonul OK.
Noua fereastr a (g. 3.3.7.) prezint a contextul de lucru si ofer a acces la
tipurile de grace si tabele specice acestei analize.
fig. 3.3.7. Fereastra de rezultate
Dup a cum se observ a n tabelul generat ap asnd butonul Tree sequence
din submeniul Tree structure, din cele 6 variante de arbori rezultate n urma
"tunderii" succesive a arborelui maximal, procedeul de cross-validare l indic a
pe cel cu 7 noduri terminale ca ind optim: cel mai mic arbore de cost ct
mai apropiat de minim .
Pentru a vizualiza acest subarore, n submeniul Tree Plot se bifeaz a opti-
unea Node plot type: Hystograms, care presupune ilustrarea histogramelor
punctelor din ecare nod n cadrul diagramei arborelui, si se apas a butonul
Classication tree plot (g. 3.3.8.). Se observ a c a initial cele dou a clase contin
acelasi num ar de puncte, dup a cum indic a si histograma din nodul 1 (nodul
radacina), si se alege CoordX ca variabil a de split. La primul pas, n functie
de valoarea CoordX corespunz atoare, un nou punct va asignat nodului 2
(CoordX<=0.03086) sau 3 (CoordX0.03086). Algoritmul se repet a pn a
cnd noul punct este afectat unui nod terminal - un nod pur (care contine
puncte apartinnd unei singure clase) sau un nod cu minim 5 puncte dintr-o
anumit a clas a.
3.3. SEGMENTARE 201
fig. 3.3.8. Arbore binar de clasificare
Pentru detalii asupra structurii arborelui binar de clasicare obtinut n
submeniul Tree Structure se apas a Classication tree structure. n tabelul
3.3.1 sunt specicate:
eticheta ului drept si ului stng, pentru ecare nod neterminal,
num arul de puncte din ecare clas a din nodul respectiv,
clasa c areia ii va asignat un punct alocat nodului respectiv,
conditia de split, pentru ecare nod neterminal,
variabila de split, pentru ecare nod neterminal.
tabelul 3.3.1. Structura arborelui de clasificare
202 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Importanta predictorilor n constructia modelului (submeniul Tree Struc-
ture, butonul Predictor Importance) se m asoar a pe o scar a de la 0 (important a
minim a) la 100 (important a maxim a) si constituie o informatie util a mai ales
n cazul unui num ar mare de variabile explicative. Pentru exemplul curent,
valorile din tabelul 3.3.2 sunt apropiate, coordonata abscisei avnd o impor-
tant a maxim a.
tabelul 3.3.2. Importan Ta predictorilor
Matricea de misclasare (tabelul 3.3.4.) este disponibil a n submeniul
Predicted Classes ap asnd butonul Misclassication matrix. Se observ a c a
arborele obtinut a efectuat o singur a eroare de clasare a datelor de antrenare.
ntr-adev ar, examinnd gracul din gura 3.3.9. care ilustreaz a repartizarea
punctelor n cele 7 noduri terminale, se observ a c a n regiunea corespunz atoare
nodului terminal 9, care contine puncte din clasa 2, se reg aseste si un punct
din clasa 1.
tabelul 3.3.4. Matricea de misclasare
3.3. SEGMENTARE 203
fig. 3.3.9. Repartizarea punctelor n nodurile terminale
Global Cross Validation, meniul Cross-validation, se alege v=10, butonul
Perform global CV, n fereastra ap arut a se apas a butonul Global CV misclas-
sication matrix. =puterea de generalizare este mai sc azut a.
tabelul 3.3.5. Cross-validare global

A
204 CAPITOLUL 3. METODE EXPLICATIVE UZUALE
Capitolul 4
MODELE LINIARE
Modelele liniare urm aresc s a explice sau s a prezic a o variabil a continu a,
numit a variabila dependenta/de explicat/endogena cu ajutorul unor variabile
numite explicative/exogene/predictori. n general, termenul de model de re-
gresie este rezervat cazului n care variabilele explicative sunt continue. n
cazul n care acestea sunt variabile discrete (nominale) modelul se va numi de
analiza dispersionala ( sau analiza de varian ta - ANOVA) iar dac a multimea
variabilelor exogene este mixt a vom vorbi de analiza de covarian ta.
Regresia reprezint a, f ar a ndoial a, metoda statistic a cea mai utilizat a, n
poda faptului c a limitele ei nu sunt ntotdeauna bine cunoscute. Literatura
privind modelele de regresie este foarte vast a. O bibliograe comentat a a c-
torva sute de articole si c arti se g aseste n [34]. Searle [54] si Seber [55] trateaz a
exhaustiv problemele de analiz a dispersional a si de covariant a. Lucrarea lui
Rao [50] - reeditare a unui manual clasic, studiaz a inductia statistic a asupra
modelului liniar. Un alt manual clasic este lucrarea lui Draper si Smith, [20].
Mosteller si Tukey [48], Besley [6], Atkinson [4], prezint a puncte de vedere
mai moderne, incluznd diverse metode de selectie de variabile, n timp ce
Chatterjee si Price [11] insist a asupra implement arii n practic a a modelelor.
Saporta [53] realizeaz a o prezentare mai concis a a problematicii.
4.1 Modelul de regresie
4.1.1 Formularea problemei
Se dispune de : observatii asupra j 1 variabile: j, r
1
, r
2
, . . . , r
j
. Se
urm areste explicarea sau prezicerea variabilei dependente j cu ajutorul va-
riabilelor predictori r
1
, r
2
, . . . , r
j
, presupuse cunoscute. Relatia dintre j si
205
206 CAPITOLUL 4. MODELE LINIARE
r
1
, r
2
, . . . , r
j
este presupus a liniar a
1
, adic a
j
i
= ,
0
,
1
r
i1
. . . ,
j
r
ij
-
i
, i = 1, :
unde ,
0
, ,
1
, . . . , ,
j
sunt coecientii necunoscuti ai modelului. Termenul con-
stant ,
0
poate considerat drept coecientul unei variabile explicative arti-
ciale, r
0
, ale c arei valori r
i0
sunt ntotdeauna egale cu 1. Variabila -
i
se
numeste reziduu/eroare si reprezint a distanta dintre valoarea observat a, j
i
, si
cea calculat a de modelul liniar,

)
,
)
r
i)
. n cazul n care nu se specic a altfel,
-
i
sunt presupuse cantit ati aleatoare independente.
Pus sub o form a matriceal a modelul se exprim a:
y
a1
= X
a(j1)

(j1)1
"
a1
unde y = (j
1
, . . . , j
a
)
t
este vectorul observatiilor asupra variabilei dependente,
X =
_
_
_
_
_
1 r
11
r
1j
1 r
21
r
2j
.
.
.
.
.
.
.
.
.
.
.
.
1 r
a1
r
aj
_
_
_
_
_
este matricea observatiilor asupra variabilelor ex-
plicative, =
_
,
0
, ,
1
, . . . , ,
j
_
t
este vectorul coecientilor, " = (-
1
, . . . , -
a
)
t
este vectorul erorilor.
Pentru evaluarea coecientilor necunoscuti ai modelului, inclusiv a rezidu-
urilor -
i
se dispune de un sistem de : ecuatii liniare avnd :j1 necunoscute.
Prin urmare, sistemul admite o innitate de solutii. Fie /
0
, /
1
. . . , /
j
o solutie
posibil a. Aceasta va trebui s a minimizeze global multimea distantelor de la
modelul liniar urmnd un criteriu ce va precizat, altfel spus:
se aleg (/
0
, /
1
. . . , /
j
) care minimizeaza mul timea valorilor c
i
unde
c
i
= j
i
(/
0
/
1
r
i1
. . . /
j
r
ij
) .
Un criteriu posibil este norma 1
I
care implic a minimizarea

[c
i
[
I
. Cazuri
particulare sunt:
norma 1
2
- caz n care procedeul de minimizare este denumit Metoda
celor mai mici patrate si determin a solutia ce minimizeaz a

(c
i
)
2
;
norma 1
1
- caz n care procedeul de minimizare este denumit Metoda
celor mai mici valori absolute si determin a solutia ce minimizeaz a

[c
i
[;
norma 1
o
- caz n care procedeul de minimizare este denumit Metoda
minmax si determin a solutia ce minimizeaz a
_
max
i
c
i
_
;
1
Liniaritatea relatiilor n raport cu coecientii poate s a apar a dup a o transformare pre-
alabil a a datelor. De exemplu: = c
3
r
o
1
1
r
o
2
2
(1 + -) devine liniar dup a transformarea
logaritmic a log = c
1
log r
1
+ c
2
log r
2
+ log c
3
+ log (1 + -)
4.1. MODELUL DE REGRESIE 207
Criteriul celor mai mici p atrate conduce la calcule algebrice simple, se
preteaz a la interpret ari geometrice clare si permite interpret ari statistice in-
teresante, motiv pentru care se utilizeaz a cel mai des.
Folosirea normei 1
1
n cazul regresiei liniare apare pentru prima dat a la
Laplace n 1793. Acest criteriu care nu privilegiaz a ecarturile importante st a
la baza metodelor de regresie mai robuste [35].
4.1.2 Estimarea functiei de regresie
Denitia 4.1.1 Se numeste func tie de regresie liniara multipla functia:
j = ) (r
0
, r
1
, . . . , r
j
) = /
0
r
0
/
1
r
1
. . . /
j
r
j
.
Estimarea acestei functii, n aceast a prezentare, presupune determinarea
coecientilor /
0
, /
1
. . . , /
j
prin metoda celor mai mici p atrate, pornind de la
observatiile j
i
, r
i0
= 1, r
i1
, . . . , r
ij

a
i=1
.
n cazul regresiei simple linare ( j = 1):
functia de regresie se mai numeste si dreapta de regresie,
/
0
se numeste intercep tie sau bias si reprezint a punctul de intersectie al
dreptei de regresie cu axa Oj,
/
1
se numeste panta dreptei de regresie si indic a modicarea proportion-
al a a variabilei dependente j la modicarea cu o unitate a variabilei
predictor r
1
.
n cele ce urmeaz a vom presupune c a variabilele sunt centrate, ceea ce
implic a /
0
= 0. Una dintre propriet atile regresiei multiple este aceea c a, ex-
ceptie f acnd /
0
, toate estimatiile coecientilor r amn neschimbate indiferent
dac a variabilele sunt sau nu centrate.
Lema 4.1.1
Coecientii functiei de regresie liniar a multipl a sunt:
b =
_
X
t
X
_
1
X
t
y.
Demonstratie. Fie sistemul de ecuatii de conditie:
y
a1
= X
aj
b
j1
e
a1
si y= Xb valorile prezise de modelul de regresie liniar a multipl a. ntr-o
manier a general a se caut a y ct mai aproape de y. Deci estimarea functiei de
regresie se reduce la determinarea coecientilor b care minimizeaz a
e
t
e =

c
2
i
= |y y|
208 CAPITOLUL 4. MODELE LINIARE
Termenul e
t
e este un produs scalar care depinde de /
1
. . . , /
j
, asadar o conditie
necesar a pentru aarea unui punct de extrem este anularea derivatelor partiale
de ordinul nti, adic a
0
0b
_
e
t
e
_
= 0.
Cum
e
t
e =(y Xb)
t
(y Xb) = y
t
y2b
t
X
t
y b
t
X
t
Xb
deoarece
y
t
Xb = b
t
X
t
y = scalar
rezult a c a
0
0b
_
e
t
e
_
= 2X
t
y2X
t
Xb.
Astfel, conditia de extrem devine:
X
t
Xb = X
t
y (4.1.1)
care este un sistem de j ecuatii cu j necunoscute, numit si sistem de ecua tii
normale. Dac a : _ j (mai multe ecuatii de conditie dect necunoscute) si
dac a X este de rang maxim j, atunci X
t
X este inversabil a. Asadar solutia
sistemului (4.1.1) este:
b =
_
X
t
X
_
1
X
t
y (4.1.2)
R amne de vericat c a b este un punct de minim. Fie

b o alt a solutie si e
vectorul ecarturilor corespunz atoare:
e = y X

b = (y Xb)
_
Xb X

b
_
= e X
_
b

b
_
Atunci
e
t
e = e
t
e 2
_
b

b
_
X
t
(y Xb)
_
b

b
_
t
X
t
X
_
b

b
_
iar n membrul drept, conform relatiei 4.1.1, termenul central este nul si egal-
itatea se reduce la
e
t
e = e
t
e
_
X
_
b

b
__
t
X
_
b

b
_
.
Membrul drept al identit atii este o sum a de p atrate ce nu poate dect pozi-
tiv a sau nul a. n concluzie e
t
e este cea mai mic a sum a a p atratelor ecarturilor,
deci b este minim.
Propriet atile algebrice ale coecientilor b permit si o interpretare geo-
metrica a operatiilor efectuate. Ne plas am n spatiul R
a
, unde : este num arul
observatiilor f acute asupra a j 1 variabile: j,r
1
, . . . , r
j
. C autarea lui j
sub forma unei combinatii liniare de r
1
, . . . , r
j
se reduce la a deni y ntr-un
subspatiu, \
A
, generat de variabilele explicative. Tehnica ajust arii celor mai
4.1. MODELUL DE REGRESIE 209
mici p atrate se reduce la aproximarea lui j prin proiectia sa ortogonal a j, pe
subspatiul \
A
. nlocuind b prin valoarea dat a de (4.1.2), se obtine
y = Xb = X
_
X
t
X
_
1
X
t
y = P
A
y
unde
P
A
= X
_
X
t
X
_
1
X
t
, (4.1.3)
este operatorul proiec tiei ortogonale pe \
A
.
Cum rezult a din g. 4.4.1, modelul teoretic y = X " deneste o
descompunere a lui y n doi termeni necunoscuti: X n \
A
si " n R
a
.
Metoda celor mai mici p atrate propune ca solutie descompunerea y = Xbe,
care minimizeaz a lungimea lui e proiectnd ortogonal y pe Xb n \
A
si "
pe e n subspatiul din R
a
,ortogonal pe \
A
, notat \
l
A
. Cei doi vectori, Xb si
e, sunt ortogonali.
fig. 4.1.1. Proiec Tia lui y pe \
A
S a remarc am c a variabilele ind centrate, lungimile n R
a
pot inter-
pretate n termeni de dispersie. Teorema lui Pitagora aplicat a n triunghiul
dreptunghic de catete Xb si e si ipotenuz a y se scrie
y
t
y = e
t
e b
t
X
t
Xb.
mp artind cu : ecare termen se obtine relatia
1
:

j
2
i
=
1
:

(j
i
j)
2

1
:

j
2
i
unde
1
:

j
2
i
reprezint a dispersia totala,
1
:

(j
i
j)
2
reprezint a dispersia reziduala,
1
:

j
2
i
reprezint a dispersia explicata.
210 CAPITOLUL 4. MODELE LINIARE
Pentru a avea o idee global a asupra calit atii aproxim arii se deneste
coecientul de corela tie multipla, 1, ca ind cosinusul unghiului ntre y si Xb,
sau coecientul de corelatie ntre valorile initiale si cele ajustate:
1 = cor(y, y) = cor (y, Xb)
P atratul s au poate exprimat sub diferite forme:
1
2
=
co
2
(y, y)
ar (y) ar ( y)
=
ar ( y)
ar (y)
=

j
2
i

j
2
i
=
dispersia explicit a
dispersia total a
.
Termenul 1
2
se numeste coecient de determinare . Dac a 1
2
= 1, atunci
j
i
= j
i
pentru orice i, deci modelul liniar ajusteaz a perfect datele.
n mod explicit, n functie de datele initiale, 1
2
se scrie ca
1
2
=
b
t
X
t
Xb
y
t
y
=
y
t
X(X
t
X)
1
X
t
y
y
t
y
Acest coecient descrie mp artirea dispersiei totale ntre dispersia explicat a si
cea rezidual a:
_
dispersia explicat a: 1
2
ar (y) = ar ( y)
dispersia rezidual a: (1 1
2
) ar (y) = ar (e)
= dispersia total a: ar (y) = ar ( y) ar (e)
Astfel, prin minimizarea termenului

c
2
i
se maximizeaz a termenul 1
2
. Cu
alte cuvinte, metoda celor mai mici patrate determina acea combina tie liniara
a variabilelor explicative ce maximizeaza corela tia cu variabila explicata y.
Observatia 4.1.1
Valoarea lui 1 nu poate totusi un criteriu absolut de apreciere a calit atii
estim arii. ntr-adev ar, trebuie remarcat c a introducerea n model a unei noi
varabile explicative nu poate dect s a micsoreze suma p atratelor ecarturilor si
n consecint a s a creasc a valoarea lui 1. Ad augnd o dimensiune spatiului \
A
distanta de la y la acest subspatiu scade.
4.1.3 Calitatea estim arii
Pn a acum ne-am limitat la a rezolva o problem a pur numeric a de inter-
polare, cu o m asur a global a a calit atii dat a de coecientul de corelatie multipl a,
1. Ne propunem, n cele ce urmeaz a, s a test am
calitatea acestei interpol ari si
semnicatia statistic a a coecientilor de regresie,
4.1. MODELUL DE REGRESIE 211
ceea ce implic a noi ipoteze asupra lui y si ".
S a presupunem c a reizduul -
i
este efectul cumulat al unui mare num ar
de cauze neidenticate si n consecint a l putem considera ca o peturbatie
aleatoare. Acest punct de vedere, extins la cele : relatii ale modelului, in-
troduce un vector aleator de reziduuri, ", si deneste y = Xb " ca vector
aleator.
Tabelul 4.4.1. rezum a caracteristicile diferitelor elemente ale modelului.
tabelul 4.1.1. Caracteristicile elementelor modelului de
regresie
y = X" Observat Neobservabil
Aleator y "
Nealeator X
Se presupune c a reziduurile -
i
au ' (-
i
) = 0, au aceeasi dispersie vai (-
i
) =
o
2
si sunt dou a cte dou a necorelate, ar (-
i
, -
)
) = 0, \i = 1, :, , = 1, :. Deci
' (") = 0; ar (") = '
_
""
t
_
= o
2
I
ceea ce implic a relatiile
' (y) = X; ar (y) = ar (") = o
2
I (4.1.4)
Vectorul b =(X
t
X)
1
X
t
y al coecientilor de regresie, ind o functie de y,
este la rndul s au un vector aleator. Cu acestea se poate formula urm atoarea
lem a.
1.
Lema 4.1.2
(a) b este un estimator nedeplasat al lui ;
(b) ar (b) = o
2
(X
t
X)
1
Demonstratie.
(a) Din formula 4.1.4
' (b) =
_
X
t
X
_
1
X
t
' (y) =
_
X
t
X
_
1
X
t
X = .
(b) Dispersia lui b se scrie ca
ar (b) = '
_
(b ) (b )
t
_
.
Dar
b =
_
X
t
X
_
1
X
t
y =
=
_
X
t
X
_
1
X
t
(X ") =
=
_
X
t
X
_
1
X
t
".
212 CAPITOLUL 4. MODELE LINIARE
Se obtine deci
'
_
(b ) (b )
t
_
=
_
X
t
X
_
1
X
t
'
_
""
t
_
X
_
X
t
X
_
1
=
=
_
X
t
X
_
1
X
t
o
2
IX
_
X
t
X
_
1
=
= o
2
_
X
t
X
_
1
Teorema 4.1.1 (Gauss-Markov) b =(X
t
X)
1
X
t
y este estimatorul de dis-
persie minima al lui n clasa estimatorilor liniari nedeplasa ti.
Demonstratie. Fie By un alt estimator liniar nedeplasat al lui si e
(X
t
X)
1
X
t
y By diferenta dintre cei doi estimatori. Cum acestia sunt nede-
plasati rezult a c a
_
X
t
X
_
1
X
t
X = BX.
Aceast a relatie este adev arat a pentru orice , deci
BX = I
j1
.
S a alegem B = (X
t
X)
1
X
t
C. Cum BX = I
j1
rezult a CX = 0.
Matricea de variant a-covariant a a lui By este:
ar (By) = Bar (y) B
t
=
_
_
X
t
X
_
1
X
t
C
_
o
2
I
_
_
X
t
X
_
1
X
t
C
_
t
=
= o
2
_
_
X
t
X
_
1
X
t
X
_
X
t
X
_
1
CX
_
X
t
X
_
1

_
X
t
X
_
1
X
t
C
t
CC
t
_
Cum CX = 0 rezult a, conform lemei 4.1.2:
ar (By) = o
2
_
_
X
t
X
_
1
CC
_
=
= ar (b) o
2
CC
t
Asadar, ecare component a /
i
a lui b are o dispersie mai mic a dect
(By)
i
iar pe de alt a parte ar (By) ar (b) este semi-pozitiv denit a (ntr-
adev ar matricea CC
t
este simetric a iar termenii de pe diagonala principal a
sunt nenegativi).
S a not am c a o
2
este dispersia teoretic a a reziduurilor si n general nu
este cunoscut a. Termenul o
2
se poate estima prin :
2
, dispersia empiric a a
ecarturilor, calculat a dup a ajustare, deoarece:
Lema 4.1.3
:
2
=
|y y|
2
: j
=
|y Xb|
2
: j
este un estimator nedeplasat al lui o
2
.
4.1. MODELUL DE REGRESIE 213
Demonstratie. S a consider am triunghiul dreptunghic ale c arui vrfuri sunt
extremit atile vectorilor y, Xb, si X (g. 4.1.1.). S-a notat cu P
A
proiectorul
pe \
A
- subspatiul generat de variabilele exogene r
1,
, . . . , r
j
, si cu I P
A
proiectorul pe \
l
A
.. Deoarece e = yXb este perpendicular pe \
A
se observ a
c a
yXb =(I P
A
) ".
Asadar, " se descompune n Xb X n \
A
si y Xb n \
l
A
. Cu acestea,
avnd n vedere c a I P
A
, ind proiector, este simetric:
(I P
A
)
t
= I P
A
si idempotent:
I P
A
= (I P
A
)
2
,
rezult a
|yXb|
2
= "
t
(I P
A
)
t
(I P
A
) " =
= "
t
(I P
A
) " =
=

i,)
c
i)
-
i
-
)
,
unde s-au notat cu c
i)
componentele lui I P
A
.
Rezult a
'
_
|yXb|
2
_
=

i,)
c
i)
' (-
i
-
)
) =
=

i,)
c
i)
o
2
c
i)
=
= o
2
a

i=1
c
ii
= o
2
tr (I P
A
)
unde c
i)
este simbolul lui Kroneker. Dar urma unui proiector este egal a cu ran-
gul s au (deoarece valorile sale proprii sunt 0 sau 1) adic a este egal a cu dimen-
siunea spatiului de sosire care este aici \
l
A
. Avnd n vedere c a di:(\
A
) = j
rezult a di:
_
\
l
A
_
= : j, deci
'
_
|yXb|
2
_
= o
2
(: j) .
Dac a not am cu V matricea de covariant a empiric a a variabilelor explica-
tive presupuse centrate
_
V =
1
a
X
t
X
_
se obtine relatia
ar (b) =
o
2
:
V
1
214 CAPITOLUL 4. MODELE LINIARE
S a remarc am dualitatea care exist a ntre variabilele explicative si coe-
cientii acestor variabile n modelul de regresie liniar a. Variabile explicative
necorelate (matricea V diagonal a) implic a coecienti de regresie necorelati.
Rezultatele precedente permit s a imagin am diferite teste statistice n
ipoteze sucient de generale. ntr-adev ar, dac a specic am legea de repartitie
a reziduurilor, atunci putem obtine diferite teste clasice pe care le vom aminti
n cele ce urmeaz a f ar a demonstratie.
n continuare presupunem
\ : " v
_
0
a1
, o
2
I
aa
_
.
n acest caz, densitatea de probabilitate a vectorului aleator y este:
) (y; ,o) =
1
_
o
_
2
_
a
oxp
_

1
2o
2
(y X)
t
(y X)
_
deoarece y este un vector aleator normal : dimensional, de medie X si ma-
trice de variant a-covariant a o
2
I.
Lema 4.1.4
Estimatorii de verosimilitate maxim a ai lui si o
2
sunt

= b =
_
X
t
X
_
1
X
t
y si
o
2
=
1
:
|y Xb|
2
=
1
:
|e|
2
, care este deplasat.
Cum transform arile liniare ale unui vector gaussian nu schimb a legea sa
de repartitie, b este un vector normal j dimensional, de medie si matrice de
variant a-covariant a o
2
(X
t
X)
1
.
Tot din ipoteza \ se mai poate deduce c a
2
|"|
2
o
2
v
2
(:)
iar teorema lui Pitagora pentru triunghiul dreptunghic determinat de extrem-
it atile vectorilor y, Xb, si X se transform a n teorema lui Cochran rezultnd
|X Xb|
2
o
2
v
2
(j) si
|y Xb|
2
o
2
v
2
(: j) .
Cele dou a variabile sunt independente, ca forme p atratice de rang j respectiv
: j (rangul proiectorilor) de : variabile normale centrat-reduse.
Pornind de la distributia lui
|yXb|
2
o
2
se pot construi intervale de n-
credere pentru o.
2
Fie r
1
, r
2
, . . . , r
n
variabile indepedente, distribuite dup a o lege normal a standard.
Atunci variabila obtinut a prin nsumarea p atratelor lor,
2
= r
2
1
+ r
2
2
+ . . . + r
2
n
urmeaz a o
distributie chi-p atrat cu n grade de libertate notat a
2
(n).
4.1. MODELUL DE REGRESIE 215
Pentru a testa dac a o variabil a explicativ a r
I
are o inuent a real a asupra
variabilei endogene j se consider a urm atoarea pereche de iopteze:
H
0
: ,
I
= 0 cu alternativa H

: ,
I
,= 0.
Statistica testului este
t
I
=
/
I
:
I
unde :
I
este estimatia abaterii standard a coecientului /
I
dat a de formula
:
I
=
_
|yXb|
aj

II
, cu
II
al /lea element de pe diagonala matricii (X
t
X)
1
.
n ipoteza \H
0
, statistica t
I
este repartizat a t(:j) (Student cu :j
grade de libertate, deoarece modelul estimeaz a j coecienti). Fie
j
I
= 1 ([t(: j)[ _ t
I
) .
Dac a j
I
< 0, 0 se repinge ipoteza conform c areia variabila r
I
nu are o inu-
ent a real a asupra lui y cu un grad de ncredere de 0/.
Testul de mai sus poate extins la o combinatie liniar a oarecare de
coecienti.
n cele de mai sus am v azut cum se poate testa succesiv nulitatea ec arui
coecient. Totusi, r aspunsurile la probleme de tipul ",
1
= 0 f ar a nicio pre-
supunere asupra lui ,
2
" apoi ",
2
= 0 f ar a nicio presupunere asupra lui ,
1
nu
determin a r aspunsul la o problem a de tipul ",
1
= 0 si simultan ,
2
= 0" deoa-
rece predictorii pot foarte corelati ntre ei. De aici reiese utilitatea test arii
nulit atii simultane a mai multor coecienti de regresie.
Dac a presupunem, f ar a a pierde din generalitate, c a primii coecienti
de regresie sunt zero atunci perechea de ipoteze a testului compus este
H
0
: ,
1
= ,
2
= . . . = ,
q
= 0 (si restul j coecienti sunt oarecare)
cu alternativa
H

: cel putin unul dintre primii coecienti este nenul.


S a not am cu X
1
0
ultimele j coloane ale lui X si cu
1
0
ultimele
j componente ale lui . Modelul de regresie se scrie matriceal n cele dou a
ipoteze astfel:
H
0
: y
0
= X
1
0

1
0
"
0
(modelul redus),
H

: y = X " (modelul complet).


Se consider a statistica
1 =
_
|y y
0
|
2
|y y|
2
_
,
|y y|
2
, (: j)
216 CAPITOLUL 4. MODELE LINIARE
care n ipoteza \H
0
este repartizat a Fisher cu si :j grade de libertate
3
.
Se noteaz a
o
0
= |y y
0
|
2
si o
1
= |y y|
2
.
Dac a diferenta ntre cele dou a cantit ati o
0
si o
1
este mare, deci 1 este mare,
atunci efectul primelor variabile este important si ipoteza nul a va respins a;
cele variabile r
1
, , r
q
inuenteaz a simultan y.
S a observ am c a sunt necesare dou a estim ari succesive pentru a calcula
o
1
si o
0
.
Dac a dorim s a test am adecvarea modelului liniar la datele observate,
atunci vom testa nulitatea coecientului de determinare adic a:
H
0
: 1
2
= 0 (toti coecientii de regresie liniari sunt zero)
cu alternativa
H

: 1
2
,= 0
Se consider a statistica
1
1
=
1
2
,j
(1 1
2
) , (: j)
care, n ipoteza \H
0
, este repartizat a Fisher cu j si :j grade de libertate.
Ipoteza H
0
(a non-regresiei) corespunde si nulit atii coecientului de corelatie
multipl a teoretic, R, n cadrul regresiei ntre variabilele aleatoare. n ipoteza
alternativ a, H
o
: R
2
,= 0, se poate ar ata c a 1
2
este un estimator deplasat al
lui R
2
, motiv pentru care unii autori folosesc n loc de 1
2
o form a ajustat a a
acestuia, adic a

1
2
=
(: 1) 1
2
j
: j
care elimin a deplasarea n 1,: dar poate conduce la valori negative a lui R
2
cnd acesta este foarte mic.
Un calcul elementar arat a c a
o
2
=
:
: 1
_
1

1
2
_
:
2
j
.
Dac a se doreste calcularea unui interval de ncredere pentru o valoare
j
0
prezis a de modelul de regresie liniar a multipl a
_
y, X,o
2
I
_
, care cores-
punde unei observatii suplimetare pentru care variabilele explicative iau valo-
rile r
10
, r
20
, . . . , r
j0
atunci, considernd x
t
0
=(1, r
10
,r
20
,...,r
j0
), y
0
= x
t
0
b este
o variabil a aleatoare normal a de medie x
t
0
si dispersie o
2
_
x
t
0
(X
t
X)
1
x
0
_
.
3
Fie variabilele aleatoare A s
2
(i
1
) si Y s
2
(i2) . Atunci variabila aleatoare 1 s
_
2
(
1
)
_
2
(
2
)
urmeaz a o repartitie Fisher cu i
1
si i
2
grade de libertate.
4.1. MODELUL DE REGRESIE 217
n ipoteza \, statistica
y
0
y
0
o
_
1 x
t
0
(X
t
X)
1
x
0
este repartizat a t (: j) , ceea ce permite estimarea unui interval de ncredere
pentru valoarea adev arat a j
0
cu un prag de semnicatie dat.
4.1.4 Studiul reziduurilor si al observatiilor aberante
Studiul reziduurilor este important deoarece:
poate evidentia posibilele observatii aberante sau pe cele care joac a
un rol important n determinarea functiei de regresie;
adesea este singura modalitate de a verica empiric ipotezele mod-
elului (liniaritate, homoscedasticitate
4
etc.). Dac a aceste ipoteze sunt corecte
atunci gracul reziduurilor n functie de variabilele explicative nu trebuie s a
prezinte nicio tendint a.
Lema 4.1.5
ar (e) = o
2
_
I X
_
X
t
X
_
1
X
t
_
Demonstratie. Deoarece yle (din constructie) si
y = (y Xb) Xb = e y
rezult a
ar (y) = ar (e) ar ( y) .
Din ipoteza \ rezult a
o
2
I =ar (e) o
2
X
_
X
t
X
_
1
X
t
deoarece, conform lemei 4.1.2
ar ( y) = ar (Xb) = Xar (b) X
t
=
2
X
_
X
t
X
_
1
X
t
.
Deci ar (e) = o
2
_
I X(X
t
X)
1
X
t
_
Lema 4.1.5 arat a c a reziduurile sunt, n general, corelate.
Notnd cu
/
i
=
_
X
_
X
t
X
_
1
X
t
_
ii
obtinem
\ (c
i
) = (1 /
i
) o
2
4
La date bivariate, variabila y prezint a homoscedasticitate dac a mpr astierea valorilor
nu depinde de x. Grac, sectiunile verticale n diagrama de mpr astiere prezint a distributii
similare ale norilor de puncte. Notiunea contrar a este cea de heteroscedasticitate.
218 CAPITOLUL 4. MODELE LINIARE
cu
1
a
_ /
i
_ 1 si
a

i=1
/
i
= j deoarece urma unui proiector este egal a cu rangul
s au (valorile sale proprii ind 0 sau 1) iar o estimatie a dispersiei reziduului
este :
2
(1 /
i
) .
Denitia 4.1.2 Se numeste reziduu studentizat m arimea
c
i
:
_
1 /
i
=
(j
i
j
i
)
:
_
1 /
i
.
Cnd : este mare, reziduurile studentizate trebuie s a r amn a n intervalul
(2, 2).
Un reziduu mare poate indica o valoare aberant a. Pe de alt a parte, o
valoare poate aberant a f ar a ca reziduul s au s a e important (g. 4.1.2.).
fig. 4.1.2. Valoare aberant

A cu reziduu - 0
Din acest motiv se recomand a studiul inuentei ec arei observatii asupra rezul-
tatului.
S a ncepem prin a studia inuen ta unei observa tii asupra propriei predic tii.
Denitia 4.1.3 Se numeste reziduu prognozat ecartul j
i
j
(i)
unde cu j
(i)
s-a notat prognoza lui j
i
dat a de modelul liniar ajustat pe baza celor : 1
observatii obtinute prin excluderea observatiei i.
Se poate ar ata c a reziduul prognozat este
j
.
e j
.
1I
.
([53]). Se recomand a deci
prudent a fat a de observatiile cu /
i
mare.
M arimea
Press =
a

i=1
_
j
i
j
i
1 /
i
_
2
este o m asur a a puterii predictive a modelului.
Interesant a pentru demersul nostru este si inuen ta unei observa tii asupra
coecien tilor regresiei.
Denitia 4.1.4 Se numeste distan ta Cook m arimea:
1
i
=
_
b b
(i)
_
t
(X
t
X)
_
b b
(i)
_
j :
2
=
_
_
y y
(i)
_
_
j :
2
(deoarece y = Xb si y
(i)
= Xb
(i)
).
4.1. MODELUL DE REGRESIE 219
Distanta Cook m asoar a ecartul dintre b si b
(i)
si o valoare supraunitar a
a sa reprezint a un indicator al unei inuente anormale a observatiei i asupra
coecientilor de regresie.
4.1.5 Tehnici de stabilizare a coecientilor de regresie
Sursa principal a de instabilitate n estimarea coecientului este re-
dundanta predictorilor. Statistic, aceast a situatie se reect a ntr-o corelatie
puternic a ntre variabilele explicative.
Dac a predictorii sunt foarte corlelati ntre ei X
t
X este prost conditionat a
(adic a valoarea determinantului este apropiat a de 0) si inversa acestei matrici
va avea coecienti foarte mari. n aceast a situatie, avnd n vedere c a b =
(X
t
X)
1
X
t
y, coecientii de regresie vor estimati imprecis si predictia y va
obtinut a cu erori mari chiar dac a 1
2
este aproape de 1.
Efectul coliniarit atii ntre predictori se m asoar a cu ajutorul:
factorilor de inatie a dispersiei si al
valorilor proprii ale matricii de corelatie.
n cele ce urmeaz a vom presupune c a toate variabilele sunt centrat-
reduse, ceea ce nu inuenteaz a 1
2
, ns a X
t
X devine egal cu :R, unde R
este matricea de corelatie a predictorilor. Astfel
ar (b) = o
2
R
1
:
si ar (/
i
) =
o
2
:
_
R
1
_
ii
.
Dac a cele j variabile explicative sunt ortogonale, regresia multipl a se reduce
la j regresii simple: ar (/
i
) =

2
a
.
Termenul
_
R
1
_
ii
se numeste factor de ina tie a dispersiei pentru c a
reprezint a un factor de multiplicitate a dispersiei ca urmare a redundantei
(multicoliniarit atii) predictorilor. Media celor j factori de inatie este utilizat a
uneori ca indice global al multicoliniarit atii.
S a consider am descompunerea R = UU
t
unde este matricea diago-
nal a a valorilor proprii si U este matricea vectorilor proprii ai lui R. n acest
caz
R
1
= U
1
U
t
rezultnd
ar (/
i
) =
o
2
:
j

)=1
(n
i)
)
2
`
)
.
ar (/
i
) depinde de inversele valorilor proprii ale lui R. Cnd predictorii sunt
puternic corelati, ultimele valori proprii sunt aproape nule, de unde rezult a
instabilitatea lui /
i
.
Conform teoremei Gauss-Markov, metoda celor mai mici p atrate furnizeaz a
estimatorii de dispersie minim a ai lui ,
i
n clasa estimatorilor nedeplasati.
220 CAPITOLUL 4. MODELE LINIARE
Cum p atratul erorii este egal cu dispersia plus p atratul deplas arii, este posibil
ca n anumite conditii s a obtinem estimatii mai precise ale coecientilor cu o
deplasare usoar a.
n cele ce urmeaz a vom considera doar dou a tehnici de obtinere de coe-
cienti stabili:
Regresia pe componente principale;
Regresia Ridge;
Metodele de selectie a variabilelor (subcapitolul 4.1.6) pot si ele con-
siderate ca remedii posibile ale multicoliniarit atii.
Regresia pe componente principale revine la nlocuirea celor j variabile
explicative cu cele j componente principale (demers posibil deoarece acestea
genereaz a acelasi spatiu \
A
) si efectuarea regresiei multiple pe acestea din
urm a. Componentele principale ind necorelate (lema 1.2.9), conform obser-
vatiei de mai sus regresia multipl a se reduce la j regresii simple iar
y =
j

i=1
c
i
c
i
cu c
i
=
cor (y, c
i
)
_
`
)
:
y
unde am notat cu c
i
componentele principale. Este sucient s a exprim am c
i
n functie de variabilele initiale pentru a obtine o formul a de regresie liniar a
multipl a.
Cnd coliniaritatea predictorilor este exact a, atunci `
j
= 0 iar o solutie
a ecuatiilor normale este y =
j1

i=1
c
i
c
i
.
Dac a se retin doar componente principale, eliminndu-le pe cele de
dispersie mic a, atunci se obtine o solutie aproximativ a proiectnd y pe un
subspatiu al lui \
A
.
S a observ am c a acele componente principale care au o dispersie mare
nu sunt ntotdeauna cele mai explicative si c a este mai util s a le ordon am n
functie de coecientii lor de corelatie cu y.
Regresia Ridge consider a urm atorii estimatori pentru
b(/) =
_
X
t
X/I
_
1
X
t
y
unde / este o constant a pozitiv a ce trebuie determinat a. b(0) este estimatorul
celor mai mici p atrate.
Se poate ar ata [53] c a exist a ntr-adev ar un / astfel nct
'
_
|b(/) b|
2
_
_ '
_
|b |
2
_
=
o
2
:
j

i=1
1
`
i
Valoarea optimal a a lui / depinznd de , necunoscut. n practic a se variaz a /
de la 0 la 1 pe datele centrat-reduse si se studiaz a variatiile lui /
)
(/) (gracul
Trace Ridge).
4.1. MODELUL DE REGRESIE 221
4.1.6 Tehnici de selectie a variabilelor
Pentru a micsora num arul de predictori, a creste viteza de calcul si a
obtine formule stabile cu o putere predictiv a bun a, se explic a y doar prin
predictori n loc de j .
Criteriile de c autare a celor predictori depind de scopul regresiei: re-
constituirea lui y, prognoza de valori noi sau estimarea precis a a unui model.
Criteriul coecientului de determinare 1
2
, este bine adaptat primului
obiectiv si este cel mai utilizat n programele de regresie pas cu pas. Asa cum
mentionam mai nainte, el variaz a monoton cu num arul variabilelor si deci nu
poate folosit pentru a alege cardinalul multimii de predictori.
Dac a obiectivul este acela de a minimiza eroarea de prognoz a, se reco-
mand a folosirea lui :
2
sau a lui 1rc:: (mai greu de calculat). :
2
nu variaz a
monoton cu num arul de variabile deoarece
:
2
=
:
: j
_
1 1
2
_
:
2
j
n schimb :
2
variaz a monoton cu

1
2
, coecientul de determinare ajustat. Prin
urmare, este mai interesant s a consider am

1
2
drept criteriu de alegere (cri-
teriul coecientului de determinare ajustat), deoarece astfel se pot compara
formule de regresie cu num ar diferit de variabile si se poate alege acea formul a
care minimizeaz a :
2
sau maximizeaz a

1
2
.
Implementarea unuia dintre criteriile de mai sus se poate face:
printr-o c autare exhaustiv a sau
prin metode de c autare pas cu pas.
Cautarea exhaustiva este recomandat a atunci cnd j nu este prea mare
si este posibil a investigarea tuturor formulelor: sunt C
q
j
formule de variabile,
deci n total 2
j
1 regresii.
Dac a este xat, va aleas a formula care maximizea a pe 1
2
iar dac a
nu este xat, va aleas a formula care minimizeaz a pe :
2
.
Metodele de cautare pas cu pas procedeaz a prin eliminarea sau ad augarea
succesiv a de variabile.
Metoda descendenta const a n eliminarea variabilei celei mai putin semi-
ncative dintre cele j variabile - n general aceea care diminueaz a cel mai
putin pe 1
2
. Se recalculeaz a coecientii de regresie pn a la eliminarea
a j 1 variabile sau n functie de un test statistic precizat.
Metoda ascendenta procedeaz a n sens invers: se porneste de la cea
mai bun a regresie ntr-o variabil a si se adaug a acea variabil a care maxi-
mizeaz a pe 1
2
.
222 CAPITOLUL 4. MODELE LINIARE
Metoda stepwise reprezint a o perfectionare a algoritmilor precedenti. La
ecare pas se efectueaz a, n plus, teste de semnicatie de tip Student
sau Fisher pentru a nu introduce o variabil a nesemnicativ a si pentru
a elimina eventual variabilele deja introduse care nu mai sunt att de
informative n noul context. Algoritmul se termin a cnd nu mai poate
ad augat a sau scoas a vreo variabil a.
Aceste metode nu dau obligatoriu cea mai bun a regresie n variabile si
nici acelasi rezultat, dar sunt usor de implementat. Ele exclud posibilitatea de
a elimina o variabil a semnicativ a. n acest context trebuie s a atragem atentia
asupra faptului c a dac a se cunoaste c a o variabil a trebuie s a gureze ntr-un
model, din considerente zice de exemplu, aceasta nu trebuie eliminat a doar
pentru c a un test statistic a declarat-o nesemnicativ a.
4.1.7 Exemplu
Descrierea datelor
n urma unor m asur atori ecograce realizate asupra a 414 nen ascuti s-au
obtinut valorile din tabelul A.7 (Anex a).
Variabilele din acest tabel reprezint a:
predictorii
DBP = diametrul biparietal,
PC = perimetrul cefalic,
PA = perimetrul abdominal,
variabila dependent a
GN = greutatea la nastere.
Ne propunem construirea unui model de regresie capabil s a determine,
pe baza datelor existente, greutatea la nastere pentru noi subiecti pentru care
se cunosc valorile DBP, PC, PA. Altfel spus, utiliznd valorile din tabelul
A.7., trebuie g asiti coecientii ,
0
, ,
1
, ,
2
, ,
S
care permit predictia optim a
a variabilei dependente j
i
= ,
0
,
1
r
i1
,
2
r
i2
,
S
r
iS
, unde j
i
reprezint a
greutatea la nastere a subiectului i si r
i1
, r
i2
, r
iS
sunt valori ale predictorilor
mai sus mentionati pentru subiectul respectiv.
Efectuarea analizei si interpretarea rezultatelor
n programul STATISTICA, optiunea pentru analiza de regresie este
disponibil a n meniul Statistics, Advanced Linear/Nonlinear Models, General
Regression Models. n fereastra activat a (g. 4.1.3) se opteaz a pentru modelul
regresiei multiple, avnd n vedere existenta mai multor variabile predictor, si
se apas a OK.
4.1. MODELUL DE REGRESIE 223
fig. 4.1.3. Fereastra de start
O nou a fereastr a permite selectarea variabilelor pe categorii: predictorii
(DBP, PC, PA) si variabila dependent a (GN). Dup a o nou a ap asare a bu-
tonului OK fereastra ap arut a pune la dispozitie diverse rezultate grace sau
tabelare, specice analizei de regresie. Pentru asarea listei complete a rezul-
tatelor (g 4.1.4.) se apas a butonul More results.
fig 4.1.4. Fereastra de rezultate
Pentru nceput se veric a ndeplinirea conditiei de normalitate a dis-
tributiei reziduurilor (Submeniul Residuals 1, butonul Residuals, cu optiunea
Raw).
224 CAPITOLUL 4. MODELE LINIARE
fig. 4.1.5. Reziduurile sunt normal distribuite
Examinarea histogramei din g. 4.1.5. conrm a ndeplinirea acestei conditii si
permite trecerea la un alt pas premerg ator analizei de regresie. Acesta const a
n vericarea existentei leg aturilor de tip liniar ntre variabila dependent a si
ecare dintre predictori, leg atur a f ar a de care acest tip de analiz a nu ar
justicat. n acest scop se examineaz a matricea corelatiilor sau, pentru o
reprezentare mai sugestiv a, diagramele de tip Scatterplot care se obtin plecnd
de la matricea corelatiilor (Correlations n submeniul Matrix, tabelul 4.1.1.)
prin:
click dreapta pe unul dintre coecientii de corelatie de pe linia variabilei
GN (de exemplu 0,73, reprezentnd corelatia dintre greutatea la nastere
si diametrul biparietal),
selectarea Graphs of Input Data, Scatterplot by, Regression, 95% conf si
alegerea variabilei DBP cu care GN se prepupune a avea o leg atur a
liniar a.
Se va repeta algoritmul si pentru ceilalti doi predictori si se vor obtine
grace similare celui din g. 4.1.6., n care forma norului de puncte indic a,
ntr-adev ar, existenta unei relatii liniare pozitive ntre cele dou a variabile.
4.1. MODELUL DE REGRESIE 225
tabelul 4.1.1. matricea de corela Tii
fig. 4.1.6. Scatterplot indicnd o rela Tie liniar

A ntre
greutatea la na Stere Si diametrul biparietal
Concluziile obtinute permit realizarea efectiv a a analizei de regresie: cal-
culul coecientilor dreptei de regresie si determinarea calit atii modelului.
Coecientii liniei de regresie pot vizualizati selectnd Summary, Re-
gression coecients, procedeu n urma c aruia se obtine tabelul 4.1.2. Asadar,
ecuatia liniei de regresie (n forma nestandardizat a) este:
GN = 476, 66 202, 288 DBP 8, 00 PC 124, 278 PA.
si permite predictia greut atii la nastere atunci cnd se cunosc valorile di-
ametrului biparietal, ale perimetrului cefalic si ale perimetrului abdominal.
226 CAPITOLUL 4. MODELE LINIARE
tabelul 4.1.2 coeficien Tii de regresie
Pentru a determina n ce m asur a variabilele independente contribuie la
predictia greut atii la nastere se analizeaz a coecientii n forma nestandardizat a
(Param.) sau standardizat a (Beta). Se observ a c a toti sunt pozitivi, deci
valori ridicate ale diametrului biparietal, perimetrului cefalic si perimetru-
lui abdominal implic a o greutate superioar a la nastere. n plus, perimetrul
abdominal are o contributie deosebit a, avnd un coecient corespunz ator de
0, 600. Aceste observatii sunt conrmate de matricea coecientilor de core-
latie (tabelul 4.1.1.) iar o imagine de ansamblu asupra contributiei celor trei
variabile este oferit a si de gracul Pareto (butonul Pareto chart of eects, g.
4.1.7.).
Tabelul 4.1.2. ofer a, n plus, valorile pentru:
erorile standard ale parametrilor estimati (Std. Err) care indic a disper-
sia fat a de linia de regresie a valorilor estimate si contribuie la calculul
statisticilor t,
statisticile t, calculate pentru testarea semnicatiei estimatorilor,
pragurile de semnicatie j, ale c aror valori mai mici dect 0, 0 conrm a
faptul c a toti estimatorii (DBC, PC, PA) sunt semnicativi,
intervalele de ncredere calculate la aceste praguri,
erorile standard si intervalele de ncredere pentru coecientii standard-
izati.
4.1. MODELUL DE REGRESIE 227
fig. 4.1.7. Graficul Pareto
O comparatie, sub form a de tabel sau grac scatterplot (g 4.1.9.), din-
tre valorile prezise de modelul de regresie si cele reale se obtine din subme-
niul Residuals1 (g 4.1.8.) ap asnd butonul Predicted and residuals respectiv
Obs.& Pred.
fig. 4.1.8. Submeniul residuals1
228 CAPITOLUL 4. MODELE LINIARE
fig. 4.1.9. Valorile calculate Si valorile observate
Indicatorii calit atii ajust arii (tabelul 4.1.3) se pot examina selectnd
Summarry, Whole model R.
tabelul 4.1.3. Indicatori de ajustare
Acesti indicatori sunt calculati pe baza erorii standard si au urm atoarele
semnicatii:
coecientul de corela tie multipla (R) - indic a nivelul corelatiei dintre
valorile observate si cele calculate. O valoare a sa ridicat a (0.88) conrm a
o dependent a puternic a ntre acestea, adic a evolutiile DBP, PA si PC au
o puternic a inuent a asupra evolutiei greut atii la nastere.
coecientul de determinare (R
2
) - reprezint a p atratul coecientului de
corelatie multipl a si indic a n ce m asur a modelul de regresie red a leg a-
turile dintre variabila dependent a si variabilele predictor. Cu ct R
2
este mai mare cu att predictia variabilei dependente este mai exact a.
n acest caz, 78, 0/ din variatia greut atii la nastere este explicat a de
variatia diametrului biparietal, a perimetrului cefalic si a perimetrului
abdominal al f atului, restul de 21, 41/ datorndu-se altor cauze.
valoarea ajustata a coecientului de determinare (Adjusted R
2
) - este
valoarea corectat a a lui R
2
n functie de num arul de variabile predictor
si de num arul de indivizi. Adjusted R
2
se interpreteaz a similar cu R
2
.
4.2. ANALIZA DISPERSIONAL

A 229
Modelul de regresie de mai sus a fost construit lund n considerare
toti predictorii, declarati semnicativi n urma utiliz arii testului t. Metoda
ascendent a de constructie a modelului (g. 4.1.10.) ofer a aceleasi rezultate si
are urm atoarea structur a:
fig. 4.1.10. Metoda ascendent

A
4.2 Analiza dispersional a
Dac a variabilele explicative sunt discrete (nominale), regresia multipl a
devine analiza dispersionala (sau analiza de varian ta - ANOVA), tehnic a
legat a de planurile de experient a si de tratamentul statistic al datelor ex-
perimentale.
La originea analizei dispersionale si a planurilor de experient a se a a o
serie de articole ale lui R. A. Fisher [27] din anii dou azeci ai secolului trecut.
S a presupunem c a dispunem de : observatii asupra variabilei continue j
si asupra a j variabile nominale r
1
, . . . , r
j
cu respectiv :
1
, . . . , :
j
modalit ati.
Matricea variabilelor explicative, X, se prezint a sub forma unui tablou
disjunctiv complet [X
1
, . . . , X
j
[ . n acelasi timp, pentru ecare submatrice
X
I
suma coloanelor este egal a cu vectorul 1
a
. Exist a deci j relatii liniare
ntre coloanele lui X. Maricea X nu este de rang maxim si deci X
t
X nu este
inversabil a.
Sistemul de ecuatii normale are o innitate de solutii; toate solutiile duc
la acelasi vector y care este proiectia lui y pe \
A
, dar coecientii /
i
nu sunt
unici.
Pentru a obtine o estimatie unic a /, trebuie impuse j restrictii liniare
privind codic arile variabilelor calitative. Cea mai des utilizat a restrictie cere
ca suma coeientilor lui b relativ la ecare variabil a nominal a s a e nul a. Se
poate verica faptul c a aceasta revine la suprimarea unei coloane din ecare
230 CAPITOLUL 4. MODELE LINIARE
submatrice si la nlocuirea coloanelor r amase cu diferenta dintre ele si coloana
suprimat a.
Matricea variabilelor explicative astfel recodate,

X , este de rang maxim:
ra:q
_

X
_
=
j

I=1
(:
I
1) .
Pentru simplicarea expunerii vom considera n cele ce urmeaz a c a dis-
punem de dou a variabile nominale si 1, numite n acest context factori,
avnd 1, respectiv J modalit ati numite, n acest context, nivele.
Analiza dispersional a cu doi factori cu interactiune se reduce la a efectua
regresia lui j cu matricea de conditie

X =
_
1
.
.
.

X
1
.
.
.

X
2
.
.
.

X
12
_
cu
ra:q
_

X
1
_
= J; ra:q
_

X
2
_
= 1; ra:q
_

X
12
_
= J1,
unde

X
1
si

X
2
sunt matricile indicator reduse ale celor doi factori si 1
iar

X
12
este matricea interactiunilor corespunznd celor J1 combinatii ale
nivelelor lui si 1. Cu acestea, modelul se scrie:
j = j 1

X
1
c

X
2
,

X
12
"
Se poate utiliza, deci, un program de regresie multipl a pentru a efectua o
analiz a dispersional a; forma particular a a modelului permite, ns a, organizarea
celulelor astfel nct s a se evite estimarea lui

X
t

X iar calculul statisticilor


testelor privind valorile coecientilor s a e mult mai simple. Acest demers
este prezentat n cele ce urmeaz a.
Presupunem c a pentru ecare pereche de nivele (,, /) exist a :
)I
observatii
asupra variabilei j.
Se spune c a modelul este
complet dac a :
)I
0 pentru toate variabilele;
cu repeti tie, dac a :
)I
1;
echilibrat dac a :
)I
= 1;
Ne vom limita la studiul cazului echilibrat.
Pentru organizarea experimentului bifactorial se utilizeaz a un tabel cu
dubl a intrare de tipul tabelului 4.2.1.
Tabelul 4.2.1.
4.2. ANALIZA DISPERSIONAL

A 231
B 1
1
. . . 1
)
. . . 1
J
A

1
1
111
.
.
.
1
i11
.
.
.
1
111
.
.
.

I
1
1)I
.
.
.
1
i)I
.
.
.
1
1)I
.
.
.

1
1
1J1
.
.
.
1
iJ1
.
.
.
1
1J1
Experimentele 1
i)I

1
i=1
cu (,, /) xat, dar alfel oarecare, formeaz a o
celula. Un sistem de celule se numeste bloc. n tabelul 4.2.1. intersectia unei
linii cu o coloan a formeaz a o celul a si o linie sau o coloan a formeaz a un bloc.
Se consider a urm atoarea ipotez a fundamental a:
\ :
_
1
i)I
= :
)I
-
i)I
cu 1 _ i _ 1, 1 _ , _ J, 1 _ / _ 1
-
i)I
variabil a aleatoare i.i.r (0, o
2
) cu o
2
=const.
Trebuie mentionat faptul c a multi specialisti au remarcat c a, n practic a,
restrictiile \ sunt rareori perfect ndeplinite. Consecintele ce decurg atunci
cnd ipotezele nu sunt ndeplinite sunt (vezi [56]):
i. nerespectarea normalit atii are o inuent a foarte mic a asupra inferentei
despre medie, dar o inuent a relativ important a asupra concluziilor re-
feritoare la dispersie;
ii. neomogenitatea dispersiilor celulelor/blocurilor are, de asemenea, o in-
uent a nesemnicativ a asupra concluziilor despre medii, dac a experientele
sunt echilibrate; nu acelasi lucru se poate arma n cazul experientelor
neechilibrate;
iii. violarea propriet atii de independent a, adic a existenta unor corelatii nenule
ntre variabilele erori, are o inuent a important a relativ la concuziile de-
spre medii.
232 CAPITOLUL 4. MODELE LINIARE
Din aceast a prezentare rezult a o caracteristic a esential a a metodei ANOVA:
aceasta este o metod a statistic a robust a, adic a si p astreaz a valoarea infor-
mational a si decizional a chiar si n cazul nerespect arii unor ipoteze.
Se presupune c a efectul x, :
)I
, este de forma:
:
)I
= jc
I
,
)

)I
unde j este efectul mediei, c
I
este efectul principal al nivelului / al factorului
(numit si efectul liniei /), ,
)
este efectul principal al nivelului , al factorului 1
(numit si efectul coloanei ,) iar
)I
este efectul ineractiunilor celor doi factori.
n cazul n care parametrii c
I
, ,
)
,
)I
sunt aleatori modelul se numeste
cu factori aleatori, n caz contrar se numeste model cu factori constan ti.
Metoda ANOVA este utilizat a, n principal, cu scopul de a testa omo-
genitatea mediilor :
)I
ale populatiilor implicate, cu alternativa neomogen-
it atii acestora, n ipoteza fundamental a \. Ipoteza de omogenitate a mediilor,
echivalent a cu ipoteza efectului nul al factorilor asupra caracteristicii j inves-
tigate se testeaz a cu ajutorul unor dispersii: de aici si denumirea de analiza
dispersionala. n cazul respingerii analizei de omogenitate, deci a accept arii
alternativei, interesant si important este a determina care dintre nivelurile fac-
torilor implicati au condus la respingerea omogenit atii. Procedeele prin care
se realizeaz a acest lucru se numesc metode de compara tie multipla si reprezint a
un capitol special al metodologiei ANOVA.
Pentru a evita multicoliniaritatea, se presupun satisf acute conditiile su-
plimentare:

I
c
I
=

)
,
)
=

)I
=

)I
= 0.
n acest context se doreste vericarea ipotezelor statistice:
H

: c
I
= 0 1 _ / _ 1,
H
1
: ,
)
= 0 1 _ , _ J,
H
1
:
)I
= 0 1 _ / _ 1, 1 _ , _ J.
Se noteaz a:
1

=

i

I
1
i)I
si 1

=
1
1J1

I
1
i)I
,
1
)I
=

i
1
i)I
si 1
)I
=
1
1

i
1
i)I
,
1
)
=

i

I
1
i)I
si 1
)
=
1
11

I
1
i)I
,
1
I
=

i

)
1
i)I
si 1
I
=
1
1J

)
1
i)I
.
4.2. ANALIZA DISPERSIONAL

A 233
Se observ a c a:
1
i)I
1

=
_
1
I
1

_
1
)
1

_
1
)I
1
I
_

_
1
)
1

_
1
i)I
1
)I
_
si c a termenii acestei diferente corespund respectiv efectelor principale, in-
teractiunilor si unei uctuatii aleatoare. De asemenea, se observ a c a, pentru
modelul echilibrat, este satisf acut a relatia
o
2
=

I
_
1
i)I
1

_
2
= o
2

o
2
1
o
2
1
o
2
1
,
unde
o
2

= 1J

I
_
1
I
1

_
2
,
o
2
1
= 11

)
_
1
)
1

_
2
,
o
2
1
= 1

I
_
1
)I
1
)
1
I
1

_
2
,
o
2
1
=

i

I
_
1
i)I
1
)I
_
2
.
n ipoteza \, estimatiile parametrilor modelului, n sensul celor mai mici
p atrate, sunt:
:
)I
= 1
)I
cu , = 1, J, / = 1, 1,
j = 1

,
c
I
= 1
I
1

cu / = 1, 1,

,
)
= 1
)
1

cu , = 1, J,

)I
= 1
)I
1
)
1
I
1

cu , = 1, J, / = 1, 1.
Statistica 1 pentru vericarea ipotezelor H

, H
1
, H
1
are la num ar ator
respectiv media sumelor p atratelor o
2

, o
2
1
, o
2
1
iar la numitor ntotdeauna
media sumei p atratelor rezidualelor o
2
1
. Gradele de libertate sunt respectiv
(i

, i
1
) , (i
1
, i
1
) , (i
1
, i
1
) unde
i

= 1 1,
i
1
= J 1,
i
1
= (J 1) (1 1) ,
i
1
= J1 (1 1) .
Sinteza formulelor de calcul este dat a n tabelul 4.2.2.
234 CAPITOLUL 4. MODELE LINIARE
n cazul interac tiunilor nule momentul x devine :
)I
= j c
I
,
)
iar
o
2
= o
2

o
2
1
o
2
1
1
unde o
2
1
1
= o
2
1
o
2
1
cu i
1
1
= i
1
i
1
= 1J1J11
grade de libertate (faptul c a ipoteza H
1
este vericat a aceasta nu nseamn a
practic c a o
2
1
= 0). Sinteza formulelor este dat a n tabelul 4.2.3.
n toate cazurile se respinge ipoteza nul a a absentei efectului unui factor
dac a probabilitatea dep asirii valorii 1 corespunz atoare de c atre o variabil a
Fisher cu gradele de libertate specicate este mai mic a dect un prag de n-
credere dat, de regul a /. S a observ am c a procedura de mai sus poate
generalizat a la modele cu mai multi factori si nivele de interactiune de ordin
superior. Totusi, o anumit a prudent a se impune din mai multe motive. Mai
nti, este din ce n ce mai dicil de apreciat si de limitat clar natura ipotezelor
testate. Pe de alt a parte, interactiunile de ordin superior pot duce la "teste n
lant" delicat de interpretat (AB semnicativ, BC nesemnicativ, ABC sem-
nicativ etc..). n ne, se poate ar ata c a o interactiune, mai ales de ordin
superior, se poate datora prezentei unor observatii usor aberante, caz n care
procedura nu este robust a.
4.2. ANALIZA DISPERSIONAL

A 235
t
a
b
e
l
u
l
4
.
2
.
2
f
o
r
m
u
l
e
d
e
c
a
l
c
u
l
(
1
)
S
u
r
s
a
d
e
G
r
a
d
e
d
e
l
i
b
e
r
t
a
t
e
S
u
m
a
p
a
t
r
a
t
e
l
o
r
M
e
d
i
a
s
u
m
e
i
S
t
a
t
i
s
t
i
c
a
1
v
a
r
i
a
t
i
e
p
a
t
r
a
t
e
l
o
r
(
d
)
)
(
o
o
)
(
'
o
=
o
o
,
d
)
)

=
1

1
o
2
=
1
J

I
_
1

_
2
'
o

=
S
2/
i
/
1

=
A
S
/
A
S
T
1
i
1
=
J

1
o
21
=
1
1

)
_
1

_
2
'
o
1
=
S
2T
i
T
1
1
=
A
S
T
A
S
T
I
n
t
e
r
a
c
t
i
u
n
i
l
e

1
i

1
=
(
J

1
)
(
1

1
)
o
2
1
=
1

I
_
1

)
I

_
2
'
o

1
=
S
2/
T
i
/
T
1

1
=
A
S
/
T
A
S
T
R
e
z
i
d
u
u
r
i
l
e
1
i
1
=
J
1
(
1

1
)
o
21
=

I
_
1
i
)
I

)
I
_
2
'
o
1
=
S
2T
i
T
T
o
t
a
l
i
S
=
1
J
1

1
o
2
=

I
_
1
i
)
I

_
2
t
a
b
e
l
u
l
4
.
2
.
3
f
o
r
m
u
l
e
d
e
c
a
l
c
u
l
(
2
)
S
u
r
s
a
d
e
G
r
a
d
e
d
e
l
i
b
e
r
t
a
t
e
S
u
m
a
p
a
t
r
a
t
e
l
o
r
M
e
d
i
a
s
u
m
e
i
S
t
a
t
i
s
t
i
c
a
1
v
a
r
i
a
t
i
e
p
a
t
r
a
t
e
l
o
r
(
d
)
)
(
o
o
)
(
'
o
=
o
o
,
d
)
)

=
1

1
o
2
'
o

=
S
2/
i
/
1

=
'
o

,
'
o
1
1
1
i
1
=
J

1
o
21
'
o
1
=
S
2T
i
T
1
1
=
'
o
1
,
'
o
1
1
R
e
z
i
d
u
u
r
i
l
e
i
1
1
=
i
1

1
=
o
21
1
=
o
21

o
2
1
'
o
1
1
=
S
2T
1
i
T
1
1
1
=
1
J
1

1
T
o
t
a
l
i
S
o
2
236 CAPITOLUL 4. MODELE LINIARE
4.2.1 Exemplu
Descrierea datelor
Se consider a dou a medicamente - unul de testat (T) si unul de referint a
(R). Medicamentele sunt administrate unui lot de subiecti s an atosi n dou a
secvente (RT) si (TR) si dou a perioade (I si II). Fiecare subiect este asig-
nat aleator e primei secvente (RT) e celei de a doua (TR). Subiectii din
cadrul secventei RT (TR) primesc medicamentul R(T) n prima perioad a si
medicamentul T(R) n cea de-a doua perioad a. Perioadele de administrare
sunt separate printr-o perioad a de "cur atire" de cel putin trei ori timpul de
njum at atire al substantei active din medicamentul administrat.
Scopul experimentului este de a stabili bioechivalen ta (acelasi efect ter-
apeutic) celor dou a medicamente. Acestea sunt bioechivalente n conditiile n
care cantitatea total a de substant a activ a din snge, calculat a pentru ecare
medicament, nu difer a semnicativ. Un parametru farmacocinetic calculat
n mod obisnuit n acest scop este AUClast - aria de sub curba concentratiei
plasmatice de la momentul zero pn a la momentul determin arii ultimei con-
centratii plasmatice cuanticabile.
Datele exemplului provin din [9] si sunt listate n tabelul A.8. (Anex a).
Pentru acest set de date se identic a:
variabila dependent a:
AUClast (Aria Under the Curve) - indicator al cantit atii totale de
substant a activ a din snge.
variabilele independente (factorii cauzali):
Seq - Secventa, cu modalit atile RT si TR,
Period - Perioada, cu modalit atile I si II.
Se observ a c a experimentul are patru celule si este echilibrat (:
)I
= 12,
/, , = 1, 2).
Efectuarea analizei si interpretarea rezultatelor
Pentru stabilirea bioechivalentei se consider a urm atorul model de analiz a
dispersional a bifactorial a cu num ar oarecare de experiente:
1
i)I
= j
)I
-
i)I
, 1 _ i _ :
I
, /, , = 1, 2
unde efectul x j
)I
este de forma:
4.2. ANALIZA DISPERSIONAL

A 237
Secventa Perioada (j=1,2)
(k=1,2) I II
1 (RT) j
11
= j 1
1
o
1
1
1
j
12
= j 1
2
o
2
1
T
2 (TR) j
21
= j 1
1
o
1
1
T
j
22
= j 1
2
o
2
1
1
cu
1
1
1
2
= o
1
o
2
= 1
T
1
1
= 0
iar
1
1
(1
2
) reprezint a efectul direct al administr arii n perioada I (II),
o
1
(o
2
) reprezint a efectul adimistr arii n secventa RT (TR),
1
1
(1
T
) reprezint a efectul direct al administr arii medicamentului R (T),
modelat aici ca efectul interactiunii dintre factorii P si S.
Datele din tabelul A.8. au fost prelucrate cu pachetul de date STATIS-
TICA, urmnd pasii prezentati n continuare.
Pentru nceput se selecteaz a din bara de meniu tipul de analiz a utilizat -
Statistics, ANOVA; n fereastra ap arut a se opteaz a pentru Factorial ANOVA,
n cadrul c areia sunt analizate si efectele interactiunilor dintre factori, iar ca
metod a de specicatie se alege Quick specs.
fig. 4.2.1. Fereastra de pornire
n fereastra de start (g 4.2.1.) butonul Variables permite selectarea
tipurilor de variabile conform specicatiilor de mai sus. n continuare se speci-
c a toate nivelele factorilor (Factor Codes, All ) si se apas a butonul OK pentru
a accesa fereastra de rezultate (g. 4.2.2.).
238 CAPITOLUL 4. MODELE LINIARE
fig. 4.2.2. Fereastra de rezultate (1)
Pentru nceput vom verica ndeplinirea ipotezelor modelului: indepen-
denta, normalitatea si homoscedasticitatea, procedeu pentru care STATIS-
TICA pune la dipozitie o serie de grace si tabele n cea de-a doua fereastr a
de rezultate (More results). (g. 4.2.3.).
fig. 4.2.3. Fereastra de rezultate (2)
Avnd n vedere structura experimentului, esantioanele formate se pot pre-
supune aleatoare si independente deci se consider a ndeplinit a conditia de in-
dependen ta. Conditia de normalitate a distributiei reziduurilor de veric a n
submeniul Residuals 1. Gracul generat prin ap asarea butonului Residuals cu
optiunea Raw indic a ntr-adev ar o repartitie normal a (g. 4.2.4.).
4.2. ANALIZA DISPERSIONAL

A 239
fig. 4.2.4. Reziduurile sunt normal distribuite
Homoscedasticitatea (omogenitatea variantei) la nivelul subgrupurilor
determinate de modalit atile factorilor cauzali se veric a aplic and testul Levene
pentru ecare dintre cele trei efecte Per, Seq, Per*Seq. Testul Levene este
denit astfel:
H
0
: o
1
= o
2
= . . . = o
I
,
H

: o
i
,= o
)
pentru cel putin o pereche (i, ,) , i, , = 1, /
unde / este num arul subgrupurilor. Valorile statisticii asociate acestui test se
genereaz a ap asnd butonul Levenes test si se reg asesc n tabelul 4.2.2. Pentru
toate cele trei efecte, valorile 1 la pragurile de semnicatie j 0.0 indic a
acceptarea ipotezei nule, deci vericarea conditiei de homoscedasticitate.
240 CAPITOLUL 4. MODELE LINIARE
tabelul 4.2.2. Testul Levene pentru efectele Seq, Per, Seq*Per
Concluziile obtinute permit realizarea efectiv a a analizei de variant a.
Butonul All Eects/Graphs din submeniul Quick activeaz a o nou a fereastr a
de dialog (g. 4.2.5.) n cadrul c areia pot vizualizate principalele rezultate
ANOVA pentru cele trei efecte considerate.
fig. 4.2.5. Principalele rezultate ANOVA
Informatii despre mediile pe grupe pentru ecare efect se pot obtine sub form a
grac a sau tabelar a (g 4.2.6.), bifnd optiunea Graph respectiv Spreadsheet
din caseta Display si ap asnd butonul OK.
4.2. ANALIZA DISPERSIONAL

A 241
fig. 4.2.6. Mediile pe grupe
Se observ a c a mediile pe grupe au valori apropiate, valorile j 0.0 din g.
4.2.5. conrmnd acceptarea ipotezelor nule. Asadar analiza de variant a pe
aceste date indic a absenta efectului secventei, al perioadei si al medicamentu-
lui; prin urmare, cele dou a medicamente sunt bioechivalente.
242 CAPITOLUL 4. MODELE LINIARE
4.3 Modele liniare generalizate
Modelele generalizate (GLM - Generalised Linear Models) extind mode-
lele liniare de baz a n dou a directii:
1. Combinatia liniar a n
i
= /
0
r
i0
/
1
r
i1
. . ./
j
r
ij
a variabilelor explicative
poate o functie q (numit a func tie de legatura) de ' (j
i
), adic a
n
i
= q (' (j
i
))
n comparatie cu modelele liniare clasice n care
n
i
= ' (j
i
) .
2. Legea de probabilitate a lui j poate si un alt membru al clasei legilor
exponentiale
5
dect legea normal a. Dac a 0 = j, , = o
2
, a (,) = ,,
/ (0) = 0
2
,2, c (j, ,) = 1,2
__
j
2
,o
2
_
log
_
2o
2
_
atunci se obtine
legea normal a. Pentru alte valori ale parametrilor si alte functii se pot
obtine legile binomial a, Poisson, Gamma.
Ajustarea modelului se face prin metoda verosimilit atii maxime care, n
cazul legii normale, coincide cu metoda celor mai mici p atrate.
Alegnd diferite legi de probabilitate din clasa legilor exponentiale si
diferite functii de leg atur a pentru j, se pot obtine si alte modele, printre care
un loc important l ocup a modelele log-liniare.
5
Clas a de legi de probabilitate cu densitatea de forma ) (r, 0, ,) = exp

0l(0)
a(,)
+ c (, ,)

cu 0 si , parametri si o () , / () , c () functii.