Beruflich Dokumente
Kultur Dokumente
Figura 1: Modelul general al analizei factoriale, cu m variabile observate, n factori comuni ortogonali.
X1 F1 X2 F2 ... Fn Xm X3 ...
U1 U2 U3 ...
Um
F1 b11 b21 bm1 F2 b12 b22 bm2 ... ... ... ... Fn b1n b2n bmn
X1 = b11 F1 + b12 F2 + ... + b1n Fn + d1 U1 X2 = b21 F1 + b22 F2 + ... + b2n Fn + d2 U2 ... Xm = bm1 F1 + bm2 F2 + ... + bmn Fn + dm Um
X1 X2 ... Xm
bij = r(Xi,Fj)
hi2 = bi12 + bi22 + ... + bin2 r(Xi,Xk) = bi1 bk1 + bi2 bk2 + bi3 bk3 + ... + bin bkn
KMO =
r(X , X ) r(X , X ) a (X , X )
i j 2 i ji j i 2 i j i ji i ji
unde a(Xi, Xj) este coeficientul de corelaie parial ntre Xi i Xj cnd toate celelalte variabile sunt controlate.
Una din diferenele conceptuale fundamentale ntre aceste metode, care distinge ntre analiza componentelor principale (f) i toate celelalte, poate fi descris n felul urmtor. Variana total a variabilelor observate poate fi descompus astfel: (1) variana comun (comunalitatea), adic totalul varianei variabilelor care se datoreaz factorilor comuni, (2) variana specific (unicitatea), datorat factorilor unici, i (3) eroarea introdus de msurare, eantionare, culegerea datelor etc.
n analiza componentelor principale (principal component analysis) se va descompune ntreaga varian a variabilelor. n analiza factorial propriuzis (principal axis factoring) se va descompune doar variana comun a variabilelor.
n analiza factorial ncercm s estimm coeficienii bik, adic saturaiile factoriale pentru fiecare variabil observat, avnd la dispoziie coeficienii de corelaie r(Xi,Xk). Vom pune condiia ca matricea rezidual, adic diferena dintre matricea de corelaie ajustat (R1) i matricea de corelaii rezultat (B BT), s fie ct mai aproape de zero, adic diferenele dintre corelaiile observate i cele rezultate din modelul factorial, s fie minimizate. ntotdeauna putem reproduce corelaiile observate printr-un model care are exact atia factori cte variabile, iar adecvarea modelului pentru date crete odat cu numrul de factori. Noi dorim: o structur redus a datelor, explicarea covarianelor dintre variabile printr-un numr ct mai mic de factori comuni.
Primul factor extras va corespunde valorii proprii celei mai mari, cu alte cuvinte primul factor extras este cel care explic cel mai mult din variana variabilelor observate. Urmtorul factor extras va explica ct mai mult din restul de varian rmas neexplicat, i aa mai departe. La ci factori ne oprim? De ci factori avem nevoie pentru a reprezenta datele?
Oprim descompunerea varianei n momentul n care factorul explic mai puin dect variana unei singure variabile, adic atunci cnd valoarea proprie corespunztoare factorului este mai mic dect 1. Examinarea graficului care reprezint valorile proprii (scree plot). Alt soluie este s stabilim un procent de varian care s fie explicat (n mod obinuit acesta se alege 70% sau 80%), i s ne oprim atunci cnd variana explicat de factori, cumulat, depete acest prag. Unii autori sugereaz c nu trebuie s ne bazm automat pe astfel de criterii formale i c numrul de factori obinut prin aplicarea acestor teste trebuie s ne indice doar numrul maxim de factori. Factorii pe care i vom reine trebuie s fie substaniali i interpretabili teoretic (ndeosebi dup rotaie).
Figura 10. Obinerea unei structuri simple prin examinarea configuraiei grafice a variabilelor. X1 X2 X3 X4 X5 Factor1 0.83 0.76 0.90 0.20 0.25 Factor2 -0.15 -0.24 -0.35 0.80 0.85
1.0 X5 X4 .8
.6
.4
.2
0.0
FACTOR2
FACTOR1
din factori.
Numele factorului i definiia sa nu pot fi date dect de cercettor. El este cel care va sintetiza coninutul variabilelor care satureaz un factor ntr-un concept
Exemplu: Care sunt factorii crora li se atribuie succesul n via? Explicai utiliznd setul de variabile vr1 vr10 din BOP 2003!
Exist o varian comun n cazul acestui set de indicatori? Care variabile coreleaz ntre ele i n ce msur?
Corelaiile observate:
Correlations S se nasc ntr-o familie S stie s se bogat? descurce? 1 ,168** , ,000 2027 1999 ,168** 1 ,000 1999 ,566** ,000 2011 ,347** ,000 2016 ,097** ,000 2015 ,147** ,000 2017 ,286** ,000 1999 ,067** ,003 2012 ,081** ,000 2015 ,214** ,000 1911 , 2025 ,227** ,000 2003 ,216** ,000 2013 ,115** ,000 2013 ,243** ,000 2014 ,145** ,000 1999 ,209** ,000 2013 ,213** ,000 2011 ,115** ,000 1927 S aib S fie noroc/ S cread n desteapt/i S arate sans? Dumnezeu? nteligent? bine? ,347** ,097** ,147** ,286** ,000 ,000 ,000 ,000 2016 2015 2017 1999 ,216** ,115** ,243** ,145** ,000 2013 ,389** ,000 2023 1 , 2044 ,287** ,000 2030 ,268** ,000 2034 ,214** ,000 2013 ,124** ,000 2031 ,147** ,000 2033 ,107** ,000 1926 ,000 2013 ,162** ,000 2014 ,287** ,000 2030 1 , 2047 ,248** ,000 2029 ,136** ,000 2011 ,241** ,000 2029 ,222** ,000 2031 -,037 ,103 1926 ,000 2014 ,190** ,000 2021 ,268** ,000 2034 ,248** ,000 2029 1 , 2041 ,240** ,000 2016 ,474** ,000 2029 ,402** ,000 2029 -,059** ,010 1926 ,000 1999 ,258** ,000 2002 ,214** ,000 2013 ,136** ,000 2011 ,240** ,000 2016 1 , 2021 ,240** ,000 2014 ,157** ,000 2013 ,164** ,000 1912 S S fac munceasc scoal? mult? S fure? ,067** ,081** ,214** ,003 ,000 ,000 2012 2015 1911 ,209** ,213** ,115** ,000 2013 ,069** ,002 2016 ,124** ,000 2031 ,241** ,000 2029 ,474** ,000 2029 ,240** ,000 2014 1 , 2041 ,523** ,000 2031 -,131** ,000 1925 ,000 2011 ,061** ,006 2015 ,147** ,000 2033 ,222** ,000 2031 ,402** ,000 2029 ,157** ,000 2013 ,523** ,000 2031 1 , 2042 -,104** ,000 1926 ,000 1927 ,198** ,000 1917 ,107** ,000 1926 -,037 ,103 1926 -,059** ,010 1926 ,164** ,000 1912 -,131** ,000 1925 -,104** ,000 1926 1 , 1937 S se nasc ntr-o familie bogat? S stie s se descurce? S aib relatii? Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N S aib relatii? ,566** ,000 2011 ,227** ,000 2003 1 , 2028 ,389** ,000 2023 ,162** ,000 2014 ,190** ,000 2021 ,258** ,000 2002 ,069** ,002 2016 ,061** ,006 2015 ,198** ,000 1917
S aib noroc/ sans? S cread n Dumnezeu? S fie desteapt/in teligent? S arate bine? S fac scoal? S munceasc mult? S fure?
Observm c exist sub-seturi de variabile care coreleaz relativ puternic ntre ele.
Exist factori lateni care explic variana comun a sub-seturilor de variabile observate? Cu alte cuvinte, putem considera c exist o tipologie a rspunsurilor i factori lateni care determin aceast tipologie? ncercm s realizm o analiz exploratorie deoarece nu tim ci factori avem, nici dac acetia coreleaz sau nu.
U1 r (rv1, F1) = b11 + b12 * r(F1,F2) U2 r (rv1, F2) = b12 + b211 *r(F1,F2)
rv10
U10
Corelaiile dintre factori i variabile sunt prezentate n matricea structur (Structure Matrix) din SPSS output.
b11 este saturaia lui F1 (factor loading F1) iar b12 este saturaia lui F2 (factor loading F2). Aceste saturaii sunt prezentate n matricea saturaiilor factoriale (Factor Matrix sau Factor Loadings Matrix) din SPSS output. Dac noi alegem un model n care factorii sunt independeni, atunci corelaiile dintre factori i variabile se reduc la efectele directe, deci sunt identice cu saturaiile (factor loadings).
Extracia factorilor:
Construim un model al relaiilor dintre factori i variabile astfel nct diferena dintre corelaiile observate i cele re-construite (reproduced correlations) s fie ct mai mic.
Reproduced Correlations S se nasc ntr-o familie bogat? Reproduced Correlation S se nasc ntr-o familie bogat? S stie s se descurce? S aib relatii? S aib noroc/ sans? S cread n Dumnezeu? S fie desteapt/inteligent? S arate bine? S fac scoal? S munceasc mult? S fure? S se nasc ntr-o familie bogat? S stie s se descurce? S aib relatii? S aib noroc/ sans? S cread n Dumnezeu? S fie desteapt/inteligent? S arate bine? S fac scoal? S munceasc mult? S fure? ,515 ,197 ,546 ,354 ,135 ,137 ,261 4,165E-02 4,790E-02 ,215
b
S aib noroc/ sans? ,354 ,182 ,380 ,276 b ,153 ,206 ,221 ,165 ,149 ,114 -2,06E-02
S cread n Dumnezeu? ,135 ,139 ,151 ,153 ,148 b ,245 ,145 ,267 ,231 -7,395E-03 -4,674E-02 -2,616E-02 1,624E-04 ,135
S arate bine?
S fac scoal?
S fure? ,215
,261 4,165E-02 ,159 ,214 ,283 6,187E-02 ,221 ,165 ,145 ,267 ,211
b
,187 3,333E-02 6,590E-02 ,224 ,149 ,114 ,231 -7,39E-03 ,417 -6,04E-02
,159 ,283 ,214 6,187E-02 ,187 6,590E-02 3,333E-02 ,224 -3,280E-02 1,566E-02
,172 6,622E-02 ,498 -,126 ,426 b -,103 -,103 ,126 b 2,268E-02 -2,29E-03
Residuala
-2,378E-02 2,373E-02 1,408E-02 1,697E-02 2,552E-04 4,050E-02 9,117E-03 -2,14E-02 -1,02E-02 -2,98E-02 6,989E-03 -1,46E-02 -5,10E-02 -5,90E-03 -1,35E-02 5,076E-03 -3,40E-03
5,831E-03 2,858E-02 5,831E-03 -2,85E-03 2,858E-02 -2,85E-03 -2,616E-02 1,624E-04 ,135 1,697E-02 2,552E-04 4,050E-02 -2,139E-02 -2,98E-02 -1,020E-02 6,989E-03 2,308E-02 -1,06E-02 7,841E-02 -2,82E-02 -1,46E-02 -5,10E-02 -8,71E-03 -5,73E-03
2,308E-02 7,841E-02 -1,056E-02 -2,82E-02 -8,712E-03 -5,73E-03 -1,445E-02 -3,31E-02 -1,279E-02 -1,94E-03
5,076E-03 2,904E-02 -3,396E-03 2,904E-02 -1,279E-02 -2,04E-02 1,121E-02 -1,942E-03 9,804E-02 -1,65E-02
Extraction Method: Maximum Likelihood. a. Residuals are computed between observed and reproduced correlations. There are 4 (8,0%) nonredundant residuals with absolute values greater than 0.05. b. Reproduced communalities
Extracia factorilor:
Diferena dintre corelaiile observate i cele re-construite (reproduse) este msurat ca suma ptratic a diferenelor i interpretat ca o msur de tip CHI-ptrat. Se testeaz semnificaia statistic a diferenelor pe baza distribuiei lui CHI-ptrat.
Avem o diferen statistic semnificativ ntre matricea corelaiilor observate i matricea corelaiilor reproduse. Modelul nostru simplific considerabil realitatea complexitatea relaiilor dintre variabile.
Comunaliti (communalities) Iniiale s aib relaii? s arate bine? s cread n Dumnezeu? s aib noroc/ans? s fac coal? s fie inteligent? s fure? s munceasc mult? s tie s se descurce? s se nasc ntr-o familie bogat? Extraction Method: Maximum Likelihood. ,378 ,165 ,150 ,248 ,382 ,316 ,113 ,307 ,128 ,360 Extrase ,580 ,184 ,148 ,276 ,582 ,424 ,126 ,426 ,143 ,515
37,8% din variana primei variabile este datorat corelaiilor (covarianei) din setul de date. (comunalitatea iniial a primei variabile este 0,378). n urma extraciei factorilor, 58% din variana primei variabile este explicat de factorii in model (comunalitatea extras este 0,580).
Total Variance Explaine d Initial Eigenvalues % of Varianc e Cumulativ e % 27,866 27,866 17,813 45,679 9,656 55,335 8,752 64,087 8,277 72,364 6,804 79,168 6,329 85,497 5,755 91,252 4,516 95,768 4,232 100,000 Ex traction Sums of Squared Loadings Total % of Varianc e Cumulativ e % 2,176 21,756 21,756 1,229 12,287 34,043 Rotation Sums of Squared Loadings Total % of Varianc e Cumulativ e % 1,803 18,031 18,031 1,601 16,011 34,043
Factor 1 2 3 4 5 6 7 8 9 10
Total 2,787 1,781 ,966 ,875 ,828 ,680 ,633 ,576 ,452 ,423
Primul factor explic variana corespunztoare a 2,78 variabile, iar factorul al doilea variana a 1,78 variabile. Toi ceilali factori extrai explic mai puin dect variana unei unei variabile.
Primul factor explic 27,8% din variana comun total a variabilelor, iar cel de-al doilea 17,8%. Cumulat, primii doi factori extrai explic 45% din variana comun total a variabilelor.
Pentru soluia factorial iniial, suma ptratelor saturaiilor factoriale este 2,176 pentru F1 i 1,229 pentru F2. Factorul F1 explic 21,5% din variana total a variabilelor, iar F2 12,8%. Cumulat, ptratul saturaiilor factoriale constituie 34% din variana total a variabilelor. Dup rotaia factorilor, suma ptratelor saturaiilor este 1,803 pentru F1 i 1,601 pentru F2. Observm c proporia de varian total explicat cumulat de F1 i F2 nu se schimb n urma rotaiei factorilor (este tot 34%!). Se schimb valoarea saturaiilor pentru fiecare factor, dar NU se schimb suma ptratelor acestor saturaii.
-,118 ,343
Acest model este destul de dificil de interpretat. Oare nu am putea redistribui variana comun explicat de factori a ntregului set de variabile astfel nct modelul relaiilor dintre factori i fiecare dintre variabile s fie ct mai clar i adecvat unei interpretri teoretice? Aceasta este problema rotaiei factorilor.
Dac presupunem c factorii sunt independeni, atunci sistemul de axe este ortogonal iar saturaiile factorilor sunt egali cu coeficienii de corelaie Pearson dintre variabile i factori. Corelaia dintre factori: rF1F2=F1*F2* cos 90 = F1 *F2 * 0 = 0. Putem roti soluia factorial pstrnd independena (ortogonalitatea) factorilor.
Interpretarea coeficientului de corelaie ca un produs vectorial F1 b11 X1
b21
X2
F2 b11 b22 Coeficientul de corelaie a lui Pearson rX1,X2 =X1*X2*cos Cos 90=0 Cos 0=1
Noi nu cunoatem lungimea vectorilor, doar valoarea coeficientului de corelaie. Acesta poate fi descompus n funcie de saturaiile factorilor: rX1 X2 = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2 Dac factorii sunt ortogonali, atunci rX1 X2 = b11 * b21 + b12 * b22
Dac presupunem c factorii sunt corelai, atunci sistemul de axe NU este ortogonal, ci oblic. Saturaiile factorilor (efectele directe ale fiecrui factor) vor diferi de coeficienii de corelaie dintre factori i variabile, pentru c o parte din corelaie se datoreaz corelaiei dintre factori (efecte indirecte ale factorilor prin ceilali factori). Corelaia dintre factori : rF1F2=F1*F2* cos Putem roti soluia factorial presupunnd c factorii coreleaz (rotaie oblic).
Interpretarea coeficientului de corelaie ca un produs vectorial F1 b11 X1
b21
X2
F2 b11 b22 Coeficientul de corelaie a lui Pearson rX1,X2 =X1*X2*cos Cos 90=0 Cos 0=1
rX1 X2 = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2
Saturaiile factorilor (b11, b21 pentru F1, b12, b22 pentru F2 etc.) vor fi egale cu coeficienii de corelaie pariali, obinui prin controlarea efectelor celorlali factori. Saturaiile pot fi interpretate ca i coefieni de regresie multinear standardizai (beta).
rX1 X2 = b11 * b21 + b12 * b22 + b11 * b22 * rF1F2 + b21 * b12 * rF1F2
efectul direct al lui F1 efectul efectele indirecte
Variana =
comunalitatea
VAR (X1) = b112 + b122 + b11 * b12 * 2 r F1F2 - d12 Dac presupunem c factorii nu sunt corelai, atunci matricea de structur (Factor Matrix sau Structure Matrix) care prezint corelaiile dintre factori i variabile va fi identic cu matricea saturaiilor (Pattern Matrix sau Pattern Loadings). Dac factorii sunt corelai, atunci acestea au att efecte directe asupra variabilelor (prezentate n matricea saturaiilor Pattern Matrix sau Pattern Loadings) ct i efecte indirecte.
Soluia iniial: Factor Matrix sau Matricea de Structur Corelaiile dintre factori i variabile Factor 1 Factor 2 conform soluiei iniiale. s aib relaii? ,572 ,503 s arate bine? ,565 -,324 s cread n Dumnezeu? ,562 -,516 s aib noroc/ans? ,524 ,490 s fac coal? ,492 -,428 s fie inteligent? ,483 ,206 s fure? ,421 s munceasc mult? ,378 s tie s se descurce? ,367 s se nasc ntr-o familie bogat? ,343 Extraction Method: Maximum Likelihood. 2 Factors extracted. 4 iterations required.
Rotated Factor Matrix Matricea de structur dup rotirea ortogonal a factorilor Factor 1 Factor 2 s fac coal? ,762 Dup rotirea factorilor, observm c s munceasc mult? ,652 variabilele s fac coal, s s fie deteapt/inteligent? ,641 munceasc, s fie inteligent coreleaz s cread n Dumnezeu? ,357 puternic cu primul factor, iar variabilele s s tie s se descurce? ,291 ,241 aib relaii, s se nasc ntr-o familie bogat, s aib noroc cu cel de-al s aib relaii? ,753 doilea factor. Celelalte variabile coreleaz s se nasc ntr-o familie bogat? ,712 doar moderat cu factorii, iar dou dintre s aib noroc/ans? ,238 ,468 ele coreleaz aproximativ la fel cu ambii s arate bine? ,270 ,334 factori extrai. s fure? ,321 Extraction Method: Maximum Likelihood. Rotation Method: Equamax with Kaiser Normalization. a Rotation converged in 3 iterations.
Dac renunm la condiia de independen a factorilor i realizm o rotire oblic atunci matricea de structur (Factor matrix) va fi diferit de matricea saturaiilor (Pattern Matrix sau factor Loadings Matrix).
Pattern Matrix: Matricea saturaiilor Factor 1 Factor 2 s fac coal? ,783 Factor Correlation Matrix s munceasc mult? ,668 s fie deteapt/inteligent? ,642 Factor 1 2 1 s cread n Dumnezeu? ,348 1,000 ,233 s tie s se descurce? ,270 ,209 2 ,233 1,000 s aib relaii? ,753 Extraction Method: Maximum Likelihood. s se nasc ntr-o familie bogat? ,716 Rotation Method: Oblimin with Kaiser Normalization. s aib noroc/ans? ,447 s arate bine? ,346 s fure? ,238 ,306 Corelaia dintre factori este slab, Extraction Method: Maximum Likelihood. Rotation Method: Oblimin with Kaiser Normalization. coeficientul de corelaie a lui a Rotation converged in 8 iterations. Pearson ia valoarea 0.233.
Structure Matrix: Matricea corelaiilor dintre factori i variabile Factor 1 Factor 2 s fac coal? ,752 n acest caz, este de preferat soluia s munceasc mult? ,650 factorial ortogonal deoarece dimensiunile s fie deteapt/inteligent? ,646 sugerate de cei doi factori sunt distincte i s cread n Dumnezeu? ,372 (teoretic) independente. s tie s se descurce? ,319 ,272 Corelaia slab dintre factori, identificat prin s aib relaii? ,208 ,761 rotirea oblic, ne arat c modelul oblic nu s se nasc ntr-o familie bogat? ,718 difer considerabil de cel ortogonal. s aib noroc/ans? ,294 ,492 s arate bine? ,309 ,362 s fure? ,302 Extraction Method: Maximum Likelihood. Rotation Method: Oblimin with Kaiser Normalization.
Interpretare?
Primul factor reflecta dimensiunea efortului personal (educaie, munc, inteligen) pentru a reusi in viata, iar cel de-al doilea factor, a contextului social (relaii, a fi nscut ntr-o familie bogat, a avea noroc). Am putea construi doi indeci, care sa reflecte acesti doi factori: 1. efortul personal (achieved) Index efort 2. elemente contingente, ce nu in de individ (ascribed, contextual) Index factori externi Cum s construim aceti indeci? I. Scale aditive simple, care nu in seama de intensitatea relaiilor dintre factori i variabile.
Index efort = s fac coal + s munceasc mult + s fie deteapt Index factori externi = s aib relaii + s se nasc ntr-o familie bogat + s aib noroc Putem pstra valorile iniiale ale varibilelor, sau le putem recoda n variabile dihotomice, unde 0 nseamn nu e important i 1 important.
Scoruri factoriale
II. Construirea unor scale aditive ce in seama de intensitatea relaiilor dintre variabile i factori i acord ponderi diferite variabilelor. Avnd n vedere c variabilele observate indic mai puternic sau mai modest dimensiunea latent (factorul) cercetat, acestea capt ponderi (weights) diferite n indicele final. Ponderea este dat de un scor (un numr) cu care multiplicm valoarea variabilei respective pentru fiecare caz (individ statistic). Acest scor ne este furnizat n urma analizei factoriale i apare ca o nou variabil n baza de date (cu valori diferite pentru fiecare obiect din eantion). Scorul poate fi determinat prin mai multe metode: 1. 2. 3. Metoda regresiei. Scorul este o estimat a coeficientului de regresie dintre factor i variabil. Se caut obinerea unui factor F estimat astfel nct corelaia dintre factorul latent F i variabil s fie maxim. Metoda Bartlett. Varianele datorate factorilor de unicitate sunt considerate erori de eantionare, deci drept aleatoare. Se acord astfel scoruri mai sczute variabilelor care prezint erori mai mari prin mprirea la erori. Metoda Rubin-Anderson. Utilizeaz aceeai procedur de estimare a diferenei ptratice dintre factorii estimai i variabilele observate, dar pune condiia c factorii estimai sunt ortogonali doi cte doi.
S fac coala = 0.78*F1 0.13*F2 + U1 S munceasc mult =0.67*F1 + U2 S fie deteapt = 0.64*F1 + U3 S cread n Dumnezeu=0.34*F1+0.1*F2
Extraction Method: Maximum Likelihood. Rotation Method: Oblimin with Kaiser Normalization. a. Rotation converged in 7 iterations.
Celelalte variabile nu au o apartenen clar la nici unul dintre cei doi indeci.