Beruflich Dokumente
Kultur Dokumente
- Modellbildung
mathematische umsetzung bei PCA und PFA
- Praktische Aspekte extrem ähnlich, aber
interpretation ist unterschiedlich
Faktorenanalyse
Clusteranalyse warum mache ich HKA wenn nicht interpretierbar?
- zwar nicht interpretierbar, aber strukturen erkennen im multivariaten raum ist häufig
fokus auf selbstgeschr. in praxis gewollt;
formelsammlung - wir dürfen zusätzlich - HKA ist relativ altes verfahren, inzwischen FA beliebt, da interpretierbar -> FA heute
ja 4 seiten schreiben mit rechenmäßig kein problem mehr
beliebigem inhalt zu formelsammlung - HKA früher wichtig, da datenmengen sonst zu groß waren
dazu
LS Statistik und Ökonometrie SoSe 2020 92
Hauptkomponentenanalyse Motivation
Hauptkomponentenanalyse
Motivation
Beispiel (PISA-Studie)
Ein weiteres Beispiel betrachtet die Punkte der Pisa-Studie für
Lesekompetenz und Mathematische Grundausbildung in verschiedenen
Ländern (Handl, 2002)
Land Lesekompetenz Mathematische
Grundausbildung
Dänemark 497 514
Griechenland 474 447
Italien 487 457
Portugal 470 454
Schweden 516 510
Die Unterschiede zwischen den Ländern anhand der Merkmale soll bei
der Datenreduzierung erhalten bleiben
Wie kann man erkennen, ob dieses Ziel erreicht wird?
information meist in statistik meist streuung:
Beispiel (PISA-Studie)
streuungsdiagramm (scatterplot) - lesekompetenz vs. mathematische grundausbildung
Ausgangspunkt:
Dänemark
510 Schweden
Mathematische Grundausbildung
500
490
480
bei mathematik deutlich mehr
unterschiede als bei lesekompetenz
470
zwischen den ländern
460
Italien
Portugal
450
Griechenland
420 440 460 480 500 520 540
Lesekompetenz
Beispiel (PISA-Studie)
- Betrachtung zentrierter Merkmale mit x̄LK = 488.8 und zentriert da in mittel
= 0 (lesekompetenz
x̄M G = 476.4 bilden zuerst mittelwerte mittelwerte und zentriert wohl insg. = 0 über länder)
- Wie sind a1 und a2 zu wählen? -> wenn wir möglichst viel information erhalten wollen?
Mathematische Grundausbildung
20 20
Lesekompetenz
0 0
−20 −20
−40 −40
Dänemark Griechenland Italien Portugal Schweden Dänemark Griechenland Italien Portugal Schweden
Land Land
->wir suchen lienarkombination mit noch größerer streuung mathe 1 lese 0 wäre trotzdem besser methode da varianz
dann größer bzw. größte streuung
LS Statistik und Ökonometrie SoSe 2020 98
Hauptkomponentenanalyse Motivation
40 40
20 20
(a) 0 (b) 0
−20 −20
−40 −40
Dänemark Griechenland Italien Portugal Schweden Dänemark Griechenland Italien Portugal Schweden
Land Land
Die Varianz der Linearkombination von (a) beträgt 1317.2 und von
(b) 302.868, Beispiel (a)sprich
erzeugt eine Linearkombination mit der
a) ist besser als vorige holzhammer-gewichtugn &
höchsten Streuung bietet uns hohe
gleichzeitig stark
informatiosnkondensation! wir behalten viel varianz aber kondensieren diese
Hauptkomponentenanalyse
Modellbildung – Grundlagen
X = (X1 , . . . ,Xp )
max V ar(a0i X)
(1) max V ar(a01 X), a01 a1 = 1 hier nur 1. nebenbedingung -> wenig sinnvoll, mindestens 3
variablen für HKA in praxis
(2) max V ar(a02 X), a02 a2 = 1, Cov(a02 X, a01 X) =0
cov bedingung jetzt da erst
.. .. jetzt 1. und 2. nebenbedingung!
jetzt cov möglich
. .
(p) max V ar(a0p X), a0p ap = 1, Cov(a0p X, a0j X) = 0, j < p
wir wollen kombination von gewichten, welche varianz möglichst gut erhält aber information zusammenschiebt
Hauptkomponentenanalyse
Modellbildung – Optimierung
∂L(a1 ,λ)
= 2Σa1 − 2λa1
∂a1
∂L(a1 ,λ)
= 1 − a01 a1
∂λ
Σa1 = λa1
vcov-matrix * vektor der optimalen gewichte = eigenwert * vektor der optimalen gewichte
a1 bis ap
welche ein Eigenwertproblem darstellt. Der Vektor a1 ergibt sich aus
den normierten Eigenvektoren der Matrix Σ
vcov matrix sigma
Hauptkomponentenanalyse
Modellbildung – Exkurs Eigenwertproblem
u0i ui = 1
u ist ai
- Der Rang einer symmetrischen Matrix A ist der gleich der Anzahl der
von 0 verschiedenen Eigenwerte
Für symmetrische Matrizen A sind die Eigenvektoren von
verschiedenen Eigenwerten orthogonal
Beispiel (Eigenwerte in R)
> A=matrix(c(4,5,7,5,1,10,7,10,2),ncol=3)
> A dieses gleichungssystem wird hier praktisch gelöst
[1,] 4 5 7
[2,] 5 1 10
[3,] 7 10 2
> eigen(A) mti befehl eigen(A) bekommen wir die eigenwerte
lambda 1, ... lambda 3
$values bei so einer matrix meist erste hauptkomponente (17.08..) spannnend, ggf. noch zweite aber nicht mehr, da verdichtung
[1] 17.082516 -1.410893 -8.671623
das hier sind eigenwerte
Beispiel (Eigenwerte in R)
Normierung und Orthogonalität
> eigen(A)$vectors[,1]%*%eigen(A)$vectors[,1]
[,1]
tatsächlich gegeben hier - die eigenschaft der normierung
[1,] 1
> eigen(A)$vectors[,1]%*%eigen(A)$vectors[,2]
[,1]
[1,] -3.421064e-16 sollte eigentlich 0 sein, also dass keine korrelation zwischen vekotren
sind nur nahezu orthogonal
Determinante
> det(A)
[1] 209 wie in regel 1 beschrieben auf folie 106
> prod(eigen(A)$values) produkt ist 209 wie determinante
[1] 209
Spur auch spur (eigenschaft 2 auf folie 106) passt:
> sum(diag(A))
[1] 7
> sum(eigen(A)$values)
[1] 7
LS Statistik und Ökonometrie SoSe 2020 108
Hauptkomponentenanalyse Modellbildung – Optimierung (weiter)
max V ar(a02 X)
2 bedeutet zweiter vektor
(i) a02 a2 =1
(ii) Cov(a02 X, a01 X) = a02 Σa1 = a02 λa1 =0 → a02 a1 =0
covarianz von a1 und a2 soll 0 sein
Über die Lagrange-Funktion ergibt sich die Lösung für a2 als eine
Eigenwertproblem:
Σa2 = λa2
a2 wird gleich dem Eigenvektor ui gesetzt, der zu dem zweitgrößten
Eigenwert der Matrix Σ gehört. Die beiden Nebenbedingung sind
erfüllt, da sich bei Σ um eine symmetrische Matrix handelt
Für jedes der p Maximierungsprobleme ergibt sich die Lösung als
gibt so viele max.probleme wie
Darstellung eines Eigenwertproblems. Die gesuchten variablen
Hauptkomponenten ai sind die Eigenvektoren ai der i-größten
Eigenwerte λi der Matrix Σ höchste verdichtung findet sich im 1. vektor der 1. hauptkomponente
LS Statistik und Ökonometrie SoSe 2020 110
Hauptkomponentenanalyse Praktische Aspekte
Hauptkomponentenanalyse
Praktische Aspekte
[2,] 4 100
> eigen(S) um eigenwerte zu bestimmten von S
$values
varianz
[1] 100.1613532 0.8386468 ="dominanz des merkmals 2 mit seiner hohen dominanz"
entsprechende eigenvektoren für eigenwert 1 und 2
$vectors
[,1] [,2]
[1,] 0.04030552 0.99918740
[2,] 0.99918740 -0.04030552
$vectors
[,1] [,2]
[1,] 0.7071068 0.7071068
[2,] 0.7071068 -0.7071068
Hauptkomponentenanalyse
Praktische Aspekte – Interpretation
$vectors eigenvektoren die wir bräuchten, um auf diese verdichtung zu kommen bzw. das hier sind "a's"
[,1] [,2] [,3] [,4] erster plot auf nächster folie
[1,] -0.5459874 -0.11119464 -0.4176682 0.71769543 mathe also genau diese werte geplottet
[2,] -0.4070601 0.83236725 0.3742858 0.03710817 bwl
[3,] -0.5472001 -0.02598222 -0.4686247 -0.69302808 vwl
[4,] -0.4865921 -0.54233333 0.6825352 -0.05699419 methoden
Hauptkomponente 2
0.0 0.0
−0.5 −0.5
0.5 0.5
Hauptkomponente 3
Hauptkomponente 4
0.0 0.0
−0.5 −0.5
Hauptkomponentenanalyse
Praktische Aspekte – Optimale Anzahl
Hauptkomponentenanalyse
Praktische Aspekte – Umsetzung in R
Rotation:
PC1 PC2 PC3 PC4
Mathematik 0.5459874 -0.11119464 0.4176682 0.71769543
BWL 0.4070601 0.83236725 -
0.3742858 0.03710817
VWL 0.5472001 -0.02598222 0.4686247 -
0.69302808
Methoden 0.4865921 -0.54233333 -0.6825352 -
0.05699419
LS Statistik und Ökonometrie SoSe 2020 121
Hauptkomponentenanalyse Praktische Aspekte – Umsetzung in R
hier geht um manifeste vars nur!!!
Beispiel (Noten von Studenten) PCA weiterhin durchgeführt um vorstellung
Befehl ”princomp” cor = true bedeutet korrelationsmatrix verwendet von strukturen des datensatzes zu erhalten
-> dann konfirmatorische FA im ansatz
> pca2=princomp(Noten,cor=TRUE, scores=TRUE)
-> immer noch relativ häufig dieses vorgehen
> pca2
Call: => etwas widersprüchlich, da SEM/CFA dann
princomp(x = Noten, cor = TRUE, scores = TRUE) auf eigentlich nicht interpertierbaren
PCA-komponenten basiert; aber ist wohl
einfach so
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4
1.7077125 0.8372223 0.4697899 0.4025843