Sie sind auf Seite 1von 31

Hauptkomponentenanalyse

hier 2 videos nochmla


Hauptkomponentenanalyse anschauen
PCA: ist für manifeste variablen -> so wie sie faktorenanalyse: hier gibt es auch hauptkomponentenansatz
empirisch vorliegen, kein latentes konstrukt! dieser ist nur ANGELEHNT an die HKA hier
HKA: ist rein deskriptiv, nicht induktiv! -> für gegebenen datensatz hat
PFA: geht davon aus, dass konstrukt über manifeste
HKA immer rein individuelle lösung
variablen latentes konstrukt manifest bzw. gemessen wird
-> hier können wir faktoren nicht interpretieren, da diese auf datensatz
Einführung beschränkt sind!! (wir machen das trotzdem ein wenig hier)
- ist praktisch nur darstellung eines eigenwertproblems
Regressionsanalyse FA: nimmt an, dass es latente faktoren gibt, welche im datensatz aufgefangen
werden
Logistische Regression -> dann faktoren mit entsprechenden ladungen geschätzt
-> wir wollen faktoren interpretieren
Varianzanalyse -> und folgern auf außerhalb des datensatzes

Hauptkomponentenanalyse -> wird allein zur findung von strukturen durchgeführt im


gegensatz zur faktorenanalyse!
- Motivation FA ist interpretierbar, PCA liefert nur strukturen

- Modellbildung
mathematische umsetzung bei PCA und PFA
- Praktische Aspekte extrem ähnlich, aber
interpretation ist unterschiedlich
Faktorenanalyse
Clusteranalyse warum mache ich HKA wenn nicht interpretierbar?
- zwar nicht interpretierbar, aber strukturen erkennen im multivariaten raum ist häufig
fokus auf selbstgeschr. in praxis gewollt;
formelsammlung - wir dürfen zusätzlich - HKA ist relativ altes verfahren, inzwischen FA beliebt, da interpretierbar -> FA heute
ja 4 seiten schreiben mit rechenmäßig kein problem mehr
beliebigem inhalt zu formelsammlung - HKA früher wichtig, da datenmengen sonst zu groß waren
dazu
LS Statistik und Ökonometrie SoSe 2020 92
Hauptkomponentenanalyse Motivation

Hauptkomponentenanalyse
Motivation

Ausgangspunkt ist die Untersuchung von mehreren quantitativen


Merkmalen sind quantitative merkmale -> midnestens intervallskaliert eigentlich, aber oft auch quasi-metrisch
gibt kein UV und AV, mit welcher wir kausalität nachspüren würden
Von Interesse ist die Interpretation der Beobachtungen anhand aller
Variablen (z.B. die Ordnung der Objekte auf Basis der Merkmale der
Größe nach)
Weiter sollen Aussagen über die Variablenstruktur getroffen und die
Darstellung höherdimensionaler Strukturen in einem
zweidimensionalen Raum ermöglicht werden
Ziel ist die Reduzierung der Daten, so dass die Informationen der
quantitativen Merkmale erhalten bleiben
nur essentielle information soll übrig bleiben ist das ziel

allerdings anzahl der variablen begrenzt:


in sozi/psy anwendung oft 7-8 merkmale in itembatterien, welche mit PCA analysiert werden

LS Statistik und Ökonometrie SoSe 2020 93


Hauptkomponentenanalyse Motivation

Beispiel (Noten von Studenten)


Betrachtet werden die Variablen Mathematik, BWL, VWL und
lage und streuungsmaße sind immer
Methoden, welche die Noten von 17 Studenten beinhalten (Handl, verdichtung von information:
2002)
Mathematik BWL VWL Methoden Mittelwert mittelwert (ganz rechte spalte) ist
verdichtung der noteninformation
1.325 1.000 1.825 1.750 1.475
2.000 1.250 2.675 1.750 1.919
3.000 3.250 3.000 2.750 3.000
1.075 2.000 1.675 1.000 1.438 sozusagen auch linearkombination
mit gleichen gewichten
3.425 2.000 3.250 2.750 2.856
1.900 2.000 2.400 2.750 2.263
3.325 2.500 3.000 2.000 2.706
3.000 2.750 3.075 2.250 2.769
2.075 1.250 2.000 2.250 1.894
2.500 3.250 3.075 2.250 2.769
1.675 2.500 2.675 1.250 2.025
2.075 1.750 1.900 1.500 1.806
1.750 2.000 1.150 1.250 1.538
2.500 2.250 2.425 2.500 2.419
1.675 2.750 2.000 1.250 1.919
3.675 3.000 3.325 2.500 3.125
1.250 1.500 1.150 1.000 1.225
Der Mittelwert über die Variablen pro Beobachtung ist eine
Reduzierung auf die Durchschnittsnote, also eine Linearkombination
der Merkmalswerte mit gleichen Gewichten 1/4 mal jede note

LS Statistik und Ökonometrie SoSe 2020 94


Hauptkomponentenanalyse Motivation

Beispiel (PISA-Studie)
Ein weiteres Beispiel betrachtet die Punkte der Pisa-Studie für
Lesekompetenz und Mathematische Grundausbildung in verschiedenen
Ländern (Handl, 2002)
Land Lesekompetenz Mathematische
Grundausbildung
Dänemark 497 514
Griechenland 474 447
Italien 487 457
Portugal 470 454
Schweden 516 510
Die Unterschiede zwischen den Ländern anhand der Merkmale soll bei
der Datenreduzierung erhalten bleiben
Wie kann man erkennen, ob dieses Ziel erreicht wird?
information meist in statistik meist streuung:

unterschied meint varianz/variation zwischen den ländern in diesem fall

LS Statistik und Ökonometrie SoSe 2020 95


Hauptkomponentenanalyse Motivation

Beispiel (PISA-Studie)
streuungsdiagramm (scatterplot) - lesekompetenz vs. mathematische grundausbildung
Ausgangspunkt:
Dänemark
510 Schweden

Mathematische Grundausbildung
500

490

480
bei mathematik deutlich mehr
unterschiede als bei lesekompetenz
470
zwischen den ländern

460
Italien
Portugal
450
Griechenland
420 440 460 480 500 520 540
Lesekompetenz

Die Streuung des Merkmals Mathematische Grundausbildung ist


größer als bei dem Merkmal Lesekompetenz
Es existieren zwei Gruppen: Portugal, Griechenland, Italien und
Dänemark, Schweden
Suchen eine Linearkombination beider Merkmale, so dass die Struktur
erhalten bleibt
LS Statistik und Ökonometrie SoSe 2020 96
Hauptkomponentenanalyse Motivation

Beispiel (PISA-Studie)
- Betrachtung zentrierter Merkmale mit x̄LK = 488.8 und zentriert da in mittel
= 0 (lesekompetenz
x̄M G = 476.4 bilden zuerst mittelwerte mittelwerte und zentriert wohl insg. = 0 über länder)

Land Lesekompetenz Mathematische


Grundausbildung
Dänemark 8.2 37.6
Griechenland -14.8 -29.4
Italien -1.8 -19.4
Portugal -18.8 -22.4
Schweden 27.2 33.6
Die zu bildende Linearkombination lautet:
das hier wäre gewichtete linearkombination
(mittelwerte mal gewicht)
a1 x̄1 + a2 x̄2
-> sowas wird später auch ladung genannt

- Wie sind a1 und a2 zu wählen? -> wenn wir möglichst viel information erhalten wollen?

LS Statistik und Ökonometrie SoSe 2020 97


Hauptkomponentenanalyse Motivation

Beispiel (PISA-Studie) für maximalen informationserhalt folgende strategien:

Strategie 1: Setze a1 = 1 und a2 = 0 und umgekehrt = gewichtung


40 40

Mathematische Grundausbildung
20 20
Lesekompetenz

0 0

−20 −20

−40 −40

Dänemark Griechenland Italien Portugal Schweden Dänemark Griechenland Italien Portugal Schweden
Land Land

Die Mathematische Grundausbildung gibt die Beziehung zwischen den


Ländern besser wieder und besitzt eine größere Streuung (Die Varianz
der Lesekompetenz beträgt 345.7 und die der Mathematische
Grundausbildung 1071.3)
⇒ Suche eine Linearkombination mit einer größeren Streuung
lese mit 0 und mathe mit 1 zu gewichten wäre holzhammermethode! lese würde komplett rausfallen

->wir suchen lienarkombination mit noch größerer streuung mathe 1 lese 0 wäre trotzdem besser methode da varianz
dann größer bzw. größte streuung
LS Statistik und Ökonometrie SoSe 2020 98
Hauptkomponentenanalyse Motivation

Beispiel (PISA-Studie) sollen quadriert und summiert 1 ergeben

Strategie 2: Wähle Gewichte a1 und a2 , so dass Streuung groß wird.


Normiere diese durch a21 + a22 = 1 um die Vergleichbarkeit zu
gewährleisten
Setze zum Beispiel: (a) a1 = 0.6 und a2 = 0.8 bzw. (b) a1 = −0.6
und a2 = 0.8 kriterium erfüllt dass beide quadriert und summiert = 1

40 40

20 20

(a) 0 (b) 0

−20 −20

−40 −40

Dänemark Griechenland Italien Portugal Schweden Dänemark Griechenland Italien Portugal Schweden
Land Land

Die Varianz der Linearkombination von (a) beträgt 1317.2 und von
(b) 302.868, Beispiel (a)sprich
erzeugt eine Linearkombination mit der
a) ist besser als vorige holzhammer-gewichtugn &
höchsten Streuung bietet uns hohe
gleichzeitig stark
informatiosnkondensation! wir behalten viel varianz aber kondensieren diese

Es ist lohnend beide Merkmale zu betrachten


LS Statistik und Ökonometrie SoSe 2020 99
Hauptkomponentenanalyse Modellbildung – Grundlagen

Hauptkomponentenanalyse
Modellbildung – Grundlagen

Ziel ist die optimale Bestimmung der Gewichte der


Linearkombinationen von mehreren Variablen
Ausgangspunkt sind p Zufallsvariablen X1 , . . . ,Xp mit
nicht nur zwei variablen wie im beispiel sondern Xp variablen

X = (X1 , . . . ,Xp )

und der entsprechenden Varianz-Kovarianz-Matrix V ar(X) = Σ


vcov matrix ist häufiges mittel um info zu kondensieren
 
V ar(X1 ) Cov(X1 ,X2 ) · · · Cov(X1 ,Xp )
großes sigma meint
vcov matrix ab hier
 .. 
 Cov(X2 ,X1 ) V ar(X2 ) ··· . 
Σ= 
.. .. .. ..


 . . . . 
vcov um gewichte in einer
linearkombination finden Cov(Xp ,X1 ) ··· ··· V ar(Xp )
zu können

und den Mittelwerten µi = E(Xi ) mit i = 1, . . . , p


vcov matrix ist hier und für FA relevant, nicht einzelne variablen
LS Statistik und Ökonometrie SoSe 2020 100
Hauptkomponentenanalyse Modellbildung – Grundlagen

Gebildet werden die Linearkombinationen


nicht eine variable sondern mehrere werden angeschaut -> kann unübersichtlich werden, daher diese notation

a01 X = a11 X1 + a12 X2 + · · · + a1p Xp variablen x1 bis xp


erhalten hier entsprechende
gewichte
a02 X = a21 X1 + a22 X2 + · · · + a2p Xp
.. ..
. .
a0p X = ap1 X1 + ap2 X2 + · · · + app Xp

Die Varianzen und Kovarianzen der Linearkombinationen sind gegeben


mit: varianz der obenen linearkombinationen = ai vektor transponiert mal var(x) mal ai vektor

V ar(a0i X) = a0i V ar(X)ai = a0i Σai


und
Cov(a0i X, a0j X) = a0i Σaj mit i 6= j
wir wollen eigentlich:
- dass kovarianz möglichst eingedampft wird
- und wir eigentlich alles in varianz wiederfinden

-> wir können wir a's so hindrehen, dass das passiert?


LS Statistik und Ökonometrie SoSe 2020 101
Hauptkomponentenanalyse Modellbildung – Grundlagen

Bestimme die Hauptkomponenten ai , so dass die Varianz der


entsprechenden Linearkombination maximal wird

max V ar(a0i X)

unter der Nebenbedingung, dass HKA dekorreliert die variablen untereinander!


-> variablen x1 bis xp werden dekorreliert
-> d.h. HKA sucht lösung, damit im theoretisch optimalen fall
a0i ai = 1 keine der variablen mehr korreliert! ("dekorreliert")

Cov(a0i X, a0j X) = 0 mit i 6= j -> diese zweite bedingung in praxis nicht


wirklich erfüllt, also dass genau 0
kovarianz ist paarweise null -> nur möglichst klein

Insgesamt ergeben sich p Maximierungsprobleme unter


je nach anzahl der variablen x1...xp
Nebenbedingungen "p maximierungsprobleme für p variablen"

(1) max V ar(a01 X), a01 a1 = 1 hier nur 1. nebenbedingung -> wenig sinnvoll, mindestens 3
variablen für HKA in praxis
(2) max V ar(a02 X), a02 a2 = 1, Cov(a02 X, a01 X) =0
cov bedingung jetzt da erst
.. .. jetzt 1. und 2. nebenbedingung!
jetzt cov möglich
. .
(p) max V ar(a0p X), a0p ap = 1, Cov(a0p X, a0j X) = 0, j < p
wir wollen kombination von gewichten, welche varianz möglichst gut erhält aber information zusammenschiebt

LS Statistik und Ökonometrie SoSe 2020 102


Hauptkomponentenanalyse Modellbildung – Optimierung

Hauptkomponentenanalyse
Modellbildung – Optimierung

Das Maximierungsproblem wird auf Basis der Lagrange-Funktion


diese macht maximierung unter bestimmten nebenbedingungen (dekorreliertheit der gewichtvektoren etc.
gelöst s. letzte folie)
Für das Maximierungsproblem (1) ergibt sich nur als background wohl

L(a1 ,λ) = a01 Σa1 − λ(a01 a1 − 1)

mit den partiellen Ableitungen

∂L(a1 ,λ)
= 2Σa1 − 2λa1
∂a1
∂L(a1 ,λ)
= 1 − a01 a1
∂λ

LS Statistik und Ökonometrie SoSe 2020 103


Hauptkomponentenanalyse Modellbildung – Optimierung

Die notwendigen Bedingungen für einen Extremwert sind erfüllt, wenn:


2 partielle ableitungen: !
2Σa1 − 2λa1 = 0
!
1 − a01 a1 = 0

Daraus folgt die Gleichung


das hier wollen wir bzw. hier steigen wir wieder ein:

Σa1 = λa1
vcov-matrix * vektor der optimalen gewichte = eigenwert * vektor der optimalen gewichte
a1 bis ap
welche ein Eigenwertproblem darstellt. Der Vektor a1 ergibt sich aus
den normierten Eigenvektoren der Matrix Σ
vcov matrix sigma

LS Statistik und Ökonometrie SoSe 2020 104


Hauptkomponentenanalyse Modellbildung – Exkurs Eigenwertproblem

Hauptkomponentenanalyse
Modellbildung – Exkurs Eigenwertproblem

Definition grundlage sind x1 bis xp variablen allgemeines eigenwertproblem

Sei A eine quadratische (p × p)-Matrix. Erfüllen ein Skalar λ und ein


p-dimensionaler Vektor u mit u 6= 0 das Gleichungssystem
A ist
A quadratische mtrix bzw. vcov matrix
Au = λu
eigenwerte bestimmbar aus vcov matrix
so heißt λ Eigenwert von A; und u ist der zugehörige Eigenvektor
skalar ist der eigenwert -> gibt so viele eigenwerte wie es variablen gibt
Die Eigenwerte λi mit i = 1, . . . , p ergeben sich aus den Nullstellen
eines Polynoms p-ten Grades
Für jeden Eigenwert λi wird der zugehörige Eigenvektor ui bestimmt.
Der Eigenvektor wird normiert, so dass

u0i ui = 1
u ist ai

LS Statistik und Ökonometrie SoSe 2020 105


Hauptkomponentenanalyse Modellbildung – Exkurs Eigenwertproblem

Die Eigenwerte λi besitzen folgende Eigenschaften:


3 kriterien, - Die Determinante von A ist gleich dem Produkt der Eigenwerte
die wir nachprüfen
können p
Y wenn ich eigenwerte multipliziere,
komme ich auf determinante der
det(A) = λi kovarianzmatrix
i=1

- Die Spur von A ist gleich der Summe der Eigenwerte


p
X
sp(A) = λi
i=1

- Der Rang einer symmetrischen Matrix A ist der gleich der Anzahl der
von 0 verschiedenen Eigenwerte
Für symmetrische Matrizen A sind die Eigenvektoren von
verschiedenen Eigenwerten orthogonal

u0i uj = 0, mit i 6= j dann hat dekorrelieren vollständig


erfolgreich stattgefunden

LS Statistik und Ökonometrie SoSe 2020 106


Hauptkomponentenanalyse Modellbildung – Exkurs Eigenwertproblem

Beispiel (Eigenwerte in R)
> A=matrix(c(4,5,7,5,1,10,7,10,2),ncol=3)
> A dieses gleichungssystem wird hier praktisch gelöst

[,1] [,2] [,3] A * u1 = lambda 1 * u1

[1,] 4 5 7
[2,] 5 1 10
[3,] 7 10 2
> eigen(A) mti befehl eigen(A) bekommen wir die eigenwerte
lambda 1, ... lambda 3
$values bei so einer matrix meist erste hauptkomponente (17.08..) spannnend, ggf. noch zweite aber nicht mehr, da verdichtung
[1] 17.082516 -1.410893 -8.671623
das hier sind eigenwerte

$vectors von eigenwerte dann zugehörige eigenvektoren 1-3

[,1] [,2] [,3]


[1,] 0.5471094 0.8267374 -0.1310593 und das hier
unten sind
[2,] 0.5580381 -0.4769408 -0.6790589 eigenvektoren
[3,] 0.6239109 -0.2983834 0.7222898

LS Statistik und Ökonometrie SoSe 2020 107


Hauptkomponentenanalyse Modellbildung – Exkurs Eigenwertproblem

Beispiel (Eigenwerte in R)
Normierung und Orthogonalität
> eigen(A)$vectors[,1]%*%eigen(A)$vectors[,1]
[,1]
tatsächlich gegeben hier - die eigenschaft der normierung
[1,] 1
> eigen(A)$vectors[,1]%*%eigen(A)$vectors[,2]
[,1]
[1,] -3.421064e-16 sollte eigentlich 0 sein, also dass keine korrelation zwischen vekotren
sind nur nahezu orthogonal
Determinante
> det(A)
[1] 209 wie in regel 1 beschrieben auf folie 106
> prod(eigen(A)$values) produkt ist 209 wie determinante
[1] 209
Spur auch spur (eigenschaft 2 auf folie 106) passt:

> sum(diag(A))
[1] 7
> sum(eigen(A)$values)
[1] 7
LS Statistik und Ökonometrie SoSe 2020 108
Hauptkomponentenanalyse Modellbildung – Optimierung (weiter)

an sich gibt es p maximierungsprobleme für p avariablen, aber wir


Hauptkomponentenanalyse stoppen natürlich und lösen nicht alle sondern machen nur so oft
bis wir ausreichend information erhalten -> sonst hätten wir keine
Modellbildung – Optimierung (weiter) datenreduktion

Die Lösung des Maximierungsproblems (1) ist:


1. maximierungsproblem mit nebenbedingung: mit 1. zugehörigem vektor

Σa1 = λa1 und a01 a1 = 1


über eigenwerte erhalte ich so die eigenvektoren

wobei sich der gesuchte Vektor a1 aus den normierten Eigenvektoren


ui der Matrix Σ ergibt
Welcher Eigenvektor ui liefert nun die Linearkombination a01 X mit
der größten Varianz? Da gilt, dass die Varianz der Linearkombination
gleich dem Eigenwert ist: über eigenwert enthalte ich eigenvektoren

V ar(a01 X) = a01 Σa1 = a01 λa1 = λ

wird für a1 der Eigenvektoren ui gewählt, der zu dem größten


Eigenwert λi der Matrix Σ gehört
Der Eigenvektor u des größten Eigenwertes wird bezeichnet als erste
Hauptkomponente
LS Statistik und Ökonometrie SoSe 2020 109
Hauptkomponentenanalyse Modellbildung – Optimierung (weiter)

Das Maximierungsproblem (2) stellt sich dar als

max V ar(a02 X)
2 bedeutet zweiter vektor

mit den Nebenbedingungen:

(i) a02 a2 =1
(ii) Cov(a02 X, a01 X) = a02 Σa1 = a02 λa1 =0 → a02 a1 =0
covarianz von a1 und a2 soll 0 sein

Über die Lagrange-Funktion ergibt sich die Lösung für a2 als eine
Eigenwertproblem:
Σa2 = λa2
a2 wird gleich dem Eigenvektor ui gesetzt, der zu dem zweitgrößten
Eigenwert der Matrix Σ gehört. Die beiden Nebenbedingung sind
erfüllt, da sich bei Σ um eine symmetrische Matrix handelt
Für jedes der p Maximierungsprobleme ergibt sich die Lösung als
gibt so viele max.probleme wie
Darstellung eines Eigenwertproblems. Die gesuchten variablen
Hauptkomponenten ai sind die Eigenvektoren ai der i-größten
Eigenwerte λi der Matrix Σ höchste verdichtung findet sich im 1. vektor der 1. hauptkomponente
LS Statistik und Ökonometrie SoSe 2020 110
Hauptkomponentenanalyse Praktische Aspekte

Hauptkomponentenanalyse
Praktische Aspekte

In der Regel ist die Varianz-Kovarianz-Matrix Σ unbekannt.


Verwendet wird stattdessen die empirische Varianz-Kovarianz-Matrix
wir nehmen an, dass empirsiche mit wahren theoretischen vcovmatrix übereinstimmt
S
Die Hauptkomponentenanalyse ist sehr sensitiv bezüglich
unterschiedlicher Varianzverhältnisse. Dies bedeutet, dass Merkmale
mit einer sehr hohen Varianz dominieren ->z.b.sprich varianz höher wenn zeit in sekunden statt tagen gemessen
diese variable hat dann vergleichsweise hohe var.
Aus diesen Grund wird die Bildung der Hauptkomponenten auf Basis
der Korrelationsmatrix ρ bzw. der empirischen Korrelationsmatrix R
alle info in vcvov auch in korrelationsmatrix
durchgeführt vortei: maximale werte sind +/-1 -> sozusagen
standardisiert dadurch
Die Varianz-Kovarianz-Matrix der standardisierten Variablen
Z1 , . . . , Zp entspricht der Korrelationsmatrix der ursprünglichen
hierdurch überführung
Variablen X1 , . . . ,Xp
Xi − µi
Zi = p
V ar(Xi )
mit
E(Zi ) = 0 und V ar(Zi ) = 1
LS Statistik und Ökonometrie SoSe 2020 111
Hauptkomponentenanalyse Praktische Aspekte

Beispiel für die Sensitivität


> S=matrix(c(1,4,4,100),ncol=2)
> S S ist empirische vcov matrix
[,1] [,2]
[1,] 1 4 varianzen sind 1 und 100 -> ungeheuer hohe varianz für 2. variable und geringe für 1.

[2,] 4 100
> eigen(S) um eigenwerte zu bestimmten von S
$values
varianz
[1] 100.1613532 0.8386468 ="dominanz des merkmals 2 mit seiner hohen dominanz"
entsprechende eigenvektoren für eigenwert 1 und 2
$vectors
[,1] [,2]
[1,] 0.04030552 0.99918740
[2,] 0.99918740 -0.04030552

LS Statistik und Ökonometrie SoSe 2020 112


Hauptkomponentenanalyse Praktische Aspekte

Beispiel für die Sensitivität


> R=matrix(c(1,0.4,0.4,1),ncol=2)
> R zugehörige Korrelationsmatrix
[,1] [,2]
[1,] 1.0 0.4 jetzt korrelationsmatrix statt kovarianzmatrix -> deutlich besser!
[2,] 0.4 1.0
> eigen(R)
$values wenn ich jetzt eigenwerte berechne, dann sind diese viel besser gezügelt:
[1] 1.4 0.6

$vectors
[,1] [,2]
[1,] 0.7071068 0.7071068
[2,] 0.7071068 -0.7071068

⇒ Die Verwendung der Korrelationsmatrix ist zu empfehlen

LS Statistik und Ökonometrie SoSe 2020 113


Hauptkomponentenanalyse Praktische Aspekte – Interpretation

Hauptkomponentenanalyse
Praktische Aspekte – Interpretation

Beispiel für die Sensitivität ursprungsbeispiel:


> Noten=read.table(".../Daten_Noten.txt",
+ dec=",", header=TRUE)
> Noten[1:3,]
Mathematik BWL VWL Methoden
1 1.325 1.00 1.825 1.75
2 2.000 1.25 2.675 1.75
3 3.000 3.25 3.000 2.75
> R=cor(Noten) berechnet cor- hier fraglich ob wir korrelationsmatrix brauchen, da wir bei allen variablen die selbe skala haben!
matrix gibt keien varianzdominanz aufgrund der skalierung, was aber vorhin
> eigen(R) der fall war im letzten beispiel!
$values
[1] 2.9162821 0.7009413 0.2207026 0.1620741

$vectors eigenvektoren die wir bräuchten, um auf diese verdichtung zu kommen bzw. das hier sind "a's"
[,1] [,2] [,3] [,4] erster plot auf nächster folie
[1,] -0.5459874 -0.11119464 -0.4176682 0.71769543 mathe also genau diese werte geplottet
[2,] -0.4070601 0.83236725 0.3742858 0.03710817 bwl
[3,] -0.5472001 -0.02598222 -0.4686247 -0.69302808 vwl
[4,] -0.4865921 -0.54233333 0.6825352 -0.05699419 methoden

LS Statistik und Ökonometrie SoSe 2020 114


Hauptkomponentenanalyse Praktische Aspekte – Interpretation

Beispiel für die Sensitivität


Die Hauptkomponenten werden einzeln über Barplots dargestellt
was wir heir abtragen sind ladungen
-> z.b. mathematik lädt auf erster hauptkomponente
mit ca. 0.5
0.5 0.5
Hauptkomponente 1

Hauptkomponente 2
0.0 0.0

−0.5 −0.5

es darf KEINE Mathematik BWL


Fach
VWL Methoden Mathematik BWL
Fach
VWL Methoden

inhaltliche interpretation durchgeführt werden,


es ist lediglich lösung für vorliegende daten -> es ging hier nur um datenverdichtung

0.5 0.5
Hauptkomponente 3

Hauptkomponente 4
0.0 0.0

−0.5 −0.5

Mathematik BWL VWL Methoden Mathematik BWL VWL Methoden


Fach Fach

LS Statistik und Ökonometrie SoSe 2020 115


Hauptkomponentenanalyse Praktische Aspekte – Interpretation

Beispiel für die Sensitivität


Die Beobachtungen (=Studenten) können anhand der ersten beiden
Hauptkomponenten im zweidimensionalen Raum dargestellt werden.
Abgetragen werden die sogenannten Scores a0i X bzw. a0i Z
normalerweise mit ursprungsvariablen, aber
in diesem fall heir mit zentrierter variable 1.0
15
wir hatten folgendes mit mittelwerten:
mathe: 2.2458, 10 11 dies zeigt wie hauptkomponenten 1
bwl: 2.1765, 0.5 4 und 2 zueinander stehen durch
vwl: 2.3882, 3 diese verdichtung
methoden: 2.0584
13
16 8
Score 2

wir zentrieren scores um mit gewichten 17


in vektor a multiplizieren zu können 0.0 7
12
erste spalte sind 14
die mittelwerte
−0.5 6
2 1
5
9
−1.0 1. scorewert
−2 −1 0 1 2
Score 1
1. beobachtung zentriert
mit linken mittelwerten
Identifizierung von Gruppen, Ausreißern, etc.

LS Statistik und Ökonometrie SoSe 2020 116


Hauptkomponentenanalyse Praktische Aspekte – Optimale Anzahl

Hauptkomponentenanalyse
Praktische Aspekte – Optimale Anzahl

Wie viele Hauptkomponenten sind ausreichend, um die wesentliche


gibt nur empfehlungen: 2 bis 3, maximal 4
Struktur der betrachteten Merkmale abzubilden? bzw. auf jeden fall weniger als alle p variablen
Die Bestimmung der optimalen Anzahl erfolgt über eine Betrachtung
der Eigenwerte λi der Matrix Σ. Dazu werden diese der Größe nach
geordnet von λ1 bis λp
(1) Erklärter Varianzanteil der Hauptkomponenten an der
Gesamtstreuung: Pr
λi
Pi=1
p ≥α
i=1 λi
Die optimale Anzahl bestimmt sich durch die Anzahl r , die
erforderlich ist, um einen vorgegebenen Varianzanteil α zu erreichen.
Dieser sollte mindestens 80% betragen -> dann reichen die ausgewählten hauptkomponenten
(2) Screeplot: Graphische Darstellung der Eigenwerte nach der Größe,
wobei i.d.R. ein Knick zu beobachten ist. Die optimale Anzahl ist die
Anzahl der Eigenwerte, die vor dem Knick liegen.
LS Statistik und Ökonometrie SoSe 2020 117
Hauptkomponentenanalyse Praktische Aspekte – Optimale Anzahl

(3) Kaiser-Dickman-Kriterium: Berücksichtigt werden nur die


Hauptkomponenten deren Eigenwerte größer sind als der Mittelwert
aus allen Eigenwerten
p
1X
λi > λ̄ mit λ̄ = λi
eigenwerte lambda i sollen größer als
p
i=1
mittelwert von lambda

Jolliffe-Kriterium ist eine Anpassung des Kaiser-Dickman-Kriteriums:


hürde etwas niedriger
bzw. weniger konservativ λi > 0.7λ̄

LS Statistik und Ökonometrie SoSe 2020 118


Hauptkomponentenanalyse Praktische Aspekte – Optimale Anzahl

Beispiel (Noten von Studenten)


Eigenwerte
> eigen(R)$value
[1] 2.9162821 0.7009413 0.2207026 0.1620741
Erklärter Varianzanteil
> cumsum(eigen(R)$values)/sum(eigen(R)$values)
[1] 0.7290705 0.9043058 0.9594815 1.0000000 mit
1. HK erklärt 73% der varianz mit 1.&2. sind 90%
90% haben wir bei
2 HKs 80% varianz-
anteil-regel überschritten
Kaiser-Dickman-Kriterium
> mean(eigen(R)$values)
[1] 1 er schlägt uns wert von 1 vor -> nur 1. HK ist über eins mit eigenwert

Bei Joliffe-Kriterium wäre 2 HKs, da erste beide > 0.7

LS Statistik und Ökonometrie SoSe 2020 119


Hauptkomponentenanalyse Praktische Aspekte – Optimale Anzahl

Beispiel (Noten von Studenten)


Screeplot
> pca=prcomp(Noten,scale=TRUE)
> screeplot(pca,npcs=4, type="lines")

na was ist denn der knick?

blau eingezeichnete linie würde


anzeigen dass nur eine HK

aus praxis-sicht: 2 HKs extrahieren

LS Statistik und Ökonometrie SoSe 2020 120


Hauptkomponentenanalyse Praktische Aspekte – Umsetzung in R

Hauptkomponentenanalyse
Praktische Aspekte – Umsetzung in R

Beispiel (Noten von Studenten)


Befehl ”prcomp” anstatt von eigen-befehl noch komfortabler mit principal component analysis-befehl
> pca=prcomp(Noten,scale=TRUE) scale = TRUE wenn man korrelationsmatrix nehmen will
> pca
Standard deviations:
[1] 1.7077125 0.8372223 0.4697899 0.4025843

Rotation:
PC1 PC2 PC3 PC4
Mathematik 0.5459874 -0.11119464 0.4176682 0.71769543
BWL 0.4070601 0.83236725 -
0.3742858 0.03710817
VWL 0.5472001 -0.02598222 0.4686247 -
0.69302808
Methoden 0.4865921 -0.54233333 -0.6825352 -
0.05699419
LS Statistik und Ökonometrie SoSe 2020 121
Hauptkomponentenanalyse Praktische Aspekte – Umsetzung in R
hier geht um manifeste vars nur!!!
Beispiel (Noten von Studenten) PCA weiterhin durchgeführt um vorstellung
Befehl ”princomp” cor = true bedeutet korrelationsmatrix verwendet von strukturen des datensatzes zu erhalten
-> dann konfirmatorische FA im ansatz
> pca2=princomp(Noten,cor=TRUE, scores=TRUE)
-> immer noch relativ häufig dieses vorgehen
> pca2
Call: => etwas widersprüchlich, da SEM/CFA dann
princomp(x = Noten, cor = TRUE, scores = TRUE) auf eigentlich nicht interpertierbaren
PCA-komponenten basiert; aber ist wohl
einfach so
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4
1.7077125 0.8372223 0.4697899 0.4025843

4 variables and 17 observations.


Befehl ”loadings”
> loadings(pca2) gibt auch mathematische statistiker, die
von FA nicht viel halten; wir werden
Loadings: drüber reden
Comp.1 Comp.2 Comp.3 Comp.4
Mathematik -0.546 -0.111 0.418 0.718
BWL -0.407 0.832 -0.374
VWL -0.547 0.469 -0.693
Methoden -0.487 -0.542 -0.683

Comp.1 Comp.2 Comp.3 Comp.4


SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00

LS Statistik und Ökonometrie SoSe 2020 122

Das könnte Ihnen auch gefallen