Hauptkomponentenanalyse: Einf Uhrung Regressionsanalyse Logistische Regression Varianzanalyse Hauptkomponentenanalyse

Hauptkomponentenanalyse
hier 2 videos nochmla

Hauptkomponentenanalyse anschauen
PCA: ist für manifeste variablen -> so wie sie faktorenanalyse: hier gibt es auch hauptkomponentenansatz
empirisch vorliegen, kein latentes konstrukt! dieser ist nur ANGELEHNT an die HKA hier
HKA: ist rein deskriptiv, nicht induktiv! -> für gegebenen datensatz hat
PFA: geht davon aus, dass konstrukt über manifeste
HKA immer rein individuelle lösung
variablen latentes konstrukt manifest bzw. gemessen wird
-> hier können wir faktoren nicht interpretieren, da diese auf datensatz
Einführung beschränkt sind!! (wir machen das trotzdem ein wenig hier)
- ist praktisch nur darstellung eines eigenwertproblems
Regressionsanalyse FA: nimmt an, dass es latente faktoren gibt, welche im datensatz aufgefangen
werden
Logistische Regression -> dann faktoren mit entsprechenden ladungen geschätzt
-> wir wollen faktoren interpretieren
Varianzanalyse -> und folgern auf außerhalb des datensatzes
Hauptkomponentenanalyse -> wird allein zur findung von strukturen durchgeführt im

gegensatz zur faktorenanalyse!
- Motivation FA ist interpretierbar, PCA liefert nur strukturen
- Modellbildung
mathematische umsetzung bei PCA und PFA
- Praktische Aspekte extrem ähnlich, aber
interpretation ist unterschiedlich
Faktorenanalyse
Clusteranalyse warum mache ich HKA wenn nicht interpretierbar?
- zwar nicht interpretierbar, aber strukturen erkennen im multivariaten raum ist häufig
fokus auf selbstgeschr. in praxis gewollt;
formelsammlung - wir dürfen zusätzlich - HKA ist relativ altes verfahren, inzwischen FA beliebt, da interpretierbar -> FA heute
ja 4 seiten schreiben mit rechenmäßig kein problem mehr
beliebigem inhalt zu formelsammlung - HKA früher wichtig, da datenmengen sonst zu groß waren
dazu
LS Statistik und Ökonometrie SoSe 2020 92
Hauptkomponentenanalyse Motivation
Motivation
Ausgangspunkt ist die Untersuchung von mehreren quantitativen

Merkmalen sind quantitative merkmale -> midnestens intervallskaliert eigentlich, aber oft auch quasi-metrisch
gibt kein UV und AV, mit welcher wir kausalität nachspüren würden
Von Interesse ist die Interpretation der Beobachtungen anhand aller
Variablen (z.B. die Ordnung der Objekte auf Basis der Merkmale der
Größe nach)
Weiter sollen Aussagen über die Variablenstruktur getroffen und die
Darstellung höherdimensionaler Strukturen in einem
zweidimensionalen Raum ermöglicht werden
Ziel ist die Reduzierung der Daten, so dass die Informationen der
quantitativen Merkmale erhalten bleiben
nur essentielle information soll übrig bleiben ist das ziel
allerdings anzahl der variablen begrenzt:

in sozi/psy anwendung oft 7-8 merkmale in itembatterien, welche mit PCA analysiert werden

Beispiel (Noten von Studenten)

Betrachtet werden die Variablen Mathematik, BWL, VWL und
lage und streuungsmaße sind immer
Methoden, welche die Noten von 17 Studenten beinhalten (Handl, verdichtung von information:
2002)
Mathematik BWL VWL Methoden Mittelwert mittelwert (ganz rechte spalte) ist
verdichtung der noteninformation
1.325 1.000 1.825 1.750 1.475
2.000 1.250 2.675 1.750 1.919
3.000 3.250 3.000 2.750 3.000
1.075 2.000 1.675 1.000 1.438 sozusagen auch linearkombination
mit gleichen gewichten
3.425 2.000 3.250 2.750 2.856
1.900 2.000 2.400 2.750 2.263
3.325 2.500 3.000 2.000 2.706
3.000 2.750 3.075 2.250 2.769
2.075 1.250 2.000 2.250 1.894
2.500 3.250 3.075 2.250 2.769
1.675 2.500 2.675 1.250 2.025
2.075 1.750 1.900 1.500 1.806
1.750 2.000 1.150 1.250 1.538
2.500 2.250 2.425 2.500 2.419
1.675 2.750 2.000 1.250 1.919
3.675 3.000 3.325 2.500 3.125
1.250 1.500 1.150 1.000 1.225
Der Mittelwert über die Variablen pro Beobachtung ist eine
Reduzierung auf die Durchschnittsnote, also eine Linearkombination
der Merkmalswerte mit gleichen Gewichten 1/4 mal jede note

Beispiel (PISA-Studie)
Ein weiteres Beispiel betrachtet die Punkte der Pisa-Studie für
Lesekompetenz und Mathematische Grundausbildung in verschiedenen
Ländern (Handl, 2002)
Land Lesekompetenz Mathematische
Grundausbildung
Dänemark 497 514
Griechenland 474 447
Italien 487 457
Portugal 470 454
Schweden 516 510
Die Unterschiede zwischen den Ländern anhand der Merkmale soll bei
der Datenreduzierung erhalten bleiben
Wie kann man erkennen, ob dieses Ziel erreicht wird?
information meist in statistik meist streuung:
unterschied meint varianz/variation zwischen den ländern in diesem fall

streuungsdiagramm (scatterplot) - lesekompetenz vs. mathematische grundausbildung
Ausgangspunkt:
Dänemark
510 Schweden
Mathematische Grundausbildung
500
490
480
bei mathematik deutlich mehr
unterschiede als bei lesekompetenz
470
zwischen den ländern
460
Italien
Portugal
450
Griechenland
420 440 460 480 500 520 540
Lesekompetenz
Die Streuung des Merkmals Mathematische Grundausbildung ist

größer als bei dem Merkmal Lesekompetenz
Es existieren zwei Gruppen: Portugal, Griechenland, Italien und
Dänemark, Schweden
Suchen eine Linearkombination beider Merkmale, so dass die Struktur
erhalten bleibt
- Betrachtung zentrierter Merkmale mit x̄LK = 488.8 und zentriert da in mittel
= 0 (lesekompetenz
x̄M G = 476.4 bilden zuerst mittelwerte mittelwerte und zentriert wohl insg. = 0 über länder)
Land Lesekompetenz Mathematische

Grundausbildung
Dänemark 8.2 37.6
Griechenland -14.8 -29.4
Italien -1.8 -19.4
Portugal -18.8 -22.4
Schweden 27.2 33.6
Die zu bildende Linearkombination lautet:
das hier wäre gewichtete linearkombination
(mittelwerte mal gewicht)
a1 x̄1 + a2 x̄2
-> sowas wird später auch ladung genannt
- Wie sind a1 und a2 zu wählen? -> wenn wir möglichst viel information erhalten wollen?

Beispiel (PISA-Studie) für maximalen informationserhalt folgende strategien:
Strategie 1: Setze a1 = 1 und a2 = 0 und umgekehrt = gewichtung

40 40
Mathematische Grundausbildung
20 20
Lesekompetenz
0 0
−20 −20
−40 −40
Dänemark Griechenland Italien Portugal Schweden Dänemark Griechenland Italien Portugal Schweden
Land Land
Die Mathematische Grundausbildung gibt die Beziehung zwischen den

Ländern besser wieder und besitzt eine größere Streuung (Die Varianz
der Lesekompetenz beträgt 345.7 und die der Mathematische
Grundausbildung 1071.3)
⇒ Suche eine Linearkombination mit einer größeren Streuung
lese mit 0 und mathe mit 1 zu gewichten wäre holzhammermethode! lese würde komplett rausfallen
->wir suchen lienarkombination mit noch größerer streuung mathe 1 lese 0 wäre trotzdem besser methode da varianz
dann größer bzw. größte streuung
Beispiel (PISA-Studie) sollen quadriert und summiert 1 ergeben
Strategie 2: Wähle Gewichte a1 und a2 , so dass Streuung groß wird.

Normiere diese durch a21 + a22 = 1 um die Vergleichbarkeit zu
gewährleisten
Setze zum Beispiel: (a) a1 = 0.6 und a2 = 0.8 bzw. (b) a1 = −0.6
und a2 = 0.8 kriterium erfüllt dass beide quadriert und summiert = 1
40 40
20 20
(a) 0 (b) 0
−20 −20
−40 −40
Dänemark Griechenland Italien Portugal Schweden Dänemark Griechenland Italien Portugal Schweden
Land Land
Die Varianz der Linearkombination von (a) beträgt 1317.2 und von
(b) 302.868, Beispiel (a)sprich
erzeugt eine Linearkombination mit der
a) ist besser als vorige holzhammer-gewichtugn &
höchsten Streuung bietet uns hohe
gleichzeitig stark
informatiosnkondensation! wir behalten viel varianz aber kondensieren diese
Es ist lohnend beide Merkmale zu betrachten

Hauptkomponentenanalyse Modellbildung – Grundlagen
Modellbildung – Grundlagen
Ziel ist die optimale Bestimmung der Gewichte der

Linearkombinationen von mehreren Variablen
Ausgangspunkt sind p Zufallsvariablen X1 , . . . ,Xp mit
nicht nur zwei variablen wie im beispiel sondern Xp variablen
X = (X1 , . . . ,Xp )
und der entsprechenden Varianz-Kovarianz-Matrix V ar(X) = Σ

vcov matrix ist häufiges mittel um info zu kondensieren
 
V ar(X1 ) Cov(X1 ,X2 ) · · · Cov(X1 ,Xp )
großes sigma meint
vcov matrix ab hier
 .. 
 Cov(X2 ,X1 ) V ar(X2 ) ··· . 
Σ= 
.. .. .. ..


 . . . . 
vcov um gewichte in einer
linearkombination finden Cov(Xp ,X1 ) ··· ··· V ar(Xp )
zu können
und den Mittelwerten µi = E(Xi ) mit i = 1, . . . , p

vcov matrix ist hier und für FA relevant, nicht einzelne variablen
Gebildet werden die Linearkombinationen

nicht eine variable sondern mehrere werden angeschaut -> kann unübersichtlich werden, daher diese notation
a01 X = a11 X1 + a12 X2 + · · · + a1p Xp variablen x1 bis xp

erhalten hier entsprechende
gewichte
a02 X = a21 X1 + a22 X2 + · · · + a2p Xp
.. ..
. .
a0p X = ap1 X1 + ap2 X2 + · · · + app Xp
Die Varianzen und Kovarianzen der Linearkombinationen sind gegeben

mit: varianz der obenen linearkombinationen = ai vektor transponiert mal var(x) mal ai vektor
V ar(a0i X) = a0i V ar(X)ai = a0i Σai

und
Cov(a0i X, a0j X) = a0i Σaj mit i 6= j
wir wollen eigentlich:
- dass kovarianz möglichst eingedampft wird
- und wir eigentlich alles in varianz wiederfinden
-> wir können wir a's so hindrehen, dass das passiert?

Bestimme die Hauptkomponenten ai , so dass die Varianz der

entsprechenden Linearkombination maximal wird
max V ar(a0i X)
unter der Nebenbedingung, dass HKA dekorreliert die variablen untereinander!

-> variablen x1 bis xp werden dekorreliert
-> d.h. HKA sucht lösung, damit im theoretisch optimalen fall
a0i ai = 1 keine der variablen mehr korreliert! ("dekorreliert")
Cov(a0i X, a0j X) = 0 mit i 6= j -> diese zweite bedingung in praxis nicht

wirklich erfüllt, also dass genau 0
kovarianz ist paarweise null -> nur möglichst klein
Insgesamt ergeben sich p Maximierungsprobleme unter

je nach anzahl der variablen x1...xp
Nebenbedingungen "p maximierungsprobleme für p variablen"
(1) max V ar(a01 X), a01 a1 = 1 hier nur 1. nebenbedingung -> wenig sinnvoll, mindestens 3
variablen für HKA in praxis
(2) max V ar(a02 X), a02 a2 = 1, Cov(a02 X, a01 X) =0
cov bedingung jetzt da erst
.. .. jetzt 1. und 2. nebenbedingung!
jetzt cov möglich
. .
(p) max V ar(a0p X), a0p ap = 1, Cov(a0p X, a0j X) = 0, j < p
wir wollen kombination von gewichten, welche varianz möglichst gut erhält aber information zusammenschiebt

Hauptkomponentenanalyse Modellbildung – Optimierung
Modellbildung – Optimierung
Das Maximierungsproblem wird auf Basis der Lagrange-Funktion

diese macht maximierung unter bestimmten nebenbedingungen (dekorreliertheit der gewichtvektoren etc.
gelöst s. letzte folie)
Für das Maximierungsproblem (1) ergibt sich nur als background wohl
L(a1 ,λ) = a01 Σa1 − λ(a01 a1 − 1)
mit den partiellen Ableitungen
∂L(a1 ,λ)
= 2Σa1 − 2λa1
∂a1
∂L(a1 ,λ)
= 1 − a01 a1
∂λ

Hauptkomponentenanalyse Modellbildung – Optimierung
Die notwendigen Bedingungen für einen Extremwert sind erfüllt, wenn:

2 partielle ableitungen: !
2Σa1 − 2λa1 = 0
!
1 − a01 a1 = 0
Daraus folgt die Gleichung

das hier wollen wir bzw. hier steigen wir wieder ein:
Σa1 = λa1
vcov-matrix * vektor der optimalen gewichte = eigenwert * vektor der optimalen gewichte
a1 bis ap
welche ein Eigenwertproblem darstellt. Der Vektor a1 ergibt sich aus
den normierten Eigenvektoren der Matrix Σ
vcov matrix sigma

Hauptkomponentenanalyse Modellbildung – Exkurs Eigenwertproblem
Modellbildung – Exkurs Eigenwertproblem
Definition grundlage sind x1 bis xp variablen allgemeines eigenwertproblem
Sei A eine quadratische (p × p)-Matrix. Erfüllen ein Skalar λ und ein

p-dimensionaler Vektor u mit u 6= 0 das Gleichungssystem
A ist
A quadratische mtrix bzw. vcov matrix
Au = λu
eigenwerte bestimmbar aus vcov matrix
so heißt λ Eigenwert von A; und u ist der zugehörige Eigenvektor
skalar ist der eigenwert -> gibt so viele eigenwerte wie es variablen gibt
Die Eigenwerte λi mit i = 1, . . . , p ergeben sich aus den Nullstellen
eines Polynoms p-ten Grades
Für jeden Eigenwert λi wird der zugehörige Eigenvektor ui bestimmt.
Der Eigenvektor wird normiert, so dass
u0i ui = 1
u ist ai

Die Eigenwerte λi besitzen folgende Eigenschaften:

3 kriterien, - Die Determinante von A ist gleich dem Produkt der Eigenwerte
die wir nachprüfen
können p
Y wenn ich eigenwerte multipliziere,
komme ich auf determinante der
det(A) = λi kovarianzmatrix
i=1
- Die Spur von A ist gleich der Summe der Eigenwerte

p
X
sp(A) = λi
i=1
- Der Rang einer symmetrischen Matrix A ist der gleich der Anzahl der
von 0 verschiedenen Eigenwerte
Für symmetrische Matrizen A sind die Eigenvektoren von
verschiedenen Eigenwerten orthogonal
u0i uj = 0, mit i 6= j dann hat dekorrelieren vollständig

erfolgreich stattgefunden

Beispiel (Eigenwerte in R)
> A=matrix(c(4,5,7,5,1,10,7,10,2),ncol=3)
> A dieses gleichungssystem wird hier praktisch gelöst
[,1] [,2] [,3] A * u1 = lambda 1 * u1
[1,] 4 5 7
[2,] 5 1 10
[3,] 7 10 2
> eigen(A) mti befehl eigen(A) bekommen wir die eigenwerte
lambda 1, ... lambda 3
$values bei so einer matrix meist erste hauptkomponente (17.08..) spannnend, ggf. noch zweite aber nicht mehr, da verdichtung
[1] 17.082516 -1.410893 -8.671623
das hier sind eigenwerte
$vectors von eigenwerte dann zugehörige eigenvektoren 1-3
[,1] [,2] [,3]

[1,] 0.5471094 0.8267374 -0.1310593 und das hier
unten sind
[2,] 0.5580381 -0.4769408 -0.6790589 eigenvektoren
[3,] 0.6239109 -0.2983834 0.7222898

Beispiel (Eigenwerte in R)
Normierung und Orthogonalität
> eigen(A)$vectors[,1]%*%eigen(A)$vectors[,1]
[,1]
tatsächlich gegeben hier - die eigenschaft der normierung
[1,] 1
> eigen(A)$vectors[,1]%*%eigen(A)$vectors[,2]
[,1]
[1,] -3.421064e-16 sollte eigentlich 0 sein, also dass keine korrelation zwischen vekotren
sind nur nahezu orthogonal
Determinante
> det(A)
[1] 209 wie in regel 1 beschrieben auf folie 106
> prod(eigen(A)$values) produkt ist 209 wie determinante
[1] 209
Spur auch spur (eigenschaft 2 auf folie 106) passt:
> sum(diag(A))
[1] 7
> sum(eigen(A)$values)
[1] 7
Hauptkomponentenanalyse Modellbildung – Optimierung (weiter)
an sich gibt es p maximierungsprobleme für p avariablen, aber wir

Hauptkomponentenanalyse stoppen natürlich und lösen nicht alle sondern machen nur so oft
bis wir ausreichend information erhalten -> sonst hätten wir keine
Modellbildung – Optimierung (weiter) datenreduktion
Die Lösung des Maximierungsproblems (1) ist:

1. maximierungsproblem mit nebenbedingung: mit 1. zugehörigem vektor
Σa1 = λa1 und a01 a1 = 1

über eigenwerte erhalte ich so die eigenvektoren
wobei sich der gesuchte Vektor a1 aus den normierten Eigenvektoren

ui der Matrix Σ ergibt
Welcher Eigenvektor ui liefert nun die Linearkombination a01 X mit
der größten Varianz? Da gilt, dass die Varianz der Linearkombination
gleich dem Eigenwert ist: über eigenwert enthalte ich eigenvektoren
V ar(a01 X) = a01 Σa1 = a01 λa1 = λ
wird für a1 der Eigenvektoren ui gewählt, der zu dem größten

Eigenwert λi der Matrix Σ gehört
Der Eigenvektor u des größten Eigenwertes wird bezeichnet als erste
Hauptkomponente
Hauptkomponentenanalyse Modellbildung – Optimierung (weiter)
Das Maximierungsproblem (2) stellt sich dar als
max V ar(a02 X)
2 bedeutet zweiter vektor
mit den Nebenbedingungen:
(i) a02 a2 =1
(ii) Cov(a02 X, a01 X) = a02 Σa1 = a02 λa1 =0 → a02 a1 =0
covarianz von a1 und a2 soll 0 sein
Über die Lagrange-Funktion ergibt sich die Lösung für a2 als eine
Eigenwertproblem:
Σa2 = λa2
a2 wird gleich dem Eigenvektor ui gesetzt, der zu dem zweitgrößten
Eigenwert der Matrix Σ gehört. Die beiden Nebenbedingung sind
erfüllt, da sich bei Σ um eine symmetrische Matrix handelt
Für jedes der p Maximierungsprobleme ergibt sich die Lösung als
gibt so viele max.probleme wie
Darstellung eines Eigenwertproblems. Die gesuchten variablen
Hauptkomponenten ai sind die Eigenvektoren ai der i-größten
Eigenwerte λi der Matrix Σ höchste verdichtung findet sich im 1. vektor der 1. hauptkomponente
Hauptkomponentenanalyse Praktische Aspekte
Praktische Aspekte
In der Regel ist die Varianz-Kovarianz-Matrix Σ unbekannt.

Verwendet wird stattdessen die empirische Varianz-Kovarianz-Matrix
wir nehmen an, dass empirsiche mit wahren theoretischen vcovmatrix übereinstimmt
S
Die Hauptkomponentenanalyse ist sehr sensitiv bezüglich
unterschiedlicher Varianzverhältnisse. Dies bedeutet, dass Merkmale
mit einer sehr hohen Varianz dominieren ->z.b.sprich varianz höher wenn zeit in sekunden statt tagen gemessen
diese variable hat dann vergleichsweise hohe var.
Aus diesen Grund wird die Bildung der Hauptkomponenten auf Basis
der Korrelationsmatrix ρ bzw. der empirischen Korrelationsmatrix R
alle info in vcvov auch in korrelationsmatrix
durchgeführt vortei: maximale werte sind +/-1 -> sozusagen
standardisiert dadurch
Die Varianz-Kovarianz-Matrix der standardisierten Variablen
Z1 , . . . , Zp entspricht der Korrelationsmatrix der ursprünglichen
hierdurch überführung
Variablen X1 , . . . ,Xp
Xi − µi
Zi = p
V ar(Xi )
mit
E(Zi ) = 0 und V ar(Zi ) = 1
Beispiel für die Sensitivität

> S=matrix(c(1,4,4,100),ncol=2)
> S S ist empirische vcov matrix
[,1] [,2]
[1,] 1 4 varianzen sind 1 und 100 -> ungeheuer hohe varianz für 2. variable und geringe für 1.
[2,] 4 100
> eigen(S) um eigenwerte zu bestimmten von S
$values
varianz
[1] 100.1613532 0.8386468 ="dominanz des merkmals 2 mit seiner hohen dominanz"
entsprechende eigenvektoren für eigenwert 1 und 2
$vectors
[,1] [,2]
[1,] 0.04030552 0.99918740
[2,] 0.99918740 -0.04030552


> R=matrix(c(1,0.4,0.4,1),ncol=2)
> R zugehörige Korrelationsmatrix
[,1] [,2]
[1,] 1.0 0.4 jetzt korrelationsmatrix statt kovarianzmatrix -> deutlich besser!
[2,] 0.4 1.0
> eigen(R)
$values wenn ich jetzt eigenwerte berechne, dann sind diese viel besser gezügelt:
[1] 1.4 0.6
$vectors
[,1] [,2]
[1,] 0.7071068 0.7071068
[2,] 0.7071068 -0.7071068
⇒ Die Verwendung der Korrelationsmatrix ist zu empfehlen

Hauptkomponentenanalyse Praktische Aspekte – Interpretation
Praktische Aspekte – Interpretation
Beispiel für die Sensitivität ursprungsbeispiel:

> Noten=read.table(".../Daten_Noten.txt",
+ dec=",", header=TRUE)
> Noten[1:3,]
Mathematik BWL VWL Methoden
1 1.325 1.00 1.825 1.75
2 2.000 1.25 2.675 1.75
3 3.000 3.25 3.000 2.75
> R=cor(Noten) berechnet cor- hier fraglich ob wir korrelationsmatrix brauchen, da wir bei allen variablen die selbe skala haben!
matrix gibt keien varianzdominanz aufgrund der skalierung, was aber vorhin
> eigen(R) der fall war im letzten beispiel!
$values
[1] 2.9162821 0.7009413 0.2207026 0.1620741
$vectors eigenvektoren die wir bräuchten, um auf diese verdichtung zu kommen bzw. das hier sind "a's"
[,1] [,2] [,3] [,4] erster plot auf nächster folie
[1,] -0.5459874 -0.11119464 -0.4176682 0.71769543 mathe also genau diese werte geplottet
[2,] -0.4070601 0.83236725 0.3742858 0.03710817 bwl
[3,] -0.5472001 -0.02598222 -0.4686247 -0.69302808 vwl
[4,] -0.4865921 -0.54233333 0.6825352 -0.05699419 methoden


Die Hauptkomponenten werden einzeln über Barplots dargestellt
was wir heir abtragen sind ladungen
-> z.b. mathematik lädt auf erster hauptkomponente
mit ca. 0.5
0.5 0.5
Hauptkomponente 1
Hauptkomponente 2
0.0 0.0
−0.5 −0.5
es darf KEINE Mathematik BWL

Fach
VWL Methoden Mathematik BWL
Fach
VWL Methoden
inhaltliche interpretation durchgeführt werden,

es ist lediglich lösung für vorliegende daten -> es ging hier nur um datenverdichtung
0.5 0.5
Hauptkomponente 3
Hauptkomponente 4
0.0 0.0
−0.5 −0.5
Mathematik BWL VWL Methoden Mathematik BWL VWL Methoden

Fach Fach


Die Beobachtungen (=Studenten) können anhand der ersten beiden
Hauptkomponenten im zweidimensionalen Raum dargestellt werden.
Abgetragen werden die sogenannten Scores a0i X bzw. a0i Z
normalerweise mit ursprungsvariablen, aber
in diesem fall heir mit zentrierter variable 1.0
15
wir hatten folgendes mit mittelwerten:
mathe: 2.2458, 10 11 dies zeigt wie hauptkomponenten 1
bwl: 2.1765, 0.5 4 und 2 zueinander stehen durch
vwl: 2.3882, 3 diese verdichtung
methoden: 2.0584
13
16 8
Score 2
wir zentrieren scores um mit gewichten 17

in vektor a multiplizieren zu können 0.0 7
12
erste spalte sind 14
die mittelwerte
−0.5 6
2 1
5
9
−1.0 1. scorewert
−2 −1 0 1 2
Score 1
1. beobachtung zentriert
mit linken mittelwerten
Identifizierung von Gruppen, Ausreißern, etc.

Hauptkomponentenanalyse Praktische Aspekte – Optimale Anzahl
Praktische Aspekte – Optimale Anzahl
Wie viele Hauptkomponenten sind ausreichend, um die wesentliche

gibt nur empfehlungen: 2 bis 3, maximal 4
Struktur der betrachteten Merkmale abzubilden? bzw. auf jeden fall weniger als alle p variablen
Die Bestimmung der optimalen Anzahl erfolgt über eine Betrachtung
der Eigenwerte λi der Matrix Σ. Dazu werden diese der Größe nach
geordnet von λ1 bis λp
(1) Erklärter Varianzanteil der Hauptkomponenten an der
Gesamtstreuung: Pr
λi
Pi=1
p ≥α
i=1 λi
Die optimale Anzahl bestimmt sich durch die Anzahl r , die
erforderlich ist, um einen vorgegebenen Varianzanteil α zu erreichen.
Dieser sollte mindestens 80% betragen -> dann reichen die ausgewählten hauptkomponenten
(2) Screeplot: Graphische Darstellung der Eigenwerte nach der Größe,
wobei i.d.R. ein Knick zu beobachten ist. Die optimale Anzahl ist die
Anzahl der Eigenwerte, die vor dem Knick liegen.
(3) Kaiser-Dickman-Kriterium: Berücksichtigt werden nur die

Hauptkomponenten deren Eigenwerte größer sind als der Mittelwert
aus allen Eigenwerten
p
1X
λi > λ̄ mit λ̄ = λi
eigenwerte lambda i sollen größer als
p
i=1
mittelwert von lambda
Jolliffe-Kriterium ist eine Anpassung des Kaiser-Dickman-Kriteriums:

hürde etwas niedriger
bzw. weniger konservativ λi > 0.7λ̄


Eigenwerte
> eigen(R)$value
[1] 2.9162821 0.7009413 0.2207026 0.1620741
Erklärter Varianzanteil
> cumsum(eigen(R)$values)/sum(eigen(R)$values)
[1] 0.7290705 0.9043058 0.9594815 1.0000000 mit
1. HK erklärt 73% der varianz mit 1.&2. sind 90%
90% haben wir bei
2 HKs 80% varianz-
anteil-regel überschritten
Kaiser-Dickman-Kriterium
> mean(eigen(R)$values)
[1] 1 er schlägt uns wert von 1 vor -> nur 1. HK ist über eins mit eigenwert
Bei Joliffe-Kriterium wäre 2 HKs, da erste beide > 0.7


Screeplot
> pca=prcomp(Noten,scale=TRUE)
> screeplot(pca,npcs=4, type="lines")
na was ist denn der knick?
blau eingezeichnete linie würde

anzeigen dass nur eine HK
aus praxis-sicht: 2 HKs extrahieren

Hauptkomponentenanalyse Praktische Aspekte – Umsetzung in R
Praktische Aspekte – Umsetzung in R

Befehl ”prcomp” anstatt von eigen-befehl noch komfortabler mit principal component analysis-befehl
> pca=prcomp(Noten,scale=TRUE) scale = TRUE wenn man korrelationsmatrix nehmen will
> pca
Standard deviations:
[1] 1.7077125 0.8372223 0.4697899 0.4025843
Rotation:
PC1 PC2 PC3 PC4
Mathematik 0.5459874 -0.11119464 0.4176682 0.71769543
BWL 0.4070601 0.83236725 -
0.3742858 0.03710817
VWL 0.5472001 -0.02598222 0.4686247 -
0.69302808
Methoden 0.4865921 -0.54233333 -0.6825352 -
0.05699419
Hauptkomponentenanalyse Praktische Aspekte – Umsetzung in R
hier geht um manifeste vars nur!!!
Beispiel (Noten von Studenten) PCA weiterhin durchgeführt um vorstellung
Befehl ”princomp” cor = true bedeutet korrelationsmatrix verwendet von strukturen des datensatzes zu erhalten
-> dann konfirmatorische FA im ansatz
> pca2=princomp(Noten,cor=TRUE, scores=TRUE)
-> immer noch relativ häufig dieses vorgehen
> pca2
Call: => etwas widersprüchlich, da SEM/CFA dann
princomp(x = Noten, cor = TRUE, scores = TRUE) auf eigentlich nicht interpertierbaren
PCA-komponenten basiert; aber ist wohl
einfach so
Standard deviations:
Comp.1 Comp.2 Comp.3 Comp.4
1.7077125 0.8372223 0.4697899 0.4025843
4 variables and 17 observations.

Befehl ”loadings”
> loadings(pca2) gibt auch mathematische statistiker, die
von FA nicht viel halten; wir werden
Loadings: drüber reden
Mathematik -0.546 -0.111 0.418 0.718
BWL -0.407 0.832 -0.374
VWL -0.547 0.469 -0.693
Methoden -0.487 -0.542 -0.683

SS loadings 1.00 1.00 1.00 1.00
Proportion Var 0.25 0.25 0.25 0.25
Cumulative Var 0.25 0.50 0.75 1.00

Hauptkomponentenanalyse: Einf Uhrung Regressionsanalyse Logistische Regression Varianzanalyse Hauptkomponentenanalyse

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Hauptkomponentenanalyse: Einf Uhrung Regressionsanalyse Logistische Regression Varianzanalyse Hauptkomponentenanalyse

Hochgeladen von

Copyright:

Verfügbare Formate

Hauptkomponentenanalyse

hier 2 videos nochmla

Hauptkomponentenanalyse -> wird allein zur findung von strukturen durchgeführt im

Ausgangspunkt ist die Untersuchung von mehreren quantitativen

allerdings anzahl der variablen begrenzt:

LS Statistik und Ökonometrie SoSe 2020 93

Beispiel (Noten von Studenten)

LS Statistik und Ökonometrie SoSe 2020 94

unterschied meint varianz/variation zwischen den ländern in diesem fall

LS Statistik und Ökonometrie SoSe 2020 95

Die Streuung des Merkmals Mathematische Grundausbildung ist

Land Lesekompetenz Mathematische

LS Statistik und Ökonometrie SoSe 2020 97

Beispiel (PISA-Studie) für maximalen informationserhalt folgende strategien:

Strategie 1: Setze a1 = 1 und a2 = 0 und umgekehrt = gewichtung

Die Mathematische Grundausbildung gibt die Beziehung zwischen den

Beispiel (PISA-Studie) sollen quadriert und summiert 1 ergeben

Strategie 2: Wähle Gewichte a1 und a2 , so dass Streuung groß wird.

Es ist lohnend beide Merkmale zu betrachten

Ziel ist die optimale Bestimmung der Gewichte der

und der entsprechenden Varianz-Kovarianz-Matrix V ar(X) = Σ

und den Mittelwerten µi = E(Xi ) mit i = 1, . . . , p

Gebildet werden die Linearkombinationen

a01 X = a11 X1 + a12 X2 + · · · + a1p Xp variablen x1 bis xp

Die Varianzen und Kovarianzen der Linearkombinationen sind gegeben

V ar(a0i X) = a0i V ar(X)ai = a0i Σai

-> wir können wir a's so hindrehen, dass das passiert?

Bestimme die Hauptkomponenten ai , so dass die Varianz der

unter der Nebenbedingung, dass HKA dekorreliert die variablen untereinander!

Cov(a0i X, a0j X) = 0 mit i 6= j -> diese zweite bedingung in praxis nicht

Insgesamt ergeben sich p Maximierungsprobleme unter

LS Statistik und Ökonometrie SoSe 2020 102

Das Maximierungsproblem wird auf Basis der Lagrange-Funktion

L(a1 ,λ) = a01 Σa1 − λ(a01 a1 − 1)

mit den partiellen Ableitungen

LS Statistik und Ökonometrie SoSe 2020 103

Die notwendigen Bedingungen für einen Extremwert sind erfüllt, wenn:

Daraus folgt die Gleichung

LS Statistik und Ökonometrie SoSe 2020 104

Definition grundlage sind x1 bis xp variablen allgemeines eigenwertproblem

Sei A eine quadratische (p × p)-Matrix. Erfüllen ein Skalar λ und ein

LS Statistik und Ökonometrie SoSe 2020 105

Die Eigenwerte λi besitzen folgende Eigenschaften:

- Die Spur von A ist gleich der Summe der Eigenwerte

u0i uj = 0, mit i 6= j dann hat dekorrelieren vollständig

LS Statistik und Ökonometrie SoSe 2020 106

[,1] [,2] [,3] A * u1 = lambda 1 * u1

$vectors von eigenwerte dann zugehörige eigenvektoren 1-3

[,1] [,2] [,3]

LS Statistik und Ökonometrie SoSe 2020 107

an sich gibt es p maximierungsprobleme für p avariablen, aber wir

Die Lösung des Maximierungsproblems (1) ist:

Σa1 = λa1 und a01 a1 = 1

wobei sich der gesuchte Vektor a1 aus den normierten Eigenvektoren

V ar(a01 X) = a01 Σa1 = a01 λa1 = λ

wird für a1 der Eigenvektoren ui gewählt, der zu dem größten

Das Maximierungsproblem (2) stellt sich dar als

mit den Nebenbedingungen:

In der Regel ist die Varianz-Kovarianz-Matrix Σ unbekannt.

Beispiel für die Sensitivität

LS Statistik und Ökonometrie SoSe 2020 112

Beispiel für die Sensitivität

⇒ Die Verwendung der Korrelationsmatrix ist zu empfehlen