Sie sind auf Seite 1von 47

Transilvanische Universität Brasov

Master-Studiengang Angewandte Informatik (in deutscher Sprache)

Prof. Dr. Hans Peter Litz

Computergestützte Analyse ein- und zwei-


dimensionaler statistischer Daten
(Knowledge Management)
Lektion 4: Multiple Regression und Korrelation

Sommersemester 2014
multiple Regression und Korrelation:
I.1 Voraussetzungen

1. Metrische Daten  X 1, X 2  X k 
2. Multiple Interdependenzen im Datensatz:
die Existenz einer Korrelationsmatrix R

x2

bei einer Analyse von x1 sollen die Ein-


flüsse von x2.....xk auf x1 berücksichtigt werden

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 2


multiple Regression und Korrelation:
I.2 inhaltliche Ansatzpunkte: die Analyse der Korrelationsmatrix

Multiple Interdependenzen im Datensatz:


Beispiel einer Korrelationsmatrix R

Bei der Analyse von partprof müssen die Einflüsse


von Geschlecht, Status, Ausbildung und partpot
berücksichtigt werden

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 3


multiple Regression und Korrelation:
I.3 Die Berücksichtigung von Abhängigkeiten innerhalb der
unabhängigen Variablen
Multiple Interdependenzen im Datensatz:
Beispiel von intervenierenden Variablen

Die Inter
dependenzen der
unabhängigen Vari-
ablen Geschlecht, Aus-
bildung, Status und
Partpot weisen eine
hierarchische
Struktur
auf.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 4


multiple Regression und Korrelation:
II-1 das Regressions-Modell

x1
a) Die multiple Funktionsgleichung

x 1 = x c1  u = a * b*2 x 2 b*3 x 3 .. . b*k x k u x2 . . . . . xk

b) Die Methode der kleinsten Quadrate

∑ u2 = ∑ (x1−xc1)2 = ∑ [ x1 − (a*+b*2 x 2+b*3 x 3+.. . b*k xk )]2 = min!

2
∑ u 2
∑ u  ∑ u2
= =. .. . ..= = 0
 a*  b*2  b*k

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 5


multiple Regression und Korrelation:
II-2 die multiplen Regressionskoeffizienten

d) die multiple Regressionskoeffizienten sind partielle


Regressionskoeffizienten
b*2 =b1,2−3,4 = b1(2−3,4)
b*3 =b1,3−2,4 = b 1(3−2,4)
b*4 =b1,4−2,3 = b1(4−2,3)
d.h. sie geben an wie viel sich x1 verändert, wenn
xj um eine Einheit zunimmt
- bei Konstanz der anderen unabhängigen Variablen
.
Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 6
multiple Regression und Korrelation:
II-3 Darstellungsvarianten des Regressionsmodells

Drei Schreibweisen für die multiple Regressionsfunktion

1. x1 als Funktion der Ausgangswerte


c
x = a*+b 12−3,4 . .. k x 2 +b 13−2,4 ... k x 3 +. .. b 1k −2,3,4 ... k x k
1 −1

mit : a* = x̄1−b 12−3,4 .. . k ̄x 2 −. .. .. .. . b1k−2,3 .. .k ̄x k


−1

2. x1 als Funktion der Abweichungen von den Mittelwerten


(nach Einsetzen von a* in die Regressionsgleichung)
c
x = x1 b 12−3 .. .k  x 2 −x 2 . .. b 1k− 2,3. . . k  x k −x k 
1
−1

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 7


multiple Regression und Korrelation:
II - 4 Darstellungsvarianten des Regressionsmodells

Drei Schreibweisen für die multiple Regressionsfunktion

3. x1 als Funktion fortschreitend höherer Partialvariablen

x c1 = ̄x 1 +b12 ( x 2− ̄x 2 ) + b 1(3− 2) x 3−2 . . .+ b1( k −2,3 .. . k ) x k− 2,3. . . k −1


−1

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 8


multiple Regression und Korrelation:
II -5 Die multiple Korrelationsanalyse
Das multiple Korrelationsmodell
1. Die Zerlegung der Gesamtvarianz:

1/n ∑ ( x 1− ̄x 1 )2 =1/n ∑ ( x c1 −̄x 1 )2 +1/n ∑ ( x 1 − x c1 )2


Gesamtvarianz = erklärte Varianz + nicht-erklärte Varianz

2. Die Definition des multiplen Determinationskoeffizienten

R 2k =
SAQ− Reg
=
∑  x 1−x 1 
c 2

SAQ −Ges ∑  x 1−x 1  2

Im Allgemeinen gilt: R 2k ≠r 1,2


2
+ r 21,3 + r 21,4 .. . + r 1,2 k

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 9


multiple Regression und Korrelation:
II - 6 Der Test des Korrelationsmodells

Getestet wird die Hypothese, dass der Determinationskoeffizient der


Grundgesamtheit Null ist: 2
H 0 : ρ0 =0
−1
Diese Hypothese wird abgelehnt, wenn F 0>F kn−k ,α

1 1
ϕ Reg ⋅SAQ Reg
k−1
∑ (x
c
1 − x
̄ 1 )
2

n−k R 2
k
F0 = = = ⋅
1 1 k −1 (1−R2k )
ϕ Res⋅SAQ Res n−k ∑ ( x 1−x 1)
c 2

F k−1
n−k , α ergibt sich bei k −1 Zählerfreiheitsgraden und n−k Nenner -
freiheitsgraden sowie einem Signifikanzniveau von α
aus der Tabelle oder über den Rechner.
Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 10
multiple Regression und Korrelation:
II - 7 Test der einzelnen Koeffizienten

Regressionsfunktionen in Verteilung der Regressions-


verschiedenen Stichproben parameter bei unendlich vielen
Stichproben

Interpretation des Standardfehlers: dieser gibt die Standardabweich-


ung der Regressionskoeffizienten in der Stichprobenverteilung wieder:
σ̂ b=
√ 1
∑ ( x2− ̄x2 ) 2
⋅Ŝu

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 11


Multiple Korrelation:
II - 8 Der Test der der Regressionsparameter in der
Koeffiziententabelle

H 0 : A , B 2 ..... B k =0
t 0 > t α =0,01
0

b−B b
t0 = . Für H 0 : B = 0 folgt : t 0 = .
̂
Sb ̂
Sb

t α ergibt sich bei ϕ = n − k Freiheitsgraden


und einem Signifikanzniveau von α
aus der Tabelle oder einem Rechner

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 12


multiple Regression und Korrelation:
III-1 SPSS-Eingabe für den gemeinsamen Einschluss

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 13


Multiple Korrelation:
III- 2 Ergebnisse des gemeinsamen Einschlusses

Zum Vergleich:

R 2yx =0.476

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 14


Multiple Regression:
III- 3 Interpretation der Regressionskoeffizienten

1. Interpretation der nicht standardisierten Koeffizienten:


➢ a ist das Ausmaß der realen Beteiligung, wenn alle unabhängigen Variablen = „0“

➢ b
1 gibt an, um wie viel die reale Beteiligung zunimmt, wenn das Geschlecht um „1“
steigt (d.h. von weiblich zu männlich wechselt) *)
➢ b
2 gibt an, um wie viel die reale Beteiligung zunimmt, wenn die Ausbildung um eine
Stufe steigt. *)
➢ b
3 gibt an, um wie viel die reale Beteiligung zunimmt, wenn der Status um eine Stufe
steigt. *)
➢ b
4 gibt an, um wie viel die reale Beteiligung zunimmt, wenn die gewünschte
Beteiligung um „1“ steigt. *) *) = bei Konstanz der anderen unabhängigen Variablen
Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 15
Multiple Regression:
III- 4 Relative Bedeutung der einzelnen unabhängigen Variablen

2. Interpretation der standardisierten Koeffizienten:


➢ beta
1 – beta4 geben an, um wie viele Standardabweichungen die reale Beteiligung
zunimmt, wenn die Standardabweichung der jeweiligen Variable um „1“ steigt.
➢ Die beta-Werte zeigen die relative Bedeutung des Einflusses der einzelnen
unabhängigen Variablen an.
➢ Danach hat die gewünschte Beteiligung den stärksten, des Status den
zweitstärksten Einfluss

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 16


Multiple Korrelation:
III- 5 Der Test des Gesamtmodells in der ANOVA Tabelle

Getestet wird die Hypothese, 2


ρ
dass d Determinationskoeffizient der Grundgesamtheit 0 Null ist:
H 0 : ρ02 =0

Diese Hypothese wird abgelehnt, wenn F0 > F α

(df =degree of freedom: (Φ)=k-1= 4)

(df =degree of freedom: (Φ)=n-k= 287)

ein F-Verteilungsplotter
Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 17
multiple Regression und Korrelation:
III-6 Testergebnis zum Gesamtmodell
1
ϕ Reg ⋅SAQ Reg
2
n−k R k 287 0,595
F0 = = ⋅ = ⋅ = 71,75 ⋅ 1,47 = 105,29
1 k−1 (1−R k )
2 4 0,405
ϕ Res ⋅SAQ Res

F 0 = 105,29 ⩾ F α=0,01 =3,385

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 18


multiple Regression und Korrelation:
III - 7 Testergebnisse zu den Regressionskoeffizienten

Getestet wird die Hypothese:


H0 : B = 0

Diese wird abgelehnt, wenn:


t0 > tα
0

Es ergeben sich:
b
t0 = und
Ŝb

t α bei ϕ = n−k = 287 Freiheitsgraden


0
hier gehts zum Test
mit P (t 0 ⩾ t α ) = α 0/ 2
0/ 2

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management , Lektion 7 19


multiple Regression und Korrelation:
III- 8 Test der einzelnen Koeffizienten

Interpretation der t-Werte und der Signifikanzen:


➢ Die t-Werte beziehen sich auf die Hypothesen, dass jeder

Koeffizient „0“ ist.


➢ Die Signifikanzen geben an, wie groß die Wahrscheinlichkeit von t
unter der Bedingung der Hypothese ist. Einer Signifikanz von 0,01
entspräche ein t-Wert von 2,339. Deshalb ist hier z.B. b 2 nicht
signifikant).

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 20


multiple Regression und Korrelation:
III - 9 Anforderung der Konfidenzintervalle

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 21


multiple Regression und Korrelation:
III - 10 Konfidenzintervalle für die einzelnen Koeffizienten

Die Aussage der Konfidenzintervalle:


➢ Die Konfidenzintervalle geben an, in welchem Bereich die Koeffizienten in
der Grundgesamtheit mit 95%-iger Sicherheit liegen werden.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 22


multiple Regression und Korrelation:
IV-1 Analysestrategien bei SPSS

Reihenfolge der Einbezugs der erklärenden Variablen:


➢ Gemeinsamer Einschluss aller Variablen (Methode „Einschluss“)
alle erklärenden Variablen werden auf einmal einbezogen.
➢ Schrittweiser Einschluss (Methode „Schrittweise“):
die erklärenden Variablen werden nacheinander nach Ihrem
jeweils größten Erklärungsbeitrag einbezogen.
➢ Schrittweiser Ausschluss (Methode „Entfernen“):
alle erklärenden Variablen werden auf einmal einbezogen und bei
zu geringem Beitrag wieder eliminiert.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 23


multiple Regression und Korrelation:
IV-2 Analysestrategien bei SPSS

Reihenfolge der Einbezugs der erklärenden Variablen (2):


➢ Blockweiser Einschluss (hierarchische Methode):
➔ die erklärenden Variablen werden nach einer vom Bearbeiter

festgelegten Reihenfolge einzeln oder in Gruppen in aufein-


ander folgende Eingabefenster einbezogen.
➔ Nach jeder Eingabe wird mit „Weiter“ das Eingabefenster für

den nächsten Block geöffnet.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 24


multiple Regression und Korrelation im schrittweisen Ansatz
IV -3 Aufbau der Regressionsfunktion

c
x = ̄x 1 +b12 ( x 2− ̄x 2 )+b 1(3− 2) x 3−2 + b 1(4−2,3 ) x 4− 2,3
1

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 25


multiple Regression und Korrelation im schrittweisen Ansatz
IV - 4 Statistische Inferenz im schrittweisen Korrelationsmodell

1. Der multiple Determinationskoeffizient als Summe von


fortlaufend höheren partiellen Deteminationskoeffizienten
2 2 2 2 2 2
Rk = r 12r 1 3− 2 .. .r 1 k −2,3 . .. k  mit Rk −Rk = RSQ–çhange
−1 −1

2. Tests der multiplen Korrelationskoeffizienten


1 1
a) Der Insgesamt-Test  Reg
⋅SAQ Reg
k −1
∑  x c1− x 1  2
n−k R 2k
F0 = = = ⋅
(des Gesamtmodells) 1
⋅SAQ Res
1
∑  x 1−x 1 c 2 k −1  1−R 2k 
 Res n−k

2
H o : ρk =0 wird angenommen, wenn F 0⩽ F k−1
n−k,a 0

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 26


multiple Regression und Korrelation im schrittweisen Ansatz
IV - 5 Statistische Inferenz im multiplen Korrelationsmodell

b) Der schrittweise Test 1 1 2


⋅SAQ Reg r
 Reg 2−1 1 k*−2,3. .. k*−1  RSQ−Change
(der zuletzt aufgenom- F0 = = =
1 1 1
menen Variablen xk*)  Res
⋅SAQ Res
n−k*
 1−R 2k* 
n−k*
1−R2k* 

H o : ρ1 k ∗−2,3 .. . k ∗  = 0 angenommen, 


F o F 1n−k *,α mit F 1n− k*, α = tn −k*
wenn
−1 o o

c) Der fallweise Test (jeder am


Ende aufgenommenen 1
⋅SAQ Reg
Reg r12 j −2,3. .. j −1 , j1,.. .k 
Variablen xj) F0 =
1
=
1
¿
2
⋅SAQ Res  1−R k 
 Res n−k

angenommen,
H o : ρ1 j−2,3 ,... j−1,...k  =0 wenn 1
o  1
F oF n−k ,α mit F n−k ,α = t n−k
o

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 27


multiple Regression und Korrelation im schrittweisen Ansatz
IV - 6 Die Auswirkungen des fallweisen Tests

Korrelationsbeziehungen zwischen standardisierten Variablen

Anteile der
gemeinsamen
Varianzen
zwischen den
Variablen x1..... x4

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 28


multiple Regression und Korrelation im schrittweisen Ansatz
IV - 7 SPSS-Eingabe im schrittweisen Einschluss

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 29


multiple Regression und Korrelation im schrittweisen Ansatz:
IV - 8 Ergebnisse des schrittweisen Einschlusses (1)

Die Modellzusammenfassung zeigt:


(1) Die Variablen werden in der Reihenfolge aufgenommen: gewünschte Beteiligung,
Status, Geschlecht.
(2) Die Variable Ausbildung wird nicht aufgenommen.
(3) Mit jeder zusätzlichen Variablen steigt R-Quadrat.
(4) Dabei nehmen die Änderungen in R-Quadrat kontinuierlich ab.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 30


multiple Regression und Korrelation im schrittweisen Ansatz
IV - 9 Ergebnisse des schrittweisen Einschlusses (2)

Im jeweils
nächsten Schritt
wird die Variable
aufgenommen, die
unter den ausgeschlossenen
Variable den höchsten
partiellen Korrelations-
Koeffizienten bzw.
den höchsten t- Wert
aufweist.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 31


multiple Regression und Korrelation im hierarchischen Ansatz
V - 1 der hierarchische Ansatz bei multiple Abhängigkeiten

Die Hierarchien im multiplen Kausalmodell

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 32


multiple Regression und Korrelation im hierarchischen Ansatz
V - 2 SPSS-Eingabe im blockweisen (hierarchischen)
Einschluss: Block 1

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 33


multiple Regression und Korrelation im hierarchischen Ansatz
V-3 SPSS-Eingabe im blockweisen (hierarchischen)
Einschluss: Block 2 und 3

+ Block 4: Partpot

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 34


multiple Regression und Korrelation im hierarchischen Ansatz
V-4 Ergebnisse des hierarchischen Einschlusses (1)

Im hierarchischen Modell
wird auch die Variable Ausbildung
aufgenommen.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 35


multiple Regression und Korrelation im hierarchischen Ansatz
V-5 Ergebnisse des hierarchischen Einschlusses (2)

Alle
aufgenommenen
Variablen (auch die
Ausbildung) sind
signifikant.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 36


multiple Regression und Korrelation im hierarchischen Ansatz
V-6 Ergebnisse des hierarchischen Einschlusses (3)

Die Quadrat-Summen der erklärten Abweichungen


sind in diesem Modell additiv .

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 37


multiple Regression und Korrelation im hierarchischen Ansatz
V-7 Ergebnisse des hierarchischen Einschlusses (4)

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 38


multiple Regression und Korrelation im hierarchischen Ansatz
V-8 Ergebnisse des hierarchischen Einschlusses (5)

Vergleich der Regressionskoeffizienten bei der Aufnahme und beim


Abschluss

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 39


multiple Regression und Korrelation – Vergleich der Ansätze
VI-1 Signifikanzen der Variablen in den unterschiedlichen
Modelle

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 40


multiple Regression und Korrelation – Vergleich der Ansätze
VI-2 Erklärungsbeiträge der Variablen im schrittweisen und im
hierarchischen Modellansatz

schrittweiser Ansatz hierarchischer Ansatz

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 41


multiple Regression und Korrelation
-VII Hintergrundstatistiken

VII-1 Definitionen: Multikollinearität und Autokorrelation

1. „Toleranz“ und Multikollinearität


bei vollständiger Abhängigkeit einer unabhängigen Variablen j von
2
den anderen unabhängigen Variablen (d.h. *R j ≈1 ), geht die
Toleranz 1−*R j  gegen Null und der Konfidenzbereich von B*
2 ̃ j
gegen unendlich.
2. Autokorrelation: u i = f  u i −1 

Durbin-Watson-Test auf Autokorellation

Keine Autokorrelation liegt vor , wenn (bei n > 100 uns k > 5) die
Teststatistik „d“ im Bereich 1,6 < d < 2,4 liegt.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 42


multiple Regression und Korrelation
- Multikollinearität und Autokorrelation
VII-2

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 43


multiple Regression und Korrelation
- Multikollinearität und Autokorrelation
VII-3 Diagnosen mit SPSS

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 44


multiple Regression und Korrelation
- Multikollinearität und Autokorrelation
VII - 4 Ergebnisse von SPSS

Toleranz > 0,2:


Multikollinearität
liegt nicht vor.

1,6 < d < 2,4:


Die Hypothese der
Autokorrelation wird
abgelehnt.

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 45


multiple Regression und Korrelation:
VII-5 Eingabe der Fehlerverteilung

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 46


multiple Regression und Korrelation:
VII-6 Überprüfung der Annahmen zur Fehlerverteilung

Überprüfung der
Annahme, dass die
Zufallsfehler u der
Regressionsfunktion
x 1 = x 1c + u
im Durchschnitt =
„0“ und
normalverteilt sind

Universität Brasov, SoSe 2014 H. P. Litz: Knowledge Management, Lektion 4 47

Das könnte Ihnen auch gefallen