Beruflich Dokumente
Kultur Dokumente
Daniel Lois
Inhaltsverzeichnis
1. Bivariate lineare Regression: Prinzip 2. Interpretation der Koeffizienten 3. BLUE-Annahmen 4. Multiple lineare Regression 5. Multivariate Modellierung 6. Umsetzung in SPSS 7. Literatur 2 26 49 73 89 108 128
Lineare Regression
Lineare Regression
Die lineare Regression ist ein Verfahren zur Analyse des Einflusses von einer oder mehreren unabhngigen Variablen, die ein beliebiges Messniveau aufweisen knnen, a f Messni ea a f eisen knnen auf eine metrische abhngige Variable Das Prinzip wird anhand eines Beispiels verdeutlicht, das in dem folgenden Streudiagramm dargestellt ist g g g Auf der y-Achse ist die Partnerschaftszufriedenheit dargestellt (abhngige Variable) und auf der x-Achse die Hufigkeit von Konflikten in der Partnerschaft (unabhngige V i bl ) i d P t h ft ( bh i Variable) Die Lage der Punktewolke deutet darauf hin, dass es sich um einen linearen negativen Zusammenhang handelt: Je hufiger Konflikte vorkommen, desto niedriger liegt die Zufriedenheit
Lineare Regression
Lineare Regression
10
9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
Lineare Regression
Lineare Regression
Wir kennen bereits ein Ma zur Messung der Strke und Richtung des Zusammenhangs zwischen zwei metrischen Variablen: die Korrelation nach Pearson (r) mit einem Wertebereich zwischen -1 und 1 ischen 1 nd Der Korrelationskoeffizient betrgt fr die Variablen Zufriedenheit und Konflikte -.62. Es besteht also ein relativ starker negativer g Zusammenhang Die Korrelation ist ein symmetrisches Ma (keine der Variablen wird als abhngig angesehen); auerdem k bh i h ) d kann i immer nur d Z der Zusammenhang h zwischen zwei metrischen Variablen gemessen werden Hufig soll jedoch eine abhngige Variable auf der Basis von mehreren unabhngiger Variablen vorhergesagt werden
Lineare Regression
Lineare Regression
Lineare Regression
Lineare Regression
Lineare Regression
Die Gleichung der bivariaten linearen Regression, durch welche die Position und die Steigung der Geraden festgelegt wird, lautet:
y = b0 + b1x
y ist die vorherzusagende (abhngige) Variable (hier: Zufriedenheit), b0 (manchmal auch mit a bezeichnet) die Regressionskonstante (bestimmt den Achsenabschnitt der Gerade) b1 das Regressionsgewicht (bestimmt Gerade), die Steigung der Geraden) und x die unabhngige Variable (hier: Konflikte) Wie wird nun die Position der Linie in der Punktewolke bestimmt? Wenn alle Punkte auf einer Geraden liegen wrden, dann wre dies die best mgliche Gerade da sie alle Punkte reprsentiert. Anders best mgliche Gerade, reprsentiert ausgedrckt: Bei der Vorhersage von y durch x wrden keine Fehler gemacht (siehe nchste Folie)
Lineare Regression 8
Lineare Regression
Lineare Regression
Lineare Regression
Beim zuletzt dargestellten Diagramm handelt es sich jedoch nur um einen theoretischen Fall. D.h., dass in der Praxis bei der Vorhersage von y durch x Fehler gemacht werden Die vollstndige bivariate Regressionsgleichung lautet daher:
y = b0 + b1x + e
e ist ein Fehlerterm und entspricht der Summe der quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten Wie wird nun die Gerade an die Punktewolke angepasst? Am besten angepasst knnte z.B. bedeuten, dass die Summe der Fehler (e) minimiert wird Diese Summe ist jedoch immer null da sich positive und negative null, Abweichungen zwischen Vorhersage- und Beobachtungswerten ausgleichen
Lineare Regression 10
Lineare Regression
Lineare Regression
11
Lineare Regression
Daher wird auf die quadrierten Abweichungen der Beobachtungswerte von den Vorhersagewerten zurckgegriffen, die im Rahmen der linearen Regression minimiert werden sollen: R i i i i t d ll
e = min
i
(y - y) = min
i
oder
Diese Vorgehensweise wird Methode der kleinsten Quadrate bzw. OLSMethode (ordinary l M th d ( di least squares) genannt t ) t Es werden also diejenigen Werte von a und b gesucht, bei denen die folgende Gleichung ein Minimum hat:
min = ( y i - ( b0 + b1x ))
Lineare Regression
12
Lineare Regression
Wird diese Gleichung nach b0 und b1 abgeleitet, folgt daraus:
b0 = y - b1x
( x - x )( y - y) b= ( x - x )
i i i
Die Formel von b zeigt, dass b als Quotient der Kovariation der Variablen x und y und der Variation von x berechnet wird Die Kovariation ist fr das Verstndnis der linearen Regression sehr zentral und wird daher auf der nchsten Folie grafisch veranschaulicht Dort sind die Variablen x und y in Z-standardisierter Form dargestellt; d.h., beide Variablen haben einen Mittelwert von 0 und eine Standardabweichung von 1 g
Lineare Regression
13
Lineare Regression
Lineare Regression
14
Lineare Regression
Das Streudiagramm ist anhand der Mittelwerte von x und y in vier Quadranten eingeteilt worden Die Kovariation basiert auf dem Produkt der Abweichungen der x- und yWerte von ihrem jeweiligen arithmetischen Mittelwert Fr alle Punkte, die im oberen rechten oder unteren linken Quadranten liegen, ist die Kovariation also positiv Im Diagramm ist als Beispiel der Beobachtungswert y = 0 76 x = 0 72 0,76, 0,72 eingetragen. Die Kovariation betrgt hier: (0,76-0)*(0,72-0) = 0,547 Fr alle Punkte, die im unteren rechten oder oberen linken Quadranten liegen, ist die Kovariation negativ Beispiel fr den Beobachtungswert y = -0,63, x = 0,72: (-0,63-0)*(0,72-0) = -0,454 0 454
Lineare Regression
15
Lineare Regression
Fr die Ausprgung des Regressionskoeffizienten b ist nun entscheidend, wie sich die Punkte im Streudiagramm verteilen Liegen die meisten Beobachtungswerte in den Quadranten oben links oder unten rechts (wie im Beispiel), wre die Kovariation der Variablen y und x in der Summe aller Beobachtungswerte negativ In diesem Fall besteht zwischen y und x ein negativer Zusammenhang (je mehr Konflikte, desto geringer ist die Zufriedenheit), was durch einen negativen Regressionskoeffizienten b zum Ausdruck kommt Lgen die Beobachtungswerte berwiegend in den Quadranten unten links bzw. oben rechts, wre die Kovariation in der Summe positiv und bzw rechts auch b wrde einen positiven Wert annehmen
Lineare Regression
16
Lineare Regression
Ist b = 0, ist auch die Kovariation von x und y null und es besteht kein Zusammenhang zwischen den Variablen; die Regressionsgerade verluft dann parallel zur x-Achse, hat also keine Steigung Exakt ist der Regressionskoeffizient b so zu interpretieren, dass sich die Vorhersagewerte des Regressionsmodells fr y genau um b Einheiten erhhen, wenn sich die unabhngige Variable x um eine Einheit erhht Das Regressionsgewicht ist im vorliegenden bivariaten Beispiel also nicht nur ein Ma fr die Richtung des Zusammenhangs zwischen x und y, sondern auch fr die Strke des Effektes von x auf y Die nchste Folie verdeutlicht nochmal den Zusammenhang zwischen dem Wert von b und der Lage der Regressionsgeraden
Lineare Regression
17
Lineare Regression
Lineare Regression
18
Lineare Regression
Die Regressionskonstante (oder Intercept) b0 gibt den Schnittpunkt der Regressionsgeraden auf der y-Achse beim Wert x = 0 an (Achsenabschnitt) Bei b0 = 0 schneidet die Gerade die vertikale y-Achse beim Wert x = 0 (sie geht durch den Ursprung) durch Ursprung ) Ob die Regressionskonstante inhaltlich sinnvoll interpretierbar ist, hngt von der Fragestellung ab; es kommt also darauf an, ob der Wert x = 0 zum gltigen Wertebereich gehrt Im Beispiel ist dies der Fall; x = 0 bedeutet hier, dass es keine Konflikte in der Partnerschaft gibt Die nchste Folie verdeutlicht die Lage der Regressionsgeraden bei unterschiedlichen Werten von b0 und b
Lineare Regression
19
Lineare Regression
Lineare Regression
20
Lineare Regression
Zur Berechnung der Regressionsparameter b0 und b wird die Arbeitstabelle auf der folgenden Folie bentigt Die x-Variable entspricht den Konflikten und y entspricht der abhngigen Variablen Partnerschaftszufriedenheit Weiterhin dargestellt werden fr jede Person die Abweichungen von x und y von ihren jeweiligen Mittelwerten, die Variation von x (vierte Spalte von links) und die Kovariation von x und y Die Kovariation ist entscheidend fr die Richtung des Regressionskoeffizienten b. Im Beispiel ist die Kovariation in der Summe negativ ( (-104,8), b wird also ebenfalls negativ sein und inhaltlich heit dies, dass , ), g , sich mit steigenden Konflikten die Zufriedenheit reduziert
Lineare Regression
21
Lineare Regression
Lineare Regression
22
Lineare Regression
Nun knnen die Regressionsparameter ausgerechnet werden:
b1
y = 8,607 (0,585 * x ) + e
Dies bedeutet, dass die vorhergesagte Zufriedenheit 8,607 Punkte betrgt, wenn x = 0 ist, d.h. wenn es keine Konflikte gibt. Pro Einheit, die sich die Skala Konflikte erhht, sinkt die Zufriedenheit um 0,585 Einheiten
Lineare Regression 23
Lineare Regression
ber diese Gleichung knnen nun die y-Vorhersagewerte ausgerechnet werden, die auch die Position der Regressionsgeraden im Koordinatensystem bestimmen Zum Beispiel betrgt der y-Vorhersagewert bei x = 5:
Lineare Regression
24
Lineare Regression
Lineare Regression
25
Lineare Regression
Im Folgenden werden die verschiedenen Kennziffern besprochen, die in SPSS fr die bivariate Regression der Zufriedenheit auf das Konfliktniveau ausgegeben werden i b d Als Ma dafr, wie eng die Regressionsgerade an den Punkten der Punktewolke liegt oder wie gut das Modell an die Daten angepasst ist wird das Verhltnis zwischen dem erklrten Teil der Streuung und der gesamten Streuung betrachtet (Output ANOVA) Bei der nicht erklrten Streuung (in der Gleichung: Fehlerterm bzw. Residuen e) handelt es sich um die quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten Dieser Wert wird unter Quadratsumme Residuen ausgegeben und betrgt hier 95,911
Lineare Regression
26
Lineare Regression
ANOVAb Modell 1 Quadrats Q d t umme 61,289 95,911 , 157,200 df 1 18 19 Mittel d Mitt l der Quadrate 61,289 5,328 , F 11,502 Signifikanz ,003a
Die erklrte Streuung entspricht den q g p quadrierten Differenzen zwischen Vorhersagewerten und dem Mittelwert von y Dieser Wert wird unter Quadratsumme Regression ausgewiesen und betrgt 61,289. 61 289 Nicht erklrte und erklrte Streuung ergeben zusammen die Gesamtstreuung (157,2, quadrierte Abweichung zwischen y-Mittelwert und den Beobachtungswerten)
Lineare Regression 27
Lineare Regression
Lineare Regression
28
Lineare Regression
Modellzusammenfassung Korrigiertes R-Quadrat ,356 356 Standardf ehler des Schtzers 2,30833 2 30833
Modell 1
Das Verhltnis zwischen der Quadratsumme der erklrten Streuung und der Quadratsumme der Gesamtstreuung wird als R (auch: Bestimmtheitsma, Fit, D t B ti th it Fit Determinationskoeffizient) b i ti k ffi i t) bezeichnet und ergibt i h t d ibt hier:
Lineare Regression
R folgt einer PRE Logik und kann in folgender Weise interpretiert werden: Wenn das Konfliktniveau bekannt ist, kann die Vorhersage der Zufriedenheit um 39% - gegenber einer Vorhersage, die nur auf dem Mittelwert der Zufriedenheit basiert - verbessert werden Zustzlich wird ein korrigiertes R ausgegeben das immer dann zu R ausgegeben, verwenden ist, wenn das Regressionsmodell mehr als eine unabhngige Variable hat. Es relativiert die Varianzaufklrung an der Anzahl der UVs und berechnet sich wie folgt (n = Stichprobenumfang, k = Anzahl der Stichprobenumfang Regressionskoeffizienten + Konstante):
Lineare Regression
30
Lineare Regression
Zur Interpretation von R zwei Beispiele: Auf der ersten Folie ist der negative Zusammenhang zwischen Alter und Freizeitorientierung dargestellt. R nimmt hier den Wert 0,17 an. Die Vorhersage der Freizeitorientierung lsst sich also durch das Alter um 17% verbessern Beim zweiten Beispiel handelt es sich um den Zusammenhang zwischen laut Arbeitsvertrag vereinbarten und tatschlich geleisteten Wochenstunden. R ist hier mit 0,785 deutlich hher Optisch uert sich der hhere R-Wert im zweiten Beispiel dadurch, dass die Abstnde zwischen den Vorhersagewerten (also der Regressionsgerade) und den Beobachtungswerten kleiner sind (die Punkte liegen nher an der Geraden) Die Summe der Vorhersagefehler (e, Quadratsumme Residuen) liegt also im ersten Beispiel hher als im zweiten
Lineare Regression
31
Lineare Regression
2,00
1,00
Freizeito orientierung
0,00
-1,00
-3,00 15 20 25 30 35 40 45 50 55
Alter
Lineare Regression
32
Lineare Regression
600
500
W Wochenstunden-vereinb bart
400
300
200
Wochenstunden-tatsaechlich
Lineare Regression
33
Lineare Regression
b ANOVA
Quadrats Mittel der Modell df umme Quadrate 1 Regression 61,289 1 61,289 Residuen 95,911 95 911 18 5,328 5 328 Gesamt 157,200 19 a. Einfluvariablen : (Konstante), konflikt b. Abhngige Variable: f i d b Abh i V i bl zufried
Der F-Wert drckt das Verhltnis zwischen der erklrten Streuung und der nicht erklrten Streuung aus Die Berechnung lautet entsprechend: 61,289 / 5,328 = 11,502. Die erklrte Streuung ist also 11 5mal grer als die nicht erklrte Streuung 11,5mal Die Anzahl der in das Regressionsmodell einflieenden Flle (n) entspricht den Freiheitsgraden (df) unter Gesamt + 1 (19+1=20)
Lineare Regression 34
Lineare Regression
Mit Hilfe des F-Wertes wird die Nullhypothese getestet, dass alle Regressionskoeffizienten des Modells in der Grundgesamtheit = 0 sind Kann diese Nullhypothese nicht mit hinreichender Sicherheit abgelehnt werden, ist nicht auszuschlieen, dass die Regressionskoeffizienten rein zufllig zustande gekommen sind und nicht von der Stichprobe auf die Grundgesamtheit verallgemeinert werden knnen Der F-Wert fhrt zu einem entsprechenden Signifikanzniveau, das die Sicherheit angibt, mit der die Nullhypothese zurckgewiesen werden kann (hier ber 99,9%, p = 0,000) Die Erklrungsleistung des Regressionsmodells ist somit mit hoher Wahrscheinlichkeit nicht rein zufallsbestimmt R und der F-Wert sind Koeffizienten zur Beurteilung des Gesamtmodells. g Nun ist der Effekt der unabhngigen Variablen (hier: Konflikte) von Interesse
Lineare Regression 35
Lineare Regression
Koeffizientena Nicht standardisierte Koeffizienten Standardf B ehler 8,607 ,975 -,585 ,172 Standardisiert e Koeffizienten Beta -,624 T 8,824 -3,392 Signifikanz ,000 ,003
Modell 1
(Konstante) konflikt
Unter B werden zunchst die Konstante (b0), der nicht standardisierte Regressionskoeffizient (b1) und desse Sta da d e e ausgegeben eg ess o s oe e t u d dessen Standardfehler ausgegebe Es werden genau die Werte angegeben, die weiter oben von Hand berechnet wurden Nochmal zur Interpretation von b0: Wenn es keine Konflikte gibt (x=0), betrgt die vorhergesagte Zufriedenheit 8,607 Punkte
Lineare Regression 36
Lineare Regression
Koeffizientena Nicht standardisierte Koeffizienten Standardf B ehler 8,607 ,975 -,585 ,172 Standardisiert e Koeffizienten Beta -,624 T 8,824 -3,392 Signifikanz ,000 ,003
Modell 1
(Konstante) konflikt
Mit jeder Einheit die die Skala Konflikte ansteigt, reduziert sich die Einheit, ansteigt Zufriedenheit um 0,585 Einheiten (b1-Koeffizient) Da b1 < 0 ist, gibt es einen negativen Effekt der Konflikte auf die Zufriedenheit, die Regressionsgerade fllt im Streudiagramm von links oben nach rechts unten
Lineare Regression
37
Lineare Regression
Der Regressionskoeffizient b1 ist jedoch im Rahmen einer Stichprobe berechnet worden Die auf der Basis von Stichprobendaten gewonnenen Ergebnisse mssen grundstzlich nicht mit den wahren Werten in der Grundgesamtheit bereinstimmen Bei Zufallsstichproben lsst sich jedoch etwas ber die Genauigkeit der Schtzung sagen bzw. knnen Bereiche (sog. Konfidenzintervalle) angegeben werden, innerhalb derer der gesuchte wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt Wenn anstatt einer zwei oder mehr Stichproben gezogen wrden, wrden ergben sich wahrscheinlich auch zwei oder mehr unterschiedliche Regressionskoeffizienten b1, die sich mehr oder weniger stark von dem wahren Regressionskoeffizienten in der Grundgesamtheit unterscheiden
Lineare Regression
38
Lineare Regression
Eine Schtzung dafr, wie stark verschiedene Regressionskoeffizienten um den wahren Wert streuen (wie genau die Schtzung also ist), ist der Standardfehler des Regressionskoeffizienten, der wie folgt berechnet wird (dies ist eine von mehreren mglichen Formeln):
s.e.( b1 ) =
2 s y 1 - rxy
sx
n-2
sy und sx sind die Standardabweichungen von x und y, n ist die Stichprobengre und rxy ist die die quadrierte Korrelation zwischen x und y (also das R) Die Formel zeigt: Je grer der Stichprobenumfang, desto kleiner der Standardfehler und damit die Schtzgenauigkeit
Lineare Regression
39
Lineare Regression
Der Standardfehler sinkt darber hinaus mit steigender Korrelation zwischen x und y; je strker also der Zusammenhang ist, desto genauer ist die Schtzung Schlielich reduziert sich der Standardfehler bei einer hohen Standardabweichung der unabhngigen Variablen x; grundstzlich sollten die unabhngigen Variablen also mglichst viel Varianz aufweisen Fr unser Beispiel ergibt sich:
= 0,172
Lineare Regression
40
Lineare Regression
Was kann man nun mit dem Standardfehler anfangen? Mit Hilfe des Standardfehlers ist es mglich Rckschlsse auf die wahre mglich, Lage des Regressionskoeffizienten in der Grundgesamtheit zu ziehen. Der fr den Forscher ungnstigste Fall tritt ein, wenn der wahre Regressionskoeffizient b* in der Grundgesamtheit = 0 ist, die unabhngige Variable also tatschlich keinen Effekt auf die AV hat Diese sog Nullhypothese (der wahre Wert von b1 ist in der sog. Grundgesamtheit = 0) wird mit Hilfe der t-Statistik getestet Der t-Wert lsst sich leicht ausrechnen, in dem man den Koeffizienten b1 durch seinen Standardfehler teilt:
t=
b1 s.e.( b1 )
Lineare Regression
41
Lineare Regression
Als Faustformel kann gelten, dass ab einem Stichprobenumfang von (ca.) n = 100 t-Werte ab 2,0 bzw. (bei negativem b) ab -2,0 - signifikant sind (der exakte Signifikanzwert steht im Output des jeweiligen Statistikprogramms) Dies bedeutet, dass die Nullhypothese (b1 ist in der Grundgesamtheit = 0) bedeutet bei t = 2,0 mit einer Sicherheit von etwa 95% und einem Restirrtumsrisiko von 5% abgelehnt werden kann (ab t-Werten von etwa 2,6 betrgt die Sicherheit 99%) Anders ausgedrckt: Wrde man 100 Stichproben aus derselben Grundgesamtheit ziehen und jeweils den Koeffizienten b1 ausrechnen, wrde dieser in 95% der Flle nicht = 0 sein
Lineare Regression
42
Lineare Regression
Will man bei kleinen Stichproben (wie im Beispiel) das Signifikanzniveau von Hand ausrechnen, muss man den bentigten t-Wert fr das 95%Sicherheitsniveau in t-Tabellen nachschauen, die sich in StatistikBchern finden Die hier aufgelisteten t-Werte hngen von den Freiheitsgraden (df) des Regressionsmodells ab (im bivariaten Fall gilt: df = n-2). In unserem Fall ergibt sich:
t=
Da ein t-Wert von -3,39 einem Signifikanzwert bzw. einer Restirrtumswahrscheinlichkeit von kleiner p = 0,000 entspricht ( , p (siehe SPSS-Output), kann die Nullhypothese hier mit hohem Sicherheitsniveau zurckgewiesen werden
Lineare Regression 43
Lineare Regression
Zustzlich zum Test des Regressionskoeffizienten gegen 0 kann man sich fragen, welchen genauen Wert b1 in der Grundgesamtheit annimmt Den genauen Wert knnen wir mit Stichprobendaten zwar nicht bestimmen. Es ist jedoch mglich, ein Konfidenzintervall anzugeben, in das der wahre Wert mit bestimmter Wahrscheinlichkeit fllt:
b1 t - Wert * s.e.( b1 )
Zunchst mssen Sie sich fragen, wie sicher Sie sich sein wollen, dass der wahre Wert von b1 auch wirklich innerhalb des von Ihnen angegebenen Intervalls liegt Wollen Sie zu 95% sicher sein, setzen Sie fr t den Wert 2,0 ein; wollen Sie zu 99% sicher sein den Wert 2 6 sein, 2,6
Lineare Regression
44
Lineare Regression
Das sog. 95%-Konfidenzintervall fr unser Beispiel betrgt dann:
Lineare Regression
45
Lineare Regression
Die Beta-Koeffizienten werden immer dann bentigt, wenn die Effektstrke von mehreren u ab g ge Variablen miteinander e tst e o e e e unabhngigen a ab e te a de verglichen werden soll, die in einer unterschiedlichen Metrik gemessen sind Beispiel: Zustzlich B i i l Z t li h zum K flikt i Konfliktniveau (10 A Ausprgungen) wird eine ) id i zweite unabhngige Variable Partnerschaftsdauer in Monaten aufgenommen, die bei den Befragten Werte im Bereich zwischen 0-105 Monate annimmt M t i t Vergleicht man die b-Koeffizienten (b = -0,521 fr Konflikte, b = 0,054 fr Partnerschaftsdauer) knnte man flschlicherweise annehmen, dass der annehmen Effekt der Konflikte auf die Zufriedenheit strker ist Aber zur Erinnerung: der b-Koeffizient gibt die Vernderung der yVariablen pro Anstieg der x-Variablen um eine Einheit an
Lineare Regression
46
Lineare Regression
Koeffizientena Nicht standardisierte Koeffizienten Standardf B ehler 5,363 ,924 -,521 ,115 , ,054 , ,011 Standardisiert e Koeffizienten Beta -,556 , ,602 T 5,806 -4,538 4,911 , Signifikanz ,000 ,000 , ,000
Modell 1
Whrend sich das Konfliktniveau 9mal erhhen kann, hat die Variable Partnerschaftsdauer viel mehr Ausprgungen und kann sich entsprechend hufiger erhhen. Die b-Koeffizienten sind also nicht vergleichbar Daher wird in diesem Fall der Koeffi ient Beta interpretiert der in der Regel ird Koeffizient interpretiert, Werte von -1 bis 1 annimmt. Hiernach ist der Einfluss der Partnerschaftsdauer (.60) etwas strker als derjenige der Konflikte (-.56)
Lineare Regression 47
Lineare Regression
Beta wird im bivariaten Fall wie folgt berechnet:
sx beta = b1 sy
wobei b1 der Regressionskoeffizient einer unabhngigen Variablen x sx x, die Standardabweichung derselben Variablen und sy die Standardabweichung der abhngigen Variablen ist Das Beta der Variablen Konflikte ergibt folglich:
Lineare Regression
48
Lineare Regression
49
Lineare Regression
50
Lineare Regression
51
2,00
Freizeitor rientierung
1,00
0,00
-1,00
Alter
Lineare Regression
52
Lineare Regression
53
Lineare Regression
54
Modell 1 2
Anmerkung: Das Alt geht in di d A k D Alter ht i die dargestellten M d ll i zentrierter t llt Modelle in ti t Form ein (alterz), d.h., dass von der Variablen Alter ihr arithmetischer Mittelwert abgezogen wird Diese Zentrierung reduziert das Risiko, dass es zu einer Multikollinearitt (s.u.) zwischen dem linearen und quadrierten Term kommt
Lineare Regression 55
Lineare Regression
56
Lineare Regression
57
Lineare Regression
58
Lineare Regression
59
Lineare Regression
60
Streudiagramm
Abhngige Variable: av gg
R Regression Standardisiertes Residuum R
1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 20 -2 0 2
So oder so hnlich sollte dieser Plot aussehen, wenn die Varianzen der Residuen gleich sind Es ist kein Muster zu erkennen, da es k d keinen erkennbaren Zusammenhang zwischen d i h der Ausprgung der Vorhersagefehler und der Vorhersagewerte d V h gibt
Lineare Regression
61
Streudiagramm St di
In diesem Plot finden sich dagegen deutliche Hinweise auf Heteroskasdizitt Mit steigendem Vorhersagewert fr die bh i di abhngige Variable erhhen sich auch die Vorhersagefehler f hl
-2 -2 0 2
Lineare Regression
62
Lineare Regression
63
Lineare Regression
64
Lineare Regression
65
Modell 1
Die Durbin-Watson-Statistik wird in SPSS im Output Modellzusammenfassung angezeigt (hier fr die Regression der Zufriedenheit auf Konflikte) Der Wert von 0 914 deutet auf eine positive Autokorrelation der 0,914 Residuen hin; fr dieses Beispiel ist also eine der BLUE-Annahmen verletzt
Lineare Regression 66
Lineare Regression
67
Lineare Regression
68
Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
Beispiel: Sie wollen eine lineare Regression mit der abhngigen Variablen Freizeitorientierung der Frau berechnen Zwischen den Z i h d unabhngigen V i bl (Alt Mann und F ) b t ht bh i Variablen (Alter M d Frau) besteht jedoch bereits bivariat eine sehr hohe positive Korrelation von r = .96
Lineare Regression
69
Toleranz j = 1 - R j
Dabei bezeichnet Rj die multiple quadrierte Korrelation der unabhngigen Variablen j mit den anderen unabhngigen Variablen des Modells Da das Alter der Frau und das Alter des Mannes bivariat mit r = .958 korrelieren, muss die Toleranz also 1-(0,958*0,958) = 0,083 betragen
Lineare Regression
70
Lineare Regression
71
Modell 1
Im Beispiel haben sowohl das Alter des Mannes und das Alter der Frau einen negativen Effekt auf die Freizeitorientierung der Frau ff f Es handelt sich jedoch nicht um zuverlssige Schtzergebnisse, da die beiden Variablen kollinear (Toleranz < 0 1) sind und deshalb nicht 0,1) zusammen in das Regressionsmodell aufgenommen werden sollten
Lineare Regression
72
Lineare Regression
73
Lineare Regression
74
Lineare Regression
75
y = b0 + b1x + ei
Bei der multiplen linearen Regression mit j unabhngigen Variablen wird die Gleichung wie folgt erweitert:
y = b0 + b1x1 + ... + b jx j + ei
Fr die Interpretation heit das: Erhht sich die unabhngige V i bl x1 F di I t t ti h it d E hht i h di bh i Variable um eine Einheit und werden alle anderen unabhngigen Variablen konstant gehalten (kontrolliert) so steigt der Vorhersagewerte fr y um b1 Ei h it an Einheiten
Lineare Regression
76
Lineare Regression
77
Lineare Regression
78
Lineare Regression
79
y = b0 + b1x + b2z + ei
Die praktikabelste Mglichkeit ist nun die Daten in SPSS oder ein nun, anderes Programm einzugeben und das Programm rechnen zu lassen Um zu demonstrieren, wie die multiple lineare Regression funktioniert, p g d.h. aus didaktischen Grnden, wird nun jedoch die etwas umstndliche Berechnung von Hand durchgefhrt
Lineare Regression 80
Lineare Regression
81
Lineare Regression
82
Lineare Regression
83
Lineare Regression
84
Lineare Regression
85
Lineare Regression
86
Standardisiert e Nicht standardisierte Koeffizienten Koeffizienten Standardf ehler Modell B Beta 1 (Konstante) -,450 ,829 x ,628 628 ,163 163 ,669 669 z ,485 ,215 ,393 a. Abhngige Variable: y
Lineare Regression
87
Hier ist nochmal grafisch dargestellt, g g , was wir ausgerechnet haben: Wir haben den Einfluss von z auf x und y b d berechnet und di V i bl x h t d die Variablen und y damit um z bereinigt Die um z bereinigten Versionen von Versionen x und y entsprechen den Residuen x* und y* Der Effekt von x* auf y* entspricht dem ff * f * Effekt von x auf y bei Kontrolle von z
x*
y*
Lineare Regression
88
Multivariate Modellierung
Es lassen sich nun eine Reihe von typischen Beziehungsmustern zwischen den unabhngigen Variablen eines Regressionsmodells unterscheiden, von denen nun einige der wichtigsten besprochen werden Die im Folgenden dargestellten Beziehungsmuster sind konzeptuell wichtig und gelten grundstzlich fr alle Regressionsverfahren (lineare Regression, logistische Regression, Ereignisdatenanalyse usw.) Zur Darstellung der Beziehungsmuster wird die Symbolik von Pfaddiagrammen mit drei Variablen (abhngige Variable y, unabhngige Variable x, intervenierende Variable z) verwendet Das einfachste Muster tritt auf, wenn die erklrende Variable x und die auf Drittvariable z statistisch unabhngig voneinander sind (r = 0) und jede fr sich einen eigenen Einfluss auf y haben:
Lineare Regression
89
Multivariate Modellierung
In diesem Beispiel, das in der Realitt nur selten vorkommen drfte, sind p , , die Effekte der Variablen x und z auf y additiv, da sie untereinander nicht zusammenhngen D.h. B dass sich d Eff kt von x auf y nicht verndert, wenn z D h z.B., d i h der Effekt f i ht d t kontrolliert wird
Lineare Regression
90
Multivariate Modellierung
Ein wichtiger Anlass fr Drittvariablenkontrolle ist Scheinkausalitt Sie liegt dann vor, wenn der beobachtete Zusammenhang zwischen x vor und y dem Effekt einer dritten Variablen z zuzuschreiben ist, die sowohl x, als auch y beeinflusst Als Folge des Einflusses, den z auf x und y hat, tritt eine bivariate Beziehung zwischen x und y auf Wird der Effekt der Variablen z jedoch kontrolliert ist der Zusammen kontrolliert, Zusammenhang zwischen x und y multivariat 0 Im Diagramm wird dies dadurch verdeutlicht, dass die Variablen x und y bei Kontrolle von z nicht mehr verbunden sind
Lineare Regression
91
Multivariate Modellierung
z + (-) + (-)
Dieses Beispiel demonstriert, dass eine Drittvariable z sowohl x, als auch y b i fl beeinflusst (entweder jeweils positiv, oder jeweils negativ) t( t d j il iti d j il ti ) Wenn der bivariat vorhandene Zusammenhang zwischen x und y bei Kontrolle von z nicht mehr signifikant ist spricht man von einer ist, Scheinkausalitt
Lineare Regression
92
Multivariate Modellierung
Weiterhin kann man konzeptuell davon ausgehen, dass z den Zusammenhang zwischen x und y vermittelt In diesem Fall gibt es einen indirekten Effekt von x ber z auf y. z wird hier auch als intervenierende Variable bezeichnet Wichtig ist nun, wie die Richtung des indirekten Effektes (x ber z auf y) ausfllt Wenn das Produkt der beiden Teileffekte (x z)* (z y) das gleiche z) Vorzeichen hat wie der direkte Effekt (x y) (und beide signifikant sind) spricht man von einer Mediation Die Beziehung zwischen x und y wird also durch z vermittelt bzw. erklrt
Lineare Regression
93
Multivariate Modellierung
z + (+) + (-)
x + (-)
Im Beispiel liegt Mediation vor, da der direkte Effekt (x y) positiv ist und d i di kt Eff kt (x z)*(z y) ebenfalls ( l mal plus) d der indirekte Effekt ( )*( ) b f ll (plus l l ) Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Mediation: der direkte Effekt ist negativ und das Produkt der beiden Teileffekte ber z ebenfalls (plus*minus=minus)
Lineare Regression
94
Multivariate Modellierung
Bei der partiellen Mediation wird der Einfluss von x auf y unter Kontrolle des Mediators z zwar reduziert, ist aber nicht 0 Bei einer vollstndigen Mediation kann unter Kontrolle des Mediators z kein Einfluss von x auf y mehr nachgewiesen werden (hnlich wie bei der Scheinkausalitt) Wenn dagegen das Produkt der beiden Teileffekte (x z)*(z y) ein anderes Vorzeichen hat wie der direkte Effekt (x y), spricht man von einer Supression In diesem Fall ist der bivariate Zusammenhang zwischen x und y (ohne Kontrolle von z) schwcher als der bedingte Zusammenhang bei Kontrolle von z Der zum direkten Effekt gegenlufige indirekte Effekt vermindert g g g (unterdrckt) damit den bivariaten Zusammenhang zwischen x und y
Lineare Regression
95
Multivariate Modellierung
z - (-) + (-)
x + (-)
Im Beispiel liegt Supression vor, da der direkte Effekt (x y) positiv ist und d i di kt Eff kt (x z)*(z y) negativ (minus mal plus) d der indirekte Effekt ( )*( ) ti ( i l l ) Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Supression: der direkte Effekt ist negativ das Produkt der beiden negativ, Teileffekte ber z dagegen positiv (minus*minus=plus)
Lineare Regression
96
Multivariate Modellierung
Nun ein empirisches Beispiel zur Mediation: Dargestellt ist eine Regression mit der abhngigen Variablen Zukunftsorientierung ( g gg g (misst, ob , man mit einer langfristigen gemeinsamen Zukunft mit seinem Partner rechnet) Die Di unabhngigen V i bl sind di P t bh i Variablen i d die Partnerschaftszufriedenheit i % h ft f i d h it in (z) und eine Skala zur Einstellungshnlichkeit (x) Der bivariat positive Effekt der Einstellungshnlichkeit auf die Zufriedenheit (Beta = .42, Modell 1) reduziert sich bei Kontrolle der Partnerschaftszufriedenheit auf ein Beta von .14 (Modell 2) Im O t t k I Output knnen wir in Modell 2 sehen, dass x (Einstellungshnlichkeit) i i M d ll h d (Ei t ll h li hk it) einen positiven Effekt auf y hat
Lineare Regression
97
Multivariate Modellierung
Lineare Regression
98
Multivariate Modellierung
Auerdem ist erkennbar, dass z (Zufriedenheit) einen positiven Effekt auf y ausbt Nicht sichtbar ist dagegen im Regressionsmodell der Effekt von x (Einstellungshnlichkeit) auf z (Zufriedenheit) Da sich der Effekt von x (Einstellungshnlichkeit) jedoch bei Kontrolle von z in Modell 2 reduziert, wissen wir, dass Einstellungshnlichkeit und Zufriedenheit positiv miteinander zusammenhngen mssen (!) Somit ist der indirekte Effekt (Einstellungshnlichkeit Zufriedenheit Zukunftsorientierung) positiv und hat damit das gleiche Vorzeichen wie der direkte Effekt d di kt Eff kt Es handelt sich also um eine partielle Mediation
Lineare Regression
99
Multivariate Modellierung
Beispiel zur Supression: Dargestellt ist eine Regression mit der abhngigen Variablen Institutionalisierungsniveau ( gg g (misst 4fach abgestuft, g , ob man mit seinem Partner zusammengezogen ist, sich verlobt hat, etc.) Die unabhngigen Variablen sind eine Dummy-Variable zur Scheidung/Trennung d Elt S h id /T der Eltern ( ) und di P t (x) d die Partnerschaftszufriedenheit i h ft f i d h it in % (z) In Modell 1 besteht zwischen Scheidung der Eltern und Institutionalisierung kein signifikanter Zusammenhang; nach Kontrolle der Partnerschaftszufriedenheit in Modell 2 dagegen schon Wir h i O t t d Wi sehen im Output, dass der direkte Effekt (Scheidung I tit ti d di kt Eff kt (S h id Institutionalili sierungsgrad) positiv ist
Lineare Regression
100
Multivariate Modellierung
Lineare Regression
101
Multivariate Modellierung
Auerdem knnen wir sehen, dass der Effekt von z (Zufriedenheit) auf y ebenfalls positiv ist p Aus der Tatsache, dass sich der Effekt der Scheidung in Modell 2 verstrkt, knnen wir schlieen, dass Scheidung (x) und Zufriedenheit (z) negativ miteinander zusammenhngen mssen (!) es sich also um eine ti it i d h (!), i h l i Supression handelt Der indirekte Effekt (Scheidung Zufriedenheit InstitutionaliInstitutionali sierungsgrad) ist negativ (minus*plus=minus) und hat damit ein anderes Vorzeichen als der direkte Effekt Anders ausgedrckt: Der um die Zufriedenheit bereinigte Eff kt d A d d kt D di Z f i d h it b i i t Effekt der Scheidung der Eltern, also der Nettoeffekt bei Kontrolle der Zufriedenheit, hngt strker mit y zusammen als zuvor, d.h. ohne Kontrolle der Zufriedenheit Z fi d h i
Lineare Regression
102
Multivariate Modellierung
Von einer Mediation und Supression ist weiterhin die sog. Moderation zu unterscheiden. Ein Moderator ist eine Drittvariable (z), die die Strke einer Wirkbeziehung zwischen zwei Variablen (x und y) beeinflusst, ohne - im Extremfall - selbst mit x oder y zu korrelieren In Abhngigkeit der Ausprgung der Moderatorvariablen wird somit die Strke des Zusammenhangs zwischen der unabhngigen und der abhngigen Variablen verndert Eine Moderatorvariable z erklrt also, unter welchen Bedingungen es einen Zusammenhang zwischen x und y gibt
Lineare Regression
103
Multivariate Modellierung
z
Die intervenierende Variable z gibt an, unter welchen Bedingungen der Effekt von x auf y stark oder schwach ist ohne selbst mit x oder y ist, zusammenhngen zu mssen Bei der Analyse von Moderatoreffekten handelt es sich somit um eine vllig eigenstndige Forschungsstrategie
Lineare Regression
104
Multivariate Modellierung
Beispiel zur Moderation: Dargestellt ist wieder eine Regression mit der abhngigen Variablen Zukunftsorientierung gg g Die unabhngigen Variablen sind ein Konfliktscore (wie viele Konflikte gibt es in der Partnerschaft) und eine Einschtzung dazu, ob eine Person gute Alternativen zur aktuellen P t t Alt ti kt ll Partnerschaft h t (hohe W t entsprechen h ft hat (h h Werte t h hier guten Alternativen) In das Modell gehen die Haupteffekte (Konflikte, Alternativen) und ein Interaktionseffekt (Konflikte multipliziert mit Alternativen) ein Der Interaktionseffekt ist signifikant negativ und besagt, dass sich Konflikte K flikt umso strker negativ auf die Zukunftsorientierung auswirken, je t k ti f di Z k ft i ti ik j mehr Alternativen eine Person hat
Lineare Regression
105
Multivariate Modellierung
Lineare Regression
106
Multivariate Modellierung
Anders ausgedrckt: Unter der Bedingung von hohen Alternativen zur Partnerschaft wirken sich Konflikte besonders negativ auf die g Zukunftsorientierung aus Technischer Hinweis: Die Variablen Konfliktniveau und Alternativen gehen i zentrierter Form ein (Zentrierung heit, dass von jeder h in ti t F i (Z t i h it d j d Ausprgung einer Variablen der arithmetische Mittelwert subtrahiert wird) Die Zentrierung ist wichtig zur Interpretation der konditionalen Haupteffekte und zur Vermeidung von Problemen durch Kollinearitt Der Haupteffekt des Konfliktniveaus bedeutet, dass sich bei mittleren Alternativen ein negativer Ei fl Alt ti i ti Einfluss d K flikt i des Konfliktniveaus auf di f die Zukunftsorientierung in Hhe von Beta = -.054 ergibt Der Haupteffekt der Alternativen (Beta = -.64) bezieht sich entsprechend 64) auf ein mittleres Konfliktniveau
Lineare Regression
107
Umsetzung in SPSS
Lineare Regression in SPSS: Analysieren Regression Linear:
1 Lineare Regression
108
Umsetzung in SPSS
Abschlieend folgen nun einige praktische Hinweise zur Anwendung der linearen Regression in SPSS Die unabhngigen Variablen knnen bei diesem Verfahren grundstzlich ein beliebiges Messniveau aufweisen Je nach Messniveau unterscheidet sich jedoch die Interpretation bzw. sind bestimmte Vorarbeiten (Dummys bilden) zu erledigen Die erste Mglichkeit ist, dass eine unabhngige Variable ebenfalls metrisch ist Beispiel nchste Folie: Regression mit der AV Bruttoeinkommen monatlich und der UV Alter (in Jahren)
1 Lineare Regression
109
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf B ehler 1884,726 95,766 50,519 2,367 Standardisiert e Koeffizienten Beta ,240 T 19,680 21,346 Signifikanz ,000 ,000
Modell 1
(Konstante) Alter
Der b-Koeffizient i t ll D b K ffi i t zeigt allgemein, wie sich d V h i i i h der Vorhersagewert f y b i t fr bei Erhhung der Variablen x um eine Einheit verndert j Pro Lebensjahr erhht sich das Einkommen also um den Faktor b = 50,52, also um gut 50 EUR
1 Lineare Regression
110
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf B ehler 4544,454 34,594 -1619,913 52,710 Standardisiert e Koeffizienten Beta -,335 T 131,366 -30,733 Signifikanz ,000 ,000
Modell 1
Hier hat die unabhngige Variable (Geschlecht) nur zwei Ausprgungen (0=Mann, 1=Frau) Der b-Koeffizient bedeutet, dass das vorhergesagte Einkommen bei Frauen um 1619 EUR niedriger liegt als bei Mnnern Die Konstante bedeutet in diesem Beispiel, dass das vorhergesagte Einkommen fr Mnner (Geschlecht = 0) 4544 EUR betrgt
1 Lineare Regression 111
Umsetzung in SPSS
Wie ist nun vorzugehen, wenn die unabhngige Variable ein nominales Messniveau aufweist und zustzlich mehr als zwei Kategorien hat? g In diesem Fall mssen bei der linearen Regression 0/1-codierte DummyVariablen fr die einzelnen Variablenausprgungen gebildet werden, die dann gemeinsam i d R d i in das Regressionsmodell eingehen i d ll i h Fr eine Variablenausprgung darf jedoch keine Dummy-Variable in das Modell eingehen (diese ist dann die Referenzkategorie) Beispiel: Sie wollen die kategoriale Variable Familienstand mit 5 Ausprgungen im Regressionsmodell bercksichtigen Durch Umkodieren mssen Sie zunchst fr vier der fnf Kategorien eine 0/1-codierte Dummy-Variable bilden:
1 Lineare Regression
112
Umsetzung in SPSS
Die Dummy-Variable verheiratet nimmt z.B. den Wert 1 an, wenn eine Person verheiratet ist und in allen anderen Fllen den Wert 0
Welche der fnf Ausprgungen die Referenzkategorie ist ist egal (es ist, muss nicht die letzte Ausprgung sein)
1 Lineare Regression
113
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf B ehler 3028,542 226,672 1103,336 229,250 1201,276 295,092 70,462 232,653 1191,679 249,276 Standardisiert e Koeffizienten Beta ,223 ,071 ,013 ,126 T 13,361 4,813 4,071 ,303 4,781 Signifikanz ,000 ,000 ,000 ,762 ,000
Modell 1
Fr jede Kategorie bis auf eine (verwitwet = Referenzkategorie) wird nun eine Dummy-Variable bercksichtigt Jede Kategorie wird mit der Referenzkategorie verglichen. So liegt z.B. das vorhergesagte Einkommen der Verheirateten um b = 1103,3 EUR hher als bei den Personen, die verwitwet sind
1 Lineare Regression 114
Umsetzung in SPSS
Bei ordinal skalierten unabhngigen Variablen (z.B. hchster Schulabschluss) ist es Ermessenssache, ob nur ein Koeffizient geschtzt ) , g wird oder Dummys gebildet werden Als Faustregel kann gelten, dass bei ordinalen Variablen ab 4 Kategorien besser nur ein K ffi i t geschtzt wird; h t di V i bl nur 3 b i Koeffizient ht t i d hat die Variable Ausprgungen, sollten Dummys gebildet werden Die folgende Folie verdeutlicht noch mal den Unterschied: Oben geht die ordinale Variable Schulabschluss in einfacher Form ein; der Vorhersagewert fr das Einkommen steigt pro Schulabschluss um gut 500 EUR
1 Lineare Regression
115
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf ehler B 2805,653 2805 653 64,360 64 360 527,684 27,348 Standardisiert e Koeffizienten Beta ,236 T 43,593 43 593 19,295 Signifikanz ,000 000 ,000
Modell 1
(Konstante) Schulabschluss
Koeffizienten a Nicht standardisierte Koeffizienten K ffi i t Standardf B ehler 4989,327 66,380 -1456,089 1456 089 82,861 82 861 -1442,526 80,985 296,581 151,764 Standardisiert e Koeffizienten K ffi i t Beta -,286 286 -,291 ,026 T 75,163 -17,573 17 573 -17,812 1,954 Signifikanz ,000 ,000 000 ,000 ,051
Modell 1
1 Lineare Regression
116
Umsetzung in SPSS
Unten werden Dummys fr die Schulabschlsse gebildet und mit der Referenz (Abitur) verglichen ( ) g Da Personen mit Fachhochschulabschluss sogar mehr verdienen als Personen mit Abitur, ist es bei diesem Beispiel nicht sinnvoll, auf Dummys zu verzichten (k i ordinales M D i ht (kein di l Messniveau)! i )! Zu beachten ist, dass die Schtzung von nur einem b-Koeffizienten fr eine ordinale oder metrische unabhngige Variable implizit mit der Annahme verbunden ist, dass der Effekt dieser unabhngigen Variablen linear ist Immer, wenn dies nicht d F ll i t ( B b i u-frmigen Z I di i ht der Fall ist (z.B. bei f i Zusammenhngen oder sprunghaften Vernderungen), kann mit der gezielten Bildung von Dummys eine bessere Modellanpassung erzielt werden
1 Lineare Regression
117
Umsetzung in SPSS
In vielen Fllen ist es sinnvoll, sog. hierarchische Regressionen zu berechnen (z.B. um zu beurteilen, ob Beziehungsmuster wie Supression ( , g p oder Moderation vorliegen) Bei hierarchischen Regressionen gehen nicht alle unabhngigen Variablen f i V i bl auf einmal i ein M d ll ein, sondern werden schrittweise l in i Modell i d d h itt i eingefhrt In SPSS knnen Sie dazu erstens verschiedene Regressionsblcke per Men zusammenstellen Dazu im Hauptmen der linearen Regression rechts oberhalb von unabhngige V i bl b i Bl k auf weiter kli k bh i Variablen bei Block f it klicken
1 Lineare Regression
118
Umsetzung in SPSS
Bei diesem Beispiel wird zunchst eine lineare Regression mit der UV p g Geschlecht berechnet und anschlieend eine zweite lineare Regression mit der zustzlichen UV vereinbarte Wochenstunden Die Di UV G Geschlecht muss unter Bl k 2 nicht erneut angegeben werden, hl ht t Block i ht t b d sondern wird automatisch in allen auf Block 1 folgenden Blcken bercksichtigt
1 Lineare Regression 119
Umsetzung in SPSS
Koeffizienten K ffi i t a Nicht standardisierte Koeffizienten Standardf B ehler 6164,367 79,803 -1619,913 52,710 3593,464 123,644 -1181,550 53,062 5,070 ,192 Standardisiert e Koeffizienten Beta -,335 -,245 ,290 T 77,245 -30,733 29,063 -22,267 26,426 Signifikanz ,000 ,000 ,000 ,000 ,000
Modell 1 2
1 Lineare Regression
120
Umsetzung in SPSS
Es empfiehlt sich jedoch bei hierarchischen linearen Regressionen meistens, nicht ber das Men zu gehen, sondern mit der Syntax zu , g , y arbeiten Die Syntax einer linearen Regression mit der AV Einkommen und der UV Geschlecht l t t z.B.: G hl ht lautet B
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /NOORIGIN /DEPENDENT op4501 /METHOD=ENTER sex.
1 Lineare Regression
121
Umsetzung in SPSS
Mit diesem Ausdruck erhalten Sie eine Regression mit den SPSSVoreinstellungen ( g (d.h. den Output, den Sie auch p Men erhalten, p , per , wenn Sie nichts verndern) Interessant ist an dieser Stelle der Ausdruck /METHOD = ENTER sex Hier kann man durch weitere /METHOD = ENTER-Zeilen mehrere Regressionsblcke definieren Wenn also wieder i zweiten Bl k zustzlich zum G W l i d im it Block t li h Geschlecht di hl ht die Wochenstunden eingehen sollen, lautet der Ausdruck: REGRESSION /METHOD = ENTER sex /METHOD = ENTER wochenstunden. h d
1 Lineare Regression
122
Umsetzung in SPSS
Im Folgenden wird dargestellt, wie die BLUE-Annahmen in SPSS berprft werden Um zu beurteilen, ob der Zusammenhang zwischen zwei metrischen Variablen x und y linear ist, kann erstens ein Streudiagramm oder ein Mittelwertprofil der entsprechenden Variablen betrachtet werden p p Darber hinaus kann eine betreffende unabhngige Variable transformiert werden, um nichtlineare Zusammenhnge aufdecken zu knnen k Hier bietet sich die zustzliche Aufnahme eines quadrierten Terms an (s.o.), oder die Bildung von Dummys, die auf der nchsten Folie fr den Effekt des Alters auf die Familienorientierung verdeutlicht wird
1 Lineare Regression
123
Umsetzung in SPSS
Koeffizienten a Nicht t d di i t Ni ht standardisierte Koeffizienten Standardf B ehler ,023 023 ,015 015 -,399 ,040 ,067 ,021 -,077 , , ,021 Standardisiert e Koeffizienten Beta -,086 ,031 -,036 , T 1,594 1 594 -9,951 3,218 -3,732 , Signifikanz ,111 111 ,000 ,001 , ,000
Modell 1
Im Beispiel g p gehen die Dummys 16-19 Jahre, 36-52 Jahre und ber 52 Jahre y , (age52p) in das Regressionsmodell ein, entsprechend ist der Altersbereich 20-35 Jahre die Referenzkategorie Es zeigt sich ein glockenfrmiger Zusammenhang: Die Familienorientierung liegt bei den bis 19jhrigen und den ber 52jhrigen niedriger als bei den 2035jhrigen
1 Lineare Regression 124
Umsetzung in SPSS
Einige weitere Optionen zur berprfung der BLUE-Annahmen finden Sie im Men Statistiken Whlen Sie unter Residuen die Option Durbin-Watson aus, um auf Autokorrelation der Residuen zu testen Um den Toleranz- und Varianzinflationsfaktor anzuzeigen, whlen Sie die Option Kollinearittsdiagnose Ob di R id die Residuen normalverteilt sind b l t ilt i d bzw. i einem Z in i Zusammenhang mit h it den Vorhersagewerten der Regression stehen, knnen Sie im Men Diagramme berprfen Zur Auswahl stehen u.a. ein Normalverteilungsdiagramm der Residuen und ein Plot der standardisierten Vorhersagewerte gegen die standardisierten Residuen
1 Lineare Regression
125
Umsetzung in SPSS
1 Lineare Regression
126
Umsetzung in SPSS
1 Lineare Regression
127
Literatur
Backhaus et al. (2006): Multivariate Analysemethoden. Eine anwendungsorientierte Einfhrung. Berlin: Springer (mit SPSS-Bezug, g g p g ( g, empfehlenswert). Allison, Paul D. (1999): Multiple Regression. A Primer. Thousand ( ) p g Oaks: Pine Forge Press (sehr verstndlich, empfehlenswert). Tacq, J. (1997): Multivariate analysis techniques in social science research. From problems to analysis. London: Sage. Fahrmaier et al. (2007): Statistik: Der Weg zur Datenanalyse. 6. Auflage. Heidelberg: Springer. f S Baron, R.M. & Kenny, D.A. (1986). The moderator-mediator distinction in i social psychological research: C i l h l i l h Conceptual, strategic and statistical t l t t i d t ti ti l considerations. Journal of Personality and Social Psychology, 51(6), 11731182. (Basisartikel zu Mediation versus Moderation)
Lineare Regression 128