Bivariate Und Multiple Lineare Regression

Institut f S i l i I tit t fr Soziologie Professur fr Empirische Sozialforschung Prof. Dr. Johannes Kopp Dr.
Daniel Lois
Bivariate und multiple lineare Regression

Stand: Juli 2009
Inhaltsverzeichnis
1. Bivariate lineare Regression: Prinzip 2. Interpretation der Koeffizienten 3. BLUE-Annahmen 4. Multiple lineare Regression 5. Multivariate Modellierung 6. Umsetzung in SPSS 7. Literatur 2 26 49 73 89 108 128
Lineare Regression
Lineare Regression
Die lineare Regression ist ein Verfahren zur Analyse des Einflusses von einer oder mehreren unabhngigen Variablen, die ein beliebiges Messniveau aufweisen knnen, a f Messni ea a f eisen knnen auf eine metrische abhngige Variable Das Prinzip wird anhand eines Beispiels verdeutlicht, das in dem folgenden Streudiagramm dargestellt ist g g g Auf der y-Achse ist die Partnerschaftszufriedenheit dargestellt (abhngige Variable) und auf der x-Achse die Hufigkeit von Konflikten in der Partnerschaft (unabhngige V i bl ) i d P t h ft ( bh i Variable) Die Lage der Punktewolke deutet darauf hin, dass es sich um einen linearen negativen Zusammenhang handelt: Je hufiger Konflikte vorkommen, desto niedriger liegt die Zufriedenheit
Lineare Regression
Lineare Regression
10
Partnersch haftszufrieden nheit (10 = se zufrieden) ehr )
9 8 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10
Hufigkeit von Konflikten in der Partnerschaft (10 = sehr hufig)
Lineare Regression
Lineare Regression
Wir kennen bereits ein Ma zur Messung der Strke und Richtung des Zusammenhangs zwischen zwei metrischen Variablen: die Korrelation nach Pearson (r) mit einem Wertebereich zwischen -1 und 1 ischen 1 nd Der Korrelationskoeffizient betrgt fr die Variablen Zufriedenheit und Konflikte -.62. Es besteht also ein relativ starker negativer g Zusammenhang Die Korrelation ist ein symmetrisches Ma (keine der Variablen wird als abhngig angesehen); auerdem k bh i h ) d kann i immer nur d Z der Zusammenhang h zwischen zwei metrischen Variablen gemessen werden Hufig soll jedoch eine abhngige Variable auf der Basis von mehreren unabhngiger Variablen vorhergesagt werden
Lineare Regression
Lineare Regression: Prinzip

Hierzu wird bei einer metrischen abhngigen Variablen die lineare Regression eingesetzt, bei der es sich somit um ein asymmetrisches Verfahren handelt (d h es gibt eine abhngige Variable) (d.h. Die lineare Regression basiert prinzipiell darauf, die beobachteten Werte, die im Streudiagramm dargestellt wurden, mglichst g durch ein , g g , g gut statistisches Modell (eine Gerade) abzubilden In die Punktewolke der Beobachtungswerte wird also eine Gerade eingezeichnet. A f di i i h t Auf dieser G d li Gerade liegen di V h die Vorhersagewerte t Die Differenzen zwischen Beobachtungs- und Vorhersagewerten sollen mglichst klein sein, damit das statistische Modell gut an die beobachteten Daten angepasst ist
Lineare Regression
Lineare Regression
Lineare Regression
Lineare Regression
Die Gleichung der bivariaten linearen Regression, durch welche die Position und die Steigung der Geraden festgelegt wird, lautet:
y = b0 + b1x
y ist die vorherzusagende (abhngige) Variable (hier: Zufriedenheit), b0 (manchmal auch mit a bezeichnet) die Regressionskonstante (bestimmt den Achsenabschnitt der Gerade) b1 das Regressionsgewicht (bestimmt Gerade), die Steigung der Geraden) und x die unabhngige Variable (hier: Konflikte) Wie wird nun die Position der Linie in der Punktewolke bestimmt? Wenn alle Punkte auf einer Geraden liegen wrden, dann wre dies die best mgliche Gerade da sie alle Punkte reprsentiert. Anders best mgliche Gerade, reprsentiert ausgedrckt: Bei der Vorhersage von y durch x wrden keine Fehler gemacht (siehe nchste Folie)
Lineare Regression 8
Lineare Regression
Lineare Regression
Lineare Regression
Beim zuletzt dargestellten Diagramm handelt es sich jedoch nur um einen theoretischen Fall. D.h., dass in der Praxis bei der Vorhersage von y durch x Fehler gemacht werden Die vollstndige bivariate Regressionsgleichung lautet daher:
y = b0 + b1x + e
e ist ein Fehlerterm und entspricht der Summe der quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten Wie wird nun die Gerade an die Punktewolke angepasst? Am besten angepasst knnte z.B. bedeuten, dass die Summe der Fehler (e) minimiert wird Diese Summe ist jedoch immer null da sich positive und negative null, Abweichungen zwischen Vorhersage- und Beobachtungswerten ausgleichen
Lineare Regression
Lineare Regression
11
Lineare Regression
Daher wird auf die quadrierten Abweichungen der Beobachtungswerte von den Vorhersagewerten zurckgegriffen, die im Rahmen der linearen Regression minimiert werden sollen: R i i i i t d ll
e = min
i
(y - y) = min
i
oder
wobei y fr die Vorhersagewerte von y steht
Diese Vorgehensweise wird Methode der kleinsten Quadrate bzw. OLSMethode (ordinary l M th d ( di least squares) genannt t ) t Es werden also diejenigen Werte von a und b gesucht, bei denen die folgende Gleichung ein Minimum hat:
min = ( y i - ( b0 + b1x ))
Lineare Regression
12
Lineare Regression
Wird diese Gleichung nach b0 und b1 abgeleitet, folgt daraus:
b0 = y - b1x
( x - x )( y - y) b= ( x - x )
i i i
Die Formel von b zeigt, dass b als Quotient der Kovariation der Variablen x und y und der Variation von x berechnet wird Die Kovariation ist fr das Verstndnis der linearen Regression sehr zentral und wird daher auf der nchsten Folie grafisch veranschaulicht Dort sind die Variablen x und y in Z-standardisierter Form dargestellt; d.h., beide Variablen haben einen Mittelwert von 0 und eine Standardabweichung von 1 g
Lineare Regression
13
Lineare Regression
Lineare Regression
14
Lineare Regression
Das Streudiagramm ist anhand der Mittelwerte von x und y in vier Quadranten eingeteilt worden Die Kovariation basiert auf dem Produkt der Abweichungen der x- und yWerte von ihrem jeweiligen arithmetischen Mittelwert Fr alle Punkte, die im oberen rechten oder unteren linken Quadranten liegen, ist die Kovariation also positiv Im Diagramm ist als Beispiel der Beobachtungswert y = 0 76 x = 0 72 0,76, 0,72 eingetragen. Die Kovariation betrgt hier: (0,76-0)*(0,72-0) = 0,547 Fr alle Punkte, die im unteren rechten oder oberen linken Quadranten liegen, ist die Kovariation negativ Beispiel fr den Beobachtungswert y = -0,63, x = 0,72: (-0,63-0)*(0,72-0) = -0,454 0 454
Lineare Regression
15
Lineare Regression
Fr die Ausprgung des Regressionskoeffizienten b ist nun entscheidend, wie sich die Punkte im Streudiagramm verteilen Liegen die meisten Beobachtungswerte in den Quadranten oben links oder unten rechts (wie im Beispiel), wre die Kovariation der Variablen y und x in der Summe aller Beobachtungswerte negativ In diesem Fall besteht zwischen y und x ein negativer Zusammenhang (je mehr Konflikte, desto geringer ist die Zufriedenheit), was durch einen negativen Regressionskoeffizienten b zum Ausdruck kommt Lgen die Beobachtungswerte berwiegend in den Quadranten unten links bzw. oben rechts, wre die Kovariation in der Summe positiv und bzw rechts auch b wrde einen positiven Wert annehmen
Lineare Regression
16
Lineare Regression
Ist b = 0, ist auch die Kovariation von x und y null und es besteht kein Zusammenhang zwischen den Variablen; die Regressionsgerade verluft dann parallel zur x-Achse, hat also keine Steigung Exakt ist der Regressionskoeffizient b so zu interpretieren, dass sich die Vorhersagewerte des Regressionsmodells fr y genau um b Einheiten erhhen, wenn sich die unabhngige Variable x um eine Einheit erhht Das Regressionsgewicht ist im vorliegenden bivariaten Beispiel also nicht nur ein Ma fr die Richtung des Zusammenhangs zwischen x und y, sondern auch fr die Strke des Effektes von x auf y Die nchste Folie verdeutlicht nochmal den Zusammenhang zwischen dem Wert von b und der Lage der Regressionsgeraden
Lineare Regression
17
Lineare Regression
Lineare Regression
18
Lineare Regression
Die Regressionskonstante (oder Intercept) b0 gibt den Schnittpunkt der Regressionsgeraden auf der y-Achse beim Wert x = 0 an (Achsenabschnitt) Bei b0 = 0 schneidet die Gerade die vertikale y-Achse beim Wert x = 0 (sie geht durch den Ursprung) durch Ursprung ) Ob die Regressionskonstante inhaltlich sinnvoll interpretierbar ist, hngt von der Fragestellung ab; es kommt also darauf an, ob der Wert x = 0 zum gltigen Wertebereich gehrt Im Beispiel ist dies der Fall; x = 0 bedeutet hier, dass es keine Konflikte in der Partnerschaft gibt Die nchste Folie verdeutlicht die Lage der Regressionsgeraden bei unterschiedlichen Werten von b0 und b
Lineare Regression
19
Lineare Regression
Lineare Regression
20
Lineare Regression
Zur Berechnung der Regressionsparameter b0 und b wird die Arbeitstabelle auf der folgenden Folie bentigt Die x-Variable entspricht den Konflikten und y entspricht der abhngigen Variablen Partnerschaftszufriedenheit Weiterhin dargestellt werden fr jede Person die Abweichungen von x und y von ihren jeweiligen Mittelwerten, die Variation von x (vierte Spalte von links) und die Kovariation von x und y Die Kovariation ist entscheidend fr die Richtung des Regressionskoeffizienten b. Im Beispiel ist die Kovariation in der Summe negativ ( (-104,8), b wird also ebenfalls negativ sein und inhaltlich heit dies, dass , ), g , sich mit steigenden Konflikten die Zufriedenheit reduziert
Lineare Regression
21
Lineare Regression
Lineare Regression
22
Lineare Regression
Nun knnen die Regressionsparameter ausgerechnet werden:
b1
(x - x )( y - y) = 104,8 = 0,585 = 179,2 (x - x )

i i i
b0 = y - bx = 5,8 ( 0,585 * 4,8) = 8,607

Die vollstndige Regressionsgleichung fr diese bivariate Regression lautet:
y = 8,607 (0,585 * x ) + e
Dies bedeutet, dass die vorhergesagte Zufriedenheit 8,607 Punkte betrgt, wenn x = 0 ist, d.h. wenn es keine Konflikte gibt. Pro Einheit, die sich die Skala Konflikte erhht, sinkt die Zufriedenheit um 0,585 Einheiten
Lineare Regression
ber diese Gleichung knnen nun die y-Vorhersagewerte ausgerechnet werden, die auch die Position der Regressionsgeraden im Koordinatensystem bestimmen Zum Beispiel betrgt der y-Vorhersagewert bei x = 5:
) y x =5 = 8,607 (0,585 * 5) = 8,607 2,925 = 5,682

Bei einem Konfliktniveau von 5 wird durch das Regressionsmodell also eine Zufriedenheit von 5,682 Punkten vorhergesagt Im Koordinatensystem liegt die Regressionsgerade bei einem x Wert x-Wert von 5 entsprechend auf dem y-Wert 5,682:
Lineare Regression
24
Lineare Regression
Lineare Regression
25
Lineare Regression
Im Folgenden werden die verschiedenen Kennziffern besprochen, die in SPSS fr die bivariate Regression der Zufriedenheit auf das Konfliktniveau ausgegeben werden i b d Als Ma dafr, wie eng die Regressionsgerade an den Punkten der Punktewolke liegt oder wie gut das Modell an die Daten angepasst ist wird das Verhltnis zwischen dem erklrten Teil der Streuung und der gesamten Streuung betrachtet (Output ANOVA) Bei der nicht erklrten Streuung (in der Gleichung: Fehlerterm bzw. Residuen e) handelt es sich um die quadrierten Abweichungen zwischen Vorhersage- und Beobachtungswerten Dieser Wert wird unter Quadratsumme Residuen ausgegeben und betrgt hier 95,911
Lineare Regression
26
Lineare Regression
ANOVAb Modell 1 Quadrats Q d t umme 61,289 95,911 , 157,200 df 1 18 19 Mittel d Mitt l der Quadrate 61,289 5,328 , F 11,502 Signifikanz ,003a
Regression Residuen Gesamt
a. Einfluvariablen : (Konstante), konflikt b. Abhngige Variable: zufried gg
Die erklrte Streuung entspricht den q g p quadrierten Differenzen zwischen Vorhersagewerten und dem Mittelwert von y Dieser Wert wird unter Quadratsumme Regression ausgewiesen und betrgt 61,289. 61 289 Nicht erklrte und erklrte Streuung ergeben zusammen die Gesamtstreuung (157,2, quadrierte Abweichung zwischen y-Mittelwert und den Beobachtungswerten)
Lineare Regression
Lineare Regression
28
Lineare Regression
Modellzusammenfassung Korrigiertes R-Quadrat ,356 356 Standardf ehler des Schtzers 2,30833 2 30833
Modell 1
R R-Quadrat ,624a 624 ,390 390
a. Einfluvariablen : (Konstante), konflikt
Das Verhltnis zwischen der Quadratsumme der erklrten Streuung und der Quadratsumme der Gesamtstreuung wird als R (auch: Bestimmtheitsma, Fit, D t B ti th it Fit Determinationskoeffizient) b i ti k ffi i t) bezeichnet und ergibt i h t d ibt hier:
61,289 R = = 0,39 157,2

Lineare Regression
R folgt einer PRE Logik und kann in folgender Weise interpretiert werden: Wenn das Konfliktniveau bekannt ist, kann die Vorhersage der Zufriedenheit um 39% - gegenber einer Vorhersage, die nur auf dem Mittelwert der Zufriedenheit basiert - verbessert werden Zustzlich wird ein korrigiertes R ausgegeben das immer dann zu R ausgegeben, verwenden ist, wenn das Regressionsmodell mehr als eine unabhngige Variable hat. Es relativiert die Varianzaufklrung an der Anzahl der UVs und berechnet sich wie folgt (n = Stichprobenumfang, k = Anzahl der Stichprobenumfang Regressionskoeffizienten + Konstante):
Quadratsumme Residuen d id (n - k) korr.R = 1 Quadratsumme Gesamtstreuung Q g ( n - 1)
Lineare Regression
30
Lineare Regression
Zur Interpretation von R zwei Beispiele: Auf der ersten Folie ist der negative Zusammenhang zwischen Alter und Freizeitorientierung dargestellt. R nimmt hier den Wert 0,17 an. Die Vorhersage der Freizeitorientierung lsst sich also durch das Alter um 17% verbessern Beim zweiten Beispiel handelt es sich um den Zusammenhang zwischen laut Arbeitsvertrag vereinbarten und tatschlich geleisteten Wochenstunden. R ist hier mit 0,785 deutlich hher Optisch uert sich der hhere R-Wert im zweiten Beispiel dadurch, dass die Abstnde zwischen den Vorhersagewerten (also der Regressionsgerade) und den Beobachtungswerten kleiner sind (die Punkte liegen nher an der Geraden) Die Summe der Vorhersagefehler (e, Quadratsumme Residuen) liegt also im ersten Beispiel hher als im zweiten
Lineare Regression
31
Lineare Regression
2,00
1,00
Freizeito orientierung
0,00
-1,00
-2,00 R-Quadrat linear = 0,17
-3,00 15 20 25 30 35 40 45 50 55
Alter
Lineare Regression
32
Lineare Regression
600
500
W Wochenstunden-vereinb bart
400
300
200
100 R-Quadrat linear = 0,785
0 0 100 200 300 400 500 600
Wochenstunden-tatsaechlich
Lineare Regression
33
Lineare Regression
b ANOVA
Quadrats Mittel der Modell df umme Quadrate 1 Regression 61,289 1 61,289 Residuen 95,911 95 911 18 5,328 5 328 Gesamt 157,200 19 a. Einfluvariablen : (Konstante), konflikt b. Abhngige Variable: f i d b Abh i V i bl zufried
F Signifikanz 11,502 ,003a
Der F-Wert drckt das Verhltnis zwischen der erklrten Streuung und der nicht erklrten Streuung aus Die Berechnung lautet entsprechend: 61,289 / 5,328 = 11,502. Die erklrte Streuung ist also 11 5mal grer als die nicht erklrte Streuung 11,5mal Die Anzahl der in das Regressionsmodell einflieenden Flle (n) entspricht den Freiheitsgraden (df) unter Gesamt + 1 (19+1=20)
Lineare Regression
Mit Hilfe des F-Wertes wird die Nullhypothese getestet, dass alle Regressionskoeffizienten des Modells in der Grundgesamtheit = 0 sind Kann diese Nullhypothese nicht mit hinreichender Sicherheit abgelehnt werden, ist nicht auszuschlieen, dass die Regressionskoeffizienten rein zufllig zustande gekommen sind und nicht von der Stichprobe auf die Grundgesamtheit verallgemeinert werden knnen Der F-Wert fhrt zu einem entsprechenden Signifikanzniveau, das die Sicherheit angibt, mit der die Nullhypothese zurckgewiesen werden kann (hier ber 99,9%, p = 0,000) Die Erklrungsleistung des Regressionsmodells ist somit mit hoher Wahrscheinlichkeit nicht rein zufallsbestimmt R und der F-Wert sind Koeffizienten zur Beurteilung des Gesamtmodells. g Nun ist der Effekt der unabhngigen Variablen (hier: Konflikte) von Interesse
Lineare Regression
Koeffizientena Nicht standardisierte Koeffizienten Standardf B ehler 8,607 ,975 -,585 ,172 Standardisiert e Koeffizienten Beta -,624 T 8,824 -3,392 Signifikanz ,000 ,003
Modell 1
(Konstante) konflikt
a. Abhngige Variable: zufried
Unter B werden zunchst die Konstante (b0), der nicht standardisierte Regressionskoeffizient (b1) und desse Sta da d e e ausgegeben eg ess o s oe e t u d dessen Standardfehler ausgegebe Es werden genau die Werte angegeben, die weiter oben von Hand berechnet wurden Nochmal zur Interpretation von b0: Wenn es keine Konflikte gibt (x=0), betrgt die vorhergesagte Zufriedenheit 8,607 Punkte
Lineare Regression
Koeffizientena Nicht standardisierte Koeffizienten Standardf B ehler 8,607 ,975 -,585 ,172 Standardisiert e Koeffizienten Beta -,624 T 8,824 -3,392 Signifikanz ,000 ,003
Modell 1
(Konstante) konflikt
a. a Abhngige Variable: zufried
Mit jeder Einheit die die Skala Konflikte ansteigt, reduziert sich die Einheit, ansteigt Zufriedenheit um 0,585 Einheiten (b1-Koeffizient) Da b1 < 0 ist, gibt es einen negativen Effekt der Konflikte auf die Zufriedenheit, die Regressionsgerade fllt im Streudiagramm von links oben nach rechts unten
Lineare Regression
37
Lineare Regression
Der Regressionskoeffizient b1 ist jedoch im Rahmen einer Stichprobe berechnet worden Die auf der Basis von Stichprobendaten gewonnenen Ergebnisse mssen grundstzlich nicht mit den wahren Werten in der Grundgesamtheit bereinstimmen Bei Zufallsstichproben lsst sich jedoch etwas ber die Genauigkeit der Schtzung sagen bzw. knnen Bereiche (sog. Konfidenzintervalle) angegeben werden, innerhalb derer der gesuchte wahre Wert mit einer bestimmten Wahrscheinlichkeit liegt Wenn anstatt einer zwei oder mehr Stichproben gezogen wrden, wrden ergben sich wahrscheinlich auch zwei oder mehr unterschiedliche Regressionskoeffizienten b1, die sich mehr oder weniger stark von dem wahren Regressionskoeffizienten in der Grundgesamtheit unterscheiden
Lineare Regression
38
Lineare Regression
Eine Schtzung dafr, wie stark verschiedene Regressionskoeffizienten um den wahren Wert streuen (wie genau die Schtzung also ist), ist der Standardfehler des Regressionskoeffizienten, der wie folgt berechnet wird (dies ist eine von mehreren mglichen Formeln):
s.e.( b1 ) =
2 s y 1 - rxy
sx
n-2
sy und sx sind die Standardabweichungen von x und y, n ist die Stichprobengre und rxy ist die die quadrierte Korrelation zwischen x und y (also das R) Die Formel zeigt: Je grer der Stichprobenumfang, desto kleiner der Standardfehler und damit die Schtzgenauigkeit
Lineare Regression
39
Lineare Regression
Der Standardfehler sinkt darber hinaus mit steigender Korrelation zwischen x und y; je strker also der Zusammenhang ist, desto genauer ist die Schtzung Schlielich reduziert sich der Standardfehler bei einer hohen Standardabweichung der unabhngigen Variablen x; grundstzlich sollten die unabhngigen Variablen also mglichst viel Varianz aufweisen Fr unser Beispiel ergibt sich:
2,876 1 - 0,39 s.e.( b1 ) = 20 - 2 3,071
= 0,172
Lineare Regression
40
Lineare Regression
Was kann man nun mit dem Standardfehler anfangen? Mit Hilfe des Standardfehlers ist es mglich Rckschlsse auf die wahre mglich, Lage des Regressionskoeffizienten in der Grundgesamtheit zu ziehen. Der fr den Forscher ungnstigste Fall tritt ein, wenn der wahre Regressionskoeffizient b* in der Grundgesamtheit = 0 ist, die unabhngige Variable also tatschlich keinen Effekt auf die AV hat Diese sog Nullhypothese (der wahre Wert von b1 ist in der sog. Grundgesamtheit = 0) wird mit Hilfe der t-Statistik getestet Der t-Wert lsst sich leicht ausrechnen, in dem man den Koeffizienten b1 durch seinen Standardfehler teilt:
t=
b1 s.e.( b1 )
Lineare Regression
41
Lineare Regression
Als Faustformel kann gelten, dass ab einem Stichprobenumfang von (ca.) n = 100 t-Werte ab 2,0 bzw. (bei negativem b) ab -2,0 - signifikant sind (der exakte Signifikanzwert steht im Output des jeweiligen Statistikprogramms) Dies bedeutet, dass die Nullhypothese (b1 ist in der Grundgesamtheit = 0) bedeutet bei t = 2,0 mit einer Sicherheit von etwa 95% und einem Restirrtumsrisiko von 5% abgelehnt werden kann (ab t-Werten von etwa 2,6 betrgt die Sicherheit 99%) Anders ausgedrckt: Wrde man 100 Stichproben aus derselben Grundgesamtheit ziehen und jeweils den Koeffizienten b1 ausrechnen, wrde dieser in 95% der Flle nicht = 0 sein
Lineare Regression
42
Lineare Regression
Will man bei kleinen Stichproben (wie im Beispiel) das Signifikanzniveau von Hand ausrechnen, muss man den bentigten t-Wert fr das 95%Sicherheitsniveau in t-Tabellen nachschauen, die sich in StatistikBchern finden Die hier aufgelisteten t-Werte hngen von den Freiheitsgraden (df) des Regressionsmodells ab (im bivariaten Fall gilt: df = n-2). In unserem Fall ergibt sich:
t=
0,585 = 3,39 0,172
Da ein t-Wert von -3,39 einem Signifikanzwert bzw. einer Restirrtumswahrscheinlichkeit von kleiner p = 0,000 entspricht ( , p (siehe SPSS-Output), kann die Nullhypothese hier mit hohem Sicherheitsniveau zurckgewiesen werden
Lineare Regression
Zustzlich zum Test des Regressionskoeffizienten gegen 0 kann man sich fragen, welchen genauen Wert b1 in der Grundgesamtheit annimmt Den genauen Wert knnen wir mit Stichprobendaten zwar nicht bestimmen. Es ist jedoch mglich, ein Konfidenzintervall anzugeben, in das der wahre Wert mit bestimmter Wahrscheinlichkeit fllt:
b1 t - Wert * s.e.( b1 )
Zunchst mssen Sie sich fragen, wie sicher Sie sich sein wollen, dass der wahre Wert von b1 auch wirklich innerhalb des von Ihnen angegebenen Intervalls liegt Wollen Sie zu 95% sicher sein, setzen Sie fr t den Wert 2,0 ein; wollen Sie zu 99% sicher sein den Wert 2 6 sein, 2,6
Lineare Regression
44
Lineare Regression
Das sog. 95%-Konfidenzintervall fr unser Beispiel betrgt dann:
0,585 2,0 * 0,172

Mit 95%iger Wahrscheinlichkeit liegt der wahre Wert des Regressionskoeffizienten b1 also zwischen -0,929 (untere Intervallgrenze) und -0,241 (obere Intervallgrenze) Die Wahrscheinlichkeit, dass b1 in der Grundgesamtheit kleiner ist als -0,929 oder grer als -0,241, betrgt 5% Je hher der eingesetzte t Wert (d h das Sicherheitsniveau) desto t-Wert (d.h. Sicherheitsniveau), breiter ist das Konfidenzintervall
Lineare Regression
45
Lineare Regression
Die Beta-Koeffizienten werden immer dann bentigt, wenn die Effektstrke von mehreren u ab g ge Variablen miteinander e tst e o e e e unabhngigen a ab e te a de verglichen werden soll, die in einer unterschiedlichen Metrik gemessen sind Beispiel: Zustzlich B i i l Z t li h zum K flikt i Konfliktniveau (10 A Ausprgungen) wird eine ) id i zweite unabhngige Variable Partnerschaftsdauer in Monaten aufgenommen, die bei den Befragten Werte im Bereich zwischen 0-105 Monate annimmt M t i t Vergleicht man die b-Koeffizienten (b = -0,521 fr Konflikte, b = 0,054 fr Partnerschaftsdauer) knnte man flschlicherweise annehmen, dass der annehmen Effekt der Konflikte auf die Zufriedenheit strker ist Aber zur Erinnerung: der b-Koeffizient gibt die Vernderung der yVariablen pro Anstieg der x-Variablen um eine Einheit an
Lineare Regression
46
Lineare Regression
Koeffizientena Nicht standardisierte Koeffizienten Standardf B ehler 5,363 ,924 -,521 ,115 , ,054 , ,011 Standardisiert e Koeffizienten Beta -,556 , ,602 T 5,806 -4,538 4,911 , Signifikanz ,000 ,000 , ,000
Modell 1
(Konstante) konflikt p pdauer
a. Abhngige Variable: zufried
Whrend sich das Konfliktniveau 9mal erhhen kann, hat die Variable Partnerschaftsdauer viel mehr Ausprgungen und kann sich entsprechend hufiger erhhen. Die b-Koeffizienten sind also nicht vergleichbar Daher wird in diesem Fall der Koeffi ient Beta interpretiert der in der Regel ird Koeffizient interpretiert, Werte von -1 bis 1 annimmt. Hiernach ist der Einfluss der Partnerschaftsdauer (.60) etwas strker als derjenige der Konflikte (-.56)
Lineare Regression
Beta wird im bivariaten Fall wie folgt berechnet:
sx beta = b1 sy
wobei b1 der Regressionskoeffizient einer unabhngigen Variablen x sx x, die Standardabweichung derselben Variablen und sy die Standardabweichung der abhngigen Variablen ist Das Beta der Variablen Konflikte ergibt folglich:
beta b konflikte = 0,585
3,071 = 0,624 2,876
Lineare Regression
48
Lineare Regression: BLUE-Annahmen

Es gibt mehrere Voraussetzungen dafr, um die aus den Stichprobendaten geschtzten Regressionsergebnisse verallgemeinern zu knnen (sog. BLUE-Annahmen, best linear unbiased estimator): Die Beziehung zwischen der abhngigen Variablen und der (den) unabhngigen Variablen ist linear (es gibt verschiedene nichtlineare Beziehungen: z.B. u-frmig, glockenfrmig, exponentiell) Das Modell ist nicht fehlspezifiziert (Kriterien: F-Wert, R) Die Variablen x und y sind korrekt gemessen Der Fehlerterm e folgt bestimmten Regeln (Homoskedastizitt, keine Autokorrelation der Residuen) Es gibt keine Multikollinearitt der erklrenden Variablen
Lineare Regression
49

Wie auch der Korrelationskoeffizient ist die lineare Regression nur geeignet, um lineare Zusammenhnge abzubilden Das Streudiagramm zeigt eine nichtlineare, u-frmige Beziehung: Ni d i x-Werte B i h Niedrige W t gehen mit hohen y-, mittlere xWerte mit niedrigen y- und hohe W t h h x-Werte mit hohen yit h h Werten einher
Aus: Benninghaus (1998): Deskriptive Statistik, S. 191
Lineare Regression
50

Wenn zwischen einer abhngigen und einer oder mehreren unabhngigen Variablen ein u-frmiger oder ein g gg g glockenfrmiger g (umgekehrt u-frmiger) Zusammenhang besteht, kann man sich jedoch mit einer Transformation der unabhngigen Variablen helfen Beispiel: Das folgende St di B i i l D f l d Streudiagramm zeigt d Z i t den Zusammenhang h zwischen Freizeitorientierung und Alter Es zeigt sich tendenziell ein u-frmiges Muster: Die Freizeitorientierung u frmiges ist im Jugendalter hoch, nimmt dann stark ab, steigt jedoch ca. ab dem 60. Lebensjahr wieder leicht an
Lineare Regression
51

3,00
2,00
Freizeitor rientierung
1,00
0,00
-1,00
-2,00 R-Quadrat quadratisch =0,223 R-Quadrat linear = 0,17 -3,00 10 20 30 40 50 60 70 80 90
Alter
Lineare Regression
52

In das Streudiagramm sind zwei Anpassungslinien eingezeichnet: Erstens eine Gerade, die einer normalen bivariaten linearen Regression entspricht. Das R dieses Modells ist .17 Zweitens ist eine u-frmige Anpassungslinie eingezeichnet. Das entsprechende Modell ist besser an die Daten angepasst (R = .22) (R 22) Fr das vorliegende Beispiel ist eine einfache lineare Regression also weniger gut angemessen, da die BLUE-Annahme einer linearen Beziehung zwischen den Variablen verletzt ist Wie kann nun ein Modell geschtzt werden, das eine u-frmige Anpassungslinie ergibt? Hierzu muss die unabhngige Variable Alter zweimal in das Regressionsmodell aufgenommen werden: einmal als linearer g g (unvernderter) und einmal als quadrierter Term (Alter)
Lineare Regression
53

Auf der nchsten Folie sind die Ergebnisse dargestellt. In das erste Modell (R: .17) g ( ) geht nur das Alter in Jahren ein. Der b-Koeffizient ist negativ: Die Freizeitorientierung verringert sich also mit dem Lebensalter In das zweite Modell (R: .22) geht zustzlich das quadrierte Alter (aquad) ein. ein Beide Terme (alterz und aquad) werden signifikant Das Alter hat signifikant. weiter einen negativen und das quadrierte Alter einen positiven Effekt auf die Freizeitorientierung; dies entspricht einem u-frmigen Verlauf Im Falle eines glockenfrmigen (umgekehrt u-frmigen) Zusammenhangs ist der lineare Term positiv und der quadrierte negativ Eine lt Ei alternative Mglichkeit b t ht d i d Alt d h di Bild ti M li hk it besteht darin, das Alter durch die Bildung verschiedener Dummy-Variablen zu kategorisieren und so den nichtlinearen Zusammenhang abzubilden
Lineare Regression
54

Koeffizienten a Nicht t d di i t Ni ht standardisierte Koeffizienten Standardf B ehler -,035 - 035 ,009 009 -,046 ,001 -,170 ,012 -,044 ,001 ,001 001 ,000 000 Standardisiert e Koeffizienten Beta -,476 -,462 ,138 138 T -4,034 -4 034 -55,575 -14,261 -54,316 16,160 16 160 Signifikanz ,000 000 ,000 ,000 ,000 ,000 000
Modell 1 2
(Konstante) alterz (Konstante) alterz aquad
a. Abhngige Variable: sp552
Anmerkung: Das Alt geht in di d A k D Alter ht i die dargestellten M d ll i zentrierter t llt Modelle in ti t Form ein (alterz), d.h., dass von der Variablen Alter ihr arithmetischer Mittelwert abgezogen wird Diese Zentrierung reduziert das Risiko, dass es zu einer Multikollinearitt (s.u.) zwischen dem linearen und quadrierten Term kommt

Eine weitere zentrale Forderung des Regressionsmodells besteht darin, dass die Residuen, also die Fehler der Schtzung (Fehlerterm e), zufllig auftreten mssen und keinem systematischen Muster folgen drfen Ist diese Forderung nicht erfllt kann man nicht davon ausgehen, dass erfllt, ausgehen die Signifikanztests unverzerrte Ergebnisse liefern Die Fehlerhaftigkeit des Modells kann zum Beispiel darin bestehen, dass relevante erklrende Variablen, die fr das systematische Auftreten der Residuen verantwortlich sind, nicht in die Regressionsschtzung einbezogen wurden Auch das Vorliegen eines nichtlinearen Zusammenhangs kann dazu fhren, dass Vorhersagefehler nicht zufllig auftreten
Lineare Regression
56

Ob die Residuen zufllig auftreten, kann zunchst grafisch mit Hilfe eines Histogramms der standardisierten Residuen beurteilt werden Ein standardisiertes Residuum von 0 bedeutet nicht, dass es zu keinem Vorhersagefehler kommt; es handelt sich vielmehr um den mittleren Vorhersagefehler Residuen > 0 sind entsprechend berdurchschnittlich und Residuen < 0 unterdurchschnittlich Bei einer Normalverteilung der Residuen sollten durchschnittliche Residuen am hufigsten vorkommen und ber- bzw. unterdurchschnittliche Residuen in der Hufigkeit abnehmen Im folgenden Histogramm ist eine Normalverteilung der Residuen weitgehend g g g gegeben
Lineare Regression
57
Lineare Regression
58
Weiterhin soll eine Varianzengleichheit (Homoskedastizitt) der Residuen

gegeben sein (Diagramm links) Unterscheiden sich die Residualvarianzen bei unterschiedlichen Ausprgungen der Variablen x, liegt Heteroskedastizitt der Residuen vor
Lineare Regression
59

Bei ungleichen Residualvarianzen fhrt die OLS-Methode nicht zu effizienten Schtzwerten fr die Regressionskoeffizienten D.h., dass diese Schtzwerte nicht die kleinst mgliche Varianz aufweisen; auch die t-Werte sind keine zuverlssigen Schtzer mehr Typisches Beispiel fr das Auftreten von Heteroskedastizitt: bei einer Zeitreihe steigen die Abweichungen von der Trendgeraden mit Fortlauf der Zeit (z.B. fr die Treffgenauigkeit bei der Wettervorhersage: je weiter in der Zukunft, desto unwahrscheinlicher ist eine genaue Prognose) Ob Varianzhomogenitt vorliegt kann durch einen Plot der standardisierten Vorhersagefehler bzw Residuen (y Achse) gegen die bzw. (y-Achse) standardisierten Vorgersagewerte (x-Achse) beurteilt werden (nchste Folien)
Lineare Regression
60
Streudiagramm
Abhngige Variable: av gg
R Regression Standardisiertes Residuum R
1,5 1,0 0,5 0,0 -0,5 -1,0 -1,5 -2,0 20 -2 0 2
So oder so hnlich sollte dieser Plot aussehen, wenn die Varianzen der Residuen gleich sind Es ist kein Muster zu erkennen, da es k d keinen erkennbaren Zusammenhang zwischen d i h der Ausprgung der Vorhersagefehler und der Vorhersagewerte d V h gibt
Regression Standardisierter geschtzter Wert
Lineare Regression
61
Streudiagramm St di
Abhngige Variable: av2

Regression Standardisierte Residuum S es
2
In diesem Plot finden sich dagegen deutliche Hinweise auf Heteroskasdizitt Mit steigendem Vorhersagewert fr die bh i di abhngige Variable erhhen sich auch die Vorhersagefehler f hl
-2 -2 0 2
Regression Standardisierter geschtzter Wert
Lineare Regression
62

Ein weiteres Problem kann darin bestehen, dass die Residuen nicht unabhngig voneinander zustande kommen, sondern miteinander korrelieren (sog. Autokorrelation der Residuen) Dies wre z.B. bei Zeitreihendaten zu erwarten, etwa eine Regression der Arbeitslosenquote auf das Bruttoinlandsprodukt die jeweils Bruttoinlandsprodukt, monatlich erhoben wurden Da sich die Arbeitslosenquote saisonal verndert, treten zu bestimmten Zeitpunkten (z.B. Frhjahrbelebung) systematisch wiederkehrende Vorhersagefehler auf (siehe das Beispiel nchste Folie) Bei einer Autokorrelation der Residuen werden die Standardfehler und damit die t-Statistik nicht mehr korrekt geschtzt
Lineare Regression
63
Lineare Regression
64

ber das Vorliegen von Autokorrelation in einer Regressionsschtzung gibt der Durbin-Watson-Koeffizient Auskunft. Dieser kann Werte zwischen 0 und 4 annehmen Je nher der Koeffizient an dem Wert 2 liegt, desto geringer ist das Ausma einer Autokorrelation der Residuen Ist er deutlich kleiner als 2, deutet dies auf positive Autokorrelation der Residuen hin, ein Wert deutlich ber 2 zeigt dagegen eine negative Autokorrelation an Als Faustregel lsst sich sagen, dass auch Werte zwischen 1,5 und 2,5 akzeptabel sind Ein Wert unter 1 oder ber 3 deutet dagegen auf ein erhebliches Ausma an Autokorrelation der Residuen hin.
Lineare Regression
65

b Modellzusammenfassung
Modell 1
R R-Quadrat a ,624 624 ,390 390
Korrigiertes R-Quadrat ,356 356
Standardf ehler des Schtzers 2,308 2 308
DurbinWatsonStatistik ,914 914
a. Einfluvariablen : (Konstante), konflikt b. Abhngige Variable: zufried
Die Durbin-Watson-Statistik wird in SPSS im Output Modellzusammenfassung angezeigt (hier fr die Regression der Zufriedenheit auf Konflikte) Der Wert von 0 914 deutet auf eine positive Autokorrelation der 0,914 Residuen hin; fr dieses Beispiel ist also eine der BLUE-Annahmen verletzt

Kollinearitt (bzw. Multikollinearitt) liegt vor, wenn zwei oder mehrere unabhngige Variable sehr hoch miteinander korrelieren Bei perfekter Kollinearitt liee sich eine erklrende Variable ber eine lineare Gleichung aus einer oder mehreren anderen erklrenden Variablen exakt berechnen Beispiel: In ein Regressionsmodell flieen die drei Variablen Partnerschaftsdauer zum Befragungsjahr, Jahr des Beginns der Partnerschaft und Befragungsjahr ein Die Partnerschaftsdauer ist nun nichts anderes als Befragungsjahr minus Jahr des Beginns der Partnerschaft und damit redundant
Lineare Regression
67

Wenn zwar keine perfekte, aber eine hohe Kollinearitt zwischen zwei Variablen besteht, wird das Modell zwar berechnet, die Parameterschtzungen knnen jedoch verzerrt sein Der gemeinsame Einfluss beider unabhngiger Variabler (also das R) wird zwar korrekt geschtzt; die Verteilung des Einflusses auf die beiden Erklrungsgren dagegen unter Umstnden nicht Zum Beispiel kann der Einfluss einer Variablen stark ber- oder unterschtzt werden Die Kollinearitt von Variablen knnen Sie schon vor Berechnung des Modells durch die Berechnung bivariater Korrelationen zwischen verschiedenen unabhngigen Variablen berprfen:
Lineare Regression
68

Korrelationen Alter Mann 1998 1 Alter Frau 1998 ,958** ,000 4110 4109 ,958** 1 ,000 4109 4111
Alter Mann 1998
Alter Frau 1998
Korrelation nach Pearson Signifikanz (2-seitig) N Korrelation nach Pearson Signifikanz (2-seitig) N
**. Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant.
Beispiel: Sie wollen eine lineare Regression mit der abhngigen Variablen Freizeitorientierung der Frau berechnen Zwischen den Z i h d unabhngigen V i bl (Alt Mann und F ) b t ht bh i Variablen (Alter M d Frau) besteht jedoch bereits bivariat eine sehr hohe positive Korrelation von r = .96
Lineare Regression
69

Es ist daher zu vermuten, dass das Alter des Mannes und das Alter der Frau kollinear sind Dies kann bei der Regressionsdiagnose durch zwei Koeffizienten beurteilt werden: Toleranz und Varianzinflationsfaktor Der Toleranzwert einer unabhngigen Variablen j ist definiert als:
Toleranz j = 1 - R j
Dabei bezeichnet Rj die multiple quadrierte Korrelation der unabhngigen Variablen j mit den anderen unabhngigen Variablen des Modells Da das Alter der Frau und das Alter des Mannes bivariat mit r = .958 korrelieren, muss die Toleranz also 1-(0,958*0,958) = 0,083 betragen
Lineare Regression
70
Lineare Regression in SPSS: BLUE-Annahmen

Der in Statistikprogrammen zustzlich ausgegebene Varianzinflationsfaktor (VIF) ist nichts anderes als der Kehrwert der Toleranz:
1 1 1 VIFj = = = = 12,05 Tol j 1 - R j 0,083

Faustregel fr die Interpretation: Toleranzwerte unter 0,1 oder VIF-Werte ber 10 wecken den Verdacht auf Kollinearitt Toleranzwerte unter 0 01 lassen sicher auf das Vorliegen von 0,01 Kollinearitt schlieen
Lineare Regression
71

Koeffizientena Nicht standardisierte Koeffizienten Standardf ehler B 94,742 1,675 -2,051 ,115 -,687 ,117 Standardisiert e Koeffizienten Beta -,595 -,197 T 56,555 -17,771 -5,894 Signifikanz g ,000 ,000 ,000
Kollinearittsstatistik Toleranz ,083 ,083 VIF 12,086 12,086
Modell 1
(Konstante) Alter Mann 1998 Alter Frau 1998
a. Abhngige Variable: HK bis 55 Jahre Spannung HK, Jahre,
Im Beispiel haben sowohl das Alter des Mannes und das Alter der Frau einen negativen Effekt auf die Freizeitorientierung der Frau ff f Es handelt sich jedoch nicht um zuverlssige Schtzergebnisse, da die beiden Variablen kollinear (Toleranz < 0 1) sind und deshalb nicht 0,1) zusammen in das Regressionsmodell aufgenommen werden sollten
Lineare Regression
72
Multiple lineare Regression

Bei der multiplen Regression wird der simultane Einfluss von mehreren unabhngigen Variablen (xj) auf eine abhngige Variable (y) analysiert Da in den Sozialwissenschaften nur selten monokausale Phnomene zu untersuchen sind, ist die multiple Regressionsanalyse ein unverzichtbares Hilfsmittel und kann in der Regel nicht durch eine Serie von bivariaten Analysen ersetzt werden Es lassen sich mit Leichtigkeit Modelle mit mehreren Regressoren finden, ber die bivariate Ergebnisse unvollstndig oder irrefhrend informieren (Stichworte: Scheinkorrelation, Supression, s.u.) Zur Interpretation der multiplen linearen Regression zunchst ein grafisches Beispiel
Lineare Regression
73

Die folgende Folie zeigt ein Modell mit zwei Regressoren (x1, x2). Dieses Modell ist grafisch in einem dreidimensionalen Koordinatensystem mit x1-, x2- und y-Achse dargestellt Die vorhergesagten Mittelwerte fr y liegen hier nicht mehr wie bei der bivariaten Regression auf einer Linie sondern auf einer Ebene welche die Ebene, y-Achse im Punkt b0 schneidet (Konstante) Die Ebene hat zwei Steigungen, die durch zwei Regressionskoeffizienten angegeben werden: In Richtung der x1-Achse hat die Ebene die Steigung b1 und in Richtung der x2-Achse die Steigung b2 Regressionen mit mehr als zwei unabhngigen Variablen lassen sich grafisch nicht mehr darstellen; mathematisch ist es jedoch kein Problem, mit mehr als drei Dimensionen (d.h. mit mehr als zwei unabhngigen Variablen) zu rechnen
Lineare Regression
74
Lineare Regression
75

Bei der einfachen linearen Regression mit einer UV lautet die Regressionsgleichung bekanntlich:
y = b0 + b1x + ei
Bei der multiplen linearen Regression mit j unabhngigen Variablen wird die Gleichung wie folgt erweitert:
y = b0 + b1x1 + ... + b jx j + ei
Fr die Interpretation heit das: Erhht sich die unabhngige V i bl x1 F di I t t ti h it d E hht i h di bh i Variable um eine Einheit und werden alle anderen unabhngigen Variablen konstant gehalten (kontrolliert) so steigt der Vorhersagewerte fr y um b1 Ei h it an Einheiten
Lineare Regression
76

Bei der Interpretation einer multiplen linearen Regression oder bei multivariaten Verfahren allgemein sind mehrere Besonderheiten zu beachten Bei der bivariaten Regression wird nur der Zusammenhang zwischen der abhngigen und der unabhngigen Variablen beurteilt Bei der multiplen Regression sind jedoch auch die Beziehungen zwischen den unabhngigen Variablen zu beachten Im Folgenden wird dargestellt, wie man sich diese Beziehungen vorstellen kann Die nun folgende Abbildung erlaubt zunchst eine einfache grafische Interpretation
Lineare Regression
77

In der Regel sind die unabhngigen Variablen nicht unabhngig voneinander, sondern berlappen sich in ihrer Erklrungsleistung Dies wird im folgenden berlappungsdiagramm fr zwei Regressoren x1 und x2 in Bezug auf eine abhngige Variable y gezeigt In der Grafik wird durch das hellgraue und dunkelgraue Segment der eigenstndige Erklrungsbeitrag der unabhngigen Variablen x1 und x2 veranschaulicht Die Vereinigung der drei Segmente (x1, x2, y) zeigt jedoch, dass die unabhngigen Variablen in gewissem Mae zusammenhngen, da sie sich in ihrer Erklrung von y zum Teil berlappen
Lineare Regression
78
Lineare Regression
79

Im Folgenden wird nun rechnerisch demonstriert, wie eine multivariate lineare Regression mit einer abhngigen und zwei unabhngigen Variablen funktioniert Grundlage ist ein weiter unten dargestelltes Beispiel mit der abhngigen Variablen y und den beiden unabhngigen Variablen x und z (n= 8) Wir wollen die folgende Gleichung schtzen:
y = b0 + b1x + b2z + ei
Die praktikabelste Mglichkeit ist nun die Daten in SPSS oder ein nun, anderes Programm einzugeben und das Programm rechnen zu lassen Um zu demonstrieren, wie die multiple lineare Regression funktioniert, p g d.h. aus didaktischen Grnden, wird nun jedoch die etwas umstndliche Berechnung von Hand durchgefhrt

Gesucht ist im Folgenden der Einfluss der Variable x auf y bei Kontrolle des Effektes der Variable z auf y. Wir suchen also b1. Dazu mssen wir folgendes berechnen: Erstens mssen wir eine Regression von y auf z rechnen und die Residuen dieser Regression (genannt y*) abspeichern y) Dann mssen wir eine Regression von x auf z durchfhren und wiederum die Residuen (x*) abspeichern Schlielich knnen wir dann, um den Effekt von x auf y bei Kontrolle von z zu schtzen, eine Regression von y* auf x* durchfhren Der b-Koeffizient in der Regression von y* auf x* entspricht dann in der Gleichung oben b1
Lineare Regression
81
Lineare Regression
82

Das Residuum y* entspricht dem Teil Teil von y, der nicht durch z erklrt wird Wir bereinigen y also um z Anmerkung: Das Residuum y* wird als Differenz von BeobachtungsBeobachtungs und Vorhersagewerten berechnet (z.B. erste Zeile: 5 6 84 = -1,84) 5-6,84 1 84)
Lineare Regression
83
Lineare Regression
84

Hier haben wir auch x um z bereinigt; brig bleibt das Residuum x*
Lineare Regression
85
Lineare Regression
86

Laut unserer Hand-Rechnung entspricht also der Einfluss der Variablen x auf y bei Kontrolle von z dem Wert b1 = 0,628 berprfen wir dies, indem wir die Daten in SPSS eingeben und eine multivariate Regression mit der abhngigen Variablen y und den unabhngigen Variablen z und x berechnen kommen wir exakt zu berechnen, demselben Ergebnis:
a Koeffizienten
Standardisiert e Nicht standardisierte Koeffizienten Koeffizienten Standardf ehler Modell B Beta 1 (Konstante) -,450 ,829 x ,628 628 ,163 163 ,669 669 z ,485 ,215 ,393 a. Abhngige Variable: y
T Signifikanz -,543 ,611 3,851 3 851 ,012 012 2,258 ,074
Lineare Regression
87
Hier ist nochmal grafisch dargestellt, g g , was wir ausgerechnet haben: Wir haben den Einfluss von z auf x und y b d berechnet und di V i bl x h t d die Variablen und y damit um z bereinigt Die um z bereinigten Versionen von Versionen x und y entsprechen den Residuen x* und y* Der Effekt von x* auf y* entspricht dem ff * f * Effekt von x auf y bei Kontrolle von z
x*
y*
Lineare Regression
88
Multivariate Modellierung
Es lassen sich nun eine Reihe von typischen Beziehungsmustern zwischen den unabhngigen Variablen eines Regressionsmodells unterscheiden, von denen nun einige der wichtigsten besprochen werden Die im Folgenden dargestellten Beziehungsmuster sind konzeptuell wichtig und gelten grundstzlich fr alle Regressionsverfahren (lineare Regression, logistische Regression, Ereignisdatenanalyse usw.) Zur Darstellung der Beziehungsmuster wird die Symbolik von Pfaddiagrammen mit drei Variablen (abhngige Variable y, unabhngige Variable x, intervenierende Variable z) verwendet Das einfachste Muster tritt auf, wenn die erklrende Variable x und die auf Drittvariable z statistisch unabhngig voneinander sind (r = 0) und jede fr sich einen eigenen Einfluss auf y haben:
Lineare Regression
89
In diesem Beispiel, das in der Realitt nur selten vorkommen drfte, sind p , , die Effekte der Variablen x und z auf y additiv, da sie untereinander nicht zusammenhngen D.h. B dass sich d Eff kt von x auf y nicht verndert, wenn z D h z.B., d i h der Effekt f i ht d t kontrolliert wird
Lineare Regression
90
Ein wichtiger Anlass fr Drittvariablenkontrolle ist Scheinkausalitt Sie liegt dann vor, wenn der beobachtete Zusammenhang zwischen x vor und y dem Effekt einer dritten Variablen z zuzuschreiben ist, die sowohl x, als auch y beeinflusst Als Folge des Einflusses, den z auf x und y hat, tritt eine bivariate Beziehung zwischen x und y auf Wird der Effekt der Variablen z jedoch kontrolliert ist der Zusammen kontrolliert, Zusammenhang zwischen x und y multivariat 0 Im Diagramm wird dies dadurch verdeutlicht, dass die Variablen x und y bei Kontrolle von z nicht mehr verbunden sind
Lineare Regression
91
z + (-) + (-)
Dieses Beispiel demonstriert, dass eine Drittvariable z sowohl x, als auch y b i fl beeinflusst (entweder jeweils positiv, oder jeweils negativ) t( t d j il iti d j il ti ) Wenn der bivariat vorhandene Zusammenhang zwischen x und y bei Kontrolle von z nicht mehr signifikant ist spricht man von einer ist, Scheinkausalitt
Lineare Regression
92
Weiterhin kann man konzeptuell davon ausgehen, dass z den Zusammenhang zwischen x und y vermittelt In diesem Fall gibt es einen indirekten Effekt von x ber z auf y. z wird hier auch als intervenierende Variable bezeichnet Wichtig ist nun, wie die Richtung des indirekten Effektes (x ber z auf y) ausfllt Wenn das Produkt der beiden Teileffekte (x z)* (z y) das gleiche z) Vorzeichen hat wie der direkte Effekt (x y) (und beide signifikant sind) spricht man von einer Mediation Die Beziehung zwischen x und y wird also durch z vermittelt bzw. erklrt
Lineare Regression
93
z + (+) + (-)
x + (-)
Im Beispiel liegt Mediation vor, da der direkte Effekt (x y) positiv ist und d i di kt Eff kt (x z)*(z y) ebenfalls ( l mal plus) d der indirekte Effekt ( )*( ) b f ll (plus l l ) Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Mediation: der direkte Effekt ist negativ und das Produkt der beiden Teileffekte ber z ebenfalls (plus*minus=minus)
Lineare Regression
94
Bei der partiellen Mediation wird der Einfluss von x auf y unter Kontrolle des Mediators z zwar reduziert, ist aber nicht 0 Bei einer vollstndigen Mediation kann unter Kontrolle des Mediators z kein Einfluss von x auf y mehr nachgewiesen werden (hnlich wie bei der Scheinkausalitt) Wenn dagegen das Produkt der beiden Teileffekte (x z)*(z y) ein anderes Vorzeichen hat wie der direkte Effekt (x y), spricht man von einer Supression In diesem Fall ist der bivariate Zusammenhang zwischen x und y (ohne Kontrolle von z) schwcher als der bedingte Zusammenhang bei Kontrolle von z Der zum direkten Effekt gegenlufige indirekte Effekt vermindert g g g (unterdrckt) damit den bivariaten Zusammenhang zwischen x und y
Lineare Regression
95
z - (-) + (-)
x + (-)
Im Beispiel liegt Supression vor, da der direkte Effekt (x y) positiv ist und d i di kt Eff kt (x z)*(z y) negativ (minus mal plus) d der indirekte Effekt ( )*( ) ti ( i l l ) Das in Klammern angegebene zweite Beispiel ergibt ebenfalls eine Supression: der direkte Effekt ist negativ das Produkt der beiden negativ, Teileffekte ber z dagegen positiv (minus*minus=plus)
Lineare Regression
96
Nun ein empirisches Beispiel zur Mediation: Dargestellt ist eine Regression mit der abhngigen Variablen Zukunftsorientierung ( g gg g (misst, ob , man mit einer langfristigen gemeinsamen Zukunft mit seinem Partner rechnet) Die Di unabhngigen V i bl sind di P t bh i Variablen i d die Partnerschaftszufriedenheit i % h ft f i d h it in (z) und eine Skala zur Einstellungshnlichkeit (x) Der bivariat positive Effekt der Einstellungshnlichkeit auf die Zufriedenheit (Beta = .42, Modell 1) reduziert sich bei Kontrolle der Partnerschaftszufriedenheit auf ein Beta von .14 (Modell 2) Im O t t k I Output knnen wir in Modell 2 sehen, dass x (Einstellungshnlichkeit) i i M d ll h d (Ei t ll h li hk it) einen positiven Effekt auf y hat
Lineare Regression
97
Lineare Regression
98
Auerdem ist erkennbar, dass z (Zufriedenheit) einen positiven Effekt auf y ausbt Nicht sichtbar ist dagegen im Regressionsmodell der Effekt von x (Einstellungshnlichkeit) auf z (Zufriedenheit) Da sich der Effekt von x (Einstellungshnlichkeit) jedoch bei Kontrolle von z in Modell 2 reduziert, wissen wir, dass Einstellungshnlichkeit und Zufriedenheit positiv miteinander zusammenhngen mssen (!) Somit ist der indirekte Effekt (Einstellungshnlichkeit Zufriedenheit Zukunftsorientierung) positiv und hat damit das gleiche Vorzeichen wie der direkte Effekt d di kt Eff kt Es handelt sich also um eine partielle Mediation
Lineare Regression
99
Beispiel zur Supression: Dargestellt ist eine Regression mit der abhngigen Variablen Institutionalisierungsniveau ( gg g (misst 4fach abgestuft, g , ob man mit seinem Partner zusammengezogen ist, sich verlobt hat, etc.) Die unabhngigen Variablen sind eine Dummy-Variable zur Scheidung/Trennung d Elt S h id /T der Eltern ( ) und di P t (x) d die Partnerschaftszufriedenheit i h ft f i d h it in % (z) In Modell 1 besteht zwischen Scheidung der Eltern und Institutionalisierung kein signifikanter Zusammenhang; nach Kontrolle der Partnerschaftszufriedenheit in Modell 2 dagegen schon Wir h i O t t d Wi sehen im Output, dass der direkte Effekt (Scheidung I tit ti d di kt Eff kt (S h id Institutionalili sierungsgrad) positiv ist
Lineare Regression
100
Lineare Regression
101
Auerdem knnen wir sehen, dass der Effekt von z (Zufriedenheit) auf y ebenfalls positiv ist p Aus der Tatsache, dass sich der Effekt der Scheidung in Modell 2 verstrkt, knnen wir schlieen, dass Scheidung (x) und Zufriedenheit (z) negativ miteinander zusammenhngen mssen (!) es sich also um eine ti it i d h (!), i h l i Supression handelt Der indirekte Effekt (Scheidung Zufriedenheit InstitutionaliInstitutionali sierungsgrad) ist negativ (minus*plus=minus) und hat damit ein anderes Vorzeichen als der direkte Effekt Anders ausgedrckt: Der um die Zufriedenheit bereinigte Eff kt d A d d kt D di Z f i d h it b i i t Effekt der Scheidung der Eltern, also der Nettoeffekt bei Kontrolle der Zufriedenheit, hngt strker mit y zusammen als zuvor, d.h. ohne Kontrolle der Zufriedenheit Z fi d h i
Lineare Regression
102
Von einer Mediation und Supression ist weiterhin die sog. Moderation zu unterscheiden. Ein Moderator ist eine Drittvariable (z), die die Strke einer Wirkbeziehung zwischen zwei Variablen (x und y) beeinflusst, ohne - im Extremfall - selbst mit x oder y zu korrelieren In Abhngigkeit der Ausprgung der Moderatorvariablen wird somit die Strke des Zusammenhangs zwischen der unabhngigen und der abhngigen Variablen verndert Eine Moderatorvariable z erklrt also, unter welchen Bedingungen es einen Zusammenhang zwischen x und y gibt
Lineare Regression
103
z
Die intervenierende Variable z gibt an, unter welchen Bedingungen der Effekt von x auf y stark oder schwach ist ohne selbst mit x oder y ist, zusammenhngen zu mssen Bei der Analyse von Moderatoreffekten handelt es sich somit um eine vllig eigenstndige Forschungsstrategie
Lineare Regression
104
Beispiel zur Moderation: Dargestellt ist wieder eine Regression mit der abhngigen Variablen Zukunftsorientierung gg g Die unabhngigen Variablen sind ein Konfliktscore (wie viele Konflikte gibt es in der Partnerschaft) und eine Einschtzung dazu, ob eine Person gute Alternativen zur aktuellen P t t Alt ti kt ll Partnerschaft h t (hohe W t entsprechen h ft hat (h h Werte t h hier guten Alternativen) In das Modell gehen die Haupteffekte (Konflikte, Alternativen) und ein Interaktionseffekt (Konflikte multipliziert mit Alternativen) ein Der Interaktionseffekt ist signifikant negativ und besagt, dass sich Konflikte K flikt umso strker negativ auf die Zukunftsorientierung auswirken, je t k ti f di Z k ft i ti ik j mehr Alternativen eine Person hat
Lineare Regression
105
Lineare Regression
106
Anders ausgedrckt: Unter der Bedingung von hohen Alternativen zur Partnerschaft wirken sich Konflikte besonders negativ auf die g Zukunftsorientierung aus Technischer Hinweis: Die Variablen Konfliktniveau und Alternativen gehen i zentrierter Form ein (Zentrierung heit, dass von jeder h in ti t F i (Z t i h it d j d Ausprgung einer Variablen der arithmetische Mittelwert subtrahiert wird) Die Zentrierung ist wichtig zur Interpretation der konditionalen Haupteffekte und zur Vermeidung von Problemen durch Kollinearitt Der Haupteffekt des Konfliktniveaus bedeutet, dass sich bei mittleren Alternativen ein negativer Ei fl Alt ti i ti Einfluss d K flikt i des Konfliktniveaus auf di f die Zukunftsorientierung in Hhe von Beta = -.054 ergibt Der Haupteffekt der Alternativen (Beta = -.64) bezieht sich entsprechend 64) auf ein mittleres Konfliktniveau
Lineare Regression
107
Umsetzung in SPSS
Lineare Regression in SPSS: Analysieren Regression Linear:
1 Lineare Regression
108
Umsetzung in SPSS
Abschlieend folgen nun einige praktische Hinweise zur Anwendung der linearen Regression in SPSS Die unabhngigen Variablen knnen bei diesem Verfahren grundstzlich ein beliebiges Messniveau aufweisen Je nach Messniveau unterscheidet sich jedoch die Interpretation bzw. sind bestimmte Vorarbeiten (Dummys bilden) zu erledigen Die erste Mglichkeit ist, dass eine unabhngige Variable ebenfalls metrisch ist Beispiel nchste Folie: Regression mit der AV Bruttoeinkommen monatlich und der UV Alter (in Jahren)
109
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf B ehler 1884,726 95,766 50,519 2,367 Standardisiert e Koeffizienten Beta ,240 T 19,680 21,346 Signifikanz ,000 ,000
Modell 1
(Konstante) Alter
a. Abhngige Variable: Bruttoverdienst letzten Monat
Der b-Koeffizient i t ll D b K ffi i t zeigt allgemein, wie sich d V h i i i h der Vorhersagewert f y b i t fr bei Erhhung der Variablen x um eine Einheit verndert j Pro Lebensjahr erhht sich das Einkommen also um den Faktor b = 50,52, also um gut 50 EUR
110
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf B ehler 4544,454 34,594 -1619,913 52,710 Standardisiert e Koeffizienten Beta -,335 T 131,366 -30,733 Signifikanz ,000 ,000
Modell 1
(Konstante) Geschlecht (1=Frau, 0 = Mann)
a. a Abhngige Variable: Bruttoverdienst letzten Monat
Hier hat die unabhngige Variable (Geschlecht) nur zwei Ausprgungen (0=Mann, 1=Frau) Der b-Koeffizient bedeutet, dass das vorhergesagte Einkommen bei Frauen um 1619 EUR niedriger liegt als bei Mnnern Die Konstante bedeutet in diesem Beispiel, dass das vorhergesagte Einkommen fr Mnner (Geschlecht = 0) 4544 EUR betrgt
1 Lineare Regression 111
Umsetzung in SPSS
Wie ist nun vorzugehen, wenn die unabhngige Variable ein nominales Messniveau aufweist und zustzlich mehr als zwei Kategorien hat? g In diesem Fall mssen bei der linearen Regression 0/1-codierte DummyVariablen fr die einzelnen Variablenausprgungen gebildet werden, die dann gemeinsam i d R d i in das Regressionsmodell eingehen i d ll i h Fr eine Variablenausprgung darf jedoch keine Dummy-Variable in das Modell eingehen (diese ist dann die Referenzkategorie) Beispiel: Sie wollen die kategoriale Variable Familienstand mit 5 Ausprgungen im Regressionsmodell bercksichtigen Durch Umkodieren mssen Sie zunchst fr vier der fnf Kategorien eine 0/1-codierte Dummy-Variable bilden:
112
Umsetzung in SPSS
Die Dummy-Variable verheiratet nimmt z.B. den Wert 1 an, wenn eine Person verheiratet ist und in allen anderen Fllen den Wert 0
Welche der fnf Ausprgungen die Referenzkategorie ist ist egal (es ist, muss nicht die letzte Ausprgung sein)
113
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf B ehler 3028,542 226,672 1103,336 229,250 1201,276 295,092 70,462 232,653 1191,679 249,276 Standardisiert e Koeffizienten Beta ,223 ,071 ,013 ,126 T 13,361 4,813 4,071 ,303 4,781 Signifikanz ,000 ,000 ,000 ,762 ,000
Modell 1
(Konstante) verheiratet getrennt ledig geschieden
Fr jede Kategorie bis auf eine (verwitwet = Referenzkategorie) wird nun eine Dummy-Variable bercksichtigt Jede Kategorie wird mit der Referenzkategorie verglichen. So liegt z.B. das vorhergesagte Einkommen der Verheirateten um b = 1103,3 EUR hher als bei den Personen, die verwitwet sind
Umsetzung in SPSS
Bei ordinal skalierten unabhngigen Variablen (z.B. hchster Schulabschluss) ist es Ermessenssache, ob nur ein Koeffizient geschtzt ) , g wird oder Dummys gebildet werden Als Faustregel kann gelten, dass bei ordinalen Variablen ab 4 Kategorien besser nur ein K ffi i t geschtzt wird; h t di V i bl nur 3 b i Koeffizient ht t i d hat die Variable Ausprgungen, sollten Dummys gebildet werden Die folgende Folie verdeutlicht noch mal den Unterschied: Oben geht die ordinale Variable Schulabschluss in einfacher Form ein; der Vorhersagewert fr das Einkommen steigt pro Schulabschluss um gut 500 EUR
115
Umsetzung in SPSS
Koeffizienten a Nicht standardisierte Koeffizienten Standardf ehler B 2805,653 2805 653 64,360 64 360 527,684 27,348 Standardisiert e Koeffizienten Beta ,236 T 43,593 43 593 19,295 Signifikanz ,000 000 ,000
Modell 1
(Konstante) Schulabschluss
Koeffizienten a Nicht standardisierte Koeffizienten K ffi i t Standardf B ehler 4989,327 66,380 -1456,089 1456 089 82,861 82 861 -1442,526 80,985 296,581 151,764 Standardisiert e Koeffizienten K ffi i t Beta -,286 286 -,291 ,026 T 75,163 -17,573 17 573 -17,812 1,954 Signifikanz ,000 ,000 000 ,000 ,051
Modell 1
(Konstante) hauptschule mittlere fachhoch
116
Umsetzung in SPSS
Unten werden Dummys fr die Schulabschlsse gebildet und mit der Referenz (Abitur) verglichen ( ) g Da Personen mit Fachhochschulabschluss sogar mehr verdienen als Personen mit Abitur, ist es bei diesem Beispiel nicht sinnvoll, auf Dummys zu verzichten (k i ordinales M D i ht (kein di l Messniveau)! i )! Zu beachten ist, dass die Schtzung von nur einem b-Koeffizienten fr eine ordinale oder metrische unabhngige Variable implizit mit der Annahme verbunden ist, dass der Effekt dieser unabhngigen Variablen linear ist Immer, wenn dies nicht d F ll i t ( B b i u-frmigen Z I di i ht der Fall ist (z.B. bei f i Zusammenhngen oder sprunghaften Vernderungen), kann mit der gezielten Bildung von Dummys eine bessere Modellanpassung erzielt werden
117
Umsetzung in SPSS
In vielen Fllen ist es sinnvoll, sog. hierarchische Regressionen zu berechnen (z.B. um zu beurteilen, ob Beziehungsmuster wie Supression ( , g p oder Moderation vorliegen) Bei hierarchischen Regressionen gehen nicht alle unabhngigen Variablen f i V i bl auf einmal i ein M d ll ein, sondern werden schrittweise l in i Modell i d d h itt i eingefhrt In SPSS knnen Sie dazu erstens verschiedene Regressionsblcke per Men zusammenstellen Dazu im Hauptmen der linearen Regression rechts oberhalb von unabhngige V i bl b i Bl k auf weiter kli k bh i Variablen bei Block f it klicken
118
Umsetzung in SPSS
Bei diesem Beispiel wird zunchst eine lineare Regression mit der UV p g Geschlecht berechnet und anschlieend eine zweite lineare Regression mit der zustzlichen UV vereinbarte Wochenstunden Die Di UV G Geschlecht muss unter Bl k 2 nicht erneut angegeben werden, hl ht t Block i ht t b d sondern wird automatisch in allen auf Block 1 folgenden Blcken bercksichtigt
Umsetzung in SPSS
Koeffizienten K ffi i t a Nicht standardisierte Koeffizienten Standardf B ehler 6164,367 79,803 -1619,913 52,710 3593,464 123,644 -1181,550 53,062 5,070 ,192 Standardisiert e Koeffizienten Beta -,335 -,245 ,290 T 77,245 -30,733 29,063 -22,267 26,426 Signifikanz ,000 ,000 ,000 ,000 ,000
Modell 1 2
(Konstante) Geschlecht (Konstante) Geschlecht Wochenstunde n-tatsaechlich
120
Umsetzung in SPSS
Es empfiehlt sich jedoch bei hierarchischen linearen Regressionen meistens, nicht ber das Men zu gehen, sondern mit der Syntax zu , g , y arbeiten Die Syntax einer linearen Regression mit der AV Einkommen und der UV Geschlecht l t t z.B.: G hl ht lautet B
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /NOORIGIN /DEPENDENT op4501 /METHOD=ENTER sex.
121
Umsetzung in SPSS
Mit diesem Ausdruck erhalten Sie eine Regression mit den SPSSVoreinstellungen ( g (d.h. den Output, den Sie auch p Men erhalten, p , per , wenn Sie nichts verndern) Interessant ist an dieser Stelle der Ausdruck /METHOD = ENTER sex Hier kann man durch weitere /METHOD = ENTER-Zeilen mehrere Regressionsblcke definieren Wenn also wieder i zweiten Bl k zustzlich zum G W l i d im it Block t li h Geschlecht di hl ht die Wochenstunden eingehen sollen, lautet der Ausdruck: REGRESSION /METHOD = ENTER sex /METHOD = ENTER wochenstunden. h d
122
Umsetzung in SPSS
Im Folgenden wird dargestellt, wie die BLUE-Annahmen in SPSS berprft werden Um zu beurteilen, ob der Zusammenhang zwischen zwei metrischen Variablen x und y linear ist, kann erstens ein Streudiagramm oder ein Mittelwertprofil der entsprechenden Variablen betrachtet werden p p Darber hinaus kann eine betreffende unabhngige Variable transformiert werden, um nichtlineare Zusammenhnge aufdecken zu knnen k Hier bietet sich die zustzliche Aufnahme eines quadrierten Terms an (s.o.), oder die Bildung von Dummys, die auf der nchsten Folie fr den Effekt des Alters auf die Familienorientierung verdeutlicht wird
123
Umsetzung in SPSS
Koeffizienten a Nicht t d di i t Ni ht standardisierte Koeffizienten Standardf B ehler ,023 023 ,015 015 -,399 ,040 ,067 ,021 -,077 , , ,021 Standardisiert e Koeffizienten Beta -,086 ,031 -,036 , T 1,594 1 594 -9,951 3,218 -3,732 , Signifikanz ,111 111 ,000 ,001 , ,000
Modell 1
(Konstante) (K t t ) age19 age3652 age52p g p
a. Abhngige Variable: Familienorientierung
Im Beispiel g p gehen die Dummys 16-19 Jahre, 36-52 Jahre und ber 52 Jahre y , (age52p) in das Regressionsmodell ein, entsprechend ist der Altersbereich 20-35 Jahre die Referenzkategorie Es zeigt sich ein glockenfrmiger Zusammenhang: Die Familienorientierung liegt bei den bis 19jhrigen und den ber 52jhrigen niedriger als bei den 2035jhrigen
Umsetzung in SPSS
Einige weitere Optionen zur berprfung der BLUE-Annahmen finden Sie im Men Statistiken Whlen Sie unter Residuen die Option Durbin-Watson aus, um auf Autokorrelation der Residuen zu testen Um den Toleranz- und Varianzinflationsfaktor anzuzeigen, whlen Sie die Option Kollinearittsdiagnose Ob di R id die Residuen normalverteilt sind b l t ilt i d bzw. i einem Z in i Zusammenhang mit h it den Vorhersagewerten der Regression stehen, knnen Sie im Men Diagramme berprfen Zur Auswahl stehen u.a. ein Normalverteilungsdiagramm der Residuen und ein Plot der standardisierten Vorhersagewerte gegen die standardisierten Residuen
125
Umsetzung in SPSS
126
Umsetzung in SPSS
127
Literatur
Backhaus et al. (2006): Multivariate Analysemethoden. Eine anwendungsorientierte Einfhrung. Berlin: Springer (mit SPSS-Bezug, g g p g ( g, empfehlenswert). Allison, Paul D. (1999): Multiple Regression. A Primer. Thousand ( ) p g Oaks: Pine Forge Press (sehr verstndlich, empfehlenswert). Tacq, J. (1997): Multivariate analysis techniques in social science research. From problems to analysis. London: Sage. Fahrmaier et al. (2007): Statistik: Der Weg zur Datenanalyse. 6. Auflage. Heidelberg: Springer. f S Baron, R.M. & Kenny, D.A. (1986). The moderator-mediator distinction in i social psychological research: C i l h l i l h Conceptual, strategic and statistical t l t t i d t ti ti l considerations. Journal of Personality and Social Psychology, 51(6), 11731182. (Basisartikel zu Mediation versus Moderation)

Bivariate Und Multiple Lineare Regression

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Bivariate Und Multiple Lineare Regression

Hochgeladen von

Copyright:

Verfügbare Formate

Institut f S i l i I tit t fr Soziologie Professur fr Empirische Sozialforschung Prof. Dr. Johannes Kopp Dr.

Bivariate und multiple lineare Regression

Partnersch haftszufrieden nheit (10 = se zufrieden) ehr )

Hufigkeit von Konflikten in der Partnerschaft (10 = sehr hufig)

Lineare Regression: Prinzip

wobei y fr die Vorhersagewerte von y steht

(x - x )( y - y) = 104,8 = 0,585 = 179,2 (x - x )

b0 = y - bx = 5,8 ( 0,585 * 4,8) = 8,607

) y x =5 = 8,607 (0,585 * 5) = 8,607 2,925 = 5,682

Regression Residuen Gesamt

a. Einfluvariablen : (Konstante), konflikt b. Abhngige Variable: zufried gg

R R-Quadrat ,624a 624 ,390 390

a. Einfluvariablen : (Konstante), konflikt

61,289 R = = 0,39 157,2

Quadratsumme Residuen d id (n - k) korr.R = 1 Quadratsumme Gesamtstreuung Q g ( n - 1)

-2,00 R-Quadrat linear = 0,17

100 R-Quadrat linear = 0,785

0 0 100 200 300 400 500 600

F Signifikanz 11,502 ,003a

a. Abhngige Variable: zufried

a. a Abhngige Variable: zufried

2,876 1 - 0,39 s.e.( b1 ) = 20 - 2 3,071

0,585 = 3,39 0,172

0,585 2,0 * 0,172

(Konstante) konflikt p pdauer

a. Abhngige Variable: zufried

beta b konflikte = 0,585

3,071 = 0,624 2,876

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Aus: Benninghaus (1998): Deskriptive Statistik, S. 191

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

-2,00 R-Quadrat quadratisch =0,223 R-Quadrat linear = 0,17 -3,00 10 20 30 40 50 60 70 80 90

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

(Konstante) alterz (Konstante) alterz aquad

a. Abhngige Variable: sp552

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Weiterhin soll eine Varianzengleichheit (Homoskedastizitt) der Residuen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Regression Standardisierter geschtzter Wert

Lineare Regression: BLUE-Annahmen

Abhngige Variable: av2

Regression Standardisierter geschtzter Wert

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

R R-Quadrat a ,624 624 ,390 390

Korrigiertes R-Quadrat ,356 356

Standardf ehler des Schtzers 2,308 2 308

DurbinWatsonStatistik ,914 914

a. Einfluvariablen : (Konstante), konflikt b. Abhngige Variable: zufried

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Lineare Regression: BLUE-Annahmen

Alter Mann 1998

Alter Frau 1998