You are on page 1of 16

SPSSinteraktiv

Korrelationen & Regression - 1 -

Skript Einfhrung in SPSS

Korrelation & Regression Korrelation


1.

Bivariate Korrelation Partialkorrelation Semipartialkorrelation

2.

3.

Lineare Regression
1.

einfache Regression multiple Regression

2.

Hinweise zum Schreiben eines statistischen Reports

Einige Tipps zur Formatierung des Outputs:


1.

Spracheinstellung in Output-Tabellen auf Deutsch festlegen: Edit Options Registerkarte General Language (rechts, mittig) German auswhlen Tabellen so formatieren, dass sie den Richtlinien fr Tabellen in wissenschaftlichen Arbeiten entsprechen: Edit Options Registerkarte Pivot Tables Table Looks (links) Acadamic auswhlen

2.

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 2 -

Korrelation
Bivariate Korrelation
Analysieren Korrelation (Correlate) Bivariat

In dem sich ffnenden Fenster werden die Variablen ausgewhlt, die korreliert werden sollen. Es ist auch mglich, mehr als zwei Variablen auszuwhlen, korreliert wird dann jede mit jeder anderen Variablen.
intervallskalierte, normalverteilte Variablen: Voreinstellung Pearson beibehalten ordinalskalierte Variablen oder nicht normalverteilte intervallskalierte Variablen: a) Spearman auswhlen und eine Rangkorrelation berechnen oder b) die Rangkorrelation Kendalls tau whlen (besonders bei Ausreiern geeignet!!!)

bestehen Vorannahmen ber die Richtung der Korrelation (negativ oder positiv), kann auch ein einseitiger Test durchgefhrt werden

Output
Die Korrelationen werden in Form einer Kreuztabelle ausgegeben, die entlang der Diagonalen spiegelbildlich ist, d.h., unter der Diagonalen steht noch einmal dasselbe wie ber der Diagonalen. Die Diagonale selbst ist stellt die Korrelationen der Variablen mit sich selbst dar und ist somit informationslos. Zustzlich werden zu jeder Korrelation das Signifikanzniveau und die Anzahl der Flle angegeben.
Correlations Intelligenz Mittelwert quotient Schulnoten 1 ,856** . ,000 45 45 ,856** 1 ,000 . 45 50

r = .86 p <0.01, das Ergebnis ist sehr signifikant (auch erkennbar an den ** bei r!) N= 45

Intelligenzquotient

Mittelwert Schulnoten

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 3 -

Partialkorrelation
Soll aus einer Korrelation rxy eine Kontrollvariable z herauspartialisiert werden, weil die Vermutung besteht, dass diese den eigentlichen Zusammenhang zwischen X und Y verursacht, berechnet man eine Partialkorrelation rxy.z Analysieren Correlate Partiell (Partial)

In dem sich ffnenden Fenster werden die Variablen fr die Korrelation (X, Y) ausgewhlt und ist das obere rechte Fenster eingefgt, die Kontrollvariable Z kommt in das untere rechte Fenster.
Es ist mglich, auch mehrere Kontrollvariablen einzufgen. Berechnet wird dann eine Partialkorrelation hherer Ordnung! Optional kann man sich deskriptive Statistiken und die Korrelation Nullter Ordnung ausgeben lassen (entspricht der bivariaten Korrelation ohne Bercksichtigung der Kontrollvariablen)

Output
Correlations Control Variables Interesse der Eltern Intelligenz quotient 1,000 . 0 ,641 ,000 42 Mittelwert Schulnoten ,641 ,000 42 1,000 . 0 Intelligenzquotient Correlation Significance (2-tailed) df Correlation Significance (2-tailed) df

rxy.z = .64 p <0.01, auch die Partialkorrelation ist noch sehr signifikant!

Mittelwert Schulnoten

Was heit das nun? Der Zusammenhang zwischen IQ (x) und Schulnote (y) lag zunchst bei r=.86. Nach Herauspartialisieren des Interesses der Eltern ist diese Korrelation zwar auf .64 gefallen, aber damit immer noch recht hoch. Das heit, der Zusammenhang zwischen IQ und Schulnote kann nicht allein durch den Einfluss des Interesses der Eltern (z) erklrt werden, obwohl es, da die Partialkorrelation rxy.z geringer als die Korrelation rxy ist, offensichtlich in irgendeiner Form eine Rolle spielt. Das Modell, dass z allein auf x und y wirkt und fr den Zusammenhang zwischen x und y verantwortlich ist, ist unzureichend!

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 4 -

Semipartialkorrelation
Bei einer Semipartialkorrelation rx(y.z) wird der Einfluss einer Kontrollvariablen z nur aus einer der Variablen x und y (in dem Fall aus y) herauspartialisiert. Die Durchfhrung dazu ist ber zwei Wege mglich. 1. ber das Regressionsmen Analysieren Regression Linear

Im sich ffnenden Fenster whlt man als abhngige Variable (Dependent) diejenige, die nicht auspartialisiert werden soll, als unabhngige Variablen (Independent) diejenige, aus der die Kontrollvariable(n) auspartialisiert werden soll(en) und die Variable(n) die auspartialisiert werden soll(en) (also die Kontrollvariable(n)). Danach den Button Statistiken bettigen.

Variable, aus der nicht auspartialisiert werden soll (z.B. Leistung)

Kontrollvariable, die auspartialisiert werden soll (z.B. Interesse der Eltern) Variable, aus der auspartialisiert werden soll (z.B. Intelligenzquotient)

In dem sich ffnenden Men Statistiken whlt man die Option Teil- und partielle Korrelationen aus.

Besttigt mit Weiter und klickt in dem Regressionsmen auf OK.


Die Outputinterpretation wird nach Erluterung der zweiten Mglichkeit fr die Semipartialkorrelation beschrieben.
2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 5 -

2. ber das Regressions- und anschlieend ber das Korrelationsmen (diese Mglichkeit ist etwas umstndlicher)
Dazu erinnert Euch zunchst noch mal: Partialisiert man aus einer Variablen y den Einfluss einer Variablen z heraus, wird der Rest als Residuum bezeichnet. In der graphischen Veranschaulichung einer Regression ist dies die Abweichung eines Punktes von der Regressionsgeraden. Das Residuum wird mit ey bezeichnet, wobei e = y-y mit y = a + b z. Das Residuum ist also einfach die Differenz zwischen y und y, also der Teil von y, der von z unbeeinflusst ist. Um nun die Semipartialkorrelation berechnen zu knnen, berechnet man zunchst dieses Residuum und korreliert das dann mit x.

Analysieren

Regression

Linear

Im sich ffnenden Fenster whlt man als unabhngige Variable (Independent) diejenige, die auspartialisiert werden soll (also die Kontrollvariable), als abhngige (Dependent) die Variable, deren Residuum berechnet werden soll, d.h., aus der die Kontrollvariable auspartialisiert werden soll. Danach den Button Speichern (Save) bettigen

Variable, aus der auspartialisiert werden soll (z.B. IQ)

Kontrollvariable, die auspartialisiert wird (z.B. Interesse der Eltern)

In diesem Untermen knnen verschiedene Werte als Variablen gespeichert werden, u. a. die Residuen. Fr die Semipartialkorrelation lasst Ihr Euch die unstandardisierten Residuen berechnen.

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 6 -

Besttigt mit Continue, klickt in dem Regressionsmen auf OK. Der Output interessiert in dem Fall erst mal gar nicht. Wichtig ist jetzt, dass eine neue Variable, die die Residuen fr jede Person enthlt, erstellt wurde!
Datenansicht Ihr solltet auf jeden Fall darauf achten, die Variable umzubenennen, sonst wisst Ihr spter nicht mehr, um welches Residuum es sich handelte! Bsp: Residuum IQ.Eltern

Variablenansicht

Um nun die Semipartialkorrelation rx(y z) zu erhalten, rechnet man einfach ber das Korrelationsmen eine bivariate Korrelation (siehe oben) zwischen der Variablen x, aus der nichts auspartialisiert wurde (z.B. Schulnote) und dem Residuum!

Output
1. Mglichkeit
In der Spalte Teil stehen die Semipartialkorrelationen Der in der Zeile stehende Wert entspricht jeweils der Korrelation der abhngigen Variable (Schulnoten) mit der Variable aus der Zeile (Intelligenzquotient) ohne den Einfluss aller anderen Variablen (Interesse der Eltern).
Koeffizienten a Korrelationen Modell 1 Interesse der Eltern Intelligenzquotient Nullter Ordnung ,897 ,856
Mittelwert Schulnoten Correlations Mittelwert Schulnoten 1 . 50 ,283 ,059 45 Residuum IQ.Eltern ,283 ,059 45 1 . 45

2.Mglichkeit

Partiell ,754 ,641

Teil ,389 ,283


Residuum IQ.Eltern

a. Abhngige Variable: Mittelwert Schulnoten

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

Die Semipartialkorrelation betrgt nur noch .28 und ist auch nicht mehr signifikant. Es gibt nur einen schwachen direkten Zusammenhang zwischen der Schulnote und dem IQ, wenn der Einfluss der Eltern aus dem IQ heraus partialisiert wird.

Diese Korrelation spricht dafr, dass ein Groteil des Zusammenhanges zwischen x und y auf den Zusammenhang zwischen y und z zurckzufhren ist. Eine mgliche kausale Interpretation wre z.B., dass die Eltern mageblich den IQ beeinflussen, der wiederum die Schulnoten beeinflusst. Dieses Modell wre mit den Korrelationen zumindest nicht falsifiziert. Aber Vorsicht: Dies ist nur ein mgliches Modell, weitere wren denkbar, wobei nicht immer alle gleich plausibel sind!

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 7 -

Lineare Regression
Die Regression dient der Erstellung einer Regressionsgleichung, mit der es mglich ist, aufgrund der Kenntnis einer oder mehrerer unabhngiger Variablen (Prdiktoren) eine abhngige Variable vorherzusagen. Im Falle der linearen Regression ist die abhngige Variable intervallskaliert und normal verteilt, ebenso die unabhngige(n) Variable(n).
Ausnahme: die unabhngigen Variablen knnen auch nominal gestuft sein, mssen dazu jedoch kodiert werden, z.B. per Dummy- oder Effektcodierung, siehe dazu z.B. Bortz, Statistik fr Sozialwissenschaftler

Wichtig: - Voraussetzung fr die Regressionsrechnung sind normal verteilte Variablen. Dies sollte vorab unbedingt geprft werden (siehe erstes Handout!). Die Regression reagiert sehr anfllig auf Ausreier. Diese sollten ggf. nicht in die Berechnung eingehen. Die berprfung findet mithilfe des Boxplots statt (siehe erstes Handout). Eine weitere Voraussetzung sind normal verteilte Residuen. Das Vorgehen zur berprfung wird weiter unten erklrt! Da in der linearen Regression lineare Zusammenhnge unterstellt werden, sollten diese auch zunchst geprft werden Am einfachsten geschieht dies mithilfe des Streudiagramms: Graphiken Streudiagramm (Scatter) Einfach die entsprechenden Variablen fr Abszisse und Ordinate auswhlen
15,00

12,00

9,00

6,00

Optional kann die Regressionslinie hinzugefgt werden: Diagramm doppelt anklicken Punktewolke anklicken Chart Add Chart Element Fit line linear ins Diagramm wird dann automatisch auch die Varianzaufklrung durch die Regression eingefgt!

Mittelwert Schulnoten

3,00 R Sq Linear = 0,798

0,00

0,00

2,00

4,00

6,00

8,00

10,00

12,00

Interesse der Eltern

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 8 -

Einfache Regression
In die einfache Regression geht nur ein Prdiktor in die Regressionsgleichung (y^=a+b x) ein.

Durchfhrung
Analysieren Regression Linear
abhngige, vorherzusagende Variable, z.B. IQ Prdiktor, z.B. Interesse der Eltern

In dem sich ffnenden Fenster werden die abhngige Variable und der Prdiktor ausgewhlt.

Kennwerte
Untermen Statistiken (Statistics): alle wichtigen Kennwerte fr die einfache lineare Regression sind in der Abbildung erlutert.
Schtzungen fr die Regressionskoeffizienten a und b in der Regressionsgleichung berprfung der Modellanpassung Mittelwerte, Standardabweichun gen und N fr alle verwendeten Variablen

Konfidenzintervalle fr die Schtzungen der Regressionskoeffizienten

Output
Als erstes werden die deskriptiven Statistiken und die Korrelationen zwischen Prdiktor und abhngiger Variable ausgegeben. Im Anschluss folgt eine bersicht ber alle Modelle (im Beispiel nur eines!) und die jeweiligen Prdiktoren, die eingegangen/entfernt sind.

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 9 -

Modellzusammenfassung
Model Summaryb Model 1 R R Square ,894a ,798 Adjusted R Square ,794 Std. Error of the Estimate 1,00950

Standardfehler der Schtzung von R

Korrelation zwischen Prdiktor und abhngiger Variable

a. Predictors: (Constant), Interesse der Eltern b. Dependent Variable: Mittelwert Schulnoten

Varianzaufklrung: R 100% ergibt den prozentualen Anteil der erklrten Varianz an der Gesamtvarianz, im Beispiel also 79.8%

korrigiertes R, je mehr Prdiktoren eingehen, umso strker muss R nach unten korrigiert werden

Prfung des Modells auf Signifikanz: Ein Regressionsmodell soll, da es der Vorhersage dient, einen mglichst hohen Anteil der Varianz erklren knnen, sonst ist es nicht brauchbar. Dazu wird eine einfaktorielle Varianzanalyse berechnet, in der der Anteil der erklrten Varianz am Anteil der Fehlervarianz relativiert wird. Ist der durch die Regression erklrte Varianzanteil deutlich hher als der Fehlervarianzanteil, wird die Varianzanalyse signifikant.
Quadratsumme, Freiheitsgrade und Varianz der Regression
ANOVAb Modell 1 Quadrats umme 193,806 48,917 242,722 df 1 48 49

Prfgre F
Mittel der Quadrate 193,806 1,019 F 190,174 Signifikanz ,000a

Regression Residuen Gesamt

Quadratsumme, Freiheitsgrade und Varianz der Residuen (also Fehler)

a. Einfluvariablen : (Konstante), Interesse der Eltern b. Abhngige Variable: Mittelwert Schulnoten

p-Wert, da p<.001 ist, ist das Modell hoch signifikant, also geeignet, die abhngige Variable gut vorhersagen zu knnen

Koeffizienten
Konstante a in der Gleichung y^= a + b x (Schnittpunkt mit der Ordinate) Koeffizient b fr den Prdiktor x (Steigung der Regressionsgeraden)
Modell 1

t-Test zur berprfung der Signifikanz der Koeffizienten (getestet wird die H0, dass der Koeffizient in der Population Null ist, dass also der Prdiktor unbedeutend ist) a Koeffizienten
Nicht standardisierte Koeffizienten Standardf B ehler 1,389 ,429 ,848 ,062 Standardisie rte Koeffizienten Beta ,894

Konfidenzintervall fr B (je schmaler, desto genauer die Schtzung; ist Null im Intervall umschlossen, kann der t-Test auch nicht signifikant werden!

95%-Konfidenzintervall fr B T 3,239 13,790 Signifikanz ,002 ,000 Untergrenze ,527 ,725 Obergrenze 2,252 ,972

(Konstante) Interesse der Eltern

a. Abhngige Variable: Mittelwert Schulnoten

unstandardisierte Werte fr a und b, die Regressionsgleichung lautet: y^=1.39+ .848 x, fr einen x-Wert von 8 wrde man eine mittlere Schulnote von 8.17 vorhersagen

standardisierter Wert fr b (die Konstante a ist in dem Fall Null), Vorhersage von z-standardisierten yWerten, besonders geeignet, um bei mehreren Prdiktoren deren Gewichtung zu vergleichen! In der einfachen Regression ist = rxy

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 10 -

Prfung der Residuen auf Normalverteilung Um diese Voraussetzung zu berprfen, ist es mglich, sich ein Histogramm mit Normalverteilungskurve oder ein PP-Diagramm fr die standardisierten Residuen erstellen zu lassen: Analysieren Regression Linear Plots

In der Dialogbox gibt es unten links die Mglichkeit, findet man diese zwei Optionen.

Output
Histogramm Abhngige Variable: Mittelwert Schulnoten
6

Hufigkeit

5 4 3 2 1 0 -2 -1 0 1 2 Mean = -2,05E15 Std. Dev. = 0,99 N = 50

Die Residuen sind nicht perfekt normalverteilt, weichen aber auch nicht bermig von der Kurve ab!

Regression Standardisiertes Residuum

Kolmogorov-Smirnov-Anpassungstest Standardized Residual N Parameter der a,b Normalverteilung Mittelwert Standardabweichung Absolut Positiv Negativ Kolmogorov-Smirnov-Z Asymptotische Signifikanz (2-seitig) a. Die zu testende Verteilung ist eine Normalverteilung. b. Aus den Daten berechnet. 50 ,0000000 ,98974332 ,085 ,085 -,084 ,604 ,859

Extremste Differenzen

Wem diese optische Prfung nicht reicht, kann auch ber das Men Regression Save die standardisierten Residuen als Variable speichern (vgl. auch Semipartialkorrelation) und diese Variable per Kolmogoroff-Smirnov-Test auf Normalverteilung prfen (entweder ber Analyze Deskriptives Explore Plots, vgl. erstes Handout, oder ber Analyze Nonparametric 1-Sample K-S). Wird der Test nicht signifikant, weicht die Verteilung nicht signifikant von der Normalverteilung ab!

Die Verteilung weicht nicht signifikant von einer Normalverteilung ab!

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 11 -

Multiple Regression
Die multiple Regression dient der Vorhersage einer abhngigen Variablen y aufgrund mehrerer unabhngiger Variablen xi. Die Regressionsgleichung lautet in dem Fall: y^=a + b1 x1 + b2 x2 + + bi xi Bestimmt werden die Regressionskoeffizienten a und bi.

Durchfhrung
Analysieren Regression Linear (vgl. einfache Regression!) Es wird wieder eine abhngige Variable ausgewhlt, diesmal gehen jedoch auch mehrere unabhngige Variablen ein. Als Methode sollte die Einstellung Stepwise gewhlt werden (dabei gehen die Variablen schrittweise
nach der eingegebenen Reihenfolge (entsprechend der Theorie) in die Regression ein, solange, bis jede weitere Variable nicht mehr bedeutend mehr Varianz erklren kann als die vorherigen; zur Erluterung der anderen Methoden vgl. z.B. Backhaus oder Bhl & Zfel). Die Methode Einschluss ist als Nachtrag am Ende dieses Handouts erklrt.
Wichtig ist dabei auch die Reihenfolge, in der man diese auswhlt, da sie in der Reihenfolge in die Modellprfung eingehen! Diese Abfolge wird theoriegeleitet oder sachlogisch festgelegt. Die am bedeutendsten scheinende Variable als erstes, die zweitwichtigste danach usw

Beispiel-Theorie: Das Interesse der Eltern hat einen starken Einfluss auf die Schulnoten, da die Kinder somit extrinsisch motiviert sind, gute Leistungen zu erbringen. Der Intelligenzquotient sagt etwas ber die kognitiven Fhigkeiten und sollte somit zustzlich zum Aspekt der Motivation (Eltern) Varianz in den Schulnoten aufklren knnen. Die Anzahl der Bcher knnte etwas ber die Allgemeinbildung des Kindes aussagen und somit einen weiteren Einfluss auf die Note haben.

Kennwerte
Im Untermen Statistics sollten folgende Kennwerte ausgewhlt werden:
Rchange gibt das Ausma der Verbesserung der Varianzaufklrung durch jede zustzliche unabhngige Variable an; dieser Unterschied wird auch auf Signifikanz geprft

Besteht die Vermutung, dass die unabhngigen Variablen hoch korrelieren, sollte man sich auch die Kollinearitt der Prdiktoren ansehen: Ist diese hoch, klren diese Prdiktoren einen groen gemeinsamen Teil der Varianz der abhngigen Variablen auf, so dass der zweite Prdiktor auch nicht mehr Information liefert als der erste!
2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 12 -

Output
Modellzusammenfassung Die Modellzusammenfassung zeigt wieder die Varianzaufklrung durch die Modelle (vgl. einfache Regression). Den Funoten kann man entnehmen, welche Variablen in welches Modell eingegangen sind. Offensichtlich ist die Variable Anzahl der Bcher nicht eingegangen.
c Modellzusammenfassung

nderungsstatistiken

Modell 1 umfasst nur die 1. Variable in jedes weitere Modell geht sukzessiv eine weitere Variable ein, bis jede weitere nicht mehr viel zur Varianzaufklrung beitragen kann

Modell 1 2

R ,897a ,941b

R-Quadrat ,805 ,885

Korrigiertes R-Quadrat ,800 ,879

Standardfehler des Schtzers 1,02403 ,79556

nderung in R-Quadrat nderung in F ,805 177,169 ,080 29,244

df1 1 1

df2 43 42

nderung in Signifikanz von F ,000 ,000

a. Einfluvariablen : (Konstante), Interesse der Eltern b. Einfluvariablen : (Konstante), Interesse der Eltern, Intelligenzquotient c. Abhngige Variable: Mittelwert Schulnoten

p-Wert

Die nderungstatistiken untersuchen, inwiefern R von Modell zu Modell zunimmt und ob diese nderung signifikant ist (p<.05?)

Modellprfung Die sich anschlieende Varianzanalyse untersucht wieder das Modell auf Signifikanz (vgl. einfache Regression). Koeffizienten Die berechneten Koeffizienten berechnen sich ebenfalls wie in der einfachen Regression, mit dem Unterschied, dass pro Modell fr jeden Prdiktor ein Koeffizient berechnet wird.
a Koeffizienten

Nicht standardisierte Koeffizienten Modell 1 (Konstante) Interesse der Eltern Intelligenzquotient 2 (Konstante) Interesse der Eltern Intelligenzquotient -3,981 ,545 ,064 1,064 ,073 ,012 B 1,468 ,840 Standardfehler ,442 ,063

Standardisierte Koeffizienten Beta ,897 T 3,324 13,311 -3,740 ,582 ,423 7,438 5,408 ,002 ,000 ,001 ,000 ,000

95%-Konfidenzintervall fr B Signifikanz Untergrenze Obergrenze ,577 ,713 -6,129 ,397 ,040 2,359 ,967 -1,833 ,693 ,087

a. Abhngige Variable: Mittelwert Schulnoten

Bsp. Modell 2: Die Regressionsgleichung wrde in dem Fall y^=-3.981+0.545 x1+0.064 x2 lauten. Damit knnte man durch Einsetzen der Ausprgungen der Prdiktoren (x1, x2) die Schtzungen y^ fr jede Person bestimmen!

Bsp. Modell 2: Die standardisierte Regressionsgleichung wrde y^=0.582 x1+0.423 x2 lauten. Damit wrde man z-standardisierte Schtzungen zy^ vorhersagen

Achtung, die -Gewichte entsprechen in der multiplen Regression nicht mehr den Korrelationen! Trotzdem eignen sie sich gut fr den Vergleich der Gewichtung der Prdiktoren: Je hher der Betrag eines -Gewichtes, umso bedeutender ist der Prdiktor. Dieser Vergleich ist bei den unstandardisierten B-Koeffizienten nicht mglich, da sie mastabsabhngig sind Bsp: Der B-Koeffizient fr das Interesse der Eltern ist ca. neunmal so gro wie der fr den IQ. Vergleicht man aber die -Gewichte, wird deutlich dass er nur um ca. 20% strker gewichtet wird!)

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 13 -

Ausgeschlossene Variablen Warum bestimmte Variablen ausgeschlossen werden, ist an der folgenden Tabelle erkennbar:
c Ausgeschlossene Variablen

Das -Gewicht wre vergleichsweise gering und ist auch nicht signifikant von Null verschieden (siehe Signifikanz).

Modell 1 Intelligenzquotient Anzahl Bcher in der Familie 2 Intelligenzquotient Anzahl Bcher in der Familie

Beta In ,423a ,410


a

T 5,408 2,140

Signifikanz ,000 ,038

Partielle Korrelation ,641 ,314

Kollinearit tsstatistik Toleranz ,447 ,114

,230

1,467

,150

,223

,108

a. Einfluvariablen im Modell: (Konstante), Interesse der Eltern b. Einfluvariablen im Modell: (Konstante), Interesse der Eltern, Intelligenzquotient c. Abhngige Variable: Mittelwert Schulnoten

Dies ist die Partialkorrelation des Prdiktors mit der vorhergesagten Variablen, wobei der Einfluss aller Prdiktoren, die schon im Modell sind, herauspartialisiert wurde. Man sieht, dass diese Korrelation nur noch recht gering ist (die bivariate Korrelation zwischen diesem Prdiktor und der abhngigen Variable lag bei .89!)

Die Toleranz gibt den Anteil der Varianz eines Prdiktors an, der nicht durch die anderen Prdiktoren erklrt werden kann. Ist die Toleranz gering, ergeben sich mathematische Probleme, die sich in unplausiblen Beta-Gewichten und ungenauen Schtzungen ausdrcken. Je geringer die Toleranz, umso hher die Kollinearitt dieses Prdiktors mit den anderen Prdiktoren. Im Beispiel liegt die Toleranz bei .108 (Wertebereich 0 bis 1)! D.h., nur rund 11% seiner Varianz knnen durch die anderen Prdiktoren nicht erklrt werden. Er kann somit kaum zustzliche Information ber die Vorhersage von y beitragen!

Das bedeutet, dass die Anzahl der Bcher stark mit den anderen Prdiktoren konfundiert ist, mglicherweise sogar durch sie kausal beeinflusst wird. In dem Fall hat sie wenig Zustzliches zur Vorhersage von y beizutragen, wenn die anderen Prdiktoren schon im Modell sind!

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 14 -

berprfung von Voraussetzungen


o Die Regression ist anfllig fr Ausreier. Diese sollten mit einem Boxplot berprft werden (vgl. erstes Handout!) o Prfung auf Normalverteilung der Variablen (siehe erstes Handout!) o optische Prfung des linearen Zusammenhanges (siehe S. 6!) o Voraussetzungen fr die Berechnung einer Regression: Residuen: normalverteilte Fehler (zur berprfung siehe S. 9!) wenn erfllt, dann ist der Erwartungswert der Residuen E(e) = 0. Der Mittelwert sieht man auch in der Residuenstatistik, diese wird automatisch mit ausgegeben (vgl. auch Mittelwert im Histogramm im Beispiel S. 9). Homoskedasdizitt (konstante Varianz der Fehler): Plot ber die Residuen erstellen: Analyze Regression Linear Plots Fr X wird die Schtzung der abhngigen Variablen angegeben (*ZPRED), fr Y die standardisierten Residuen (*ZRESID) Continue OK
Abhngige Variable: Mittelwert Schulnoten
2

Regression Standardisiertes Residuum

Homoskedasdizitt: Die Residuen weisen ber die gesamt Horizontale hinweg keine Zu- oder Abnahme in der Streuung auf (dies wre z.B. der Fall, wenn sie im linken Bereich sehr eng um die Null-Linie schwanken, im rechten Bereich dann aber sehr weit auseinander liegen) allgemein sollte in diesem Plot keinerlei Systematik erkennbar sein, da dies bedeuten wrde, dass die Fehler in irgendeiner Form nicht zufallsbedingt sind (dass sie entweder voneinander abhngig sind oder mit den geschtzten Werten kovariieren), ebenso sollten keine Ausreier auftreten (Werte ber/unter 2/-2)

-1

-2

-2

-1

Regression Standardisierter geschtzter Wert

Prdiktoren Unkorreliertheit zwischen Fehler und Prdiktor (rx,e = 0) Residuen als Variable speichern (siehe S. 4), bivariate Korrelationen rx,e errechnen keine perfekte Kollinearitt: Analysieren Regression Statistik Kollinearittsdiagnostik auswhlen, in der Tabelle zu den Regressionskoeffizienten erscheint eine Spalte zur Toleranz. Diese gibt an, wie gro der Varianzanteil des jeweiligen Prdiktors ist, der nicht durch andere Variablen aufgeklrt wird. Es werden also alle anderen Prdiktoren aus dem betreffenden Prdiktor auspartialisiert. Ist die Toleranz Null, so ist er lediglich eine Linearkombination der anderen Prdiktoren. Folgende Probleme treten dabei auf: Bei Toleranz = 0: Berechnung des Regressionskoeffizienten mathematisch nicht mehr mglich

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv

Korrelationen & Regression - 15 -

bei geringer Toleranz: o Verzerrung der Teststatistiken, unplausible Ergebnisse o der Prdiktor trgt kaum zustzliche Information bei o der Standardschtzfehler fr den Regressionskoeffizient erhht sich, somit wird die Schtzung ungenauer o erschwerte Interpretation der Regressionskoeffizienten Je hher die Toleranz eines Prdiktors ist, umso besser. Die Toleranz hat einen Wertebereich von 0 bis 1. Es existieren jedoch keine verbindlichen Richtlinien, ab wann die Toleranz zu gering ist. Dies muss individuell entschieden werden (eine mgliche Schranke wre z.B. 0.1) und optimalerweise vorher festgelegt werden. Die Prfung der Kollinearitt ist eine Mglichkeit, Ursachen fr unplausible Ergebnisse zu zu entdecken, warum manche Regressionskoeffizienten nicht signifikant werden!

Hinweise zum Schreiben eines statistischen Reports


In Eurem Report sollten folgende Aspekte auf jeden Fall erscheinen: konkrete Formulierung der Fragestellung Modellannahmen (theoretische berlegungen) Bedeutung der Prdiktoren (Wichtigkeit der einzelnen Prdiktoren, Reihenfolge, in der sie in das Modell eingehen, theoretisch oder sachlogisch begrnden) Deskriptive Statistik siehe erstes Handout! Beschreibung der verwendeten Methoden Ergebnisdarstellung der durchgefhrten Verfahren
-

berprfung der Voraussetzungen Korrelationsmatrizen (dabei wird nur der Teil unter der Diagonalen bernommen, alles andere ist redundant!) Regression o Kenngren fr die Modellgte: R, R, Radjusted nur bei groen Abweichungen von R (besonders bei mehreren Prdiktoren), Standardfehler des Schtzers fr jedes Modell, (Rhange bei Stepwise Regression) Signifikanz (F, df, p) o Kennwerte fr die Koeffizienten: -Koeffizienten (unstandardisierte Koeffizienten und Konstante fr den Report nicht erforderlich), Konfidenzintervalle, Signifikanz (t, df = n-k-11, p) o ausgeschlossene Variablen: , falls es eine Theorie zu ihnen gab: warum wurden sie ausgeschlossen? (Kollinearitt, zu geringe Varianzaufklrung?) o Tipp: bei nur einem oder zwei Modellen werden die Kenngren im Text genannt, bei mehr Modellen in Tabellenform!

ausfhrliche Interpretation

n = Anzahl der Vpn, k = Anzahl der Prdiktoren

2004 Manja Flter, Steffi Pohl, Nicole Scheibner

SPSSinteraktiv Ergnzung: Methode Einschluss (Enter)

Korrelationen & Regression - 16 -

Achtung: Im Handout ist die schrittweise Regression beschrieben! Fr Euren Report ist es jedoch besser, wenn Ihr die Methode Einschluss bzw. Enter whlt! Unterschiede: Schrittweise Regression: Die Prdiktoren gehen schrittweise in die Regression ein. Im ersten Schritt wird die Regression nur mit dem ersten Prdiktor berechnet, im zweiten Schritt mit dem ersten und dem zweiten, im dritten mit dem ersten bis dritten Prdiktor usw. Bei jedem Schritt wird berechnet, wie viel mehr Varianz durch den zustzlichen Prdiktor erklrt wird. Trgt dieser nicht ausreichend zustzliche Information bei, wird er nicht ins Modell aufgenommen. Die Reihenfolge, in der man die Prdiktoren auswhlt, spielt eine Rolle, da sie in der Abfolge in das Modell eingehen. Es kann passieren, dass man zwei Prdiktoren hat, die beide hoch mit dem Kriterium korrelieren, aber etwas sehr hnliches messen. Somit wrde der erste in das Modell aufgenommen werden, der zweite nicht, weil fast alles, was er beisteuern kann, schon durch den ersten erklrt wird. Htte man diese Prdiktoren in der Reihenfolge vertauscht, wrde der ursprnglich zweite Prdiktor mit eingehen, der ursprnglich erste nicht. Somit ist das jeweils resultierende Modell von der Reihenfolge der angegebenen Prdiktoren abhngig. Nachteil: SPSS entscheidet, welche Prdiktoren aufgenommen werden. Einschlussmethode: Alle Prdiktoren werden in einem Schritt aufgenommen, es wird sofort das gesamte Modell geprft. Es spielt dabei keine Rolle, in welcher Reihenfolge die Prdiktoren eingehen. Die Entscheidung, welche Prdiktoren aufgenommen werden, muss dann vom Nutzer selbst getroffen werden. Durchfhrung: Analysieren Regression Linear als Methode Einschluss (Enter) stehen lassen. Alles weitere analog zur Beschreibung der schrittweisen Regression!

2004 Manja Flter, Steffi Pohl, Nicole Scheibner