15 Explorative Datenanalyse

Kapitel 15 Explorative Datenanalyse
Zu Beginn der Datenanalyse sollte man sich zunchst einmal ein Bild von den vorliegenden Daten verschaffen und diese einer Plausibilittsprfung unterziehen. Dadurch lassen sich hufig bereits im Vorfeld mgliche Aufflligkeiten in der Datenstruktur sowie Datenfehler erkennen. Zu einer solchen explorativen Datenanalyse gehrt es im allgemeinen, die Lage und die Verteilung der Werte darzustellen und nach extrem groen oder kleinen Werten (Ausreier) zu suchen. Ausreier entstehen nicht selten durch Fehler bei der Dateneingabe, -erhebung oder -messung. Werden Ausreier in den Daten identifiziert, gilt es somit als nchstes zu berprfen, ob die auergewhnlich groen oder kleinen Werte auf solche Fehler zurckzufhren oder tatschlich aufgetreten sind. Auch wenn die Ausreier tatschlich aufgetreten sind, ist es in manchen Fllen sinnvoll, die betreffenden Flle fr bestimmte Untersuchungen aus der Analyse auszuschlieen, da sie mglicherweise die Ergebnisse verzerren und die Formulierung allgemeiner Aussagen bzw. die berprfung von Hypothesen erschweren. Dies gilt vor allem dann, wenn die Ausreier aufgrund auergewhnlicher Umstnde eingetreten sind. Weiterhin sollten die Daten in einer explorativen Analyse daraufhin getestet werden, ob sie die Voraussetzungen erfllen, die von den nachfolgend anzuwendenden statistischen Verfahren an die Daten gestellt werden. Zahlreiche Analysemethoden gehen zum Beispiel davon aus, da die Werte einzelner Variablen (in der Grundgesamtheit) normalverteilt sind. Andere Verfahren erfordern das Vorliegen gleicher Varianzen innerhalb einer Variablen in unterschiedlichen Teilstichproben. Ob Voraussetzungen dieser Art erfllt sind, knnen Sie ebenfalls in einer explorativen Datenanalyse testen. Es gibt keine klaren Vorgaben dafr, welche Tests und Untersuchungen in einer explorativen Datenanalyse enthalten sein sollten, vielmehr hngt dies wesentlich von den jeweils vorliegenden Daten sowie von den damit anzustellenden Betrachtungen und statistischen Untersuchungen ab. Zur Durchfhrung einer explorativen Analyse knnen bei SPSS verschiedene Prozeduren verwendet werden. Im vorhergehenden Kapitel wurden statistische Mazahlen fr einzelne Variablen berechnet, in Kapitel 14, Hufigkeitstabellen, wurden Hufigkeitstabellen und Grafiken erstellt, mit denen die Verteilung der Werte betrachtet und auch die Normalverteilungsannahme berprft werden konnte. Dies alles sind Betrachtungen, die
Felix Brosius, SPSS 8
International Thomson Publishing
368
blicherweise im Rahmen einer explorativen Datenanalyse angestellt werden. SPSS enthlt jedoch auch eine Prozedur, in der verschiedene Standarduntersuchungen einer explorativen Analyse zusammengefat sind. Diese Prozedur rufen Sie auf mit dem Befehl
STATISTIK ZUSAMMENFASSEN EXPLORATIVE DATENANALYSE...
Diese Prozedur umfat die folgenden Verfahren:

Sie knnen Stem-and-Leaf-Diagramme sowie Histogramme erstellen, in denen
die Verteilung der Werte in grafischer Form dargestellt wird. Dabei knnen Sie die Flle aus der Datendatei zuvor mit Hilfe einer gruppierenden Variablen in zwei oder mehr Fallgruppen unterteilen und anschlieend die Werte der einzelnen Fallgruppen getrennt untersuchen.
Zur Beschreibung der Lage der Werte knnen Sie zum einen Mazahlen be-
rechnen und zum anderen Boxplots erstellen. Boxplots stellen nicht nur die Lage, sondern auch die Streuung der Werte dar und sind vor allem sehr gut geeignet, um Ausreier in den Daten zu entdecken.
Sie knnen testen, ob die Werte einer Variablen annhernd normalverteilt sind.
Hierzu stehen sowohl grafische Verfahren als auch statistische Tests zur Verfgung.
Mit Hilfe eines Levene-Tests sowie anhand grafischer Darstellungen knnen
Sie berprfen, ob die Werte einer Variablen in unterschiedlichen Fallgruppen die gleiche Varianz aufweisen. Die Fallgruppen werden dabei durch eine gruppierende Variable gebildet.
15.1
Grafische Aufbereitung der Werte

Sie knnen die Werte einer Variablen in unterschiedlichen Graden der Aggregation untersuchen. Die geringste Verdichtung liegt vor, wenn Sie direkt die Ursprungsdaten aus der Datendatei betrachten, den hchsten Verdichtungsgrad erreichen Sie, wenn Sie alle Werte der Variablen in einer Mazahl abbilden. Eine Hufigkeitstabelle, wie sie in Kapitel 13 betrachtet wurde, ist vom Grad der Aggregation zwischen diesen beiden Extremen einzuordnen. In einer solchen Tabelle wird angegeben, welche unterschiedlichen Werte in der Variablen enthalten sind und mit welcher Hufigkeit diese in der Stichprobe vorkommen. Zudem werden relative und kumulierte Hufigkeiten ausgewiesen. Hufigkeitstabellen liefern damit eine recht przise Beschreibung der in der Variablen enthaltenen Werte, die allerdings bei Variablen mit vielen unterschiedlichen Werten - insbesondere bei intervallskalierten Variablen - sehr unbersichtlich ist. Sehr viel anschaulicher kann die Werteverteilung intervallskalierter Variablen in einem Histogramm dargestellt werden. Dieses betrachtet nicht einzelne Werte, sondern Wertebereiche, deren Hufigkeiten in grafischer Form wiedergegeben werden. Der Preis fr den Gewinn an Anschaulichkeit ist der Verlust an Information, denn aus dem Histo-
15.1 Grafische Aufbereitung der Werte
369
gramm lt sich nicht mehr die Hufigkeit einzelner Werte ablesen, da die Verteilung der Werte innerhalb der dargestellten Wertebereiche nicht erkennbar ist. Eine Mischung aus einer Hufigkeitstabelle und einem Histogramm stellt das Stem-and-Leaf-Diagramm dar. In einer solchen Grafik werden ebenfalls die Hufigkeiten von Wertebereichen durch Balken abgebildet, diese setzen sich jedoch aus Textzeichen zusammen, die die in dem jeweiligen Wertebereich enthaltenen Einzelwerte nennen. Histogramme und Stem-and-Leaf-Diagramme knnen Sie mit der explorativen Datenanalyse bei SPSS erstellen.
15.1.1
Stem-and-Leaf-Diagramme
In der Variablen v37 aus der Datendatei allbus.sav, die sich auf der Begleit-CD befindet, ist das Alter der Befragten (in Jahren) angegeben. Da ausschlielich volljhrige Personen befragt wurden, kann die Variable Werte zwischen 18 und einem Hchstwert in der Nhe von 100 enthalten. Bei Variablen mit derart vielen unterschiedlichen Werten lt sich die Werteverteilung nicht mehr kompakt in einer Hufigkeitstabelle darstellen, da diese sehr lang und unbersichtlich werden wrde. Dagegen bietet sich die Darstellung in einem Stem-and-Leaf-Diagramm an. Aus einem solchen Diagramm lassen sich nach wie vor die einzelnen in der Variablen enthaltenen Werte ablesen, gleichzeitig liefert es jedoch auch einen grafischen Eindruck von der Verteilung der Werte. Abbildung 15.1 zeigt das Stemand-Leaf-Diagramm fr die Variable v37. Um dieses Diagramm zu erstellen, nehmen Sie in den Dialogfeldern der Prozedur EXPLORATIVE DATENANALYSE folgende Einstellungen vor:
Fgen Sie die Variable v37 in das Feld Abhngige Variablen ein. Whlen Sie in der Gruppe Anzeigen die Option Diagramme (oder die Option
Beide, wenn Sie auch Statistiken erstellen mchten).

Stellen Sie sicher, da in dem Dialogfeld der Schaltflche Diagramme die Op-
tion Stengel-Blatt angekreuzt ist. Die Altersangaben werden in der Grafik in 16 Gruppen (Wertebereiche) unterteilt. Jede Zeile des Diagramms beschreibt einen dieser Wertebereiche. Dem durch die oberste Zeile reprsentierten Wertebereich gehren insgesamt 29 Werte aus der Altersvariablen an. Dieser Wert wird in der ersten Spalte Frequency angegeben. In der zweiten und dritten Spalten, Stem (Stamm) und Leaf (Blatt), lt sich ablesen, um welche Werte es sich dabei handelt. Der Stamm gibt den ganzzahligen Teil der Zahl wieder, das Blatt den Dezimalteil. Der durch die oberste Zeile reprsentierte Wertebereich enthlt somit ausschlielich die Werte 1,8 und 1,9. Da wir bereits wissen, da die in dem Stem-and-Leaf-Diagramm dargestellte Variable das Alter der Befragten angibt, knnen die Werte 1,8 und 1,9 nicht mit den originalen Altersangaben identisch sein. Tatschlich ergeben sich die Ursprungswerte aus der Variablen v37, indem die Werte aus dem Stem-and-Leaf-Diagramm mit dem Faktor 10 multipliziert werden. Dieser Faktor gilt jedoch nur fr das in diesem Beispiel betrachtete Diagramm und kann bei anderen Diagrammen grer oder kleiner sein. Um welchen Faktor die Ursprungswerte von den im Diagramm angegebenen
370
Werten jeweils abweichen, wird unterhalb des Diagramms als Stammtiefe (Stem width) angegeben. In der ersten Zeile weist die Spalte Leaf jeweils fnfmal die Ziffern 8 und 9 auf. Jeder dieser insgesamt zehn Ziffern reprsentiert drei Werte aus der Ursprungsvariablen v37. Auch dies gilt wiederum nur fr das hier betrachtete Beispiel und kann bei anderen Stem-and-Leaf-Diagrammen abweichen. Die Anzahl der Ursprungswerte, die durch eine einzelne Ziffer in der Spalte Leaf reprsentiert werden, wird unterhalb des Diagramms durch den Hinweis Each leaf: 3 case(s) (Jedes Blatt: 3 Flle) angegeben.165 Insgesamt ist damit an der obersten Zeile abzulesen, da in der Variablen v37 (ungefhr) 15mal der Wert 18 und 15mal der Wert 19 enthalten ist. Zusammen sind die Werte 18 und 19 in der Variablen genau 29mal vertreten.
ALTER: BEFRAGTE<R> Stem-and-Leaf Plot
Frequency
Stem &
Leaf
29,00 80,00 97,00 106,00 120,00 90,00 89,00 99,00 112,00 69,00 61,00 41,00 30,00 22,00 6,00 2,00
1 . 2 . 2 . 3 . 3 . 4 . 4 . 5 . 5 . 6 . 6 . 7 . 7 . 8 . 8 . 9 .
8888899999 0000001111222222233334444444 5555556666777777788888888999999 0000000111111112222223333333344444444 5555555555566666666777777888888888999999 0000001111112222222223333334444 555555666666667777777788889999 00000111111122222333333344444444 5555555556666666667777777788888889999 000000011111222223334444 555555666667777888999 00111122233444 555666779& 01122234 57& &
Stem width: Each leaf:
10 3 case(s)
& denotes fractional leaves.
Abbildung 15.1: Stem-and-Leaf-Diagramm fr die Variable v37 (Alter der/des Befragten)
165 Da jede der 10 Ziffern 3 Flle reprsentiert, mte die oberste Zeile 30 Flle und nicht, wie in der Spalte Frequency angegeben, 29 Flle umfassen. Die Abweichung ergibt sich durch Ungenauigkeiten (Runden) bei der Darstellung, der richtige Wert ist der aus der Spalte Frequency, in diesem Fall also 29.
15.1 Grafische Aufbereitung der Werte
371
Die zweite Zeile reprsentiert einen Wertebereich, dem 80 Flle aus der Datendatei zuzuordnen sind. Dieser Bereich umfat Werte zwischen 20 und 24. Die Tatsache, da der durch die zweite Zeile reprsentierte Bereich mehr als doppelt so viele Werte umfat wie die erste Zeile, ist optisch an der unterschiedlichen Lnge der Zahlenbalken in der Spalte Leaf zu erkennen. Auf diese Weise liefert das Diagramm einen schnellen Eindruck von der ungefhren Werteverteilung. Die Alterswerte im Bereich zwischen 20 und 59 sind alle ungefhr mit der gleichen Hufigkeit vertreten. Bei hheren Altersangaben nimmt die Hufigkeit dagegen deutlich ab. Der oberste Wertebereich (18 und 19 Jahre) kann nicht unmittelbar anhand des Balkens mit den anderen Zeilen verglichen werden, da die Werte nach unten knstlich beschrnkt sind (es gibt keine Werte unterhalb von 18), so da der Wertebereich der obersten Zeile enger ist als die durch die brigen Zeilen abgebildeten Bereiche. Die unterste Zeile reprsentiert nach der Systematik des Diagramms Werte zwischen 90 und 95. In diesem Wertebereich sind nach der Angabe in der Spalte Frequency zwei Werte enthalten. Die Spalte Leaf weist in dieser Zeile jedoch keine der Ziffern zwischen 0 und 5 auf, sondern sie enthlt das Zeichen &. Damit hat es folgende Bewandtnis: Durch diese Zeile werden tatschlich die beiden Altersangaben 90 und 92 reprsentiert.166 Dementsprechend mte die Zeile in der Spalte Leaf die Ziffern 0 und 2 aufweisen. Da jede Ziffer jedoch drei Flle reprsentiert, wrde dadurch optisch der Eindruck entstehen, der Wertebereich sei in etwa so hufig vertreten wie der vorausgehende Bereich (85 bis 89), der sechs Flle umfat. Um eine solche optische Verzerrung zu vermeiden, werden nicht die Ziffern 0 und 2, sondern lediglich ein einzelnes Platzhalterzeichen (das Zeichen &) aufgefhrt.
15.1.2
Histogramm
Die Verteilung der Werte aus der Variablen v37 (Alter der/des Befragten) lt sich auch in einem Histogramm darstellen. Hierzu mssen Sie in den Dialogfeldern der Prozedur EXPLORATIVE DATENANALYSE gegenber den Einstellungen zum Erzeugen des Stem-and-Leaf-Diagramms167 lediglich eine nderung vornehmen: Stellen Sie sicher, da in dem Dialogfeld der Schaltflche Diagramme die Option Histogramm angekreuzt ist. Abbildung 15.2 gibt das Histogramm fr die Altersvariable wieder. Jede Sule des Histogramms reprsentiert einen Wertebereich, wobei die Wertebereiche alle die gleiche Breite haben. Die Achsenbeschriftung gibt die Mittelpunkte der einzelnen Wertebereiche an. Die dritte Sule reprsentiert somit einen Wertebereich mit einem Mittelpunkt von 30. Der Bereich erstreckt sich von 27,5 bis unter 32,5. Der Wert 32,5 wrde bereits dem durch die vierte Sule reprsentierten Wertebereich zugerechnet. Das Histogramm liefert den gleichen Eindruck von der Werteverteilung wie bereits das Stem-and-Leaf-Diagramm: Gruppen mit Alters-
166 167
Dies ist in dem Stem-and-Leaf-Diagramm nicht zu erkennen. Zu diesen Einstellungen siehe S. 369.
372
angaben bis unter 60 Jahre kommen in etwa mit der gleichen Hufigkeit vor, bei hheren Alterswerten nimmt die Hufigkeit dagegen deutlich ab.168
Histogramm
140 120 100 80 60 40
Hufigkeit
20 0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 25,0 35,0 45,0 55,0 65,0 75,0 85,0
Std.abw. = 16,69 Mittel = 45,8 N = 1053,00
ALTER: BEFRAGTE<R>
Abbildung 15.2: Histogramm fr die Variable v37 (Alter der/des Befragten)
Neben der Grafik werden die Standardabweichung, der Mittelwert und die Anzahl der durch die Grafik abgebildeten Flle angeben. Letztere betrgt 1.053 und ist damit lediglich um einen Fall niedriger als die Anzahl der in der Datendatei enthaltenen Flle. Die Altersangabe liegt somit lediglich fr eine oder einen der Befragten nicht vor. Das Durchschnittsalter der 1.053 Befragten mit bekanntem Alter betrgt 45,8 Jahre. Die Standardabweichung wird mit 16,69 angegeben.
15.2
Lage der Werte kennzeichnen

Die Prozedur EXPLORATIVE DATENANALYSE beinhaltet verschiedene Mazahlen und Grafiken, mit denen die Lage der Werte einer Variablen untersucht werden kann. Diese sind insbesondere auch dafr geeignet, die Werte unterschiedlicher Fallgruppen bezglich ihrer Lage miteinander zu vergleichen.
Perzentile: Perzentile geben jeweils einen Grenzwert an, unterhalb dem ein
bestimmter Anteil aller Werte liegt. Das 25%-Perzentil fr eine Variable ist zum Beispiel der Wert, unterhalb dem genau ein Viertel aller Variablenwerte liegt, das 50%-Perzentil teilt die Variablenwerte genau in zwei Hlften.
M-Schtzer: Der M-Schtzer ist eine statistische Mazahl, die die Gesamtheit
der Variablenwerte zu einem mittleren Wert zusammenfat. Der M-Schtzer
168 Zur Interpretation von Histogrammen siehe auch Abschnitt 13.2.2, Histogramme, S. 341 sowie Kapitel 35, Histogramme.
15.2 Lage der Werte kennzeichnen
373
kann somit prinzipiell als Alternative oder Ergnzung zum Mittelwert betrachtet werden. In die Berechnung des M-Schtzers gehen die einzelnen Variablenwerte jedoch in Abhngigkeit von ihrer jeweiligen Entfernung vom Mittelwert mit unterschiedlichem Gewicht ein. Zur konkreten Berechnung eines M-Schtzers stehen mehrere Anstze zur Verfgung.
Ausreier: Sie knnen sich fr einzelne Variablen eine Liste der Ausreier
erstellen lassen. Ausreier sind extrem groe oder kleine Werte, die auergewhnlich stark von den brigen Werten abweichen.
Boxplots: In einem Boxplot knnen Sie die Lage der Werte unterschiedlicher
Fallgruppen grafisch miteinander vergleichen. Ein Boxplot stellt die Quartile (25%-, 50%- und 75%-Perzentil) sowie die Ausreier der Variablen dar.
15.2.1
Perzentile, M-Schtzer und Ausreier

Die Variable v261 aus der Datendatei allbus.sav gibt das Nettoeinkommen der Befragten an. Der dieser Variablen zugrundeliegende Fragetext lautete:
Wie hoch ist Ihr eigenes monatliches Nettoeinkommen? Ich meine dabei die Summe, die nach Abzug der Steuern und Sozialversicherungsbeitrge brigbleibt.
Die Verteilung der Einkommensangaben aus dieser Variablen wurde bereits oben unter Abschnitt 13.2.2, Histogramme, S. 341 betrachtet. Im folgenden soll die Lage und Verteilung der Werte mit Hilfe von Perzentilen, M-Schtzern und Ausreiern untersucht werden, wobei wir die Angaben der Befragten aus den neuen Bundeslndern mit denen aus den alten Bundeslndern vergleichen wollen. Daher wird neben der Variablen 261 auch die Variable v3 bentigt, die das Erhebungsgebiet (neue oder alte Bundeslnder) angibt. Um Perzentile, M-Schtzer und Ausreier fr die Angaben zum Nettoeinkommen getrennt fr die neuen und alten Bundeslnder zu berechnen, nehmen Sie in den Dialogfeldern der Prozedur EXPLORATIVE DATENANALYSE folgende Einstellungen vor:
Variablen: Verschieben Sie v261 in das Feld Abhngige Variablen und v3 in
das Feld Faktorenliste.

Anzeigen: Whlen Sie in der Gruppe Anzeigen die Option Statistik. Alternativ
knnen Sie auch die Option Beide whlen, wenn neben den Statistiken auch Grafiken wie Boxplots oder Histogramme ausgegeben werden sollen.
Statistiken: Kreuzen Sie in dem Dialogfeld der Schaltflche Statistik die Op-
tionen M-Schtzer, Ausreier und Perzentile an.
374
Perzentile Abbildung 15.3 zeigt die Tabelle mit den Einkommens-Perzentilen fr die neuen und die alten Bundeslnder. Die Tabelle hatte ursprnglich einen anderen Aufbau, der mit Hilfe der Pivot-Leisten verndert wurde.169
Perzentile Gewichtetes Mittel (Definition 1) V3 ALTE NEUE BUNDES BUNDES LAENDE LAENDE R R V261 V261 500,00 594,00 680,00 800,00 1237,50 1100,00 2200,00 1600,00 3000,00 2000,00 4050,00 2600,00 5425,00 2977,50
Perzentile 5 10 25 50 75 90 95
Tukey-Angelpunkte V3 ALTE NEUE BUNDES BUNDES LAENDE LAENDE R R V261 V261
1250,00 2200,00 3000,00
1100,00 1600,00 2000,00
Abbildung 15.3: Perzentile fr die Variable v261 (Nettoeinkommen der Befragten), getrennt nach Kategorien der Variablen v3 (Erhebungsgebiet: Alte/Neue Bundeslnder)
Fr jede der beiden Fallgruppen (alte und neue Bundeslnder) werden in der linken Tabellenhlfte die 5%-, 10%-, 25%-, 50%-, 75%-, 90%- und 95%-Perzentile ausgewiesen. Ein Perzentil gibt jeweils den Wert an, unterhalb dem ein bestimmter Anteil der Werte aus der Variablen in der jeweiligen Fallgruppe liegen. Das 25%-Perzentil fr die alten Bundeslnder betrgt 1.237,50. Dies besagt, da 25% der Befragten aus den alten Bundeslndern angegeben haben, ber ein Nettoeinkommen von nicht mehr als 1.237,50 DM zu verfgen.170 Entsprechend gibt das 75%-Perzentil an, da der Befragten ber ein Nettoeinkommen kleiner oder gleich 3.000 DM verfgen. Mit Ausnahme der beiden untersten Perzentile ist jeder Perzentil-Wert in den neuen Bundeslndern kleiner als der korrespondierende Wert fr das alte Bundesgebiet. Die Einkommensverteilung in den neuen Bundeslndern ist damit im Vergleich zu der aus den alten Bundeslndern nach links (in Richtung auf kleine Einkommenswerte) verschoben. 50% der Befragten aus den alten Bundeslndern haben ein Nettoeinkommen von nicht mehr als 2.200 DM. Dies impliziert zugleich,
169 Auf der Ablageflche Spalte wurden von oben nach unten die Symbole Methoden, v3 und Abhngige Variablen abgelegt, das Symbol fr Perzentile wurde auf die Ablageflche Zeile verschoben. Zum Verndern des Tabellenaufbaus von Pivot-Tabellen siehe im einzelnen Abschnitt 7.1.3, Tabelle pivotieren, S. 158. 170 Bei der Berechnung der Perzentile wurden ausschlielich solche Befragten bercksichtigt, die berhaupt ber ein eigenes Nettoeinkommen verfgen. Befragte mit einem Nettoeinkommen von 0 DM blieben damit ebenso unbercksichtigt wie Befragte, fr die - aus welchen Grnden auch immer - keine Angabe ber das Nettoeinkommen vorliegt.
375
da die Hlfte der Befragten aus dem alten Bundesgebiet ber ein Nettoeinkommen von mehr als 2.200 DM verfgt. Fr die neuen Bundeslnder gilt dagegen, da 75% der Befragten ein Nettoeinkommen von nicht mehr als 2.000 DM aufweisen. M-Schtzer Das arithmetische Mittel ist das mit Abstand gebruchlichste Lagema. Es wird berechnet, indem die Summe aller Werte durch deren Anzahl dividiert wird. Damit gehen alle Werte mit gleichem Gewicht in die Berechnung des Mittelwertes ein. Enthlt eine Variable einzelne Ausreier, die sehr viel grer oder kleiner als die meisten brigen Werte sind, knnen diese erheblichen Einflu auf den Mittelwert haben. Liegen beispielsweise Einkommensangaben fr 101 Personen vor, von denen 100 ber ein Einkommen von 1.000 DM verfgen, whrend eine Person ein Einkommen von 100.000 DM hat, ergibt sich ein durchschnittliches Einkommen von 2.000 DM, obwohl ber 99% der Personen gerade einmal die Hlfte davon verdienen. Wre die eine 100.000-DM-Person zufllig nicht in die Stichprobe aufgenommen worden, wre der Mittelwert nur halb so gro ausgefallen. Dies ist ein extremes Beispiel, wie es in der Praxis nur selten vorkommen wird, doch knnen auch weniger extreme Ausreier bereits zu unerwnschten Verzerrungen des Lagemaes fhren. Solche Verzerrungen haben ihre Ursache hufig darin, da nicht smtliche Werte der Grundgesamtheit zur Verfgung stehen, sondern lediglich eine Stichprobe betrachtet wird. Sind in dieser Stichprobe zufllig berproportional viele Ausreier enthalten, kann der Mittelwert als Lagema verzerrt sein. Um den Einflu extremer Werte bei der Kennzeichnung der Lage durch ein Lagema zu verringern, werden sogenannte M-Schtzer (Maximum-LikelihoodSchtzer) berechnet. Die Berechnung von M-Schtzern hat hnlichkeit mit der des arithmetischen Mittels, allerdings werden die einzelnen Werte bei der Berechnung des M-Schtzers unterschiedlich gewichtet. Je strker ein Wert von den brigen Werten nach oben oder unten abweicht, desto geringer ist das Gewicht, mit dem dieser Wert in den M-Schtzer eingeht (bei einigen Verfahren zur Berechnung von M-Schtzern gilt dies allerdings nicht). Zur Bestimmung des konkreten Gewichts in Abhngigkeit von der Entfernung eines Wertes von den brigen Werten sind zahlreiche Anstze denkbar. Dementsprechend gibt es nicht nur ein einzelnes, sondern mehrere alternative Verfahren zur Berechnung von MSchtzern. SPSS berechnet in der explorativen Datenanalyse automatisch vier unterschiedliche M-Schtzer. Zur Berechnung dieser M-Schtzer wird zunchst fr jeden Wert aus der betrachteten Stichprobe (z.B. fr jeden Wert aus einer Variablen, fr die der M-Schtzer berechnet werden soll) eine standardisierte Entfernung berechnet, die die Entfernung des jeweiligen Wertes von den brigen Werten aus der Stichprobe mit. Die standardisierte Entfernung fr den Wert Xi berechnet sich als: Standardisierte Entfernung = X i Lageschtzer Streuungsschtzer
376
Dabei ergibt sich der Streuungsschtzer als Median der absoluten Abweichungen der einzelnen Stichprobenwerte vom Median der Stichprobe. Bei der Berechnung des Zhlers ergibt sich ein Problem: Zur Berechnung des M-Schtzers (also des Lageschtzers) mu der Lageschtzer bereits bekannt sein. Aus diesem Grund kann der M-Schtzer nicht einfach durch Einsetzen von Werten berechnet, sondern mu in einem iterativen Verfahren bestimmt werden. Nachdem die standardisierten Entfernungen fr die einzelnen Stichprobenwerte bestimmt wurden, lassen sich damit die folgenden durch die explorative Datenanalyse von SPSS ausgewiesenen M-Schtzer berechnen:
Huber (1,339): Werte mit einer standardisierten Entfernung bis zu 1,339 ge-
hen mit dem Gewicht 1 in die Berechnung ein. Die brigen Werte erhalten mit zunehmender standardisierter Entfernung kleiner werdende Gewichte. Dabei werden jedoch alle Werte in die Berechnung einbezogen, kein Wert erhlt also ein Gewicht von 0.
Tukey (4,685): Nur Werte mit einer standardisierten Entfernung von 0 werden
mit 1 gewichtet. Mit zunehmender Entfernung eines Wertes nimmt dessen Gewicht ab. Werte mit einer standardisierten Entfernung von mehr als 4,685 erhalten ein Gewicht von 0, bleiben also bei der Berechnung des M-Schtzers unbercksichtigt.
Hampel (1,7; 3,4; 8,5): Die Werte werden in Abhngigkeit von ihren standar-
disierten Entfernungen in vier Gruppen unterteilt. Das Gewicht, mit dem ein Wert in die Berechnung des Schtzers eingeht, wird je nach Gruppenzugehrigkeit des Wertes unterschiedlich ermittelt:
y y y
Werte mit einer standardisierten Entfernung unter 1,7 werden mit 1 gewichtet. Die Gewichte fr Werte mit einer standardisierten Entfernung zwischen 1,7 und 3,4 errechnen sich nach der Formel 1,7 / standardisierte Entfernung. Liegt die standardisierte Entfernung eines Wertes zwischen 3,4 und 8,5, so ergibt sich sein Gewicht als: 1,7 (8,5 standardisierte Entfernung) standardisierte Entfernung (8,5 - 3,4)
y y
Werte mit einer standardisierten Entfernung ber 8,5 erhalten ein Gewicht von 0.
Andrews (1,34 ): hnlich wie bei Tukey erhalten nur die Werte mit einer standardisierten Entfernung von 0 ein Gewicht von 1. Mit zunehmender Entfernung nehmen die Gewichte ab. Werte mit einer Entfernung ber 1,34 ( 4,21) erhalten ein Gewicht von 0, gehen also in die Berechnung des MSchtzers nicht ein.
Abbildung 15.4 gibt die Tabelle mit den M-Schtzern fr das Nettoeinkommen der Befragten jeweils fr die Personen aus den neuen und den alten Bundeslndern
377
wieder. Zum Vergleich seien auch die Mittelwerte, also das durchschnittliche Nettoeinkommen fr die beiden Personengruppen, angegeben:171
Durchschnittliches Nettoeinkommen, Alte Bundeslnder: 2.420,30 DM Durchschnittliches Nettoeinkommen, Neue Bundeslnder: 1.637,18 DM
Die M-Schtzer liegen nach jeder Berechnungsmethode sowohl in den neuen als auch in den alten Bundeslndern unterhalb des entsprechenden Mittelwerts. Dies ist folgendermaen zu erklren: Bei der Berechnung von M-Schtzern werden sowohl sehr groe als auch sehr kleine Werte mit geringerem Gewicht bercksichtigt als bei der Mittelwertberechnung. Dieser Effekt gleicht sich aus, wenn eine Stichprobe ungefhr in gleichem Ausma und Umfang sehr groe und sehr kleine Werte enthlt, die Werteverteilung also in etwa symmetrisch ist. In einem solchen Fall wrden die M-Schtzer somit nicht wesentlich vom arithmetischen Mittel abweichen. Bei der Einkommensverteilung ist dies jedoch nicht der Fall. Die Einkommensangaben oberhalb des Mittelwertes streuen wesentlich strker als kleine Einkommenswerte.172 Dies erklrt sich zum Teil daraus, da die Streuung im Bereich der niedrigen Werte durch eine natrliche untere Grenze bei null beschrnkt wird, denn negative Einkommenswerte werden - so wie der Einkommensbegriff hier verwendet wird - nicht realisiert.173 Damit wirkt sich die geringere Gewichtung extremer Werte in diesem Fall vor allem bei den groen Werten aus, so da die M-Schtzer gegenber dem arithmetischen Mittel nach unten abweichen.
M-Schtzer M-Schtzer nach a Huber 2200,98 1574,60 M-Schtzer nach c Hampel 2169,68 1563,35
V261
V3 ALTE BUNDESLAENDER NEUE BUNDESLAENDER
Tukey-Biweight 2109,82 1533,72
Andrews-Welle 2108,45 1533,43
a. Die Gewichtungskonstante ist 1,339. b. Die Gewichtungskonstante ist 4,685. c. Die Gewichtungskonstanten sind 1,700, 3,400 und 8,500 d. Die Gewichtungskonstante ist 1,340*pi.
Abbildung 15.4: M-Schtzer fr die Variable v261 (Nettoeinkommen der Befragten), getrennt nach Kategorien der Variablen v3 (Erhebungsgebiet: Alte/Neue Bundeslnder)
Sowohl fr die neuen als auch fr die alten Bundeslnder gilt, da die M-Schtzer nach Tukey und Andrews sehr hnliche Werte liefern, von denen Hubers Schtzer deutlich nach oben abweicht, whrend der Schtzer nach Hampel einen Wert in der Mitte der vier Ergebnisse liefert. Die Tatsache, da Hubers Schtzer die grten Werte liefert, ist in diesem Fall unmittelbar einsichtig, denn dies ist der einzige
171 Diese Mittelwerte knnen Sie sich bei der Prozedur EXPLORATIVE DATENANALYSE mit der Option Deskriptive Statistik aus dem Dialogfeld Statistik ausgeben lassen. 172 Eine grafische Darstellung der Einkommensverteilung fr die alten Bundeslnder findet sich in Form eines Histogramms in Abbildung 13.5, S. 343. 173 Zudem sind alle Personen ohne eigenes Einkommen, also mit einem Nettoeinkommen von 0, aus dieser Betrachtung ausgeschlossen.
378
Schtzer, bei dem smtliche Werte mit einem Gewicht grer null bercksichtigt werden. Da bei der Einkommensverteilung vor allem sehr groe und nur in geringerem Ausma sehr kleine Werte aufgetreten sind, liefert dies ein hheres Ergebnis als die anderen Schtzer. Ausreier Mit der Option Ausreier aus der Dialogfeld Statistik knnen Sie sich fr die betrachteten Variablen, ggf. getrennt nach einzelnen Untergruppen, eine Liste von Ausreiern ausgeben lassen. Ausreier sind Werte, die im Verhltnis zu den meisten brigen Werten der jeweiligen Verteilung auffallend deutlich nach oben oder nach unten abweichen, die also sehr gro oder sehr klein sind. Wann genau ein Wert als Ausreier bezeichnet wird, hngt sowohl von der Lage als auch von der Verteilung der Werte in der betrachteten Stichprobe ab. Hierbei gibt es keine allgemein gltige Definition von Ausreiern in dem Sinne, da bei bekannter Lage und Verteilung die Grenze, von der an ein Wert als Ausreier bezeichnet wird, eindeutig bestimmt werden knnte. Eine solche allgemeine Definition wre auch nicht sehr sinnvoll, da es stets von der inhaltlichen Bedeutung der Werte sowie von der einer statistischen Analyse zugrundeliegenden Fragestellung und Zielsetzung abhngt, wann ein Wert sinnvollerweise als Ausreier betrachtet werden sollte. Auch innerhalb von SPSS kommen unterschiedliche Definitionen von Ausreiern zur Anwendung. So werden die Ausreier in einem Boxplot in Abhngigkeit von ihrer relativen Entfernung zu dem Bereich der 50% mittleren Werte (Bereich zwischen dem 25%-Perzentil und dem 75%-Perzentil) bestimmt. Werte, deren Entfernung von diesem Bereich mindestens 1,5mal so gro ist wie die Breite des Bereichs selbst, werden dort als Ausreier gekennzeichnet.174 Der Liste von Ausreiern, die durch die Prozedur EXPLORATIVE DATENANALYSE ausgegeben wird, liegt dagegen eine andere Definition zugrunde. Diese Liste gibt fr jede Stichprobe (also fr jede Variable, ggf. getrennt nach Fallgruppen) lediglich jeweils die fnf grten und fnf kleinsten Werte wieder. Abbildung 15.5 zeigt diese Liste fr die Variable v261 (Nettoeinkommen) jeweils getrennt fr die neuen und die alten Bundeslnder. Wir haben bereits mehrfach festgestellt, da die groen Werte in der Einkommensverteilung wesentlich strker streuen als die kleinen Werte. Dies zeigt sich auch wieder in der Liste der Ausreier, da die fnf grten Werte in beiden Erhebungsgebieten wesentlich weiter vom jeweiligen Mittelwert sowie von den MSchtzern (s.o.) entfernt liegen als die fnf kleinsten Werte. Weiterhin ist zu erkennen, da sich die fnf kleinsten Werte in den alten Bundeslndern nicht wesentlich von den entsprechenden Werten der neuen Bundeslnder unterscheiden. Dies stellt sich bei den fnf grten Werten dagegen anders dar: Hier liegen die Ausreier in den alten Bundeslndern deutlich ber den entsprechenden Werten der neuen Bundeslnder. Fr den fnften Ausreier nach oben in den alten Bun-
174
Siehe hierzu auch den folgenden Abschnitt 15.2.2, Boxplots.
379
deslndern wird kein Wert angegeben. Statt dessen weist die Funote darauf hin, da nur ein Teil der Werte 8.000 in die Liste aufgenommen wurden. Dieser Hinweis besagt, da der Wert 8.000 mehrfach in der Stichprobe enthalten ist. Dabei bildet er nicht nur den viertgrten Wert, sondern ebenso den fnftgrten, den sechstgrten und ggf. noch weitere Positionen in der Rangfolge, von denen in der vorliegenden Liste nur einige bercksichtigt wurden. Die Tatsache, da der Wert 8.000 mehrfach vorkommt, deutet im brigen darauf hin, da er mglicherweise nicht so extrem ist, wie aufgrund der Tatsache, da er in die Liste der Ausreier aufgenommen wurde, vermutet werden knnte.
Extremwerte V3 ALTE BUNDESLAENDER Fallnummer 674 305 826 185 295 1000 771 851 654 629 755 664 995 1051 790 656 653 665 45 949 Wert 10000 10000 9000 8000 ,a 150 158 300 300 ,b 5000 4400 3500 3500 ,c 150 400 400 478 483
V261
Grte Werte
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Kleinste Werte
NEUE BUNDESLAENDER
Grte Werte
Kleinste Werte
a. Nur eine partielle Liste von Fllen mit dem Wert 8000 wird in der Tabelle der oberen Extremwerte angezeigt. b. Nur eine partielle Liste von Fllen mit dem Wert 300 wird in der Tabelle der unteren Extremwerte angezeigt. c. Nur eine partielle Liste von Fllen mit dem Wert 3000 wird in der Tabelle der oberen Extremwerte angezeigt.
Abbildung 15.5: Ausreier fr die Variable v261 (Nettoeinkommen der Befragten), getrennt nach Kategorien der Variablen v3 (Erhebungsgebiet: Alte/Neue Bundeslnder)
15.2.2
Boxplots
In einem Boxplot knnen Sie die Lage und Verteilung der Werte einer Variablen, ggf. getrennt nach einzelnen Fallgruppen, grafisch darstellen lassen. Boxplots sind insbesondere dazu geeignet, Lage und Verteilung der Werte fr verschiedene Variablen bzw. fr unterschiedliche Fallgruppen derselben Variablen miteinander zu vergleichen. Entsprechend sollen im folgenden die Einkommensangaben der Personen aus den neuen Bundeslndern denen fr die alten Bundeslnder im Boxplot
380
gegenbergestellt werden. Abbildung 15.6 gibt dieses Boxplot wieder, das mit den folgenden Einstellungen in den Dialogfeldern der Explorativen Datenanalyse angefordert werden kann:
Variablen: Die Variable v261 bildet die abhngige Variable, v3 die unabhn-
gige Variable (Feld Faktorenliste).

Anzeigen: In der Gruppe Anzeigen mu entweder die Option Diagramme oder
die Option Beide ausgewhlt werden.

Grafiken: Fr das Boxplot selbst wird in dem Dialogfeld der Schaltflche
Diagramme die Option Faktorstufen zusammen aus der Gruppe Boxplots angefordert.
12000 BEFR.: NETTOEINKOMMEN, OFFENE ABFRAGE
10000
674 305 826
8000
185 295 301 999 810 788 112 192
6000
98 238 198 755
4000
664 995 1051
2000
0 -2000
N= 354 204
ALTE BUNDESLAENDERNEUE BUNDESLAENDER
ERHEBUNGSGEBIET: WEST - OST
Abbildung 15.6: Boxplot fr die Variable v261 (Nettoeinkommen der Befragten), getrennt nach Kategorien der Variablen v3 (Erhebungsgebiet: Alte/Neue Bundeslnder)
Die linke Box in der Grafik bezieht sich auf die alten, die rechte auf die neuen Bundeslnder. Die schwarze horizontale Linie innerhalb der grauen Flche kennzeichnet die Lage des Medians (50%-Perzentil). Die untere Grenze der grauen Box kennzeichnet das 25%-Perzentil und die obere Grenze des 75%-Perzentil der jeweiligen Stichprobe. Innerhalb des durch die graue Box dargestellten Wertebereichs liegen somit die mittleren 50% der Werte. Die dnnen Querstriche oberund unterhalb der Box geben den grten bzw. den kleinsten Wert aus der jeweiligen Stichprobe an, der noch keinen Ausreier oder Extremwert darstellt. Als Ausreier und Extremwerte werden von SPSS im Zusammenhang mit Boxplots solche Werte angesehen, die um mehr als das 1,5fache der Hhe der grauen Box (also des Wertebereichs mit den mittleren 50% der Werte) ber oder unterhalb der Box liegen. Weiterhin unterscheidet SPSS bei Boxplots nach folgendem Kriterium zwischen Extremwerten und Ausreiern: Die Entfernung von Ausreiern zur grauen Box betrgt zwischen dem 1,5fachen und dem 3fachen der Boxhhe, Extremwerte
15.3 Test auf Normalverteilung
381
liegen dagegen mehr als das 3fache der Boxhhe ber dem 75%-Perzentil bzw. unter dem 25%-Perzentil. In der Grafik werden Ausreier durch Kreise und Extremwerte durch Sternchen gekennzeichnet. Abbildung 15.7 skizziert anhand des Boxplots fr die alten Bundeslnder die Bedeutung der einzelnen Elemente der Grafik.
Extreme Werte
Ausreier Grter Wert, der noch keinen Ausreier darstellt 75%-Perzentil 50%-Perzentil (Median) 25%-Perzentil Kleinster Wert, der noch keinen Ausreier darstellt Abbildung 15.7: Elemente eines Boxplots
Auch die Grafik aus Abbildung 15.6 besttigt noch einmal die Erkenntnisse, die bereits anhand der Perzentile, M-Schtzer und Ausreier gewonnen werden konnten: Sowohl in den neuen als auch in den alten Bundeslndern streuen die Werte im unteren Bereich der Einkommensverteilung deutlich weniger als im oberen Bereich. Zudem besteht im unteren Einkommensbereich eine sehr viel grere hnlichkeit zwischen den neuen und den alten Bundeslndern. Das 25%-Perzentil ist in beiden Gruppen sehr hnlich, ebenso der kleinste Wert, der keinen Ausreier darstellt. Im Bereich der hheren Einkommenswerte weisen die alten Bundeslnder dagegen eine wesentlich strkere Streuung auf als die neuen Lnder. So liegt der Median in den alten Lndern mit einem Wert von 2.000 bereits auf der Hhe des 75%-Perzentils der neuen Lnder. Das 75%-Perzentil der alten Lnder liegt dagegen bei 3.000. Werte dieser Grenordnung werden in den neuen Lndern bereits als Ausreier angesehen. Umgekehrt wrde der einzige Extremwert, der im neuen Bundesgebiet beobachtet wurde, in den alten Bundeslndern nicht einmal einen Ausreier darstellen.
15.3
Test auf Normalverteilung

Zahlreiche statistische Verfahren setzen voraus, da die zu untersuchenden Daten in der Grundgesamtheit normalverteilt sind. Bevor man derartige Verfahren anwendet, mu also geprft werden, ob dies zumindest annhernd der Fall ist bzw. ob eine Normalverteilung im statistischen Sinne plausibel angenommen werden kann. Hierzu stehen in der explorativen Datenanalyse von SPSS grafische Verfahren (Normalverteilungsplots) und Signifikanztests zur Verfgung. In den Diagrammen werden die empirisch beobachteten Werte mit den theoretischen Werten, die sich unter der Annahme einer Normalverteilung ergben, verglichen. Abwei-
382
chungen zwischen der theoretischen Normalverteilung und der empirischen Verteilung werden durch entsprechende Abweichungen der Werte von einer Geraden deutlich. Der Signifikanztest errechnet eine Wahrscheinlichkeit, mit der das Zurckweisen der Hypothese, da die Werte in der Grundgesamtheit normalverteilt sind, fehlerhaft ist. In der Datei allbus.sav von der Begleit-CD ist in der Variablen v338 fr jeden Fall angegeben, wie lange das entsprechende Interview gedauert hat (in Minuten). Diese Variable wurde bereits im vorhergehenden Kapitel mit Hilfe statistischer Mazahlen untersucht. Dort wurde unter anderem festgestellt, da die durchschnittliche Interview-Dauer 56,48 Minuten betrug. Die einzelnen Angaben erstrecken sich dabei ber einen Bereich von 15 Minuten bis zu 175 Minuten. Im folgenden soll untersucht werden, ob angenommen werden kann, da das Merkmal Dauer des Interviews in der Grundgesamtheit normalverteilt ist. Hierzu werden zum einen grafische Betrachtungen angestellt und zum anderen ein Signifikanztest durchgefhrt. Den entsprechenden Output erhalten Sie durch folgende Einstellungen in den Dialogfeldern der Prozedur EXPLORATIVE DATENANALYSE:
Variablen: Es wird lediglich die Variable v338 als abhngige Variable ange-
geben.
Anzeigen: In der Gruppe Anzeigen mu entweder die Option Diagramme oder
die Option Beide ausgewhlt werden.

Diagramme: In dem Dialogfeld der Schaltflche Diagramme ist die Option
Normalverteilungsdiagramm mit Tests anzukreuzen. In Abbildung 15.8 werden die (standardisierten) beobachteten Werte gegen die theoretischen Werte einer Normalverteilung abgetragen. Die theoretische Normalverteilung wird durch die Gerade dargestellt. Sind die empirischen Werte ebenfalls normalverteilt, mssen die einzelnen Punkte weitgehend dem Verlauf der Geraden folgen.175 Dies ist bei der Variablen Dauer des Interviews offenkundig nicht der Fall. Im mittleren Bereich liegen die Werte zwar in der Nhe der Geraden, am oberen und unteren Ende weichen sie jedoch erheblich davon ab. Noch gravierender als die Strke der Abweichung ist deren Form. Die einzelnen Punkte in der Grafik streuen nicht zufllig um die Gerade, sondern weisen ein klares Muster auf: Whrend die Werte im mittleren Bereich oberhalb der Geraden liegen, befinden sie sich im Bereich der hohen sowie der niedrigen Werte deutlich unterhalb der Geraden. Ein solches Muster lt den Schlu zu, da die beobachteten Werte systematisch von der Normalverteilung abweichen. Abbildung 15.9 stellt den gleichen Sachverhalt noch einmal in anderer Form dar. Diese Darstellung ist vor allem geeignet, um einen Trend in den Abweichungen zwischen den empirischen und den theoretischen Werten zu erkennen. Sie ergibt sich, wenn das Normalverteilungsdiagramm aus Abbildung 15.8 so weit gekippt wird, bis die Normalverteilungslinie horizontal verluft. Zustzlich wird die Skalierung der vertikalen Achse angepat. Auch diese Grafik zeigt deutlich die sy175 Zur Interpretation von Normalverteilungsplots siehe auch Kapitel 38, Verteilungsdiagramme.
15.3 Test auf Normalverteilung
383
stematischen Abweichungen der beobachteten von den unter der Normalverteilungsannahme erwarteten Werten. Wren die Stichprobenwerte normalverteilt, mten die Punkte in der Grafik zufllig und nicht einem Muster folgend um die horizontale Linie streuen. Da dies eindeutig nicht der Fall ist, mu die Annahme einer Normalverteilung aufgegeben werden.
Q-Q-Diagramm von DAUER DES INTERVIEWS IN MINUTEN
4 3 2 1 0 -1 -2 -3 -4 -100 0 100 200
Erwarteter Normalwert
Beobachteter Wert
Abbildung 15.8: Normalverteilungsdiagramm fr die Variable v338 (Dauer des Interviews in Minuten)
Trendbereinigtes Q-Q-Diagramm von DAUER DES INTERVIEWS IN

3,5 3,0 2,5 2,0
Abweichung von Normal
1,5 1,0 ,5 0,0 -,5 0 20 40 60 80 100 120 140 160 180
Beobachteter Wert
Abbildung 15.9: Trendbereinigtes Normalverteilungsdiagramm fr die Variable v338 (Dauer des Interviews in Minuten)
384
Neben den beiden Grafiken wurden durch die Prozedur auch die Ergebnisse eines Signifikanztests, des Kolmogorov-Smirnov-Tests, ausgegeben. Dieser testet die Nullhypothese, da die Werte der untersuchten Variablen normalverteilt sind. Es wird eine Wahrscheinlichkeit errechnet, mit der das Zurckweisen dieser Hypothese falsch ist. Je grer diese Wahrscheinlichkeit ist, desto eher kann davon ausgegangen werden, die Werte seien tatschlich normalverteilt. Das Ergebnis dieses Tests ist in Abbildung 15.10 wiedergegeben.
Tests auf Normalverteilung Kolmogorov-Smirnov Statistik df Signifikanz ,125 1047 ,000
a
V338
a. Signifikanzkorrektur nach Lilliefors
Abbildung 15.10: Ergebnis eines Normalverteilungstests fr die Variable v338 (Dauer des Interviews)
Von Bedeutung ist in erster Linie die Signifikanz. Dies ist die Irrtumswahrscheinlichkeit fr das Zurckweisen der Normalverteilungshypothese. Da diese Wahrscheinlichkeit mit 0,000 ausgewiesen wird176, ist die Annahme der Normalverteilung zurckzuweisen. Hierbei ist grundstzlich zu beachten, da der Test die Hypothese perfekter Normalverteilung berprft und damit auch zu einer Ablehnung der Hypothese fhren kann, wenn die Werte nur annhernd normalverteilt sind. In dem hier betrachteten Beispiel ist dies eindeutig nicht der Fall, wie aus den dargestellten Grafiken hervorgeht. Wrden die Grafiken jedoch eher auf eine Normalverteilung oder auf nur geringe Abweichungen von der Normalverteilung hindeuten, whrend der Test eine Ablehnung der Hypothese empfiehlt, ist zu berlegen, ob gegebenenfalls Zugestndnisse in bezug auf die Normalverteilungsannahme gemacht werden sollten, damit die entsprechenden statistischen Verfahren berhaupt zur Anwendung kommen knnen.
15.4
Test auf Gleichheit der Varianzen

Viele statistische Prozeduren, bei denen verschiedene Fallgruppen untersucht und miteinander vergleichen werden, setzen voraus, da die Varianzen innerhalb der einzelnen Gruppen gleich sind. Dies gilt beispielsweise bei Signifikanztests fr Mittelwertvergleiche. In der explorativen Datenanalyse von SPSS knnen Sie mit einem Levene-Test berprfen, ob diese Voraussetzung erfllt ist. Ist dies nicht der Fall, knnen Sie mit Hilfe grafischer Darstellungen untersuchen, ob unterschiedliche Varianzen ggf. mit verschiedenen Niveaus der Werte beziehungsweise des Medians zusammenhngen. Wenn Sie eine solche Beziehung fr die Erkl-
0,000 ist ein gerundeter Wert, den man sich im Ausgabenavigator wesentlich genauer ausgeben lassen kann (vgl. hierzu Kapitel 7, Pivot-Tabellen). Der exaktere Wert wird mit 3,146e044 angegeben, ist also tatschlich sehr gering.
176
15.4 Test auf Gleichheit der Varianzen
385
rung unterschiedlicher Varianzen gefunden haben, knnen Sie mit geeigneten Transformationen versuchen, gleiche Varianzen fr die Gruppen herbeizufhren.
15.4.1
Levene-Test
Der Levene-Test ist ein Signifikanztest, der fr verschiedene Gruppen von Werten die Nullhypothese berprft, da die Varianzen in der Grundgesamtheit in allen Gruppen gleich sind. Er berechnet den F-Wert als statistisches Prfma, dessen Verteilung bekannt ist. Dadurch kann getestet werden, mit welcher Wahrscheinlichkeit eine Gleichheit der Varianzen in der Grundgesamtheit vorliegt. (Strenggenommen wird berprft, mit welcher Wahrscheinlichkeit die beobachteten Unterschiede in den Varianzen auftreten knnen, wenn in der Grundgesamtheit tatschlich keine Unterschiede bestehen.) Diese Wahrscheinlichkeit wird als entscheidende Information des Tests mitgeteilt. Eine geringe Wahrscheinlichkeit deutet auf einen Unterschied zwischen den Varianzen hin. Sie stellt die Irrtumswahrscheinlichkeit dar, die mit einem Zurckweisen der Nullhypothese, nach der Varianzen in der Grundgesamtheit gleich sind, verbunden ist. Abbildung 15.11 zeigt die Ergebnisse des Levene-Tests fr das Nettoeinkommen der Befragten, wobei wiederum die neuen und die alten Bundeslnder miteinander verglichen wurden. Dieser Test wurde mit den folgenden Dialogfeldeinstellungen durchgefhrt:
Variablen: Die Variable v261 bildet die abhngige Variable, v3 die unabhn-
gige Variable (Feld Faktorenliste).

Anzeigen: In der Gruppe Anzeigen mu die Option Beide gewhlt werden.
Obwohl der Test mit einer Option aus dem Dialogfeld Diagramme angefordert wird, gengt es nicht, aus der Gruppe Anzeigen die Option Diagramme zu verwenden.
Diagramme: Aus dem Dialogfeld Diagramme wurde die Option Exponenten-
schtzung gewhlt.
Test auf Homogenitt der Varianz V261 Basiert auf dem Mittelwert Basiert auf dem Median Basierend auf dem Median und mit angepaten df Basiert auf dem getrimmten Mittel Levene-Statistik 49,642 44,194 44,194 45,397 df1 1 1 1 1 df2 556 556 415,851 556 Signifikanz ,000 ,000 ,000 ,000
Abbildung 15.11: Ergebnisse des Levene-Tests auf Gleichheit der Varianzen der Variablen v261 (Nettoeinkommen) fr Personen aus den neuen und den alten Bundeslndern (v3)
In der Tabelle werden die Ergebnisse von vier unterschiedlichen Tests mitgeteilt, die sich darin unterscheiden, da einige auf dem Mittelwert und andere auf dem Median basieren, wobei an diesen Gren zum Teil Anpassungen fr den Test
386
vorgenommen wurden. blicherweise wird der in der obersten Zeile ausgewiesene, auf dem Mittelwert basierende Test betrachtet, allerdings liefern in diesem Fall ohnehin alle vier Tests den gleichen Signifikanzwert. Die Signifikanz von 0,000 gibt an, da die Hypothese, die Varianzen in den beiden Gruppen seien in der Grundgesamtheit gleich, bei gegebener Datenlage nur mit einer Wahrscheinlichkeit von 0,0% zutrifft. Damit ist diese Hypothese abzulehnen. Um die beiden Gruppen dennoch auch mit solchen statistischen Verfahren untersuchen zu knnen, die eine Gleichheit der Varianzen voraussetzen, kann man nun versuchen, die Varianzen mit Hilfe geeigneter Datentransformationen anzugleichen. Hierbei kann in einigen Fllen die im folgenden Abschnitt betrachtete grafische Darstellung der Streuungen helfen.
15.4.2
Streuung gegen Median plotten

In dem Boxplot aus Abbildung 15.6, S. 380 war bereits zu erkennen, da die Varianz des Einkommens in den neuen Bundeslndern geringer ist als in den alten Lndern. Gleichzeitig liegt der Median sowie das 75%-Perzentil in den neuen Lndern unterhalb der entsprechenden Werte aus den alten Lndern. Hufig ist es so, da sich die Strke der Streuung mit der Lage des Medians (Zentralwerts) verndert. Ob dies der Fall ist, kann mit einer Grafik untersucht werden, in der die Streuungen der Gruppen gegen die Zentralwerte abgetragen werden. Erkennt man in dieser Grafik einen Zusammenhang zwischen der Lage der Werte und ihrer Streuung, kann man daraus mglicherweise geeignete Werttransformationen ableiten, um die Varianzen einander anzunhern. Wenn Sie eine Grafik mit der Methode Exponentenschtzung erstellen, erhalten Sie nicht nur ein Diagramm, sondern auch einen geschtzten Wert, mit dem Sie die Werte der abhngigen Variablen potenzieren knnen, um die Unterschiede zwischen den Varianzen zu verringern. Dieser geschtzte Wert mu jedoch nicht immer sinnvoll sein. Mglicherweise ist die Streuung gar nicht so eindeutig auf die Hhe der Werte zurckzufhren, so da die Unterschiede in den Varianzen durch die angegebene Transformation sogar noch vergrert werden. In der Grafik nach der Methode Exponentenschtzung werden nicht unmittelbar die Streuungen und Zentralwerte, sondern jeweils ihre natrlichen Logarithmen gegeneinander abgetragen. Im allgemeinen ist es jedoch nicht sinnvoll, eine solche Grafik fr nur zwei unterschiedliche Gruppen zu erstellen, da die Betrachtung von nur zwei Gruppen keine Rckschlsse auf die Form eines mglichen Zusammenhangs zult. Daher wird im folgenden nicht das bisherige Beispiel fortgesetzt, sondern es werden die Varianzen des Einkommens fr unterschiedliche Altersgruppen der Befragten miteinander verglichen. Zudem ist die folgende Betrachtung auf Personen aus den alten Bundeslndern beschrnkt. Zum Erstellen des Output werden folgende Schritte durchgefhrt:
Flle auswhlen: Zunchst sind die Flle, die sich auf die neuen Bundeslnder
beziehen, mit dem Befehl DATEN, FLLE AUSWHLEN zu deaktivieren. Whlen Sie in dem Dialogfeld dieses Befehls die Option Falls Bedingung zutrifft, und geben Sie in dem Dialogfeld der zugehrigen Schaltflche Falls die Bedin-
15.4 Test auf Gleichheit der Varianzen
387
gung v3=1 ein. Achten Sie zustzlich darauf, da im Hauptdialogfeld die voreingestellte Option Filtern aus der Gruppe Nicht ausgewhlte Flle beibehalten wurde.
Explorative Datenanalyse: Geben Sie in dem Dialogfeld der Prozedur
EXPLORATIVE DATENANALYSE die Variable v261 als abhngige und v38 als unabhngige Variable an. Whlen Sie zustzlich in der Gruppe Anzeigen die Option Beide und in dem Dialogfeld der Schaltflche Diagramme die Option Exponentenschtzung. Die Variable v38 (Alter der Befragten nach Kategorien) unterscheidet zwischen sechs Alterskategorien. Eine dieser Kategorien (90 Jahre und lter) beinhaltet jedoch nur einen Fall, der in der Einkommensvariablen v261 einen gltigen Wert aufweist. Daher wird diese Kategorie automatisch aus der Analyse ausgeschlossen, und im Ausgabenavigator erscheint ein entsprechender Warnhinweis. Fr die verbleibenden fnf Alterskategorien wurden die Einkommensstreuungen berechnet und in der Grafik aus Abbildung 15.12 gegen den Median abgetragen. Zustzlich wird in der Abbildung der Levene-Test wiedergegeben, der auch hier zu einer Ablehnung der Hypothese fhrt, nach der die Varianzen innerhalb der fnf Gruppen in der Grundgesamtheit gleich hoch sind. Die Grafik wurde mit der Methode Exponentenschtzung erstellt. Daher werden in der Grafik nicht unmittelbar die Streuungen gegen die Mediane, sondern jeweils deren natrliche Logarithmen (Logarithmen zur Basis e) gegeneinander abgetragen. Wenn kein Zusammenhang zwischen dem Median und der Streuung besteht, sollten die Punkte ohne erkennbares Muster um den gleichen horizontalen Wert streuen. Dies scheint hier nicht der Fall zu sein, vielmehr nehmen die Streuungen (Ordinate) tendenziell mit dem Median (Abszisse) zu. Gleichzeitig ist dieser Zusammenhang aber nicht besonders streng, so da er sich mglicherweise schlecht durch eine mathematische Formel beschreiben lt. Wrde man in die Grafik eine Gerade einzeichnen, die den Zusammenhang zwischen Zentralwert und Streuung mglichst gut beschreibt, den Verlauf der Punkte also mglichst gut nachzeichnet, htte diese eine Steigung von 0,400. Dieser Wert wird unterhalb der Grafik ausgewiesen (Steigung = ,400). Aus diesem Steigungsparameter lt sich der Wert berechnen, mit dem die Ursprungswerte der abhngigen Variablen potenziert werden knnen, um so mglicherweise die Streuungen innerhalb der Gruppen anzugleichen. Der Exponent ergibt sich nach der Formel Exponent = 1 - Steigungsparameter. In diesem Fall betrgt der Exponent damit 0,6. Auch dieser Wert wird unterhalb der Grafik angegeben (Transformationsexponent).
388
a Test auf Homogenitt der Varianz
V261
Basiert auf dem Mittelwert Basiert auf dem Median Basierend auf dem Median und mit angepaten df Basiert auf dem getrimmten Mittel
Levene-Statistik 5,025 4,126 4,126 4,532
df1 4 4 4 4
df2 348 348 258,828 348
Signifikanz ,001 ,003 ,003 ,001
a. V261 ist bei V38 = 90 JAHRE U. AELTER konstant und wurde weggelassen.
Streuung ber Zentralwertdiagramm von V261 Nach V38

7,6
7,5
7,4
7,3
Streuung
7,2
7,1 7,4 7,5 7,6 7,7 7,8 7,9 8,0
Zentralwert
* LN-Streuung ber LN-Zentralwertdiagramm Steigung = ,400 Transformationsexponent = ,600
Abbildung 15.12: Levene-Test und logarithmische Darstellung der Streuung gegen den Median des Einkommens (v261) fr verschiedene Alterskategorien (v38)
Die angegebene Transformation lt sich beispielsweise mit der Prozedur TRANSFORMIEREN, BERECHNEN durchfhren. Dort kann jeder Wert der Variablen v261 mit 0,6 potenziert werden. Berechnet man anschlieend erneut den LeveneTest, ergeben sich deutlich hhere Signifikanzwerte als zuvor, die jedoch mit ungefhr 5% noch immer nicht besonders gut sind. Abbildung 15.13 gibt die Ergebnisse des Levene-Tests nach Durchfhrung der Transformation wieder.
a Test auf Homogenitt der Varianz
V261
Basiert auf dem Mittelwert Basiert auf dem Median Basierend auf dem Median und mit angepaten df Basiert auf dem getrimmten Mittel
Levene-Statistik 2,488 2,407 2,407 2,356
df1 4 4 4 4
df2 348 348 306,308 348
Signifikanz ,043 ,049 ,050 ,053
a. V261 ist bei V38 = 90 JAHRE U. AELTER konstant und wurde weggelassen.
Abbildung 15.13: Levene-Test nach einer Transformation der Variablenwerte
15.5 Einstellungen der explorativen Datenanalyse
389
15.5
15.5.1
Einstellungen der explorativen Datenanalyse

Allgemeine Vorgehensweise
Um die explorative Datenanalyse aufzurufen, whlen Sie den Befehl
STATISTIK ZUSAMMENFASSEN EXPLORATIVE DATENANALYSE...
Dieser Befehl ffnet das Dialogfeld aus Abbildung 15.14. In der Variablenliste werden smtliche Variablen der Datendatei aufgefhrt. Textvariablen mit einer Breite von nicht mehr als acht Zeichen knnen Sie als unabhngige Variable sowie zur Fallbeschriftung verwenden, nicht dagegen als abhngige Variable. Textvariablen mit einer Breite von mehr als acht Zeichen knnen Sie ausschlielich zur Fallbeschriftung benutzen.
Abbildung 15.14: Dialogfeld des Befehls STATISTIK, ZUSAMMENFASSEN, EXPLORATIVE DATENANALYSE
Zum Durchfhren einer explorativen Datenanalyse gehen Sie folgendermaen vor:

Variablen angeben: Geben Sie die zur Analyse bentigten Variablen an: y
Abhngige Variablen: Fgen Sie in dieses Feld die Variablen ein, deren Werte untersucht werden sollen. Sie knnen hier ausschlielich numerische Variablen - die allerdings nicht vom Variablentyp Numerisch sein mssen angeben. Faktorenliste: Sie knnen eine oder mehrere gruppierende (unabhngige) Variablen angeben, um die Flle der Datendatei in Untergruppen aufzuteilen. Jede Fallgruppe wird dann getrennt untersucht. Die Fallgruppen werden durch die unterschiedlichen Werte der unabhngigen Variablen definiert. Wenn Sie mehrere unabhngige Variablen angeben, werden die Flle einmal nach der einen und einmal nach der anderen Variablen unterteilt
390
und die dabei entstehenden Fallgruppen jeweils getrennt untersucht. Die Fallgruppen werden somit nicht durch eine Kombination der Werte aus den verschiedenen unabhngigen Variablen definiert. Beispiel: Wenn Sie eine unabhngige Variable Geschlecht mit den Werten mnnlich und weiblich und eine zweite unabhngige Variable Gebiet mit den Werten Ost und West angeben, werden die Werte der abhngigen Variablen einmal getrennt nach Mnnern und Frauen und einmal getrennt nach Erhebungsgebiet Ost und Erhebungsgebiet West untersucht. Es werden aber nicht die Frauen aus dem Ostgebiet, die Frauen aus dem Westgebiet, die Mnner aus dem Ostgebiet und die Mnner aus dem Westgebiet getrennt untersucht. Anstatt zwei unabhngige Variablen anzugeben, knnten Sie somit auch die Prozedur zweimal hintereinander mit jeweils einer der beiden unabhngigen Variablen und ansonsten identischen Einstellungen durchfhren.
Fallbeschriftung: Einige Ergebnisse der explorativen Datenanalyse bezie-
hen sich auf einzelne Flle der Datendatei. Dies gilt zum Beispiel fr Boxplots sowie fr die Liste der Ausreier. Diese Flle werden per Voreinstellung durch ihre Fallnummer aus der Datendatei gekennzeichnet, wenn Sie aber eine Variable in dem Feld Fallbeschriftung angeben, werden deren Werte zur Kennzeichnung verwendet.
Anzeigen: Wenn Sie mit der explorativen Datenanalyse ausschlielich Grafi-
ken erstellen mchten, mssen Sie in der Gruppe Anzeigen die Option Diagramme auswhlen, denn es ist nicht mglich, smtliche Optionen in dem Dialogfeld der Schaltflche Statistik abzuwhlen. Entsprechend wird mit der Option Statistik nur Output erstellt, der in dem Dialogfeld Statistik angefordert wird. Mit der Option Beide werden sowohl Statistiken als auch Grafiken ausgegeben.
Statistik: In dem Dialogfeld dieser Schaltflche knnen Sie eine bersicht de-
skriptiver Mazahlen, M-Schtzer, eine Liste von Ausreiern und Perzentile anfordern. Siehe hierzu Abschnitt 15.5.2, Statistiken.
Diagramme: In dem Dialogfeld Diagramme knnen Boxplots, Stem-and-Leaf-
Diagramme, Histogramme, Normalverteilungsplots- und -tests sowie Tests auf die Gleichheit von Varianzen angefordert werden, siehe Abschnitt 15.5.3, Diagramme, S. 392.
Fehlende Werte: In dem Dialogfeld der Schaltflche Optionen knnen Sie die
Behandlung fehlender Werte festlegen.
391
15.5.2
Statistiken
Abbildung 15.15: Dialogfeld der Schaltflche Statistik
Die Schaltflche Statistik ffnet das Dialogfeld aus Abbildung 15.15 mit den folgenden Optionen:
Deskriptive Statistik: Mit dieser Option wird eine Tabelle mit zahlreichen de-
skriptiven Mazahlen erstellt. Diese Tabelle enthlt folgende Angaben:

y y y y y y y y y
Mittelwert mit Konfidenzintervall des Mittelwerts Um 5% getrimmter Mittelwert (dabei werden die extremen Werte ausgeschlossen) Standardfehler des Mittelwerts Median Spannweite Kleinster und grter Wert Varianz und Standardabweichung Schiefe mit Konfidenzintervall der Schiefe Exze (Kurtosis) mit Konfidenzintervall des Exzesses
Fr das Konfidenzintervall des Mittelwertes knnen Sie in dem Eingabefeld den gewnschten Prozentwert zwischen 1 und 99 angeben.
M-Schtzer: Es werden vier Maximum-Likelihood-Schtzer nach den Metho-
den Huber(1,339), Tukey(4,685), Hampel(1,7; 3,4; 8,5) und Andrews(1,34 ) berechnet.
Ausreier: Mit dieser Option fordern Sie eine Liste der jeweils fnf grten
und kleinsten Werte der Variablen bzw. der einzelnen Fallgruppen an. Die Flle, in denen die Ausreier enthalten sind, werden durch die Fallnummern aus der Datendatei gekennzeichnet. Wenn Sie eine Variablen zur Fallbeschriftung angegeben haben, werden zustzlich deren Werte zur Kennzeichnung der Flle mitgeteilt.
Perzentile: Berechnet die 5%-, 10%-, 25%-, 50%-, 75%-, 90%- und 95%-
Perzentile. Zustzlich werden Tukeys Hinges (Angelpunkte) ausgegeben.
392
15.5.3
Diagramme
Abbildung 15.16 gibt das Dialogfeld der Schaltflche Diagramme wieder. Hier knnen Sie neben Grafiken auch statistische Tests auf Normalverteilung sowie auf Gleichheit der Varianzen in unterschiedlichen Fallgruppen anfordern.
Abbildung 15.16: Dialogfeld der Schaltflche Diagramme
Boxplots In Boxplots wird die Verteilung der Werte durch das 25%-, das 50%- und das 75%-Perzentil gekennzeichnet. Zustzlich werden der kleinste und der grte nicht extreme Wert, Ausreier und Extremwerte dargestellt. Boxplots sind vor allem geeignet, die Verteilung der Werte mehrerer Gruppen miteinander zu vergleichen. Die einzelnen Boxen fr verschiedene Fallgruppen knnen innerhalb der Grafik auf unterschiedliche Weise angeordnet werden. Whlen Sie hierzu zwischen den folgenden Optionen. Wenn Sie nicht mehr als eine unabhngige Variable in der explorativen Datenanalyse verwenden, haben beide Optionen den gleichen Effekt.
Faktorstufen zusammen: Die Boxen der verschiedenen Gruppen einer Varia-
blen werden direkt nebeneinander dargestellt. Dies bietet sich an, wenn Sie die Verteilung der Werte einer Variablen in verschiedenen Fallgruppen miteinander vergleichen mchten.
Abhngige Variablen zusammen: Hiermit werden die Boxen verschiedener
abhngiger Variablen, die sich auf dieselbe Fallgruppe beziehen, unmittelbar nebeneinander dargestellt. Fr jede unabhngige Variable wird eine eigene Grafik erstellt. Wenn kein Boxplot erstellt werden soll, whlen Sie die Option Keiner.
393
Deskriptive Grafiken Mit den beiden folgenden Diagrammen knnen Sie die Verteilung der Werte aus den abhngigen Variablen, ggf. getrennt nach einzelnen Fallgruppen, darstellen lassen:
Stengel-Blatt: Hiermit wird in der Ausgabedatei aus editierbaren Zeichen (ein-
facher Textoutput) ein Stem-and-Leaf-Diagramm erstellt.

Histogramm: Diese Option erstellt ein Histogramm, in dem alle Intervalle die
gleiche Breite haben und in ihrer Gesamtheit den vollstndigen Wertebereich abdecken. Normalverteilungsdiagramm mit Tests Mit dieser Option werden zwei Normalverteilungsdiagramme und ein Signifikanztest auf Normalverteilung (ggf. werden auch zwei Tests durchgefhrt) ausgegeben. Eines der beiden Diagramme stellt die empirischen Werten den theoretischen Werten der Normalverteilung gegenber, das zweite Diagramm stellt die trendbereinigten Abweichungen der empirischen und der theoretischen Werte dar. Als Signifikanztest wird der Kolmogorov-Smirnov-Test durchgefhrt. Fr Stichproben mit weniger als 50 Fllen wird auerdem der Shapiro-Wilks-Test ausgegeben. Streubreite vs. mittleres Niveau mit Levene-Test Um verschiedene Gruppen von Werten daraufhin zu untersuchen, ob ihre Varianzen alle gleich gro sind, knnen Sie mit einem Levene-Test einen Signifikanztest fr die Hypothese gleicher Varianzen durchfhren.177 Stellt sich heraus, da die Varianzen ungleich sind, knnen Sie grafisch untersuchen, ob mglicherweise ein Zusammenhang zwischen dem Ausma der Streuung und der Hhe des Medians einer Fallgruppe besteht. Wenn ein derartiger Zusammenhang zu bestehen scheint, lassen sich die Varianzen in den Gruppen unter Umstnden angleichen, indem die Werte der abhngigen Variablen geeigneten Transformationen unterzogen werden. Die grafische Darstellung des mglichen Zusammenhangs zwischen Median und Streuung liefert einen Hinweis darauf, welche Art von Transformation geeignet sein knnte. Die Tests und grafischen Darstellungen knnen nicht nur fr die Originalwerte, sondern auch fr transformierte Werte durchgefhrt werden. Whlen Sie hierzu zwischen den folgenden Optionen:
Keiner: Es wird weder eine Grafik erstellt noch ein Test durchgefhrt. Exponentenschtzung: In der Grafik werden die natrlichen Logarithmen der
Mediane gegen die natrlichen Logarithmen der Streuungen abgetragen. Neben dem Test, der die Hypothese berprft, die Varianzen in den Gruppen seien gleich gro, wird fr die Punkte in dem Diagramm die Steigung einer ange177 Beachten Sie, da der Levene-Test nur durchgefhrt wird, wenn im Hauptdialogfeld der explorativen Datenanalyse in der Gruppe Anzeigen die Option Alles ausgewhlt ist.
394
nherten Geraden angegeben. Zustzlich wird ein Exponent ausgewiesen, mit dem die Werte der abhngigen Variablen potenziert werden knnen, um somit die Unterschiede in den Varianzen mglicherweise zu verringern.
Transformiert: Sie knnen die Werte der unabhngigen Variablen verschiede-
nen Transformationen unterwerfen, bevor der Signifikanztest durchgefhrt und die Grafiken erstellt werden.178 Derartige Transformationen sind hufig geeignet, mgliche Unterschiede zwischen den Varianzen zu verringern. Die folgenden Transformationen stehen zur Verfgung:
y
Natrlicher Logarithmus: ln(X) Es werden die natrlichen Logarithmen (Logarithmen zur Basis e) berechnet.
1/Quadratwurzel:
1 X
= X 0,5
Die Werte werden durch den reziproken Wert ihrer Quadratwurzel ersetzt.
y
Reziprok:
1 = X1 X
Die Werte werden durch ihren reziproken Wert ersetzt.

y
Quadratwurzel: Quadratisch: X2
X = X0,5
Statt der Ursprungswerte werden deren Quadratwurzeln betrachtet.

y
Es werden die quadrierten Werte betrachtet.

y
Kubisch: X3 Die Werte werden mit drei potenziert.
Nicht transformiert: Whlen Sie diese Option, wenn die Ursprungswerte der
Variablen in unvernderter Form ohne jegliche Transformation betrachtet werden sollen.
Diese Transformationen wirken sich nicht auf die Werte in der Datendatei aus, sondern finden ausschlielich im Hintergrund beim Berechnen des Output der explorativen Datenanalyse statt.
178

15 Explorative Datenanalyse

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

15 Explorative Datenanalyse

Hochgeladen von

Copyright:

Verfügbare Formate

Kapitel 15 Explorative Datenanalyse

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

Diese Prozedur umfat die folgenden Verfahren:

Grafische Aufbereitung der Werte

Felix Brosius, SPSS 8

International Thomson Publishing

15.1 Grafische Aufbereitung der Werte

Beide, wenn Sie auch Statistiken erstellen mchten).

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

Stem width: Each leaf:

& denotes fractional leaves.

Abbildung 15.1: Stem-and-Leaf-Diagramm fr die Variable v37 (Alter der/des Befragten)

Felix Brosius, SPSS 8

International Thomson Publishing

15.1 Grafische Aufbereitung der Werte

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

Std.abw. = 16,69 Mittel = 45,8 N = 1053,00

Abbildung 15.2: Histogramm fr die Variable v37 (Alter der/des Befragten)

Lage der Werte kennzeichnen

der Variablenwerte zu einem mittleren Wert zusammenfat. Der M-Schtzer

Felix Brosius, SPSS 8

International Thomson Publishing

15.2 Lage der Werte kennzeichnen

Perzentile, M-Schtzer und Ausreier

das Feld Faktorenliste.

tionen M-Schtzer, Ausreier und Perzentile an.

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

Tukey-Angelpunkte V3 ALTE NEUE BUNDES BUNDES LAENDE LAENDE R R V261 V261

1250,00 2200,00 3000,00

1100,00 1600,00 2000,00

Felix Brosius, SPSS 8

International Thomson Publishing

15.2 Lage der Werte kennzeichnen

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

Felix Brosius, SPSS 8

International Thomson Publishing

15.2 Lage der Werte kennzeichnen

V3 ALTE BUNDESLAENDER NEUE BUNDESLAENDER

Tukey-Biweight 2109,82 1533,72

Andrews-Welle 2108,45 1533,43

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

Siehe hierzu auch den folgenden Abschnitt 15.2.2, Boxplots.

Felix Brosius, SPSS 8

International Thomson Publishing

15.2 Lage der Werte kennzeichnen

Felix Brosius, SPSS 8

International Thomson Publishing

Kapitel 15 Explorative Datenanalyse

gige Variable (Feld Faktorenliste).

die Option Beide ausgewhlt werden.

674 305 826