Deskriptive Statistik

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.
Daniel Lois
Deskriptive Statistik (in SPSS)
Stand: Mrz 2010
Inhaltsverzeichnis
1. SPSS-Programmoberflche 2. Codeplan und Datenmatrix 3. Messniveaus 4. Nominalskalenniveau: Hufigkeitsverteilungen g g 5. Mae der zentralen Tendenz 6. Streuungsmae 7. Metrisches Messniveau: Deskriptive Statistik 8. bersicht 9. Literatur 3 7 20 26 32 52 61 83 84
Deskriptive Statistik
SPSS-Programmoberflche: Daten-Editor
SPSS-Programmoberflche: Ergebnis-Ausgabe (Viewer)
SPSS-Programmoberflche: Syntax-Editor
bersicht: Phasen der Datenauswertung
Codeplan und Datenmatrix

Bei einer Untersuchung werden von den Untersuchungseinheiten (z.B. Personen, Haushalte, Stdte) die interessierenden Merkmale (Variable) erhoben
Smtliche erhobenen Daten (die Antworten der Befragten auf verschiedene Fragen) knnen in einer Tabelle dargestellt werden werden, deren Zeilen eine Untersuchungseinheit (z.B. Person) und deren Spalten eine Variable (z.B. Antwort auf eine Frage) darstellen Die folgende Folie zeigt eine solche Datenmatrix, die Daten von n Untersuchungseinheiten (z.B. Befragten) mit m Variablen enthlt. Jedes Datum ist nun eindeutig durch die Angabe der Nummer der Untersuchungseinheit und die Angabe der Nummer der Variablen zu bezeichnen
Aus: Schnell/Hill/Esser (1999): Methoden der empirischen Sozialforschung, S. 389

Um eine Datenmenge (z.B. einen Stapel Fragebgen) in die Form einer Datenmatrix zubringen, sind drei Schritte notwendig: 1. Es muss eine Liste aller erhobenen Variablen mit allen mglichen Ausprgungen jeder Variablen erstellt werden, wobei jeder mglichen Ausprgung einer Variablen genau ein Wert (Code) zugewiesen muss (Codeplan, siehe nchste Folien) 2. Die erhobenen Informationen mssen gem dem Codeplan in die zulssigen Codes umgesetzt werden 3. Die codierten Daten sind in eine Datenbank (z.B. SPSS-Dateneditor) einzupflegen
10

Variable alter sex Variablenname Alter in Jahren Angabe verweigert Geschlecht mnnlich weiblich A b verweigert Angabe i t Wohnsituation Wohnen bei den Eltern Wohnen in WG Eigene Wohnung + Alleinleben Eigene Wohnung + Partner Wei nicht Angabe verweigert Bevorzugter TV-Kanal ARD ZDF RTL SAT1 Wei nicht Angabe verweigert Deskriptive Statistik Code -1 1 1 2 99 1 2 3 4 88 99 1 2 3 4 88 99 11
wohnen
kanal

Fehlende Werte knnen aus einer Vielzahl von Grnden auftreten: Antwortverweigerung, Wei nicht-Antworten, nicht valide Antworten, etc. Fehlende Werte sollten mit speziellen Missing-Value-Codes versehen werden die a) den Sachverhalt fehlend werden, fehlend symbolisieren und b) die Ursache beschreiben (z.B. Verweigerung/Wei nicht) Es sollte fr eine Antwortverweigerung bzw. eine Wei-nicht-Antwort immer derselbe Code vergeben werden. Hufig verwendet werden z.B. die Codes 99/88 oder negative Zahlen (z.B. -1) Die Fehlercodes drfen natrlich bei keiner der Variablen einen gltigen Wert darstellen!
12

Die Frage 3 des Beispielfragebogens (Wohnsituation) ist eine geschlossene Frage, da die Antwortmglichkeiten fest vorgegeben sind Frage 4 (Lieblinskanal) ist dagegen eine offene Frage. Um die Antworten bei offenen Fragen auswerten zu knnen, mssen die Antworten auch hier klassifiziert werden Beispiel: Nach Durchsicht aller Antworten der Befragten auf eine offene Frage wird eine Liste aller Antworten und deren Hufigkeit erstellt. h li h / hnliche/vergleichbare l i hb A Antworten t t k knnen ggf. f zu einer i K Kategorie t i zusammengefasst werden Schlielich werden den neu gebildeten Kategorien Zahlen zugeordnet Da die Codierung der Antworten hier viel aufwendiger ist, sollten offene Fragen nur selten verwendet werden
13
Daten- und Variablenansicht

Im SPSS-Programm gibt es zwei Registerkarten: die Daten- und die Variablenansicht Die Datenansicht hat die Struktur einer Datenmatrix. Im Regelfall entspricht jede Zeile einer Untersuchungseinheit (z.B. Person) und jede Spalte einer Variablen In einer Spalte stehen also z.B. alle Antworten der Befragten auf eine spezielle Frage. In einer Zeile sind alle Antworten einer Person auf verschiedene Fragen enthalten Diese Datenstruktur muss allerdings nicht immer gegeben sein. Es besteht die Mglichkeit von Umstrukturierungen, Umstrukturierungen z z.B. B eines Vertauschens von Zeilen mit Spalten (s.u.)
14
15

Fehlende Werte knnen in der Datenmatrix erstens in der Form von Missing-Value-Codes (z.B. 99), die vom Forscher im Codeplan d fi i t werden definiert d oder d als l systemdefiniert t d fi i t fehlende f hl d W Werte t ( (= l leeres Feld in der Datenmatrix) auftauchen:
Systemdefiniert fehlend
Benutzerdefiniert fehlend
Deskriptive Statistik 16
17

In der Registerkarte Variablenansicht sind verschiedene Zusatzinformationen fr jede Variable angegeben, ohne die die Datenansicht nicht interpretiert werden knnte Zunchst kann der Typ einer Variable definiert werden. In der Regel handelt es sich um numerische Variablen (Ausprgungen = Zahlen) Zahlen). Wenn die Ausprgungen einer Variablen Zeichen bzw. Text enthalten (z.B. die Variable Name des Befragten), ist als Variablentyp String auszuwhlen Jeder Variablen kann ein kurzer Variablenname (z.B. alter) und ein ausfhrlicheres Variablenlabel (z.B. (z B Lebensalter in Jahren) zugewiesen werden
18

Den einzelnen Codes (= Werte, die eine Variable bei einer Person annehmen kann) knnen anhand des Codeplans Wertelabels zugewiesen werden. Zum Beispiel erhlt die Variable Geschlecht die Labels 1=mnnlich und 2=weiblich. Zustzlich kann in der Variablenansicht angegeben werden werden, welche Zahlencodes fehlende Werte symbolisieren. Es besteht die Mglichkeit, einzelne (z.B. 99), mehrere (z.B. 88,99) oder einen Bereich fehlender Werte (z.B. (z B 88-99) 88 99) zu definieren definieren. Untersuchungseinheiten Untersuchungseinheiten, die bei einer Variablen einen als fehlend definierten Wert aufweisen, werden aus den Analysen ausgeschlossen! Die Spalten Spaltenformat, Spalten, Ausrichtung und Dezimalstellen haben keine inhaltliche Bedeutung, sondern beziehen sich auf die Optik p der Darstellung g der Daten in der Datenansicht
19
Messniveau
Das Messniveau einer Variablen ist von zentraler Bedeutung dafr, welche statistischen Auswertungsverfahren fr diese Variable sinnvoll bzw. zulssig sind Man unterscheidet zwischen vier Messniveaus (Nominal-, Ordinal-, Intervall- und Verhltnisskala), wobei die Messgenauigkeit bzw. der Informationsgehalt der Daten jeweils ansteigt. Hhere Messniveaus schlieen die Eigenschaften niedrigerer Messniveaus ein. Eine Verhltnisskala hat also auch alle Eigenschaften einer Intervall-, Ordinal- und Nominalskala Die folgende Folie zeigt die Messung des Merkmals Zufriedenheit mit ansteigendem Messniveau. Es sollte immer versucht werden, Daten auf einem mglichst g hohen Messniveau zu erfassen
20
Messniveau
Beispiel: Drei Mglichkeiten der Erfassung von Zufriedenheit Typologie (Nominalskala): 0 = unzufrieden 1 = zufrieden Abgestufte Typologie (Ordinalskala): 0 = sehr unzufrieden 1 = unzufrieden 2 = zufrieden 3 = sehr zufrieden Kontinuierliche Erfassung (Intervall-/Verhltnisskala): Ausma der Zufriedenheit auf einer Skala von 0-100
21
Messniveau
Bei einer Nominalskala, dem niedrigsten Messniveau, handelt es sich lediglich um einen Satz rangmig nicht geordneter Kategorien (Beispiele: Geschlecht, Religionszugehrigkeit, Immatrikulationsnummer) Es sind nur Aussagen ber Gleichheit oder Verschiedenheit eines Merkmals mglich (Mann ungleich Frau, Katholik ungleich Protestant) Die Kategorien sind vollstndig (d.h. schlieen alle Flle ein) und disjunkt (d.h. kein Fall darf in mehr als eine Kategorie gelangen). Personen knnen z.B. entweder mnnlich oder weiblich sein Nominale Variablen knnen beliebig viele Ausprgungen haben haben. Hat eine Variable zwei Ausprgungen, spricht man von einer dichotomen (zweistufigen) Variablen oder Dichotomie, bei mehr als zwei Ausprgungen von einer polytomen (mehrstufigen) Variablen oder Polytomie.
22
Messniveau
Das nchst hhere Messniveau ist die Ordinalskala. Sie hat im Vergleich mit der Nominalskala die zustzliche Eigenschaft, dass die den Merkmalen zugeordneten Zahlen eine Rangreihe reprsentieren (z.B. Schulnoten, sozialer Status) Zum Beispiel ist die Note sehr sehr gut gut besser als die Note gut gut und die Note gut besser als befriedigend usw. Es knnen also zustzlich Aussagen ber Grer/Kleiner-Relationen gemacht werden. Ordinales Messen informiert jedoch nicht ber die Gre der Differenzen zwischen den Kategorien (um wie viel besser ist die Note sehr sehr gut gut gegenber gut?)
23
Messniveau
Wenn es sich um eine Intervallskala handelt, mssen zustzlich die Abstnde zwischen den einzelnen Ausprgungen einer Variablen gleich sein (quidistanz der Intervalle) Intervalle). Zum Beispiel betrgt die Differenz zwischen zwei Lebensjahren genau 12 Monate oder die Differenz zwischen zwei Tagen genau 24 Stunden unabhngig davon, um welches Lebensjahr oder um welche Tage es sich handelt Die Abstnde zwischen den Intervallen (Intervallbreite) und der Nullpunkt der Skala sind bei einer Intervallskala willkrlich (frei whlbar). Zum Beispiel ist der Nullpunkt des Kalenderdatums ber das Geburtsjahr Christi definiert (man knnte es aber auch durch die Geburt Mohammeds definieren) Eine Ratio- bzw. Verhltnisskala hat zustzlich einen absoluten (invarianten Nullpunkt). Zum Beispiel beginnt das Lebensalter mit der Geburt.
24
bersicht Messniveaus
Messniveau (Zustzliche) Eigenschaften Vollstndige und disjunkte Kategorien (Zustzlich) Aussagen mglich i ber Gleichheit / Verschiedenheit der Merkmale Beispiele
Kategoriale Nominalskala Daten Ordinalskala
Geschlecht, Religion, Nationalitt Schulabschluss Zeugnisnoten g Temperatur in Celsius Celsius, Kalenderdatum Alter, Alter Einkommen, Temperatur in Kelvin
25
Merkmale in Rangreihe Grer/Kleinergeordnet g Relationen Gleich groe Abstnde zwischen den Intervallen Skala hat einen definierten Nullpunkt Gleichheit von Differenzen
Metrische Daten
Intervallskala
Ratioskala
Gleichheit von Verhltnissen
Nominalskalenniveau: Hufigkeitsverteilungen
Im Folgenden wird dargestellt, wie Variablen, die a) nominal oder b) ordinal bzw. metrisch skaliert sind, tabellarisch bzw. grafisch dargestellt werden knnen (man spricht hier von deskriptiver Statistik) Im Falle von nominal skalierten Variablen besteht die Aufgabe darin zu untersuchen wie viele Untersuchungseinheiten auf jede untersuchen, Variablenausprgung entfallen (Hufigkeitsverteilung) Eine tabellarische Hufigkeitsverteilung erhlt man in SPSS im Men Analysieren Deskriptive Statistiken Hufigkeiten oder ber den Syntaxbefehl FREQUENCIES [Variablenname]:
26
27
Familienstand Hufigkeit H fi k it 7520 16026 464 2052 26062 Prozent P t 28,9 61,5 1,8 7,9 100,0 Gltige P Prozente t 28,9 61,5 1,8 7,9 100,0 Kumulierte P Prozente t 28,9 90,3 92,1 100,0
Gltig
Ledig Verheiratet Verwitwet Geschieden Gesamt
SPSS-Tabellen sind nicht zum Abdruck in wissenschaftlichen Arbeiten
geeignet; auf der nchsten Folie finden Sie ein Beispiel fr eine schnere Tabelle Hufigkeitsverteilungen knnen darber hinaus (vor allem in Prsentationen) auch grafisch dargestellt werden (Men Grafiken); auch hierzu finden Sie auf der bernchsten Folie ein Beispiel
28
29
70% 60% 50%
GRAPH /BAR(GROUPED) = COUNT BY v329 BY ostwest.
Prozent
40% 30% 20% 10% 0%

Evangelisch Evang. Freikirche Katholisch Andere christl. Religion Nichtchristliche Religion Keine Konfession
Ost
West
30
Ostdeutschland VERHEIRAT. ZUSAM.LEB. VERH. GETRENNT LEBEND VERWITWET GESCHIEDEN LEDIG Westdeutschland VERHEIRAT. ZUSAM.LEB. VERH. GETRENNT LEBEND VERWITWET GESCHIEDEN LEDIG 25,04%
24,89%
58,37% 8,03% 6,67%
59,70%
6 31% 6,31% 7,01% 1,70% 2,28%

Bitte keine Kreisdiagramme verwenden: Knnen Sie rein optisch erkennen, dass es in Westdeutschland weniger Geschiedene und Verwitwete gibt? Dies erkennt man erst, wenn man die zustzlich eingezeichneten Prozentwerte liest. Wenn man die lesen muss, wozu braucht man dann noch ein Diagramm?
Mae der zentralen Tendenz

Bisher haben wir uns angeschaut, wie man Hufigkeitsverteilungen von nominal o a s skalierten a e te Variablen a ab e tabe tabellarisch a sc bzw. b grafisch g a sc da darstellt ste t Diese Darstellungsformen werden bei ordinal bzw. metrisch skalierten Variablen schnell unbersichtlich Daher werden hier zum einen statistische Kennziffern verwendet, um diese Variablen mglichst knapp zu charakterisieren: Mae der zentralen Tendenz (Mittelwerte) und Streuungsmae Zunchst werden nun diese Kennziffern besprochen, bevor auch fr ordinal bzw. metrisch skalierte Variable auf grafische Darstellungsformen eingegangen wird
32

Mae der zentralen Tendenz werden insofern reprsentative Werte genannt, weil sie den typischen, zentralen oder durchschnittlichen Wert einer Verteilung beschreiben Welche Kennziffer jeweils verwendet wird, richtet sich nach dem Messniveau der Daten Eine einfache Mazahl der zentralen Tendenz, die bei jedem Messniveau berechnet werden kann, ist der Modus (abgekrzt mit h) Er ist definiert als der am hufigsten vorkommende Wert einer Verteilung
33

Hier ist der Modus (h) = 4, weil der Wert 4 hufiger vorkommt als jeder andere, nmlich sechsmal
Abs solute W erte e
6 5 4 3 2 1 0 1 00 1,00 2 00 2,00 3 00 3,00

variable
4 00 4,00
5 00 5,00
34

Wenn nebeneinander liegende
Ab bsolute W ert te
Werte gleich hufig auftreten und ihre Hufigkeit grer ist als diejenige anderer Werte, gibt man das d arithmetische ith ti h Mitt Mittel l der d hufigsten Werte als Modus an: In diesem Fall kommen die Werte 7 und 8 je dreimal vor, folglich ist h = 7,5. Bei B i kl klassierten i t ( (gruppierten) i t ) Werten wird die Mitte derjenigen Klasse als Modalwert betrachtet, di die die di grte Hufigkeit H fi k i h hat.
3,0 2,5 2,0 1,5 1,0 0,5 0,0 5,00 6,00 7,00
va riab le2
8,00
9,00
35

Der Median (mode, ~ x ) kennzeichnet im Gegensatz zum Modus die exakte Mitte einer Verteilung, g, deren Realisationen (aufsteigend) ( g ) nach der Gre geordnet sind Der Median einer Verteilung ist also definiert als der Wert einer U t Untersuchungseinheit, h i h it di die genau i in d der Mitt Mitte d der V Verteilung t il li liegt, t di die Anzahl der gltigen Werte also in zwei gleich groe Teile teilt Die Berechnung des Median setzt mindestens ein ordinales Messniveau voraus Die Ermittlung des mittleren Elements einer Verteilung ist bei ungeraden F ll hl unproblematisch: Fallzahlen bl ti h Bei einer Verteilung (N=11): 3, 4, 4, 5, 6, 7, 8, 8, 8, 9, 10 ist der Median = 7 weil ebenso viele Flle unterhalb wie oberhalb des sechsten Falles 7, liegen
36

Liegt dagegen eine gerade Anzahl von Fllen vor, ist der Wert des Median der halbierte Wert der mittleren beiden Flle, d.h. der halbierte Wert des N/2-ten und (N/2+1)-ten Falles: Bei einer Verteilung (N = 10): 3, 4, 4, 5, 6, 7, 7, 8, 8, 9 ist der Median der halbierte Wert des 10/2-ten und des (10/2+1)-ten Falle, Falle also = 6 + 7 / 2 = 6,5 Etwas komplizierter ist die Berechnung des Median fr Verteilungen mit mehrfach vorkommenden mittleren Messwerten. Hier muss angenommen werden, dass sich die Messwerte gleichmig ber die jeweiligen Intervalle verteilen
37

Bei einer Verteilung (N=10): 3, 6, 7, 8, 8, 8, 9, 9, 10, 12 liegt der Median nicht zwischen den mittleren beiden Fllen, also zwischen dem fnften und sechsten Fall, die beide den Wert 8 haben Da unterhalb des fnften Falls ein weiterer Fall mit dem Wert 8 liegt, scheidet 8 als Medianwert aus aus, weil nicht gleich viele Flle unterhalb und oberhalb dieses Wertes liegen Folgende Arbeitstabelle hilft:
38

Messwert (Intervall) xi 3 6 7 8 9 10 12 Exakte Intervallgrenzen Hufigkeit fi 1 1 1 3 2 1 1 N = 10 Kumulierte Hufigkeit fci 1 2 3 6 8 9 10
2.5 3.5 5.5 6.5 6.5 7.5 7 5 8.5 7.5 85 8.5 9.5 9.5 10.5 11.5 12.5
39

Zunchst wird anhand der Tabelle das Intervall identifiziert, in das der Median fllt. Das ist das Intervall mit einer kumulierten Hufigkeit g g gleich oder (nchst) grer als N/2: N/2 = 10/2 = 5. Folglich ist der Median hier in dem von 7.5 bis 8.5 reichenden Intervall zu suchen (sog (sog. Medianintervall oder Eingriffsspielraum) Die kumulierte Hufigkeit dieses Intervall ist 6. Die kumulierte Hufigkeit unterhalb des Eingriffsspielraums g p ist 3. Die Hufigkeit g im Eingriffsspielraum ist ebenfalls 3. D.h., im Eingriffsspielraum liegen der 4., 5. und 6. Fall. Irgendwo zwischen diesen drei Fllen liegt der Median. U Unter t d der A Annahme, h d dass sich i h di die Fll Flle 4 4, 5 und d 6 gleichmig l i h i b ber d das Intervall [7,5-8,5] erstrecken, erhlt man durch lineare Interpolation einen Medianwert 8,17.
40

Die Berechnung erfolgt ber folgende Formel:
~ x =
1 N Fu 2 U + Kb Fm
wobei: U= N= Fu = Fm = Kb =
exakte untere Grenze des Eingriffsspielraums Anzahl der Flle kumulierte Hufigkeit unterhalb des Eingriffspielraums Hufigkeit im Eingriffspielraum Intervallbreite
Fr das Beispiel heit das:
~ x=
1 10 3 2 5 3 1 7 . 5 = + 1 = 8.17 7.5 + 3 3

Die bekannteste Mazahl der zentralen Tendenz einer Verteilung ist der arithmetische Mittelwert (mean, x ), dessen Berechnung metrische Daten voraussetzt Das arithmetische Mittel ist definiert als die Summe der Messwerte (x), definiert durch ihre Anzahl (N):
x=
x1 + x 2 + x3 + ... + x N = i =1 N N
Wenn Werte mehr als einmal vorkommen, kann man sie mit der H fi k it (f) multiplizieren, Hufigkeit lti li i mit it d der sie i vorkommen: k
x=
f1 x1 + f 2 x2 + f 3 x3 + ... + f k xk = N
fx
i =1
i i
42

Als Beispiel sei folgende Verteilung gegeben (N=8): 6, 7, 7, 8, 8, 8, 9, 9
x = 1(6) + 2(7) + 3(8) + 2(9) = 62 = 7.75

8 8
Liegen klassierte Daten vor, werden die Klassenmitten bei der zu Klassenintervallen gleicher Breite zusammengefassten Verteilung als Messwerte betrachtet Dahinter steckt die vereinfachende Annahme Annahme, dass sich die Messwerte eines Klassenintervalls in der Mitte des Intervalls konzentrieren
43

Keiner der Mittelwerte ist einem anderen in jeder Hinsicht berlegen und sollte universell verwendet werden Jeder reflektiert viel mehr einen anderen Aspekt einer Verteilung Der Modus gibt Aufschluss ber die grte Hufigkeit, der Median ber die mittlere Position und das arithmetische Mittel ber die Zentralitt der Werte Die Mae der zentralen Tendenz haben jedoch spezielle Eigenschaften Eigenschaften, die mit der Form einer Verteilung zusammenhngen Ist eine Verteilung unimodal und exakt symmetrisch (sog. Normalverteilung), fallen Modus, Median und arithmetisches Mittel zusammen, sind also identisch
44

Bei unimodalen rechtsschiefen (linkssteilen) Verteilungen besteht folgende Beziehung zwischen den Mittelwerten: Modus < Median < Arithmetisches Mittel Bei linksschiefen (rechtssteilen) Verteilungen lautet die Beziehung: Arithmetisches Mittel < Median < Modus Die wichtigste Schlussfolgerung daraus lautet: Der arithmetische Mittelwert reagiert strker auf Ausreier / Extremwerte als Median und Modus! Auf den nchsten Folien sind die genannten Eigenschaften der Mae der zentralen Tendenz dargestellt dargestellt, wobei die vertikale y y-Achse Achse fr die Hufigkeit und die horizontale x-Achse fr eine mindestens ordinal skalierte Variable steht
45
Aus: Benninghaus (1998): Deskriptive Statistik, S. 50
46
47
48

Mae der zentralen Tendenz in SPSS: Analysieren Deskriptive
Statistik Hufigkeiten Dialogfeld Statistik
49

Mae der zentralen Tendenz in SPSS: Syntaxbefehle Anforderung Hufigkeitsverteilung zustzlich: Modus zustzlich: Median zustzlich: arithtm. Mittelwert Befehl FREQ alter /STATISTICS = MODE /STATISTICS = MEDIAN /STATISTICS = MEAN
50
Streuungsmae
Mittelwerte informieren zwar ber die zentrale Tendenz einer Verteilung, geben aber keinen Aufschluss ber die Homogenitt bzw. Heterogenitt der Variablenwerte; hierzu bentigt man Streuungsmae Die nchsten Folien zeigen zwei Verteilungen der Zeit bis zum Eintreffen eines Taxis nach dem Anruf Bei beiden Taxiunternehmen betrgt der arithmetische Mittelwert der Wartezeit etwa 7 Minuten nach Magabe dieser Kennziffer gibt es also keinen wesentlichen Unterschied
51
Streuungsmae
Die Streuung der Verteilungen ist aber sehr unterschiedlich: bei Unternehmen A gruppieren sich die Wartezeiten viel enger um den Mittelwert als bei Unternehmen B Im Schnitt wartet man also bei beiden Unternehmen 7 Minuten, bis das Taxi kommt Bei Unternehmen B kommt es jedoch relativ zu A hufiger vor, dass extrem kurze (z.B. 2 Minuten) oder extrem lange (z.B. 14 Minuten) Wartezeiten auftreten Gesucht sind nun Mazahlen, die diesen Unterschied in den Streuungen der Verteilungen beschreiben knnen
52
Streuungsmae
Wartezeiten fr zwei Taxiunternehmen
140 120 Anzah hl Anrufe 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Minuten
Unternehmen A
Streuungsmae
70 60 An nzahl Anrufe 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 M inuten
Unternehmen B
Streuungsmae
Das einfachste Streuungsma ist der Range (abgekrzt R); definiert als die Differenz zwischen dem grten und dem kleinsten Messwert einer Verteilung:
R = x max x min
Der Range kann fr ein ordinales und metrisches Messniveau berechnet werden Bei klassierten Daten wird die Differenz zwischen den Mitten der beiden extremen Klassenintervalle berechnet Im Beispiel: R(A) = 10 - 5 = 5 Minuten und R(B) = 13 2 = 11 Minuten Der Nachteil des Range g besteht darin, dass er lediglich g auf den beiden Extremwerten einer Verteilung basiert und nichts ber sie Streuung der brigen Werte aussagt
55
Streuungsmae
Das gebruchlichste Streuungsma ist die Standardabweichung (s), definiert als die Quadratwurzel aus der Varianz (s), die ihrerseits definiert ist als die durch die Anzahl der Messwerte (N) geteilte Summe der quadrierten Abweichungen aller Messwerte von ihrem arithmetischen Mittel:
s =

(x
i =1
x )
s=
(x
i
x )
Varianz und Standardabweichungen setzen (streng genommen) ein metrisches Messniveau voraus Zur Berechnung der beiden Kennwerte fr das Unternehmen B aus dem Beispiel ist folgende Arbeitstabelle hilfreich:
56
Streuungsmae
Messwert (xi)
2 3 4 5 6 7 8 9 10 11 12 13 Summe
Hufigkeit (fi)
5 8 15 35 45 55 65 40 30 15 2 1 316
Abweichung vom Mittelwert
Quadrat der Abweichung
Hufigkeit* Abweichungsquadrat
140.45 147.92 163 35 163.35 185.15 76.05 4.95 31.85 115.60 218.70 205.35 44 18 44.18 32.49 1366.04
(xi-
x)
-5.3 -4.3 -3.3 33 -2.3 -1.3 -0.3 0.7 1.7 2.7 3.7 47 4.7 5.7
(xi-
x)
28.09 18.49 10 89 10.89 5.29 1.69 0.09 0.49 2.89 7.29 13.69 22 09 22.09 32.49
57
Streuungsmae
Fr die Messwerte von Taxiunternehmen B ergeben sich dann folgende Varianz (s) und Standardabweichung (s):
s =
f (x
i =1 i
x )
1366.04 = = 4.32 316
s = 4.32 = 2.08
Fhrt man dieselbe Prozedur fr Unternehmen A durch, kommt man auf eine Standardabweichung von s = 0,87. Die Standardabweichung fr Taxiunternehmen B betrgt also ca. ca 2 Minuten. Minuten Bei Taxiunternehmen A liegt sie dagegen unter einer Minute In der deskriptiven p Statistik ist die Standardabweichung g der Varianz vorzuziehen, weil sie ein Kennwert in der Einheit der zugrunde liegenden Messwerte ist (Minuten anstatt Minuten)
58
Streuungsmae
Analysieren Deskriptive Statistik Hufigkeiten Men Statistik
59

Streuungsmae in SPSS: Syntaxbefehle Anforderung Hufigkeitsverteilung zustzlich: Range zustzlich: Varianz Befehl FREQ alter /STATISTICS = RANGE /STATISTICS = VARIANCE
zustzlich: Standardabweichung g /STATISTICS = STDDEV
60
Metrisches Messniveau: Deskriptive Statistik

Im Folgenden wird behandelt, wie man metrische Variable tabellarisch und grafisch darstellen kann (univariat bzw. in Abhngigkeit von Ausprgungen einer Drittvariablen) Auf den nchsten Folien sind als Beispiel Mittelwerttabellen inklusive Standardabweichungen (SD) dargestellt Die Kirchgangshufigkeit wird dabei auf einer 6-fach abgestuften Skala von 1 = ber 1x die Woche bis 6 = nie gemessen Um diese Mittelwerte und Streuungsmae in SPSS gemeinsam anzufordern, gibt es neben den schon behandelten noch zwei weitere Mens (bernchste Folien)
61
62

In der quantitativen
Forschung o sc u g ist st es b blich c und guter Stil, vor den multivariaten Regressionsanalysen die verwendeten Variablen deskriptiv darzustellen (hier ein Beispiel; die Mittelwerte der nominal skalierten Variablen (z.B. (z B In In education) sind als Anteilswerte zu interpretieren)
63

Zusammenfassende deskriptive Statistik: Analysieren Deskriptive
Statistik Deskriptive Statistik
DESCRIPTIVES VARIABLES = alter /STATISTICS=MEAN STDDEV MIN MAX.
64

Analysieren Mittelwerte vergleichen Mittelwerte:
MEANS TABLES= kgang BY v329 /CELLS MEAN COUNT STDDEV .
65

Bei der grafischen Darstellungen einer oder mehrerer metrischer Variablen kann man auf Balkendiagramme, Histogramme oder Box-Plots zurckgreifen Bei Histogrammen besteht im Unterschied zu Balkendiagrammen die Mglichkeit metrische Variable gruppiert (z Mglichkeit, (z.B. B das Alter in 5-JahresGruppen) anzeigen zu lassen (siehe das Beispiel nchste Folie) Fr die einander berhrenden Balken des Histogramms gilt das Prinzip der Flchentreue, d.h., die Flche des Balkens (das Produkt aus Balkenhhe und Balkenbreite) ist proportional zur Hufigkeit einer Klasse Die Hhe der Balken entspricht dann der Hufigkeitsdichte (relative Hufigkeit einer Klasse dividiert durch die Klassenbreite).
66

60 250
50 200 40
Hufigkeit
Hufigkeit
150
30
100 20
10
50
0
18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 92
0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
Alter
Alter
Normales Balkendiagramm
Histogramm, Klassenbreite 5
67

Mit Histogrammen oder Balkendiagrammen kann man im Gegensatz z.B. zum Mittelwert die Verteilungsform beurteilen Man unterscheidet u.a. zwischen symmetrischen, links- oder rechtsschiefen, u-frmigen, steilen oder flachen, uni- oder bimodalen Verteilungen Auf den nchsten 3 Folien finden sich hierzu jeweils Beispiele Daran anschlieend sind Liniendiagramme dargestellt dargestellt, auf denen der Mittelwert der Kirchgangshufigkeit (y-Achse) ber eine metrische Variable (Erhebungsjahr) dargestellt ist (Quelle: Kumulierter Allbus 19802008) In einem weiteren Diagramm sind zustzlich 95%-Konfidenzintervalle der Mittelwerte eingezeichnet g
68

50 40
40 30
Hu ufigkeit
30
Hu ufigkeit
1,00 2,00 3,00 4,00 5,00
20
20
10 10
0 1,00 2,00 3,00 4,00 5,00
rechtssteil (linksschief)
linkssteil (rechtsschief)
69
Hu ufigkeit
Hu ufigkeit
1,00 2,00 3,00 4,00 5,00
2 2
0 2,00 4,00 6,00 8,00
u_frmig
bimodal
70
10
Hu ufigkeit
Hu ufigkeit
1,00 2,00 3,00 4,00 5,00
0 1,00 2,00 3,00 4,00 5,00
steil
flach
71

GRAPH /LINE(MULTIPLE) MEAN(kgang) BY periode BY ow.
3,50
Mittelwerte e Kirchgangsh ufigkeit
3,00
2,50
2,00
1,50
80 82 84 86 88 90 91 92 94 96 98 00 02 04 06 08
Erhebungsjahr
Ost
West
72

3,50
Mittlere K Kirchgangshufigkeit
3,00
GRAPH /LINE(MULTIPLE) ( ) MEAN(kgang) BY periode BY ow /INTERVAL CI( ( 95). )
2,50
2,00
1,50
80 82 84 86 88 90 91 92 94 96 98 00 02 04 06 08
Erhebungsjahr
Ost
West
73

Die Erstellung von sog. Box-Plots bietet sich dann an, wenn die Verteilung einer metrischen Variablen fr verschiedene Ausprgungen einer kategorialen Variablen verglichen werden soll Ein Beispiel wre die Einkommensverteilung im Vergleich zwischen Mnnern und Frauen Auf der nchsten Folie ist ein Beispiel dargestellt Die Lage des mittleren Teils einer Verteilung wird durch einen Kasten Kasten, eine Box, symbolisiert Die Grenzen der Box entsprechen p dem sog. g 25%-Quartil ( (untere Grenze) und dem 75%-Quartil (obere Grenze)
74

7500 7000 6500 6000
Haushaltsn nettoeinkommen
5500 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0
EXAMINE VARIABLES= hhnetto BY ow /PLOT=BOXPLOT /STATISTICS = NONE/NOTOTAL.
Ost
West
75

Innerhalb der Box ist ein mittlerer Wert eingezeichnet, der mit dem 50%Quartil (Median) der Verteilung zusammenfllt Die Box wird durch zwei Linien (whiskers) verlngert, deren Endpunkte durch den kleinsten und grten Wert einer Verteilung definiert sind, falls die Lnge des whiskers nicht das 1,5-fache 1 5 fache der Boxlnge bersteigt Auerhalb der whiskers liegende Werte sind in der Form von Punkten als Ausreier gekennzeichnet (Extremwerte ggf. zustzlich mit Sternen)
76

An dieser Stelle sei ein weiteres Streuungsma fr ordinales und metrisches Messniveau nachgetragen: der Interquartilsabstand Hierbei handelt es sich um den Abstand zwischen dem 1. (25%) Quartil und dem 3. (75%) Quartil einer Verteilung Da im Gegensatz zum Range nur die inneren 50 Prozent der Verteilung bercksichtigt werden, ist das Ma gegen einzelne stark abweichende Datenwerte resistent Im Boxplot entspricht der Interquartilsabstand der Lnge der Box im Boxplot, die ja die mittleren 50% der Verteilung reprsentiert Alternativ knnen die Quartile der Verteilung im Men Analysieren Deskriptive Statistiken - Hufigkeiten Statistik angefordert werden
77
78

In der Gruppe Single betrgt der Interquartilsabstand: 4 4,0 03,0 = 1,0
250 8 3,5000 3,0000 3 5000 3,5000 4,0000 313 5 3,7500 3,0000 3 7500 3,7500 4,2500
Statistiken Emotionaler Heiratsnutzen Single N Gltig Fehlend Median Perzentile 25 50 75 LAT N Gltig Fehlend Median Perzentile 25 50 75
In der Gruppe LAT betrgt er: 4,25 - 3,0 = 1,25 In der Gruppe LAT streut die Verteilung also strker um den Median als in der SingleGruppe
79

Abschlieend noch zwei Negativbeispiele: Hufig wird der Fehler gemacht, metrisch (bzw. ordinal) skalierte Variable mit Hilfe eines Balkendiagramms darzustellen (siehe nchste Folie) Diese Diagramme sind aber praktisch nicht interpretierbar: Ostdeutsche haben Kategorie 7 ein bisschen hufiger angekreuzt angekreuzt, dafr aber ein bisschen seltener Kategorie 6 und ein bisschen seltener Kategorie 1. Den Ost-West-Unterschied (sollte es einen geben) erkennt man nur anhand des arithmetischen Mittelwertes, der in Ost 5,8 betrgt und in West 5,7 Innerhalb der Wissenschaft sollten Diagramme ferner mglichst sachlich und bersichtlich sein; bitte keine 3D-Diagramme oder sonstigen unntigen Schnickschnack verwenden
80

So bitte nicht, Teil 1:
40 0% 40,0%
30,0%
Prozent
20,0%
10,0%
0,0%
UNWICHTIG
SEHR WICHTIG
Wi wichtig Wie i hti i ist t Ih Ihnen Ph Phantasie t i und dK Kreativitt? ti itt?
Ost
West
81

So bitte nicht, Teil 2:
40,0%
30,0%
Proze ent
20,0%
10,0%
0,0%
UNWICHTIG
SEHR WICHTIG
Wi wichtig Wie i hti i ist t Ih Ihnen Ph Phantasie t i und dK Kreativitt? ti itt?
Ost
West
82
bersicht: Mae der zentralen Tendenz / Streuungsmae
Mae der zentralen Tendenz Nominal Modus
Streuungsmae
Ordinal Metrisch
Modus, Median Modus, Median Modus Median, arithmetischer Mittelwert
Range, R Interquartilsabstand Range, Interquartilsabstand, Standardabweichung, Varianz
83
Literatur
Bennighaus, H. (2007): Deskriptive Statistik: Eine Einfhrung fr Sozialwissenschaftler 11 Sozialwissenschaftler. 11. Auflage Auflage. Wiesbaden: VS . Mller-Benedict, V. (2006): Grundkurs Statistik in den Sozialwissenschaften. Wiesbaden: VS . Khnel / Krebs (2001): Statistik fr die Sozialwissenschaften. Reinbek: Rowohlt (S. 25-103).
84

Deskriptive Statistik

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Deskriptive Statistik

Hochgeladen von

Copyright:

Verfügbare Formate

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.

Deskriptive Statistik (in SPSS)

Stand: Mrz 2010

SPSS-Programmoberflche: Ergebnis-Ausgabe (Viewer)

bersicht: Phasen der Datenauswertung

Codeplan und Datenmatrix

Codeplan und Datenmatrix

Aus: Schnell/Hill/Esser (1999): Methoden der empirischen Sozialforschung, S. 389

Codeplan und Datenmatrix

Codeplan und Datenmatrix

Codeplan und Datenmatrix

Codeplan und Datenmatrix

Codeplan und Datenmatrix

Daten- und Variablenansicht

Daten- und Variablenansicht

Daten- und Variablenansicht

Daten- und Variablenansicht

Daten- und Variablenansicht

Daten- und Variablenansicht

Kategoriale Nominalskala Daten Ordinalskala

Gleichheit von Verhltnissen

Ledig Verheiratet Verwitwet Geschieden Gesamt

SPSS-Tabellen sind nicht zum Abdruck in wissenschaftlichen Arbeiten

GRAPH /BAR(GROUPED) = COUNT BY v329 BY ostwest.

40% 30% 20% 10% 0%

58,37% 8,03% 6,67%

6 31% 6,31% 7,01% 1,70% 2,28%

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

6 5 4 3 2 1 0 1 00 1,00 2 00 2,00 3 00 3,00

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Fr das Beispiel heit das:

Mae der zentralen Tendenz

Mae der zentralen Tendenz

x = 1(6) + 2(7) + 3(8) + 2(9) = 62 = 7.75

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Mae der zentralen Tendenz

Aus: Benninghaus (1998): Deskriptive Statistik, S. 50

Mae der zentralen Tendenz

Aus: Benninghaus (1998): Deskriptive Statistik, S. 50

Mae der zentralen Tendenz

Aus: Benninghaus (1998): Deskriptive Statistik, S. 50

Mae der zentralen Tendenz

Statistik Hufigkeiten Dialogfeld Statistik

Mae der zentralen Tendenz

140 120 Anzah hl Anrufe 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Minuten

Abweichung vom Mittelwert

Quadrat der Abweichung

1366.04 = = 4.32 316

Mae der zentralen Tendenz

zustzlich: Standardabweichung g /STATISTICS = STDDEV

Metrisches Messniveau: Deskriptive Statistik

Metrisches Messniveau: Deskriptive Statistik

Metrisches Messniveau: Deskriptive Statistik

Metrisches Messniveau: Deskriptive Statistik