Sie sind auf Seite 1von 84

Institut fr Soziologie Professur fr empirische Sozialforschung Prof Dr Prof. Dr. Johannes Kopp Dr.

Daniel Lois

Deskriptive Statistik (in SPSS)

Stand: Mrz 2010

Inhaltsverzeichnis
1. SPSS-Programmoberflche 2. Codeplan und Datenmatrix 3. Messniveaus 4. Nominalskalenniveau: Hufigkeitsverteilungen g g 5. Mae der zentralen Tendenz 6. Streuungsmae 7. Metrisches Messniveau: Deskriptive Statistik 8. bersicht 9. Literatur 3 7 20 26 32 52 61 83 84

Deskriptive Statistik

SPSS-Programmoberflche: Daten-Editor

Deskriptive Statistik

SPSS-Programmoberflche: Ergebnis-Ausgabe (Viewer)

Deskriptive Statistik

SPSS-Programmoberflche: Syntax-Editor

Deskriptive Statistik

bersicht: Phasen der Datenauswertung

Deskriptive Statistik

Codeplan und Datenmatrix


Bei einer Untersuchung werden von den Untersuchungseinheiten (z.B. Personen, Haushalte, Stdte) die interessierenden Merkmale (Variable) erhoben
Smtliche erhobenen Daten (die Antworten der Befragten auf verschiedene Fragen) knnen in einer Tabelle dargestellt werden werden, deren Zeilen eine Untersuchungseinheit (z.B. Person) und deren Spalten eine Variable (z.B. Antwort auf eine Frage) darstellen Die folgende Folie zeigt eine solche Datenmatrix, die Daten von n Untersuchungseinheiten (z.B. Befragten) mit m Variablen enthlt. Jedes Datum ist nun eindeutig durch die Angabe der Nummer der Untersuchungseinheit und die Angabe der Nummer der Variablen zu bezeichnen

Deskriptive Statistik

Codeplan und Datenmatrix

Aus: Schnell/Hill/Esser (1999): Methoden der empirischen Sozialforschung, S. 389

Deskriptive Statistik

Codeplan und Datenmatrix


Um eine Datenmenge (z.B. einen Stapel Fragebgen) in die Form einer Datenmatrix zubringen, sind drei Schritte notwendig: 1. Es muss eine Liste aller erhobenen Variablen mit allen mglichen Ausprgungen jeder Variablen erstellt werden, wobei jeder mglichen Ausprgung einer Variablen genau ein Wert (Code) zugewiesen muss (Codeplan, siehe nchste Folien) 2. Die erhobenen Informationen mssen gem dem Codeplan in die zulssigen Codes umgesetzt werden 3. Die codierten Daten sind in eine Datenbank (z.B. SPSS-Dateneditor) einzupflegen

Deskriptive Statistik

Codeplan und Datenmatrix

Deskriptive Statistik

10

Codeplan und Datenmatrix


Variable alter sex Variablenname Alter in Jahren Angabe verweigert Geschlecht mnnlich weiblich A b verweigert Angabe i t Wohnsituation Wohnen bei den Eltern Wohnen in WG Eigene Wohnung + Alleinleben Eigene Wohnung + Partner Wei nicht Angabe verweigert Bevorzugter TV-Kanal ARD ZDF RTL SAT1 Wei nicht Angabe verweigert Deskriptive Statistik Code -1 1 1 2 99 1 2 3 4 88 99 1 2 3 4 88 99 11

wohnen

kanal

Codeplan und Datenmatrix


Fehlende Werte knnen aus einer Vielzahl von Grnden auftreten: Antwortverweigerung, Wei nicht-Antworten, nicht valide Antworten, etc. Fehlende Werte sollten mit speziellen Missing-Value-Codes versehen werden die a) den Sachverhalt fehlend werden, fehlend symbolisieren und b) die Ursache beschreiben (z.B. Verweigerung/Wei nicht) Es sollte fr eine Antwortverweigerung bzw. eine Wei-nicht-Antwort immer derselbe Code vergeben werden. Hufig verwendet werden z.B. die Codes 99/88 oder negative Zahlen (z.B. -1) Die Fehlercodes drfen natrlich bei keiner der Variablen einen gltigen Wert darstellen!

Deskriptive Statistik

12

Codeplan und Datenmatrix


Die Frage 3 des Beispielfragebogens (Wohnsituation) ist eine geschlossene Frage, da die Antwortmglichkeiten fest vorgegeben sind Frage 4 (Lieblinskanal) ist dagegen eine offene Frage. Um die Antworten bei offenen Fragen auswerten zu knnen, mssen die Antworten auch hier klassifiziert werden Beispiel: Nach Durchsicht aller Antworten der Befragten auf eine offene Frage wird eine Liste aller Antworten und deren Hufigkeit erstellt. h li h / hnliche/vergleichbare l i hb A Antworten t t k knnen ggf. f zu einer i K Kategorie t i zusammengefasst werden Schlielich werden den neu gebildeten Kategorien Zahlen zugeordnet Da die Codierung der Antworten hier viel aufwendiger ist, sollten offene Fragen nur selten verwendet werden

Deskriptive Statistik

13

Daten- und Variablenansicht


Im SPSS-Programm gibt es zwei Registerkarten: die Daten- und die Variablenansicht Die Datenansicht hat die Struktur einer Datenmatrix. Im Regelfall entspricht jede Zeile einer Untersuchungseinheit (z.B. Person) und jede Spalte einer Variablen In einer Spalte stehen also z.B. alle Antworten der Befragten auf eine spezielle Frage. In einer Zeile sind alle Antworten einer Person auf verschiedene Fragen enthalten Diese Datenstruktur muss allerdings nicht immer gegeben sein. Es besteht die Mglichkeit von Umstrukturierungen, Umstrukturierungen z z.B. B eines Vertauschens von Zeilen mit Spalten (s.u.)

Deskriptive Statistik

14

Daten- und Variablenansicht

Deskriptive Statistik

15

Daten- und Variablenansicht


Fehlende Werte knnen in der Datenmatrix erstens in der Form von Missing-Value-Codes (z.B. 99), die vom Forscher im Codeplan d fi i t werden definiert d oder d als l systemdefiniert t d fi i t fehlende f hl d W Werte t ( (= l leeres Feld in der Datenmatrix) auftauchen:

Systemdefiniert fehlend

Benutzerdefiniert fehlend
Deskriptive Statistik 16

Daten- und Variablenansicht

Deskriptive Statistik

17

Daten- und Variablenansicht


In der Registerkarte Variablenansicht sind verschiedene Zusatzinformationen fr jede Variable angegeben, ohne die die Datenansicht nicht interpretiert werden knnte Zunchst kann der Typ einer Variable definiert werden. In der Regel handelt es sich um numerische Variablen (Ausprgungen = Zahlen) Zahlen). Wenn die Ausprgungen einer Variablen Zeichen bzw. Text enthalten (z.B. die Variable Name des Befragten), ist als Variablentyp String auszuwhlen Jeder Variablen kann ein kurzer Variablenname (z.B. alter) und ein ausfhrlicheres Variablenlabel (z.B. (z B Lebensalter in Jahren) zugewiesen werden

Deskriptive Statistik

18

Daten- und Variablenansicht


Den einzelnen Codes (= Werte, die eine Variable bei einer Person annehmen kann) knnen anhand des Codeplans Wertelabels zugewiesen werden. Zum Beispiel erhlt die Variable Geschlecht die Labels 1=mnnlich und 2=weiblich. Zustzlich kann in der Variablenansicht angegeben werden werden, welche Zahlencodes fehlende Werte symbolisieren. Es besteht die Mglichkeit, einzelne (z.B. 99), mehrere (z.B. 88,99) oder einen Bereich fehlender Werte (z.B. (z B 88-99) 88 99) zu definieren definieren. Untersuchungseinheiten Untersuchungseinheiten, die bei einer Variablen einen als fehlend definierten Wert aufweisen, werden aus den Analysen ausgeschlossen! Die Spalten Spaltenformat, Spalten, Ausrichtung und Dezimalstellen haben keine inhaltliche Bedeutung, sondern beziehen sich auf die Optik p der Darstellung g der Daten in der Datenansicht

Deskriptive Statistik

19

Messniveau
Das Messniveau einer Variablen ist von zentraler Bedeutung dafr, welche statistischen Auswertungsverfahren fr diese Variable sinnvoll bzw. zulssig sind Man unterscheidet zwischen vier Messniveaus (Nominal-, Ordinal-, Intervall- und Verhltnisskala), wobei die Messgenauigkeit bzw. der Informationsgehalt der Daten jeweils ansteigt. Hhere Messniveaus schlieen die Eigenschaften niedrigerer Messniveaus ein. Eine Verhltnisskala hat also auch alle Eigenschaften einer Intervall-, Ordinal- und Nominalskala Die folgende Folie zeigt die Messung des Merkmals Zufriedenheit mit ansteigendem Messniveau. Es sollte immer versucht werden, Daten auf einem mglichst g hohen Messniveau zu erfassen

Deskriptive Statistik

20

Messniveau
Beispiel: Drei Mglichkeiten der Erfassung von Zufriedenheit Typologie (Nominalskala): 0 = unzufrieden 1 = zufrieden Abgestufte Typologie (Ordinalskala): 0 = sehr unzufrieden 1 = unzufrieden 2 = zufrieden 3 = sehr zufrieden Kontinuierliche Erfassung (Intervall-/Verhltnisskala): Ausma der Zufriedenheit auf einer Skala von 0-100

Deskriptive Statistik

21

Messniveau
Bei einer Nominalskala, dem niedrigsten Messniveau, handelt es sich lediglich um einen Satz rangmig nicht geordneter Kategorien (Beispiele: Geschlecht, Religionszugehrigkeit, Immatrikulationsnummer) Es sind nur Aussagen ber Gleichheit oder Verschiedenheit eines Merkmals mglich (Mann ungleich Frau, Katholik ungleich Protestant) Die Kategorien sind vollstndig (d.h. schlieen alle Flle ein) und disjunkt (d.h. kein Fall darf in mehr als eine Kategorie gelangen). Personen knnen z.B. entweder mnnlich oder weiblich sein Nominale Variablen knnen beliebig viele Ausprgungen haben haben. Hat eine Variable zwei Ausprgungen, spricht man von einer dichotomen (zweistufigen) Variablen oder Dichotomie, bei mehr als zwei Ausprgungen von einer polytomen (mehrstufigen) Variablen oder Polytomie.

Deskriptive Statistik

22

Messniveau
Das nchst hhere Messniveau ist die Ordinalskala. Sie hat im Vergleich mit der Nominalskala die zustzliche Eigenschaft, dass die den Merkmalen zugeordneten Zahlen eine Rangreihe reprsentieren (z.B. Schulnoten, sozialer Status) Zum Beispiel ist die Note sehr sehr gut gut besser als die Note gut gut und die Note gut besser als befriedigend usw. Es knnen also zustzlich Aussagen ber Grer/Kleiner-Relationen gemacht werden. Ordinales Messen informiert jedoch nicht ber die Gre der Differenzen zwischen den Kategorien (um wie viel besser ist die Note sehr sehr gut gut gegenber gut?)

Deskriptive Statistik

23

Messniveau
Wenn es sich um eine Intervallskala handelt, mssen zustzlich die Abstnde zwischen den einzelnen Ausprgungen einer Variablen gleich sein (quidistanz der Intervalle) Intervalle). Zum Beispiel betrgt die Differenz zwischen zwei Lebensjahren genau 12 Monate oder die Differenz zwischen zwei Tagen genau 24 Stunden unabhngig davon, um welches Lebensjahr oder um welche Tage es sich handelt Die Abstnde zwischen den Intervallen (Intervallbreite) und der Nullpunkt der Skala sind bei einer Intervallskala willkrlich (frei whlbar). Zum Beispiel ist der Nullpunkt des Kalenderdatums ber das Geburtsjahr Christi definiert (man knnte es aber auch durch die Geburt Mohammeds definieren) Eine Ratio- bzw. Verhltnisskala hat zustzlich einen absoluten (invarianten Nullpunkt). Zum Beispiel beginnt das Lebensalter mit der Geburt.

Deskriptive Statistik

24

bersicht Messniveaus
Messniveau (Zustzliche) Eigenschaften Vollstndige und disjunkte Kategorien (Zustzlich) Aussagen mglich i ber Gleichheit / Verschiedenheit der Merkmale Beispiele

Kategoriale Nominalskala Daten Ordinalskala

Geschlecht, Religion, Nationalitt Schulabschluss Zeugnisnoten g Temperatur in Celsius Celsius, Kalenderdatum Alter, Alter Einkommen, Temperatur in Kelvin
25

Merkmale in Rangreihe Grer/Kleinergeordnet g Relationen Gleich groe Abstnde zwischen den Intervallen Skala hat einen definierten Nullpunkt Gleichheit von Differenzen

Metrische Daten

Intervallskala

Ratioskala

Gleichheit von Verhltnissen

Deskriptive Statistik

Nominalskalenniveau: Hufigkeitsverteilungen
Im Folgenden wird dargestellt, wie Variablen, die a) nominal oder b) ordinal bzw. metrisch skaliert sind, tabellarisch bzw. grafisch dargestellt werden knnen (man spricht hier von deskriptiver Statistik) Im Falle von nominal skalierten Variablen besteht die Aufgabe darin zu untersuchen wie viele Untersuchungseinheiten auf jede untersuchen, Variablenausprgung entfallen (Hufigkeitsverteilung) Eine tabellarische Hufigkeitsverteilung erhlt man in SPSS im Men Analysieren Deskriptive Statistiken Hufigkeiten oder ber den Syntaxbefehl FREQUENCIES [Variablenname]:

Deskriptive Statistik

26

Nominalskalenniveau: Hufigkeitsverteilungen

Deskriptive Statistik

27

Nominalskalenniveau: Hufigkeitsverteilungen
Familienstand Hufigkeit H fi k it 7520 16026 464 2052 26062 Prozent P t 28,9 61,5 1,8 7,9 100,0 Gltige P Prozente t 28,9 61,5 1,8 7,9 100,0 Kumulierte P Prozente t 28,9 90,3 92,1 100,0

Gltig

Ledig Verheiratet Verwitwet Geschieden Gesamt

SPSS-Tabellen sind nicht zum Abdruck in wissenschaftlichen Arbeiten

geeignet; auf der nchsten Folie finden Sie ein Beispiel fr eine schnere Tabelle Hufigkeitsverteilungen knnen darber hinaus (vor allem in Prsentationen) auch grafisch dargestellt werden (Men Grafiken); auch hierzu finden Sie auf der bernchsten Folie ein Beispiel

Deskriptive Statistik

28

Nominalskalenniveau: Hufigkeitsverteilungen

Deskriptive Statistik

29

Nominalskalenniveau: Hufigkeitsverteilungen
70% 60% 50%

GRAPH /BAR(GROUPED) = COUNT BY v329 BY ostwest.

Prozent

40% 30% 20% 10% 0%


Evangelisch Evang. Freikirche Katholisch Andere christl. Religion Nichtchristliche Religion Keine Konfession

Ost

West

Deskriptive Statistik

30

Nominalskalenniveau: Hufigkeitsverteilungen
Ostdeutschland VERHEIRAT. ZUSAM.LEB. VERH. GETRENNT LEBEND VERWITWET GESCHIEDEN LEDIG Westdeutschland VERHEIRAT. ZUSAM.LEB. VERH. GETRENNT LEBEND VERWITWET GESCHIEDEN LEDIG 25,04%

24,89%

58,37% 8,03% 6,67%

59,70%

6 31% 6,31% 7,01% 1,70% 2,28%

Bitte keine Kreisdiagramme verwenden: Knnen Sie rein optisch erkennen, dass es in Westdeutschland weniger Geschiedene und Verwitwete gibt? Dies erkennt man erst, wenn man die zustzlich eingezeichneten Prozentwerte liest. Wenn man die lesen muss, wozu braucht man dann noch ein Diagramm?
Deskriptive Statistik 31

Mae der zentralen Tendenz


Bisher haben wir uns angeschaut, wie man Hufigkeitsverteilungen von nominal o a s skalierten a e te Variablen a ab e tabe tabellarisch a sc bzw. b grafisch g a sc da darstellt ste t Diese Darstellungsformen werden bei ordinal bzw. metrisch skalierten Variablen schnell unbersichtlich Daher werden hier zum einen statistische Kennziffern verwendet, um diese Variablen mglichst knapp zu charakterisieren: Mae der zentralen Tendenz (Mittelwerte) und Streuungsmae Zunchst werden nun diese Kennziffern besprochen, bevor auch fr ordinal bzw. metrisch skalierte Variable auf grafische Darstellungsformen eingegangen wird

Deskriptive Statistik

32

Mae der zentralen Tendenz


Mae der zentralen Tendenz werden insofern reprsentative Werte genannt, weil sie den typischen, zentralen oder durchschnittlichen Wert einer Verteilung beschreiben Welche Kennziffer jeweils verwendet wird, richtet sich nach dem Messniveau der Daten Eine einfache Mazahl der zentralen Tendenz, die bei jedem Messniveau berechnet werden kann, ist der Modus (abgekrzt mit h) Er ist definiert als der am hufigsten vorkommende Wert einer Verteilung

Deskriptive Statistik

33

Mae der zentralen Tendenz


Hier ist der Modus (h) = 4, weil der Wert 4 hufiger vorkommt als jeder andere, nmlich sechsmal
Abs solute W erte e

6 5 4 3 2 1 0 1 00 1,00 2 00 2,00 3 00 3,00


variable

4 00 4,00

5 00 5,00

Deskriptive Statistik

34

Mae der zentralen Tendenz


Wenn nebeneinander liegende

Ab bsolute W ert te

Werte gleich hufig auftreten und ihre Hufigkeit grer ist als diejenige anderer Werte, gibt man das d arithmetische ith ti h Mitt Mittel l der d hufigsten Werte als Modus an: In diesem Fall kommen die Werte 7 und 8 je dreimal vor, folglich ist h = 7,5. Bei B i kl klassierten i t ( (gruppierten) i t ) Werten wird die Mitte derjenigen Klasse als Modalwert betrachtet, di die die di grte Hufigkeit H fi k i h hat.

3,0 2,5 2,0 1,5 1,0 0,5 0,0 5,00 6,00 7,00
va riab le2

8,00

9,00

Deskriptive Statistik

35

Mae der zentralen Tendenz


Der Median (mode, ~ x ) kennzeichnet im Gegensatz zum Modus die exakte Mitte einer Verteilung, g, deren Realisationen (aufsteigend) ( g ) nach der Gre geordnet sind Der Median einer Verteilung ist also definiert als der Wert einer U t Untersuchungseinheit, h i h it di die genau i in d der Mitt Mitte d der V Verteilung t il li liegt, t di die Anzahl der gltigen Werte also in zwei gleich groe Teile teilt Die Berechnung des Median setzt mindestens ein ordinales Messniveau voraus Die Ermittlung des mittleren Elements einer Verteilung ist bei ungeraden F ll hl unproblematisch: Fallzahlen bl ti h Bei einer Verteilung (N=11): 3, 4, 4, 5, 6, 7, 8, 8, 8, 9, 10 ist der Median = 7 weil ebenso viele Flle unterhalb wie oberhalb des sechsten Falles 7, liegen

Deskriptive Statistik

36

Mae der zentralen Tendenz


Liegt dagegen eine gerade Anzahl von Fllen vor, ist der Wert des Median der halbierte Wert der mittleren beiden Flle, d.h. der halbierte Wert des N/2-ten und (N/2+1)-ten Falles: Bei einer Verteilung (N = 10): 3, 4, 4, 5, 6, 7, 7, 8, 8, 9 ist der Median der halbierte Wert des 10/2-ten und des (10/2+1)-ten Falle, Falle also = 6 + 7 / 2 = 6,5 Etwas komplizierter ist die Berechnung des Median fr Verteilungen mit mehrfach vorkommenden mittleren Messwerten. Hier muss angenommen werden, dass sich die Messwerte gleichmig ber die jeweiligen Intervalle verteilen

Deskriptive Statistik

37

Mae der zentralen Tendenz


Bei einer Verteilung (N=10): 3, 6, 7, 8, 8, 8, 9, 9, 10, 12 liegt der Median nicht zwischen den mittleren beiden Fllen, also zwischen dem fnften und sechsten Fall, die beide den Wert 8 haben Da unterhalb des fnften Falls ein weiterer Fall mit dem Wert 8 liegt, scheidet 8 als Medianwert aus aus, weil nicht gleich viele Flle unterhalb und oberhalb dieses Wertes liegen Folgende Arbeitstabelle hilft:

Deskriptive Statistik

38

Mae der zentralen Tendenz


Messwert (Intervall) xi 3 6 7 8 9 10 12 Exakte Intervallgrenzen Hufigkeit fi 1 1 1 3 2 1 1 N = 10 Kumulierte Hufigkeit fci 1 2 3 6 8 9 10

2.5 3.5 5.5 6.5 6.5 7.5 7 5 8.5 7.5 85 8.5 9.5 9.5 10.5 11.5 12.5

Deskriptive Statistik

39

Mae der zentralen Tendenz


Zunchst wird anhand der Tabelle das Intervall identifiziert, in das der Median fllt. Das ist das Intervall mit einer kumulierten Hufigkeit g g gleich oder (nchst) grer als N/2: N/2 = 10/2 = 5. Folglich ist der Median hier in dem von 7.5 bis 8.5 reichenden Intervall zu suchen (sog (sog. Medianintervall oder Eingriffsspielraum) Die kumulierte Hufigkeit dieses Intervall ist 6. Die kumulierte Hufigkeit unterhalb des Eingriffsspielraums g p ist 3. Die Hufigkeit g im Eingriffsspielraum ist ebenfalls 3. D.h., im Eingriffsspielraum liegen der 4., 5. und 6. Fall. Irgendwo zwischen diesen drei Fllen liegt der Median. U Unter t d der A Annahme, h d dass sich i h di die Fll Flle 4 4, 5 und d 6 gleichmig l i h i b ber d das Intervall [7,5-8,5] erstrecken, erhlt man durch lineare Interpolation einen Medianwert 8,17.

Deskriptive Statistik

40

Mae der zentralen Tendenz


Die Berechnung erfolgt ber folgende Formel:

~ x =

1 N Fu 2 U + Kb Fm

wobei: U= N= Fu = Fm = Kb =

exakte untere Grenze des Eingriffsspielraums Anzahl der Flle kumulierte Hufigkeit unterhalb des Eingriffspielraums Hufigkeit im Eingriffspielraum Intervallbreite

Fr das Beispiel heit das:

~ x=

1 10 3 2 5 3 1 7 . 5 = + 1 = 8.17 7.5 + 3 3
Deskriptive Statistik 41

Mae der zentralen Tendenz


Die bekannteste Mazahl der zentralen Tendenz einer Verteilung ist der arithmetische Mittelwert (mean, x ), dessen Berechnung metrische Daten voraussetzt Das arithmetische Mittel ist definiert als die Summe der Messwerte (x), definiert durch ihre Anzahl (N):

x=

x1 + x 2 + x3 + ... + x N = i =1 N N

Wenn Werte mehr als einmal vorkommen, kann man sie mit der H fi k it (f) multiplizieren, Hufigkeit lti li i mit it d der sie i vorkommen: k

x=

f1 x1 + f 2 x2 + f 3 x3 + ... + f k xk = N

fx
i =1

i i

Deskriptive Statistik

42

Mae der zentralen Tendenz


Als Beispiel sei folgende Verteilung gegeben (N=8): 6, 7, 7, 8, 8, 8, 9, 9

x = 1(6) + 2(7) + 3(8) + 2(9) = 62 = 7.75


8 8
Liegen klassierte Daten vor, werden die Klassenmitten bei der zu Klassenintervallen gleicher Breite zusammengefassten Verteilung als Messwerte betrachtet Dahinter steckt die vereinfachende Annahme Annahme, dass sich die Messwerte eines Klassenintervalls in der Mitte des Intervalls konzentrieren

Deskriptive Statistik

43

Mae der zentralen Tendenz


Keiner der Mittelwerte ist einem anderen in jeder Hinsicht berlegen und sollte universell verwendet werden Jeder reflektiert viel mehr einen anderen Aspekt einer Verteilung Der Modus gibt Aufschluss ber die grte Hufigkeit, der Median ber die mittlere Position und das arithmetische Mittel ber die Zentralitt der Werte Die Mae der zentralen Tendenz haben jedoch spezielle Eigenschaften Eigenschaften, die mit der Form einer Verteilung zusammenhngen Ist eine Verteilung unimodal und exakt symmetrisch (sog. Normalverteilung), fallen Modus, Median und arithmetisches Mittel zusammen, sind also identisch

Deskriptive Statistik

44

Mae der zentralen Tendenz


Bei unimodalen rechtsschiefen (linkssteilen) Verteilungen besteht folgende Beziehung zwischen den Mittelwerten: Modus < Median < Arithmetisches Mittel Bei linksschiefen (rechtssteilen) Verteilungen lautet die Beziehung: Arithmetisches Mittel < Median < Modus Die wichtigste Schlussfolgerung daraus lautet: Der arithmetische Mittelwert reagiert strker auf Ausreier / Extremwerte als Median und Modus! Auf den nchsten Folien sind die genannten Eigenschaften der Mae der zentralen Tendenz dargestellt dargestellt, wobei die vertikale y y-Achse Achse fr die Hufigkeit und die horizontale x-Achse fr eine mindestens ordinal skalierte Variable steht

Deskriptive Statistik

45

Mae der zentralen Tendenz

Aus: Benninghaus (1998): Deskriptive Statistik, S. 50

Deskriptive Statistik

46

Mae der zentralen Tendenz

Aus: Benninghaus (1998): Deskriptive Statistik, S. 50

Deskriptive Statistik

47

Mae der zentralen Tendenz

Aus: Benninghaus (1998): Deskriptive Statistik, S. 50

Deskriptive Statistik

48

Mae der zentralen Tendenz


Mae der zentralen Tendenz in SPSS: Analysieren Deskriptive

Statistik Hufigkeiten Dialogfeld Statistik

Deskriptive Statistik

49

Mae der zentralen Tendenz


Mae der zentralen Tendenz in SPSS: Syntaxbefehle Anforderung Hufigkeitsverteilung zustzlich: Modus zustzlich: Median zustzlich: arithtm. Mittelwert Befehl FREQ alter /STATISTICS = MODE /STATISTICS = MEDIAN /STATISTICS = MEAN

Deskriptive Statistik

50

Streuungsmae
Mittelwerte informieren zwar ber die zentrale Tendenz einer Verteilung, geben aber keinen Aufschluss ber die Homogenitt bzw. Heterogenitt der Variablenwerte; hierzu bentigt man Streuungsmae Die nchsten Folien zeigen zwei Verteilungen der Zeit bis zum Eintreffen eines Taxis nach dem Anruf Bei beiden Taxiunternehmen betrgt der arithmetische Mittelwert der Wartezeit etwa 7 Minuten nach Magabe dieser Kennziffer gibt es also keinen wesentlichen Unterschied

Deskriptive Statistik

51

Streuungsmae
Die Streuung der Verteilungen ist aber sehr unterschiedlich: bei Unternehmen A gruppieren sich die Wartezeiten viel enger um den Mittelwert als bei Unternehmen B Im Schnitt wartet man also bei beiden Unternehmen 7 Minuten, bis das Taxi kommt Bei Unternehmen B kommt es jedoch relativ zu A hufiger vor, dass extrem kurze (z.B. 2 Minuten) oder extrem lange (z.B. 14 Minuten) Wartezeiten auftreten Gesucht sind nun Mazahlen, die diesen Unterschied in den Streuungen der Verteilungen beschreiben knnen

Deskriptive Statistik

52

Streuungsmae
Wartezeiten fr zwei Taxiunternehmen

140 120 Anzah hl Anrufe 100 80 60 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Minuten

Unternehmen A
Deskriptive Statistik 53

Streuungsmae
70 60 An nzahl Anrufe 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 M inuten

Unternehmen B
Deskriptive Statistik 54

Streuungsmae
Das einfachste Streuungsma ist der Range (abgekrzt R); definiert als die Differenz zwischen dem grten und dem kleinsten Messwert einer Verteilung:

R = x max x min
Der Range kann fr ein ordinales und metrisches Messniveau berechnet werden Bei klassierten Daten wird die Differenz zwischen den Mitten der beiden extremen Klassenintervalle berechnet Im Beispiel: R(A) = 10 - 5 = 5 Minuten und R(B) = 13 2 = 11 Minuten Der Nachteil des Range g besteht darin, dass er lediglich g auf den beiden Extremwerten einer Verteilung basiert und nichts ber sie Streuung der brigen Werte aussagt

Deskriptive Statistik

55

Streuungsmae
Das gebruchlichste Streuungsma ist die Standardabweichung (s), definiert als die Quadratwurzel aus der Varianz (s), die ihrerseits definiert ist als die durch die Anzahl der Messwerte (N) geteilte Summe der quadrierten Abweichungen aller Messwerte von ihrem arithmetischen Mittel:

s =

(x
i =1

x )
s=

(x
i

x )

Varianz und Standardabweichungen setzen (streng genommen) ein metrisches Messniveau voraus Zur Berechnung der beiden Kennwerte fr das Unternehmen B aus dem Beispiel ist folgende Arbeitstabelle hilfreich:

Deskriptive Statistik

56

Streuungsmae
Messwert (xi)
2 3 4 5 6 7 8 9 10 11 12 13 Summe

Hufigkeit (fi)
5 8 15 35 45 55 65 40 30 15 2 1 316

Abweichung vom Mittelwert

Quadrat der Abweichung

Hufigkeit* Abweichungsquadrat
140.45 147.92 163 35 163.35 185.15 76.05 4.95 31.85 115.60 218.70 205.35 44 18 44.18 32.49 1366.04

(xi-

x)
-5.3 -4.3 -3.3 33 -2.3 -1.3 -0.3 0.7 1.7 2.7 3.7 47 4.7 5.7

(xi-

x)
28.09 18.49 10 89 10.89 5.29 1.69 0.09 0.49 2.89 7.29 13.69 22 09 22.09 32.49

Deskriptive Statistik

57

Streuungsmae
Fr die Messwerte von Taxiunternehmen B ergeben sich dann folgende Varianz (s) und Standardabweichung (s):

s =

f (x
i =1 i

x )

1366.04 = = 4.32 316

s = 4.32 = 2.08

Fhrt man dieselbe Prozedur fr Unternehmen A durch, kommt man auf eine Standardabweichung von s = 0,87. Die Standardabweichung fr Taxiunternehmen B betrgt also ca. ca 2 Minuten. Minuten Bei Taxiunternehmen A liegt sie dagegen unter einer Minute In der deskriptiven p Statistik ist die Standardabweichung g der Varianz vorzuziehen, weil sie ein Kennwert in der Einheit der zugrunde liegenden Messwerte ist (Minuten anstatt Minuten)

Deskriptive Statistik

58

Streuungsmae
Analysieren Deskriptive Statistik Hufigkeiten Men Statistik

Deskriptive Statistik

59

Mae der zentralen Tendenz


Streuungsmae in SPSS: Syntaxbefehle Anforderung Hufigkeitsverteilung zustzlich: Range zustzlich: Varianz Befehl FREQ alter /STATISTICS = RANGE /STATISTICS = VARIANCE

zustzlich: Standardabweichung g /STATISTICS = STDDEV

Deskriptive Statistik

60

Metrisches Messniveau: Deskriptive Statistik


Im Folgenden wird behandelt, wie man metrische Variable tabellarisch und grafisch darstellen kann (univariat bzw. in Abhngigkeit von Ausprgungen einer Drittvariablen) Auf den nchsten Folien sind als Beispiel Mittelwerttabellen inklusive Standardabweichungen (SD) dargestellt Die Kirchgangshufigkeit wird dabei auf einer 6-fach abgestuften Skala von 1 = ber 1x die Woche bis 6 = nie gemessen Um diese Mittelwerte und Streuungsmae in SPSS gemeinsam anzufordern, gibt es neben den schon behandelten noch zwei weitere Mens (bernchste Folien)

Deskriptive Statistik

61

Metrisches Messniveau: Deskriptive Statistik

Deskriptive Statistik

62

Metrisches Messniveau: Deskriptive Statistik


In der quantitativen

Forschung o sc u g ist st es b blich c und guter Stil, vor den multivariaten Regressionsanalysen die verwendeten Variablen deskriptiv darzustellen (hier ein Beispiel; die Mittelwerte der nominal skalierten Variablen (z.B. (z B In In education) sind als Anteilswerte zu interpretieren)

Deskriptive Statistik

63

Metrisches Messniveau: Deskriptive Statistik


Zusammenfassende deskriptive Statistik: Analysieren Deskriptive

Statistik Deskriptive Statistik

DESCRIPTIVES VARIABLES = alter /STATISTICS=MEAN STDDEV MIN MAX.

Deskriptive Statistik

64

Metrisches Messniveau: Deskriptive Statistik


Analysieren Mittelwerte vergleichen Mittelwerte:

MEANS TABLES= kgang BY v329 /CELLS MEAN COUNT STDDEV .

Deskriptive Statistik

65

Metrisches Messniveau: Deskriptive Statistik


Bei der grafischen Darstellungen einer oder mehrerer metrischer Variablen kann man auf Balkendiagramme, Histogramme oder Box-Plots zurckgreifen Bei Histogrammen besteht im Unterschied zu Balkendiagrammen die Mglichkeit metrische Variable gruppiert (z Mglichkeit, (z.B. B das Alter in 5-JahresGruppen) anzeigen zu lassen (siehe das Beispiel nchste Folie) Fr die einander berhrenden Balken des Histogramms gilt das Prinzip der Flchentreue, d.h., die Flche des Balkens (das Produkt aus Balkenhhe und Balkenbreite) ist proportional zur Hufigkeit einer Klasse Die Hhe der Balken entspricht dann der Hufigkeitsdichte (relative Hufigkeit einer Klasse dividiert durch die Klassenbreite).

Deskriptive Statistik

66

Metrisches Messniveau: Deskriptive Statistik


60 250

50 200 40
Hufigkeit
Hufigkeit

150

30

100 20

10

50

0
18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 92

0
15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

Alter

Alter

Normales Balkendiagramm

Histogramm, Klassenbreite 5

Deskriptive Statistik

67

Metrisches Messniveau: Deskriptive Statistik


Mit Histogrammen oder Balkendiagrammen kann man im Gegensatz z.B. zum Mittelwert die Verteilungsform beurteilen Man unterscheidet u.a. zwischen symmetrischen, links- oder rechtsschiefen, u-frmigen, steilen oder flachen, uni- oder bimodalen Verteilungen Auf den nchsten 3 Folien finden sich hierzu jeweils Beispiele Daran anschlieend sind Liniendiagramme dargestellt dargestellt, auf denen der Mittelwert der Kirchgangshufigkeit (y-Achse) ber eine metrische Variable (Erhebungsjahr) dargestellt ist (Quelle: Kumulierter Allbus 19802008) In einem weiteren Diagramm sind zustzlich 95%-Konfidenzintervalle der Mittelwerte eingezeichnet g

Deskriptive Statistik

68

Metrisches Messniveau: Deskriptive Statistik


50 40

40 30

Hu ufigkeit

30

Hu ufigkeit
1,00 2,00 3,00 4,00 5,00

20

20

10 10

0 1,00 2,00 3,00 4,00 5,00

rechtssteil (linksschief)

linkssteil (rechtsschief)

Deskriptive Statistik

69

Metrisches Messniveau: Deskriptive Statistik

Hu ufigkeit

Hu ufigkeit
1,00 2,00 3,00 4,00 5,00

2 2

0 2,00 4,00 6,00 8,00

u_frmig

bimodal

Deskriptive Statistik

70

Metrisches Messniveau: Deskriptive Statistik

10

Hu ufigkeit

Hu ufigkeit
1,00 2,00 3,00 4,00 5,00

0 1,00 2,00 3,00 4,00 5,00

steil

flach

Deskriptive Statistik

71

Metrisches Messniveau: Deskriptive Statistik


GRAPH /LINE(MULTIPLE) MEAN(kgang) BY periode BY ow.

3,50

Mittelwerte e Kirchgangsh ufigkeit

3,00

2,50

2,00

1,50
80 82 84 86 88 90 91 92 94 96 98 00 02 04 06 08

Erhebungsjahr

Ost

West

Deskriptive Statistik

72

Metrisches Messniveau: Deskriptive Statistik


3,50

Mittlere K Kirchgangshufigkeit

3,00

GRAPH /LINE(MULTIPLE) ( ) MEAN(kgang) BY periode BY ow /INTERVAL CI( ( 95). )

2,50

2,00

1,50
80 82 84 86 88 90 91 92 94 96 98 00 02 04 06 08

Erhebungsjahr

Ost

West

Deskriptive Statistik

73

Metrisches Messniveau: Deskriptive Statistik


Die Erstellung von sog. Box-Plots bietet sich dann an, wenn die Verteilung einer metrischen Variablen fr verschiedene Ausprgungen einer kategorialen Variablen verglichen werden soll Ein Beispiel wre die Einkommensverteilung im Vergleich zwischen Mnnern und Frauen Auf der nchsten Folie ist ein Beispiel dargestellt Die Lage des mittleren Teils einer Verteilung wird durch einen Kasten Kasten, eine Box, symbolisiert Die Grenzen der Box entsprechen p dem sog. g 25%-Quartil ( (untere Grenze) und dem 75%-Quartil (obere Grenze)

Deskriptive Statistik

74

Metrisches Messniveau: Deskriptive Statistik


7500 7000 6500 6000

Haushaltsn nettoeinkommen

5500 5000 4500 4000 3500 3000 2500 2000 1500 1000 500 0

EXAMINE VARIABLES= hhnetto BY ow /PLOT=BOXPLOT /STATISTICS = NONE/NOTOTAL.

Ost

West

Deskriptive Statistik

75

Metrisches Messniveau: Deskriptive Statistik


Innerhalb der Box ist ein mittlerer Wert eingezeichnet, der mit dem 50%Quartil (Median) der Verteilung zusammenfllt Die Box wird durch zwei Linien (whiskers) verlngert, deren Endpunkte durch den kleinsten und grten Wert einer Verteilung definiert sind, falls die Lnge des whiskers nicht das 1,5-fache 1 5 fache der Boxlnge bersteigt Auerhalb der whiskers liegende Werte sind in der Form von Punkten als Ausreier gekennzeichnet (Extremwerte ggf. zustzlich mit Sternen)

Deskriptive Statistik

76

Metrisches Messniveau: Deskriptive Statistik


An dieser Stelle sei ein weiteres Streuungsma fr ordinales und metrisches Messniveau nachgetragen: der Interquartilsabstand Hierbei handelt es sich um den Abstand zwischen dem 1. (25%) Quartil und dem 3. (75%) Quartil einer Verteilung Da im Gegensatz zum Range nur die inneren 50 Prozent der Verteilung bercksichtigt werden, ist das Ma gegen einzelne stark abweichende Datenwerte resistent Im Boxplot entspricht der Interquartilsabstand der Lnge der Box im Boxplot, die ja die mittleren 50% der Verteilung reprsentiert Alternativ knnen die Quartile der Verteilung im Men Analysieren Deskriptive Statistiken - Hufigkeiten Statistik angefordert werden

Deskriptive Statistik

77

Metrisches Messniveau: Deskriptive Statistik

Deskriptive Statistik

78

Metrisches Messniveau: Deskriptive Statistik


In der Gruppe Single betrgt der Interquartilsabstand: 4 4,0 03,0 = 1,0
250 8 3,5000 3,0000 3 5000 3,5000 4,0000 313 5 3,7500 3,0000 3 7500 3,7500 4,2500

Statistiken Emotionaler Heiratsnutzen Single N Gltig Fehlend Median Perzentile 25 50 75 LAT N Gltig Fehlend Median Perzentile 25 50 75

In der Gruppe LAT betrgt er: 4,25 - 3,0 = 1,25 In der Gruppe LAT streut die Verteilung also strker um den Median als in der SingleGruppe

Deskriptive Statistik

79

Metrisches Messniveau: Deskriptive Statistik


Abschlieend noch zwei Negativbeispiele: Hufig wird der Fehler gemacht, metrisch (bzw. ordinal) skalierte Variable mit Hilfe eines Balkendiagramms darzustellen (siehe nchste Folie) Diese Diagramme sind aber praktisch nicht interpretierbar: Ostdeutsche haben Kategorie 7 ein bisschen hufiger angekreuzt angekreuzt, dafr aber ein bisschen seltener Kategorie 6 und ein bisschen seltener Kategorie 1. Den Ost-West-Unterschied (sollte es einen geben) erkennt man nur anhand des arithmetischen Mittelwertes, der in Ost 5,8 betrgt und in West 5,7 Innerhalb der Wissenschaft sollten Diagramme ferner mglichst sachlich und bersichtlich sein; bitte keine 3D-Diagramme oder sonstigen unntigen Schnickschnack verwenden

Deskriptive Statistik

80

Metrisches Messniveau: Deskriptive Statistik


So bitte nicht, Teil 1:
40 0% 40,0%

30,0%

Prozent

20,0%

10,0%

0,0%

UNWICHTIG

SEHR WICHTIG

Wi wichtig Wie i hti i ist t Ih Ihnen Ph Phantasie t i und dK Kreativitt? ti itt?

Ost

West

Deskriptive Statistik

81

Metrisches Messniveau: Deskriptive Statistik


So bitte nicht, Teil 2:

40,0%

30,0%

Proze ent

20,0%

10,0%

0,0%

UNWICHTIG

SEHR WICHTIG

Wi wichtig Wie i hti i ist t Ih Ihnen Ph Phantasie t i und dK Kreativitt? ti itt?

Ost

West

Deskriptive Statistik

82

bersicht: Mae der zentralen Tendenz / Streuungsmae

Mae der zentralen Tendenz Nominal Modus

Streuungsmae

Ordinal Metrisch

Modus, Median Modus, Median Modus Median, arithmetischer Mittelwert

Range, R Interquartilsabstand Range, Interquartilsabstand, Standardabweichung, Varianz

Deskriptive Statistik

83

Literatur
Bennighaus, H. (2007): Deskriptive Statistik: Eine Einfhrung fr Sozialwissenschaftler 11 Sozialwissenschaftler. 11. Auflage Auflage. Wiesbaden: VS . Mller-Benedict, V. (2006): Grundkurs Statistik in den Sozialwissenschaften. Wiesbaden: VS . Khnel / Krebs (2001): Statistik fr die Sozialwissenschaften. Reinbek: Rowohlt (S. 25-103).

Deskriptive Statistik

84