Sie sind auf Seite 1von 50

Statistik I

Thema: Univariate Deskriptivstatistik


nominal- und ordinalskalierter Variablen

Tobias Koch
Psychologische Hochschule Berlin
Sommersemester 2019
Mittwoch 12-14 Uhr (c.t.)
Literatur
Kapitel 6.1-6.3 aus

Eid, M., Gollwitzer, M. & Schmitt, M.


(2015, 4. Aufl.). Statistik und
Forschungsmethoden. Weinheim:
Beltz.

Koch | Statistik I & 2


Leitfragen der heutigen Vorlesung
1. Was versteht man unter einer Häufigkeitsverteilung eines Merkmals?
2. Was ist eine Datenmatrix?
3. Wie kann man die Verteilung eines Merkmals grafisch
veranschaulichen?
4. Was sind Lagemaße?
5. Wozu braucht man Streuungsmaße?

Koch | Statistik I & 3


Univariate Deskriptivstatistik
nominalskalierter Variablen

Koch | Statistik I & 4


Wichtige Konzepte
• Nominalskalierte Variablen
• Datenmatrix
• Häufigkeitsverteilung (absolute vs. relative Häufigkeiten)
• Darstellung von Häufigkeitsverteilungen
• Säulendiagramm, Kreisdiagramm, Balkendiagramm
• Kennwerte von Verteilungen
• Lagemaß (Modus)
• Dispersionsmaß (relativer Informationsgehalt)

Koch | Statistik I & 5


Nominalskalierte Variablen
• Merkmalsausprägungen sind Namen oder Kategorien oder Zahlen, die
weder eine Ordnung aufweisen, noch eine quantitative Bedeutung
haben.
• Beispiele:
• Klassifikationen affektiver Störungen (z. B. Manie, Depression, …)
• Person A: Manie, Person B: Depression
• Erlauben Aussagen über die Verschiedenartigkeit von
Merkmalsträgern.

Koch | Statistik I & 6


Nominalskalierte Variablen
• Klassifikation von Objekten
• Klassifikationsmerkmal: Gleichheit vs. Verschiedenheit
• Die Zuordnung von Werten (z. B. Zahlen) ist beliebig, sofern in
bezug auf das Merkmal gleiche Personen gleiche Werte und
merkmalsverschiedene Personen verschiedene Werte erhalten.
• Personen müssen einer Merkmalsklasse, dürfen aber auch nur einer
Merkmalsklasse angehören.

Koch | Statistik I & 7


Datenmatrix
• System von 𝑛 " 𝑝 Messwerten

• Index m steht für Merkmalsträger


wobei 𝑚 = {1, … , 𝑚, … , 𝑛} oder
𝑚 ∈ {1, … , 𝑛}

• Index i steht für Merkmale wobei


𝑖 = {1, … , 𝑖, … , 𝑝} oder i ∈ {1, … , 𝑝}

Koch | Statistik I & 8


Urliste von Beobachtungen
• Ungeordnete Liste von
Merkmalsausprägungen

• Beispiel: Liste von Personen mit


verschiedenen
Persönlichkeitsstörungen, die
einem Monat in der Reihenfolge
des Erscheinens registriert
wurden

Koch | Statistik I & 9


Häufigkeitsverteilung
tabellarische Darstellung

• Weiterer Index j für die


Merkmalsausprägung
notwendig
• Beispiel: Paranoide PS
𝑛- = 2

Koch | Statistik I & 10


Summenzeichen
• Beispiel: Absolute Häufigkeit nj
• j: Index zur Nummerierung der Merkmalsausprägungen
• k: Anzahl der Merkmalsausprägungen
• nj: Anzahl der Untersuchungsobjekte (z. B. Personen) mit
Merkmalsausprägung aj (absolute Häufigkeit)
• n: Gesamtanzahl der Untersuchungsobjekte
• Beispiel: Absolute Häufigkeit nj mit k = 9
2
/ 𝑛0 = 𝑛 = 24
01-

Koch | Statistik I & 11


Absolute und relative Häufigkeit
Prozentwerte
Absolute Häufigkeit nj
• 𝑛0 : Anzahl der Untersuchungsobjekte (z. B. Personen) mit Merkmalsausprägung 𝑎𝑗
Relative Häufigkeit 𝒉𝒋
• ℎ𝑗 ∶= 𝑛𝑗/𝑛
• 𝑛𝑗: Anzahl der Untersuchungsobjekte mit Merkmalsausprägung aj
• 𝑛: Gesamtanzahl der Untersuchungsobjekte
Prozentwerte

• %𝑗 ∶ = ℎ𝑗 " 100%

Koch | Statistik I & 12


Säulendiagramm

Koch | Statistik I & 13


Kreisdiagramm
• Die Flächen der Kreissektoren sind
proportional zu den Häufigkeiten.
• Winkel des Kreissektors j: hj ·360°

Koch | Statistik I & 14


Balkendiagramm

Koch | Statistik I & 15


Kennwerte von Verteilungen:
zentrale Tendenz (Lagemaße)
Kennwerte (Maßzahlen, Parameter) der zentralen Tendenz
• kennzeichnen das Zentrum einer Verteilung
• durchschnittlicher Messwert (Mittelwert)
• mittlerer Messwert (Median)
• typischer Messwert (Modus)

Koch | Statistik I & 16


Modus: Kennwert der zentralen Tendenz
• Der Modus (Modalwert) ist die Merkmalsausprägung, die am
häufigsten vorkommt.
• Er wird üblicherweise mit Mo oder xmod symbolisiert.
• Ein Modus kann nicht eindeutig bestimmt werden, wenn mehrere
Kategorien gleich häufig besetzt sind.

Koch | Statistik I & 17


Beispiel: Modus
• Der Modalwert ist Dissoziale
Persönlichkeitsstörung:
• Mo = Dissoziale PS bzw. Mo
=3

Modus

Koch | Statistik I & 18


Achtung! Fehlerquelle!
• Im vorliegenden Fall ist der Modalwert Dissoziale Persönlichkeitsstörung:
Mo = Dissoziale Persönlichkeitsstörung,
da dieser Wert am häufigsten vorkommt.
• Studierende machen häufig den Fehler, die Häufigkeit als Modalwert
anzugeben, im vorliegenden Fall also Mo = 6. Das ist jedoch falsch!
• Der Modalwert ist der Wert der Variablen (die Merkmalsausprägung)
und nicht der Wert der Häufigkeit!

Koch | Statistik I & 19


Dispersionsmaße (Streuungsmaße)
• Wie stark streuen Werte?
• Wie stark unterscheiden sich Personen?
• Wie homogen ist eine untersuchte Gruppe von Personen in Bezug auf
ein Merkmal?
• Streuungsmaße (Dispersionsmaße)

Koch | Statistik I & 20


Häufigkeitsverteilung
• Die Dispersion soll
angeben, wie sich die
Merkmalsträger über
die Kategorien
ausbreiten oder
konzentrieren

Koch | Statistik I & 21


Dispersion (Streuung) bei Nominalskalen
Immer, wenn ich erscheine,
• Relativer Informationsgehalt 𝐻 heißt das:
• Ich mag diese Formel !
• Ich kann Sie anwenden !
-
𝐻 = − ?@ A " ∑A01- ℎ0 " lnℎ0 • Ich weiß, was sie bedeutet !
• Ich muß sie nicht auswendig
lernen !

• hj: relative Häufigkeit einer Merkmalsausprägung aj


• ln: logarithmus naturalis (natürlicher Logarithmus)
• k: Anzahl der Kategorien (Merkmalsausprägungen)
• Im Falle hj = 0 wird gesetzt: 0·ln0 = 0 (da ln0 nicht definiert ist).
• Wertebereich von H=[0;1]
Koch | Statistik I & 22
Dispersion (Streuung) bei Nominalskalen

A
1
𝐻=− " / ℎ0 " lnℎ0
ln 𝑘
01-

1
𝐻=− " −1.85
ln 9

𝐻 = −0.455 " −1.85 = 0.84

Der relative Informationsgehalt


beträgt H=0.84.

Koch | Statistik I & 23


Univariate Deskriptivstatistik
ordinalskalierter Variablen

Koch | Statistik I & 24


Wichtige Konzepte
• Typen ordinalskalierter Variablen
• Singuläre Daten
• Variablen mit geordneten Kategorien
• Singuläre Daten mit Rangbindungen (verbundene Ränge)
• Verteilung
• Kumulierte Häufigkeit, Prozentrang
• Lagemaß: Median
• Dispersionsmaß: Empirischer Interquartilsbereich
Koch | Statistik I & 25
Ordinalskalierte Variablen
Singuläre Daten
• Bei singulären Daten kommt jeder beobachtete Wert nur einmal vor.
• Beispiel: Rangordnung Marathonlauf Berlin

Variablen mit geordneten Kategorien


• Personen oder Objekten werden vorgegebenen Kategorien
zugeordnet
• Beispiel: «nicht fröhlich», «etwas fröhlich», «sehr fröhlich»

Koch | Statistik I & 26


Singuläre Daten: Rangplatz
Rangplatz Rm:
• Platznummer eines Objektes, wenn man die Objekte der Größe nach
ordnet (Rangordnung):
• Dem kleinsten Wert wird der Wert 1, dem zweitkleinsten der Wert 2,
dem drittkleinsten der Wert 3 etc. zugeordnet.

Koch | Statistik I & 27


Singuläre Daten: verbundene Ränge
verbundene Ränge (Rangbindungen):
• Mehrere Personen teilen sich einen Rangplatz.
• Übliches Vorgehen bei Rangbindungen:
• Die für eine Bindungsgruppe in Frage kommenden Ränge werden gemittelt.
• Jedem Objekt einer Bindungsgruppe dieser mittlere Rang (midrank) zugewiesen wird.

Koch | Statistik I & 28


Prozentrang
• Ohne Rangbindung:
𝑅L
𝑃𝑅L = " 100
𝑛

• Der Prozentrang gibt den prozentualen Anteil der gemessenen


Objekte (hier: Personen) an, die einen Wert haben, der kleiner oder
gleich dem Messwert xm (hier: einer Person) ist.

• Der Prozentrang spielt in der Psychodiagnostik eine große Rolle.

Koch | Statistik I & 29


Prozentrang
• Prozentrangwerte erlauben oft eine bessere Interpretation als
Rangplätze.
• Es macht einen Unterschied, ob man beim Berlin-Marathon als 20.
angekommen ist (Rangplatz 20), wenn 200 Personen
(Prozentrangwert 10%) oder 2000 Personen (Prozentrangwert 1%)
teilgenommen haben. Im ersten Fall gehört man zu den 10 % der
schnellsten Läufer, im zweiten Fall zu dem 1 % der schnellsten Läufer.

Koch | Statistik I & 30


Kategoriale Daten mit geordneten Kategorien
Beispiel: Vorgegebene ordinalskalierte Variable:
• Item aus der Satisfaction-with-Life Scale (SWLS, Diener, Emmons,
Larsen & Griffin, 1985)
• «I am satisfied with my life »
• 1 – strongly disagree
• 2 – disagree
• 3 – slightly disagree
• 4 – neither agree nor disagree
• 5 – slightly agree
• 6 – agree
• 7 – strongly agree

Koch | Statistik I & 31


Verteilung des SWLS-Items in China
• Kummulierte
Häufigkeit

• Kummulierte relative
Häufigkeit

• Kummulierte
Prozentwerte

Koch | Statistik I & 32


Graphische Darstellung:
relative kumulierte Häufigkeitsverteilung

Koch | Statistik I & 33


Median: Kennwert der zentralen Tendenz
• Bei Variablen mit geordneten Kategorien kann wie bei nominalskalierten
Daten der Modus als Lagemaß betrachtet werden.
• Bei singulären Daten (ohne Bindung) ist die eindeutige Bestimmung des
Modus nicht möglich, da alle Rangplätze gleiche Häufigkeit aufweisen.
• Zusätzliches Lagemaß: Median.
• Der Median wird mit Md oder Z (Zentralwert) bezeichnet.
• Der Median ist derjenige («mittlere») Wert, für den gilt:
• Mindestens 50% der Werte sind kleiner oder gleich dem Median.
• Mindestens 50% der Werte sind größer oder gleich dem Median.

Koch | Statistik I & 34


Median: Kennwert der zentralen Tendenz
• Bestimmung des Median bei singulären Daten ohne Rangbindungen -
Rangwerte:
• Md = (n + 1) / 2.

Beispiel:
• Rangreihe nach der Schnelligkeit der Bearbeitung einer Aufgabe (n = 5):
• Marie – 1
• Arthur – 2
• Ruth – 3 Median: Md = (5 + 1) / 2 = 3
• Willi – 4
• Oskar - 5

Koch | Statistik I & 35


Median: Kennwert der zentralen Tendenz
• Rangreihe nach der Schnelligkeit der Bearbeitung einer Aufgabe (n = 6):
• Marie – 1
• Arthur – 2
• Ruth – 3
Median: Md = (6 + 1) / 2 = 3,5
• Willi – 4
• Oskar – 5
• Anne – 6

Koch | Statistik I & 36


Median: Kennwert der zentralen Tendenz
Bestimmung des Median bei singulären Daten mit Rangbindungen und
Variablen mit geordneten Kategorien:
• Anordnung der Personen in einer Rangreihe.
• Bei ungeradem n ist der Median gleich dem Merkmalswert der Person, die an
der Stelle (n + 1) / 2 in der Rangreihe steht.
• Bei geradem n bestimmt man den Median als arithmetischen Mittelwert der
Merkmalswerte der Personen, die an den Stellen (n/2) und (n/2) + 1 stehen.

Koch | Statistik I & 37


Median: Kennwert der zentralen Tendenz
Beispiel: Singuläre Daten mit Bindungen (n = 5):
Bei ungeradem n ist der Median gleich dem Merkmalswert der Person, die an der
Stelle (n + 1) / 2 in der Rangreihe steht.

1 2 3,5 3,5 5

Median = 3,5

Koch | Statistik I & 38


Median bei geordneten Kategorien:
SWLS in den China und USA
• Medianklasse = Klasse, in der Wert der kumulierten relativen
Häufigkeit von 0,5 überschritten wird

Koch | Statistik I & 39


Vergleich China - USA

Koch | Statistik I & 40


Beispiel: R
• Häufigkeitstabelle
> table(swls)
swls
3 4 5 6
3 3 3 3

• Median
> median(swls)
[1] 4.5

Koch | Statistik I & 41


Dispersion (Streuung)
bei ordinalskalierten Daten

• Singuläre ordinalskalierte Daten:


• Bestimmung eines Dispersionsmaßes ist wenig aussagekräftig, da die Streuung von
Rangwerten nur von der Anzahl der untersuchten Personen abhängt.
• Beispiel: 10 Rangwerte versus 100 Rangwerte

• Variablen mit geordneten Kategorien


• relativer Informationsgehalt
• Nachteil: Ordnung in den Daten wird nicht ausgenutzt
• empirischer Interquartilsbereich

Koch | Statistik I & 42


Dispersion (Streuung)
bei ordinalskalierten Daten
• Zur Bestimmung dieses Streuungsmaßes wird die Reihe der
Messwerte anhand der Quartile in vier (annähernd) gleich große Teile
zerlegt.
• 1. Quartil (Q1): Mindestens 25% der Werte sind kleiner oder gleich Q1 und
mindestens 75% der Werte sind größer oder gleich Q1.
• 2. Quartil (Q2): Median.
• 3. Quartil (Q3): mindestens 75% der Werte sind kleiner oder gleich Q3 und
mindestens 25% der Werte sind größer oder gleich Q3.
• Der empirische Interquartilsbereich (IQB) ist der Bereich der Werte
zwischen dem 1. und dem 3. Quartil: IQB = [Q1; Q3].

Koch | Statistik I & 43


Empirischer Interquartilsbereich
• Verschiedene Bücher/Computerprogramme verwenden
unterschiedliche Definitionen von Quartilen.
• Berechnung von Q1:
• Q1 = xq, falls n·0,25 keine ganze Zahl ist (q ist die nächste ganze Zahl, die auf n·0,25 folgt),
• Q1 = 0,5 ·(xq + xq+1) , falls n·0,25 eine ganze Zahl ist (q = n·0,25).

• Berechnung von Q3:


• Q3 = xq, falls n·0,75 keine ganze Zahl ist (q ist die nächste ganze Zahl, die auf n·0,75 folgt),

• Q3 = 0,5 ·(xq + xq+1) , falls n·0,75 eine ganze Zahl ist (q = n·0,75).

Koch | Statistik I & 44


Empirischer Interquartilsbereich
bei gruppierten Daten: SWLS in China

n=556

n*0,25=139
Q1 =3

n*0,75=417
Q3 =6

Koch | Statistik I & 45


Empirischer Interquartilsbereich
bei gruppierten Daten: SWLS in den USA

n=442

n*0,25=110,5
Q1 =6
n*0,75=331,5
Q3 =7

Koch | Statistik I & 46


Lebenszufriedenheit
China - USA

Koch | Statistik I & 47


Lernfragen
1. Wie ist der Modalwert definiert? Welches Skalenniveau stetzt die
Anwendung des Modalwerts voraus?
2. Was ist der Unterschied zwischen singulären Daten und kategorialen
Variablen mit geordneten Antwortkategorien? Nennen Sie jeweils ein
Beispiel.
3. Was bedeutet ein Prozentrang von 35?
4. Wie ist der Median definiert? Welches Skalenniveau setzt die
Anwendung des Medians voraus?
5. Bestimmen Sie den Median für folgende singuläre Datenreihen: 1;3,5;
3,5; 4; 5; 6,5; 6,5
6. Nennen Sie zwei Dispersionsmaße für Variablen mit geordneten
Antwortkategorien.
Koch | Statistik I & 48
Leitfragen der nächsten Vorlesung
Lesen Sie Kapitel 6.4-6.5!
• Was sind primäre und sekundäre
Häufigkeitsverteilungen?
• Wie können sekundäre
Häufigkeitsverteilungen grafisch dargestellt
werden?
• Was sind Lagemaße und Dispersionsmaße
für metrische Variablen?
• Was sind Ausreißer- und Extremwerte? Wie
können diese identifiziert werden?

Koch | Statistik I & 49


Vielen Dank für Ihre Aufmerksamkeit
Koch | Statistik I & 50

Das könnte Ihnen auch gefallen