5 Stats Univariate I

Statistik I
Thema: Univariate Deskriptivstatistik

nominal- und ordinalskalierter Variablen
Tobias Koch
Psychologische Hochschule Berlin
Sommersemester 2019
Mittwoch 12-14 Uhr (c.t.)
Literatur
Kapitel 6.1-6.3 aus
Eid, M., Gollwitzer, M. & Schmitt, M.

(2015, 4. Aufl.). Statistik und
Forschungsmethoden. Weinheim:
Beltz.
Koch | Statistik I & 2

Leitfragen der heutigen Vorlesung
1. Was versteht man unter einer Häufigkeitsverteilung eines Merkmals?
2. Was ist eine Datenmatrix?
3. Wie kann man die Verteilung eines Merkmals grafisch
veranschaulichen?
4. Was sind Lagemaße?
5. Wozu braucht man Streuungsmaße?

Univariate Deskriptivstatistik
nominalskalierter Variablen

Wichtige Konzepte
• Nominalskalierte Variablen
• Datenmatrix
• Häufigkeitsverteilung (absolute vs. relative Häufigkeiten)
• Darstellung von Häufigkeitsverteilungen
• Säulendiagramm, Kreisdiagramm, Balkendiagramm
• Kennwerte von Verteilungen
• Lagemaß (Modus)
• Dispersionsmaß (relativer Informationsgehalt)

Nominalskalierte Variablen
• Merkmalsausprägungen sind Namen oder Kategorien oder Zahlen, die
weder eine Ordnung aufweisen, noch eine quantitative Bedeutung
haben.
• Beispiele:
• Klassifikationen affektiver Störungen (z. B. Manie, Depression, …)
• Person A: Manie, Person B: Depression
• Erlauben Aussagen über die Verschiedenartigkeit von
Merkmalsträgern.

Nominalskalierte Variablen
• Klassifikation von Objekten
• Klassifikationsmerkmal: Gleichheit vs. Verschiedenheit
• Die Zuordnung von Werten (z. B. Zahlen) ist beliebig, sofern in
bezug auf das Merkmal gleiche Personen gleiche Werte und
merkmalsverschiedene Personen verschiedene Werte erhalten.
• Personen müssen einer Merkmalsklasse, dürfen aber auch nur einer
Merkmalsklasse angehören.

Datenmatrix
• System von 𝑛 " 𝑝 Messwerten
• Index m steht für Merkmalsträger

wobei 𝑚 = {1, … , 𝑚, … , 𝑛} oder
𝑚 ∈ {1, … , 𝑛}
• Index i steht für Merkmale wobei

𝑖 = {1, … , 𝑖, … , 𝑝} oder i ∈ {1, … , 𝑝}

Urliste von Beobachtungen
• Ungeordnete Liste von
Merkmalsausprägungen
• Beispiel: Liste von Personen mit

verschiedenen
Persönlichkeitsstörungen, die
einem Monat in der Reihenfolge
des Erscheinens registriert
wurden

Häufigkeitsverteilung
tabellarische Darstellung
• Weiterer Index j für die

Merkmalsausprägung
notwendig
• Beispiel: Paranoide PS
𝑛- = 2

Summenzeichen
• Beispiel: Absolute Häufigkeit nj
• j: Index zur Nummerierung der Merkmalsausprägungen
• k: Anzahl der Merkmalsausprägungen
• nj: Anzahl der Untersuchungsobjekte (z. B. Personen) mit
Merkmalsausprägung aj (absolute Häufigkeit)
• n: Gesamtanzahl der Untersuchungsobjekte
• Beispiel: Absolute Häufigkeit nj mit k = 9
2
/ 𝑛0 = 𝑛 = 24
01-

Absolute und relative Häufigkeit
Prozentwerte
Absolute Häufigkeit nj
• 𝑛0 : Anzahl der Untersuchungsobjekte (z. B. Personen) mit Merkmalsausprägung 𝑎𝑗
Relative Häufigkeit 𝒉𝒋
• ℎ𝑗 ∶= 𝑛𝑗/𝑛
• 𝑛𝑗: Anzahl der Untersuchungsobjekte mit Merkmalsausprägung aj
• 𝑛: Gesamtanzahl der Untersuchungsobjekte
Prozentwerte
• %𝑗 ∶ = ℎ𝑗 " 100%

Säulendiagramm

Kreisdiagramm
• Die Flächen der Kreissektoren sind
proportional zu den Häufigkeiten.
• Winkel des Kreissektors j: hj ·360°

Balkendiagramm

Kennwerte von Verteilungen:
zentrale Tendenz (Lagemaße)
Kennwerte (Maßzahlen, Parameter) der zentralen Tendenz
• kennzeichnen das Zentrum einer Verteilung
• durchschnittlicher Messwert (Mittelwert)
• mittlerer Messwert (Median)
• typischer Messwert (Modus)

Modus: Kennwert der zentralen Tendenz
• Der Modus (Modalwert) ist die Merkmalsausprägung, die am
häufigsten vorkommt.
• Er wird üblicherweise mit Mo oder xmod symbolisiert.
• Ein Modus kann nicht eindeutig bestimmt werden, wenn mehrere
Kategorien gleich häufig besetzt sind.

Beispiel: Modus
• Der Modalwert ist Dissoziale
Persönlichkeitsstörung:
• Mo = Dissoziale PS bzw. Mo
=3
Modus

Achtung! Fehlerquelle!
• Im vorliegenden Fall ist der Modalwert Dissoziale Persönlichkeitsstörung:
Mo = Dissoziale Persönlichkeitsstörung,
da dieser Wert am häufigsten vorkommt.
• Studierende machen häufig den Fehler, die Häufigkeit als Modalwert
anzugeben, im vorliegenden Fall also Mo = 6. Das ist jedoch falsch!
• Der Modalwert ist der Wert der Variablen (die Merkmalsausprägung)
und nicht der Wert der Häufigkeit!

Dispersionsmaße (Streuungsmaße)
• Wie stark streuen Werte?
• Wie stark unterscheiden sich Personen?
• Wie homogen ist eine untersuchte Gruppe von Personen in Bezug auf
ein Merkmal?
• Streuungsmaße (Dispersionsmaße)

Häufigkeitsverteilung
• Die Dispersion soll
angeben, wie sich die
Merkmalsträger über
die Kategorien
ausbreiten oder
konzentrieren

Dispersion (Streuung) bei Nominalskalen
Immer, wenn ich erscheine,
• Relativer Informationsgehalt 𝐻 heißt das:
• Ich mag diese Formel !
• Ich kann Sie anwenden !
-
𝐻 = − ?@ A " ∑A01- ℎ0 " lnℎ0 • Ich weiß, was sie bedeutet !
• Ich muß sie nicht auswendig
lernen !
• hj: relative Häufigkeit einer Merkmalsausprägung aj

• ln: logarithmus naturalis (natürlicher Logarithmus)
• k: Anzahl der Kategorien (Merkmalsausprägungen)
• Im Falle hj = 0 wird gesetzt: 0·ln0 = 0 (da ln0 nicht definiert ist).
• Wertebereich von H=[0;1]
Dispersion (Streuung) bei Nominalskalen
A
1
𝐻=− " / ℎ0 " lnℎ0
ln 𝑘
01-
1
𝐻=− " −1.85
ln 9
𝐻 = −0.455 " −1.85 = 0.84
Der relative Informationsgehalt

beträgt H=0.84.

Univariate Deskriptivstatistik
ordinalskalierter Variablen

Wichtige Konzepte
• Typen ordinalskalierter Variablen
• Singuläre Daten
• Variablen mit geordneten Kategorien
• Singuläre Daten mit Rangbindungen (verbundene Ränge)
• Verteilung
• Kumulierte Häufigkeit, Prozentrang
• Lagemaß: Median
• Dispersionsmaß: Empirischer Interquartilsbereich
Ordinalskalierte Variablen
Singuläre Daten
• Bei singulären Daten kommt jeder beobachtete Wert nur einmal vor.
• Beispiel: Rangordnung Marathonlauf Berlin
Variablen mit geordneten Kategorien

• Personen oder Objekten werden vorgegebenen Kategorien
zugeordnet
• Beispiel: «nicht fröhlich», «etwas fröhlich», «sehr fröhlich»

Singuläre Daten: Rangplatz
Rangplatz Rm:
• Platznummer eines Objektes, wenn man die Objekte der Größe nach
ordnet (Rangordnung):
• Dem kleinsten Wert wird der Wert 1, dem zweitkleinsten der Wert 2,
dem drittkleinsten der Wert 3 etc. zugeordnet.

Singuläre Daten: verbundene Ränge
verbundene Ränge (Rangbindungen):
• Mehrere Personen teilen sich einen Rangplatz.
• Übliches Vorgehen bei Rangbindungen:
• Die für eine Bindungsgruppe in Frage kommenden Ränge werden gemittelt.
• Jedem Objekt einer Bindungsgruppe dieser mittlere Rang (midrank) zugewiesen wird.

Prozentrang
• Ohne Rangbindung:
𝑅L
𝑃𝑅L = " 100
𝑛
• Der Prozentrang gibt den prozentualen Anteil der gemessenen

Objekte (hier: Personen) an, die einen Wert haben, der kleiner oder
gleich dem Messwert xm (hier: einer Person) ist.
• Der Prozentrang spielt in der Psychodiagnostik eine große Rolle.

Prozentrang
• Prozentrangwerte erlauben oft eine bessere Interpretation als
Rangplätze.
• Es macht einen Unterschied, ob man beim Berlin-Marathon als 20.
angekommen ist (Rangplatz 20), wenn 200 Personen
(Prozentrangwert 10%) oder 2000 Personen (Prozentrangwert 1%)
teilgenommen haben. Im ersten Fall gehört man zu den 10 % der
schnellsten Läufer, im zweiten Fall zu dem 1 % der schnellsten Läufer.

Kategoriale Daten mit geordneten Kategorien
Beispiel: Vorgegebene ordinalskalierte Variable:
• Item aus der Satisfaction-with-Life Scale (SWLS, Diener, Emmons,
Larsen & Griffin, 1985)
• «I am satisfied with my life »
• 1 – strongly disagree
• 2 – disagree
• 3 – slightly disagree
• 4 – neither agree nor disagree
• 5 – slightly agree
• 6 – agree
• 7 – strongly agree

Verteilung des SWLS-Items in China
• Kummulierte
Häufigkeit
• Kummulierte relative
Häufigkeit
• Kummulierte
Prozentwerte

Graphische Darstellung:
relative kumulierte Häufigkeitsverteilung

Median: Kennwert der zentralen Tendenz
• Bei Variablen mit geordneten Kategorien kann wie bei nominalskalierten
Daten der Modus als Lagemaß betrachtet werden.
• Bei singulären Daten (ohne Bindung) ist die eindeutige Bestimmung des
Modus nicht möglich, da alle Rangplätze gleiche Häufigkeit aufweisen.
• Zusätzliches Lagemaß: Median.
• Der Median wird mit Md oder Z (Zentralwert) bezeichnet.
• Der Median ist derjenige («mittlere») Wert, für den gilt:
• Mindestens 50% der Werte sind kleiner oder gleich dem Median.
• Mindestens 50% der Werte sind größer oder gleich dem Median.

• Bestimmung des Median bei singulären Daten ohne Rangbindungen -
Rangwerte:
• Md = (n + 1) / 2.
Beispiel:
• Rangreihe nach der Schnelligkeit der Bearbeitung einer Aufgabe (n = 5):
• Marie – 1
• Arthur – 2
• Ruth – 3 Median: Md = (5 + 1) / 2 = 3
• Willi – 4
• Oskar - 5

• Rangreihe nach der Schnelligkeit der Bearbeitung einer Aufgabe (n = 6):
• Marie – 1
• Arthur – 2
• Ruth – 3
Median: Md = (6 + 1) / 2 = 3,5
• Willi – 4
• Oskar – 5
• Anne – 6

Bestimmung des Median bei singulären Daten mit Rangbindungen und
Variablen mit geordneten Kategorien:
• Anordnung der Personen in einer Rangreihe.
• Bei ungeradem n ist der Median gleich dem Merkmalswert der Person, die an
der Stelle (n + 1) / 2 in der Rangreihe steht.
• Bei geradem n bestimmt man den Median als arithmetischen Mittelwert der
Merkmalswerte der Personen, die an den Stellen (n/2) und (n/2) + 1 stehen.

Beispiel: Singuläre Daten mit Bindungen (n = 5):
Bei ungeradem n ist der Median gleich dem Merkmalswert der Person, die an der
Stelle (n + 1) / 2 in der Rangreihe steht.
1 2 3,5 3,5 5
Median = 3,5

Median bei geordneten Kategorien:
SWLS in den China und USA
• Medianklasse = Klasse, in der Wert der kumulierten relativen
Häufigkeit von 0,5 überschritten wird

Vergleich China - USA

Beispiel: R
• Häufigkeitstabelle
> table(swls)
swls
3 4 5 6
3 3 3 3
• Median
> median(swls)
[1] 4.5

Dispersion (Streuung)
bei ordinalskalierten Daten
• Singuläre ordinalskalierte Daten:

• Bestimmung eines Dispersionsmaßes ist wenig aussagekräftig, da die Streuung von
Rangwerten nur von der Anzahl der untersuchten Personen abhängt.
• Beispiel: 10 Rangwerte versus 100 Rangwerte
• Variablen mit geordneten Kategorien

• relativer Informationsgehalt
• Nachteil: Ordnung in den Daten wird nicht ausgenutzt
• empirischer Interquartilsbereich

Dispersion (Streuung)
bei ordinalskalierten Daten
• Zur Bestimmung dieses Streuungsmaßes wird die Reihe der
Messwerte anhand der Quartile in vier (annähernd) gleich große Teile
zerlegt.
• 1. Quartil (Q1): Mindestens 25% der Werte sind kleiner oder gleich Q1 und
mindestens 75% der Werte sind größer oder gleich Q1.
• 2. Quartil (Q2): Median.
• 3. Quartil (Q3): mindestens 75% der Werte sind kleiner oder gleich Q3 und
mindestens 25% der Werte sind größer oder gleich Q3.
• Der empirische Interquartilsbereich (IQB) ist der Bereich der Werte
zwischen dem 1. und dem 3. Quartil: IQB = [Q1; Q3].

Empirischer Interquartilsbereich
• Verschiedene Bücher/Computerprogramme verwenden
unterschiedliche Definitionen von Quartilen.
• Berechnung von Q1:
• Q1 = xq, falls n·0,25 keine ganze Zahl ist (q ist die nächste ganze Zahl, die auf n·0,25 folgt),
• Q1 = 0,5 ·(xq + xq+1) , falls n·0,25 eine ganze Zahl ist (q = n·0,25).
• Berechnung von Q3:

• Q3 = xq, falls n·0,75 keine ganze Zahl ist (q ist die nächste ganze Zahl, die auf n·0,75 folgt),
• Q3 = 0,5 ·(xq + xq+1) , falls n·0,75 eine ganze Zahl ist (q = n·0,75).

bei gruppierten Daten: SWLS in China
n=556
n*0,25=139
Q1 =3
n*0,75=417
Q3 =6

bei gruppierten Daten: SWLS in den USA
n=442
n*0,25=110,5
Q1 =6
n*0,75=331,5
Q3 =7

Lebenszufriedenheit
China - USA

Lernfragen
1. Wie ist der Modalwert definiert? Welches Skalenniveau stetzt die
Anwendung des Modalwerts voraus?
2. Was ist der Unterschied zwischen singulären Daten und kategorialen
Variablen mit geordneten Antwortkategorien? Nennen Sie jeweils ein
Beispiel.
3. Was bedeutet ein Prozentrang von 35?
4. Wie ist der Median definiert? Welches Skalenniveau setzt die
Anwendung des Medians voraus?
5. Bestimmen Sie den Median für folgende singuläre Datenreihen: 1;3,5;
3,5; 4; 5; 6,5; 6,5
6. Nennen Sie zwei Dispersionsmaße für Variablen mit geordneten
Antwortkategorien.
Leitfragen der nächsten Vorlesung
Lesen Sie Kapitel 6.4-6.5!
• Was sind primäre und sekundäre
Häufigkeitsverteilungen?
• Wie können sekundäre
Häufigkeitsverteilungen grafisch dargestellt
werden?
• Was sind Lagemaße und Dispersionsmaße
für metrische Variablen?
• Was sind Ausreißer- und Extremwerte? Wie
können diese identifiziert werden?

Vielen Dank für Ihre Aufmerksamkeit

5 Stats Univariate I

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

5 Stats Univariate I

Hochgeladen von

Copyright:

Verfügbare Formate

Statistik I

Thema: Univariate Deskriptivstatistik

Eid, M., Gollwitzer, M. & Schmitt, M.

Koch | Statistik I & 2

Koch | Statistik I & 3

Koch | Statistik I & 4

Koch | Statistik I & 5

Koch | Statistik I & 6

Koch | Statistik I & 7

• Index m steht für Merkmalsträger

• Index i steht für Merkmale wobei

Koch | Statistik I & 8

• Beispiel: Liste von Personen mit

Koch | Statistik I & 9

• Weiterer Index j für die

Koch | Statistik I & 10

Koch | Statistik I & 11

Koch | Statistik I & 12

Koch | Statistik I & 13

Koch | Statistik I & 14

Koch | Statistik I & 15

Koch | Statistik I & 16

Koch | Statistik I & 17

Koch | Statistik I & 18

Koch | Statistik I & 19

Koch | Statistik I & 20

Koch | Statistik I & 21

• hj: relative Häufigkeit einer Merkmalsausprägung aj

𝐻 = −0.455 " −1.85 = 0.84

Der relative Informationsgehalt

Koch | Statistik I & 23

Koch | Statistik I & 24

Variablen mit geordneten Kategorien

Koch | Statistik I & 26

Koch | Statistik I & 27

Koch | Statistik I & 28

• Der Prozentrang gibt den prozentualen Anteil der gemessenen

• Der Prozentrang spielt in der Psychodiagnostik eine große Rolle.

Koch | Statistik I & 29

Koch | Statistik I & 30

Koch | Statistik I & 31

Koch | Statistik I & 32

Koch | Statistik I & 33

Koch | Statistik I & 34

Koch | Statistik I & 35

Koch | Statistik I & 36

Koch | Statistik I & 37

Koch | Statistik I & 38

Koch | Statistik I & 39

Koch | Statistik I & 40

Koch | Statistik I & 41

• Singuläre ordinalskalierte Daten:

• Variablen mit geordneten Kategorien

Koch | Statistik I & 42

Koch | Statistik I & 43

• Berechnung von Q3:

Koch | Statistik I & 44

Koch | Statistik I & 45

Koch | Statistik I & 46

Koch | Statistik I & 47

Koch | Statistik I & 49

Das könnte Ihnen auch gefallen