Sie sind auf Seite 1von 198

Einführung in die Statistik

Statistik-Modul im Studiengang Mehrsprachige Kommunikation


Jan-Philipp Schmidt

Sommersemester

Seite: 1
Ablauf und Kontaktdaten
▶ Ablauf
▶ Vorlesung – Einführung in die Statistik – 3 ECTS – 2 SWS
▶ im Hörsaal
▶ Übung – Statistik-Projekt – 2 ECTS – 2 SWS
▶ im Computerraum
▶ Kontaktdaten
▶ Dozent: Prof. Dr. Jan-Philipp Schmidt
▶ E-Mail: jan-philipp.schmidt@th-koeln.de
▶ Telefon: +49 221 8275 3854
▶ Büro: Raum D3.216, Claudiusstraße 1, 50678 Köln

Statistik ˆ 0. Organisatorisches ˆ 0.1. Informationen

Seite: 2
Lernziele und Kompetenzen
Dieses Modul bereitet die Studierenden auf ein weiterführendes Studium
im Bereich der Sozial- und Wirtschaftswissenschaften vor und entwickelt
die notwendigen Kenntnisse für statistische Erhebungen im Bereich
Marktforschung und Personal.
▶ Theoretische Grundlagen in der Vorlesung → Klausur
▶ Quantitative Methoden der Datenanalyse
▶ Interpretation von statistischen Kennzahlen
▶ Praktische Umsetzung im Projekt → Hausarbeit
▶ Besonderheiten von Fragebögen
▶ Auswertungen mit dem Computer (Excel)

Statistik ˆ 0. Organisatorisches ˆ 0.1. Informationen

Seite: 3
Literatur
▶ Uhlemann, I. Einführung in die Statistik für
Kommunikationswissenschaftler: Deskriptive und induktive
Verfahren für das Bachelorstudium. Springer, 2015.
https://doi.org/10.1007/978-3-658-05769-5
→ Dieses Buch bildet die Basis für die Vorlesung.
▶ Küchenhoff, H. Statistik für Kommunikationswissenschaftler.
UTB, 2006.
http://www.utb-studi-e-book.de/9783838528328
▶ Bortz, J., und N. Döring. Forschungsmethoden und Evaluation für
Human- und Sozialwissenschaftler. Springer, 2006.
http://dx.doi.org/10.1007/978-3-540-33306-7
▶ Spieß, S., und P. Wies. Excel 2016 Statistik. HERDT, 2016.
https://herdt-campus.com/product/EX2016S
▶ Fahrmeir, L. Statistik: Der Weg zur Datenanalyse. Springer, 2016.

Statistik ˆ 0. Organisatorisches ˆ 0.2. Literatur

Seite: 4
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 1. Einführung ˆ 1.0. Inhaltsverzeichnis

Seite: 5
Zitate
▶ There are three kinds of lies: lies, damned lies and statistics.
Leonard Henry Courteney (1832-1918)
▶ Ich glaube nur den Statistiken, die ich selbst gefälscht habe.
Winston Curchill (1874-1965)
▶ Wir benutzen die Statistik wie ein Betrunkener einen Laternenpfahl:
Vor allem zur Stütze unseres Standpunkts und weniger zum
Beleuchten eines Sachverhalts.
Andrew Lang (1844-1912)
▶ Essentially, all models are wrong, but some are useful.
George Box (1919-2013)
▶ It is easy to lie with statistics. It is hard to tell the truth without it.
Andrejs Dunkles (1939-1998)

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 6
Ziel der Statistik

Statistik
Mit dem Begriff Statistik wird ...
... zum einen die statistische Methodenlehre bezeichnet, also alle Verfahren
und Methoden der Gewinnung, vor allem aber der Verarbeitung,
empirischer Daten.
Zum anderen wird unter Statistik auch die tabellarische oder grafische
Darstellung eines konkret vorliegenden Datenmaterials (z. B. die aktuelle
Arbeitslosenstatistik) verstanden.

Unterscheidung
▶ Deskriptive Statistik → Wie bringe ich die Daten zum Sprechen?
▶ Induktive Statistik → Was können mir die Daten wirklich sagen?

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 7
Beispiel – Deskriptive Statistik

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 8
Beispiel – Fortsetzung

https://www.ard-werbung.de/fileadmin/user_upload/media-perspektiven/pdf/
2011/04-2011_Krueger_01.pdf

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 9
Beispiel – Fortsetzung

https://www.ard-werbung.de/fileadmin/user_upload/media-perspektiven/pdf/
2011/04-2011_Krueger_01.pdf

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 10
Ziel der Statistik

Induktive Statistik
Das Ziel der induktiven Statistik ist der Schluss von der Stichprobe als
einem Teil der Menge aller Objekte, über die eine Aussage gemacht werden
soll, auf die ganze Gesamtheit (Grundgesamtheit).

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 11
Ziel der Statistik

Hypothesen
Hypothesen sind falsifizierbare Aussagen über Zusammenhänge zwischen
empirisch gehaltvollen Begriffen.

In diesem Fall dient die Statistik dazu, festzustellen, ob der in der


Stichprobe gemessene Unterschied auf die Grundgesamtheit übertragbar
ist.
▶ Beispiel:
Einfluss der Verwendung des generischen Maskulinums auf den
gedanklichen Einbezug von Frauen

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 12
Datenanalyse

Datenverarbeitung/Datenanalyse
Datenverarbeitung/Datenanalyse meint die Verdichtung und komprimierte
Darstellung einer größeren Anzahl von Daten durch aussagekräftige Werte,
in Form von Tabellen oder mittels grafischen Darstellungen.

Sie verwendet Verfahren, die Daten nach Zusammenhängen und Mustern


zu untersuchen und Hypothesen rechnerisch zu überprüfen.

Vorgehensweise:
1. Was soll untersucht werden?
2. Welche Fragen sollen gestellt werden?
3. Welche Antworten sind vorgesehen/zugelassen?
4. Welche Ergebnisse werden festgehalten?

Statistik ˆ 1. Einführung ˆ 1.1. Ziel und Aufgabe der Statistik

Seite: 13
Grundbegriffe

Statistische Einheiten/Objekte
Merkmalsträger, an denen die empirischen Daten gewonnen wurden

Personen, Einrichtungen (Universitäten), Fernsehsender, Artikel,


Fernsehsendungen, Öffentliche Verkehrsmittel, ...

Grundgesamtheit/Population
Menge aller statistischen Einheiten, über die Aussagen gemacht werden

Alle Studierenden der TH Köln, Öffentlich-rechtliche Sender, ...


Stichprobe
Teil der Grundgesamtheit, über die gewünschte Informationen vorliegen

Fr. Schmidt, Hr. Maier, Fr. Müller

Statistik ˆ 1. Einführung ˆ 1.2. Wichtige Grundbegriffe

Seite: 14
Grundbegriffe

Merkmale/Variablen
Interessierende Größen, die an den statistischen Einheiten erhoben werden
Anzahl Fremdsprachen, Größe Wortschatz, ...

Wert/Merkmalsausprägung
konkreter Wert des Merkmals für eine bestimmte statistische Einheit
3, 20.000, ...
Messen
Systematische Zuordnung von Zahlenwerten zu Messobjekten, so dass die
zugewiesenen Werte die Relationen zwischen den Objekten hinsichtlich des
gemessenen Merkmals abbilden.

Statistik ˆ 1. Einführung ˆ 1.2. Wichtige Grundbegriffe

Seite: 15
Datenanalyse
Es gibt unterschiedliche Formen der Datenerhebung.
→ Eine Möglichkeit stellt ein Fragebogen dar.

Statistik ˆ 1. Einführung ˆ 1.3. Datenanalyse

Seite: 16
Datenanalyse

Skala
Eine Skala ist das Ergebnis einer Messung. Entsprechend der Eigenschaften
verschiedener Merkmalsarten sowie unterschiedlicher Messanweisungen
gibt es verschiedene Skalenarten. Die Art einer Skala ergibt sich aus den
Verhältnissen (Relationen) der möglichen Messergebnisse (Ausprägungen)
und den zulässigen mathematischen Operationen.

▶ Nominalskala
▶ Ordinalskala
▶ Intervallskala
▶ Verhältnisskala
→ Je mehr Zahleneigenschaften für die Merkmalsausprägungen zutreffen,
umso höher ist das Skalenniveau.
→ Jede Skala kann auf die nächstniedrigere umgerechnet werden.

Statistik ˆ 1. Einführung ˆ 1.3. Datenanalyse

Seite: 17
Qualitative Merkmale

Nominalskala
Eine Nominalskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, wobei Objekten mit gleicher Merkmalsausprägung gleiche Zahlen,
Objekten mit verschiedenen Merkmalsausprägungen verschiedene Zahlen
zugewiesen werden.

→ keine natürliche Ordnung der Ausprägungen

Ordinalskala
Eine Ordinalskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, wobei von zwei unterschiedlich großen Objekten dem Objekt mit der
größeren Merkmalsausprägung eine größere Zahl zugewiesen wird als dem
Objekt mit der kleineren Merkmalsausprägung. Daneben erfüllt sie alle
Anforderungen an eine Nominalskala.

→ Ausprägungen natürlich geordnet; Abstand nicht messbar


Statistik ˆ 1. Einführung ˆ 1.3. Datenanalyse

Seite: 18
Quantitative Merkmale/Metrische Skalen

Intervallskala
Eine Intervallskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, so dass die Zahlendifferenzen der Merkmalsauprägungen zwischen
unterschiedlich großen Objekten dem Größenunterschied zwischen diesen
Objekten entsprechen. Die Zahlenwerte drücken damit zusätzlich zur
Reihenfolge der Objekte auch deren Abstand zueinander aus.

→ Ausprägungen natürlich geordnet; Abstand messbar

Verhältnisskala
Eine Verhältnisskala ordnet den Objekten eines empirischen Relativs
Zahlen zu, so dass das Verhältnis der Zahlendifferenzen zwischen zwei
unterschiedlich großen Objekten dem Verhältnis der Merkmalsunterschiede
zwischen je zwei Objekten entspricht.

Statistik ˆ 1. Einführung ˆ 1.3. Datenanalyse

Seite: 19
Lernziele
Nach dem Studium des Abschnitts zur Einführung können Studierende ...
1. die Aufgaben der deskriptiven Statistik nennen und den
Zusammenhang zur induktiven Statistik erläutern.
2. die Begriffe Grundgesamtheit, Stichprobe und Untersuchungsobjekte
erklären und den Zusammenhang erläutern.
3. verschiedene Skalenniveaus benennen und zwischen ihnen
unterscheiden.
4. Besonderheiten von Skalenniveaus erläutern.
5. für bestimmte Merkmale das entsprechende Skalenniveau angeben.

Statistik ˆ 1. Einführung ˆ 1.3. Datenanalyse

Seite: 20
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 2. Qualitative Merkmale ˆ 2.0. Inhaltsverzeichnis

Seite: 21
Motivation
Fragestellungen bei deskriptiver Datenanalyse
▶ Wie viele verschiedene Merkmalsausprägungen eines Merkmals liegen
bei den Objekten der Stichprobe vor?
→ Analyse der Merkmalsausprägungen
▶ Wie verteilen sich die Objekte der Stichprobe auf die
Merkmalsausprägungen?
→ Häufigkeiten und Häufigkeitsverteilungen
▶ Zeigt sich eine Tendenz?
z. B. Aussagen wie: Meistens ist es...“,

oder: Die meisten sind...“,

oder: Am verbreitesten ist...“

→ Diagramme, kumulierte Häufigkeiten, Modus, Median

Statistik ˆ 2. Qualitative Merkmale ˆ 2.1. Analysebereiche

Seite: 22
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium an der TH Köln
▶ Statistische Einheiten: Personen
▶ Grundgesamtheit: Studierende TH Köln (eingeschrieben am 1.4.)
▶ Stichprobe: Lisa, Max, Sophie, ..., Tim; (16 Personen)
▶ Merkmale: Studiengang, Semester, Geschlecht, Alter, ...
▶ Merkmalsausprägungen Merkmal Studiengang:
Kommunikation, BWL, Informatik, ...
▶ Skala Merkmal Studiengang: Nominalskala
Beispiel für Daten-Codierung Merkmal Studiengang:
Kommunikation → 1
BWL → 2
Informatik → 3

Statistik ˆ 2. Qualitative Merkmale ˆ 2.1. Analysebereiche

Seite: 23
Urliste

Urliste
Ein Merkmal x werde an den n statistischen Einheiten einer Stichprobe
gemessen (Stichprobengröße n). Die resultierenden Zahlen:

x1 , . . . ,xn

bezeichnen die Beobachtungswerte.


xi ist die bei der i-ten Einheit gemessene Merkmalsausprägung von x.
Die Zahlenreihe, also (x1 , . . . ,xn ), wird auch Urliste genannt.

Beispiel für eine Urliste zum Merkmal Studiengang“:



(1,1,3,2,1,1,1,1,2,3,3,2,2,2,1,3)

Die Urliste hat die Länge 16. Die Urliste ist schwer zu interpretieren.
Wir bestimmen daher statistische Kennwerte.

Statistik ˆ 2. Qualitative Merkmale ˆ 2.1. Analysebereiche

Seite: 24
Absolute und relative Häufigkeiten
Gegeben sei eine Stichprobe mit Stichprobengröße n.

Häufigkeiten
Wir bezeichnen mit a1 , . . . ,ak die Menge der möglichen
Merkmalsausprägungen eines Merkmals.
Die absoluten Häufigkeiten h(aj ) = hj sind die Anzahl an Objekten der
Stichprobe, die die Merkmalsausprägung aj besitzen.
Die relativen Häufigkeiten f (aj ) = fj ist der Anteil der Objekte mit
Merkmalsausprägung aj an der Stichprobe.

Beispiel: a1 → Kommunikation, a2 → BWL, a3 → Informatik


h(Kommunikation) = h(a1 ) = h1 = 7 h(a2 ) = h2 = 5 h(a3 ) = h3 = 4
f1 = 7/16 = 0,4375 = 43,75 % f2 = 31,25 % f3 = 4/16 = 25 %

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 25
Absolute und relative Häufigkeitsverteilungen
Gegeben sei eine Stichprobe mit Stichprobengröße n.

Häufigkeiten
Eine Häufigkeitsverteilung zeigt, wie sich die gemessenen Werte der
Stichprobe auf den Wertebereich des Merkmals verteilen.
Die absolute Häufigkeitsverteilung ist h1 , . . . ,hk .
Die relative Häufigkeitsverteilung ist f1 , . . . ,fk .
Die Summe der absoluten Häufigkeitsverteilung gibt n. Die Summe der
relativen Häufigkeitsverteilung ergibt 100 %.

Beispiel:
Absolute Häufigkeitsverteilung: 7, 5, 4
Relative Häufigkeitsverteilung: 43,75 %, 31,25 %, 25 %

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 26
Säulen- und Balkendiagramme
Säulendiagramm Balkendiagramm
10
Informatik
8

BWL
4

Kommunikation
0
Kommunikation BWL Informatik 0 2 4 6 8 10

▶ Säulendiagramm: Trage über den Merkmalsausprägungen a1 , . . . ,ak


jeweils eine senkrechte Säule (Rechteck) der Höhe h1 , . . . ,hk (bzw.
der Höhe f1 , . . . ,fk ) ein.
▶ Balkendiagramm: Zeichne an den Merkmalsausprägungen a1 , . . . ,ak
jeweils einen waagerechten Balken der Länge h1 , . . . ,hk (bzw. der
Länge f1 , . . . ,fk ) ein.

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 27
Kreisdiagramme
Kommunikation Komm. Infor.

44% 25%

44%
31%
25% 31% BWL
BWL
Informatik

▶ Kreisdiagramm: Der Kreis entspricht allen Ausprägungen. Die


einzelnen Kreissektoren verdeutlichen die Anteile (relative
Häufigkeiten f1 , . . . ,fk ) der einzelnen Merkmalsausprägungen
a1 , . . . ,ak an der gesamten Stichprobe.

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 28
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester an der TH Köln
▶ Statistische Einheiten: Personen
▶ Grundgesamtheit: Studierende TH Köln (eingeschrieben am 1.4.)
▶ Stichprobe: Lisa, Max, Sophie, ..., Tim; (16 Personen)
▶ Merkmal: Zufriedenheit
▶ Merkmalsausprägungen:
sehr unzufrieden, unzufrieden, zufrieden, sehr zufrieden
▶ Skala Merkmal Studiengang: Ordinalskala
Beispiel für Daten-Codierung:
sehr unzufrieden → 1; unzufrieden → 2;
zufrieden → 3; sehr zufrieden → 4
Urliste:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1)

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 29
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester an der TH Köln
▶ Merkmal: Zufriedenheit
▶ Merkmalsausprägungen und Codierung:
sehr unzufrieden (1), unzufrieden (2), zufrieden (3), sehr zufrieden (4)
▶ Urliste:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1)
Häufigkeitsverteilung:
j aj h(aj )
1 a1 2
2 a2 3
3 a3 5
4 a4 6

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 30
Kumulierte Häufigkeitsverteilung
Häufigkeitsverteilung:
j aj h(aj ) H(aj )
1 a1 2 2
2 a2 3 5
3 a3 5 10
4 a4 6 16
Fünf Personen sind sehr unzufrieden oder unzufrieden bzw. 11 Personen
sind mindestens zufrieden.
→ Wir haben die absoluten Häufigkeiten kumuliert, z. B. 2 + 3 = 5.
Absolute kumulierte Häufigkeitsverteilung:

H(x) = h(a1 ) + . . . + h(aj ) für aj ≤ x und aj+1 > x

Außerdem wird vorausgesetzt: a1 < a2 < . . . < ak

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 31
Kumulierte Häufigkeitsverteilung
Häufigkeitsverteilung:
j aj h(aj ) H(aj ) F (aj )
1 a1 2 2 12,5 %
2 a2 3 5 31,25 %
3 a3 5 10 62,5 %
4 a4 6 16 100 %
Relative kumulierte Häufigkeitsverteilung:

F (x) = H(x)/n

21 % sind nicht zufrieden

Statistik ˆ 2. Qualitative Merkmale ˆ 2.2. Häufigkeitsverteilung qualitativer Merkmale

Seite: 32
Modus

Modus
Die Merkmalsausprägung mit der größten Häufigkeit wird Modus oder
einfach nur xmod genannt.

▶ Wenn es ein eindeutiges Maximum gibt, dann ist der Modus auch
eindeutig.
▶ Bei mehreren Maxima sprechen wir von einer multimodalen
Verteilung.
Wie lautet der Modus der Merkmale Studiengang“ bzw. Zufriedenheit“?
” ”
Kommunikation“ bzw. sehr zufrieden“
” ” Excel Formel
Modus
=Modus(A:A)

Statistik ˆ 2. Qualitative Merkmale ˆ 2.3. Lagemaße kategorialer Merkmale

Seite: 33
Median
Als weiterer Kennwert zur Beschreibung der Verteilung lässt sich bei
mindestens ordinalskalierten Merkmalen auch der Median angeben.

Median
Der Median ist der Wert, für den gilt, dass die Hälfte aller beobachteten
Objekte einer Stichprobe kleinere (oder gleich große) Ausprägungen hat,
die andere Hälfte größere (oder gleich große) Ausprägungen hat.
Bezeichnung: xmed

▶ Der Median ist der Wert, bei dem die kumulierte Häufigkeitsverteilung
F (x) erstmals den Wert 0,5 erreicht.
Wie lautet der Median des Merkmals Zufriedenheit“?

zufrieden“

Statistik ˆ 2. Qualitative Merkmale ˆ 2.3. Lagemaße kategorialer Merkmale

Seite: 34
Ordnungsstatistik
(x(1) , . . . ,x(n) ) ist die geordnete Urliste (x1 , . . . ,xn ), wobei x(1) die
Ausprägung mit dem kleinsten Rang ist, also die Beobachtung mit dem
kleinsten Wert.
Ordnungsstatistik
Die geordnete Urliste wird Ordnungsstatistik genannt.

Merkmal Zufriedenheit:

(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1) → (1,1,2,2,2,3,3,3,3,3,4,4,4,4,4,4)

Der Median ist 3, also zufrieden“.


Statistik ˆ 2. Qualitative Merkmale ˆ 2.3. Lagemaße kategorialer Merkmale

Seite: 35
Lagemaße und Streuungsmaße

Lagemaße
Statistischer Kennwert, der die zentrale Tendenz der Objekte im Hinblick
auf das interessierende Merkmal ausdrücken soll.
→ Wir haben den Modus und den Median kennengelernt.

Streuungsmaße
Statistischer Kennwert, der das Ausmaß der Abweichung der Daten von
dem als zentrale Tendenz identifizierten Wert ausdrückt.
→ Wir lernen Streuungsmaße in Kapitel 4 kennen.

Statistik ˆ 2. Qualitative Merkmale ˆ 2.3. Lagemaße kategorialer Merkmale

Seite: 36
Übung
Im Rahmen einer Umfrage wurden folgende Daten erhoben:
Nummer Alter Geschlecht Muttersprache ...
1 28 w Deutsch ...
2 24 m Englisch ...
3 29 w Englisch ...
4 18 w Englisch ...
5 31 m Spanisch ...
6 30 w Englisch ...
7 22 w Englisch ...
8 30 w Spanisch ...

a) Bestimmen Sie das Skalenniveau der Merkmale.


b) Bestimmen Sie die relative Häufigkeitsverteilungen der Merkmale.
c) Zeichnen Sie Kreisdiagramme zu den Häufigkeitsverteilungen.
d) Wie lautet der Modus von Muttersprache und der Median von Alter?
Statistik ˆ 2. Qualitative Merkmale ˆ 2.3. Lagemaße kategorialer Merkmale

Seite: 37
Lernziele
Nach dem Studium des Abschnitts zur eindimensionalen Darstellung
qualitativer Merkmale können Studierende ...
1. die Begriffe univariat, bivariat und multivariat erklären und
voneinander abgrenzen.
2. die drei Fragen benennen, die bei der deskriptiven Analyse von Daten
beantwortet werden sollen.
3. die absoluten und relativen Häufigkeiten eines Merkmals mit den
Ausprägungen aj , j = 1, . . . ,k ermitteln.
4. die kumulierten Häufigkeiten einer Verteilung bestimmen.
5. ein Lagemaß benennen, für das eine geordnete Urliste erforderlich ist.
6. den Median aus der Ordnungsstatistik ablesen.
7. den Unterschied zwischen Lage- und Streuungsmaßen erklären.

Statistik ˆ 2. Qualitative Merkmale ˆ 2.3. Lagemaße kategorialer Merkmale

Seite: 38
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.0. Inhaltsverzeichnis

Seite: 39
Vorüberlegungen
Motivation
▶ Studie zur Zufriedenheit mit dem Studium an der TH Köln
▶ alleinige Betrachtung des Merkmals Zufriedenheit mit Studium an

der TH Köln“ potentiell nicht aussagekräftig
▶ möglicherweise gibt es Unterschiede zwischen den Studiengängen,
z. B. Kommunikation ←→ BWL

Vorgehen
Um einen Zusammenhang zwischen zwei Merkmalen zu untersuchen, muss
die gemeinsame Verteilung der Beobachtungswerte auf beide Merkmale
mit ihren je unterschiedlichen Ausprägungen betrachtet werden.

Beispiel für eine offene Hypothese:


Studierende im Studiengang Kommunikation sind zufriedener
als BWL-Studierende

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.1. Vorüberlegungen

Seite: 40
Beispiel
Motivation
▶ Studie zur Zufriedenheit mit dem Studium an der TH Köln
▶ Wir verwenden die Daten (Urlisten) aus dem letzten Kapitel. Eine
gemeinsame Betrachtung der Beobachtungswerte ist:

Studiengang 1 1 3 2 1 1 1 1 2 3 3 2 2 2 1 3
Zufriedenheit 4 4 4 1 4 2 3 4 2 3 3 3 3 2 4 1

▶ Beispiel:
Der erste Teilnehmer studiert Kommunikation“

und ist sehr zufrieden“.

▶ Wie können wir die Daten (zwei Merkmale, daher zweidimensional“)

analysieren, um zu einer Aussage zu kommen?

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.1. Vorüberlegungen

Seite: 41
Gemeinsame Häufigkeitsverteilung – Beispiel
Merkmalsausprägungen Studiengang“: a1 , a2 , a3

Merkmalsausprägungen Zufriedenheit“: b1 , b2 , b3 , b4

Gemeinsame Häufigkeitsverteilung und Randverteilungen

sehr unzufrieden

sehr zufrieden
Zufriedenheit

unzufrieden

zufrieden
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 0 1 1 5 7
BWL a2 1 2 2 0 5
Informatik a3 1 0 2 1 4
Gesamt 2 3 5 6 16

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 42
Gemeinsame Häufigkeitsverteilung – Allgemein
Merkmalsausprägungen von Merkmal X : a1 , . . . ,ak
Merkmalsausprägungen von Merkmal Y : b1 , . . . ,bm
Gemeinsame Häufigkeitsverteilung und Randverteilungen

Y
b1 b2 ... bm Randverteilung
a1 h11 h12 ··· h1m h1•
a2 h21 h22 ··· h2m h2•
X
... ...
ak hk1 hk2 ··· hkm hk•
Randverteilung h•1 h•2 ... h•m n

Diese Tabelle wird Kontingenztafel genannt.


h11 , . . . ,hkm bildet die Verteilung eines neuen Merkmals.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 43
Gemeinsame Häufigkeitsverteilung – Allgemein
Merkmalsausprägungen von Merkmal X : a1 , . . . ,ak
Merkmalsausprägungen von Merkmal Y : b1 , . . . ,bm
Gemeinsame relative Häufigkeitsverteilung

Y
b1 b2 ... bm Randverteilung
a1 f11 f12 ··· f1m f1•
a2 f21 f22 ··· f2m f2•
X
... ...
ak fk1 fk2 ··· fkm fk•
Randverteilung f•1 f•2 ... f•m

Die relativen Häufigkeiten ergeben sich aus den absoluten Häufigkeiten,


indem durch die Stichprobengröße n geteilt wird.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 44
Zweidimensionale Häufigkeitsdiagramme

Gestapeltes Säulendiagramm

6
6
5 5

4
3 3
2
2
1 1 1
0
0

sehr unzufrieden unzufrieden zufrieden sehr zufrieden

Kommunikation BWL Informatik

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 45
Zweidimensionale Häufigkeitsdiagramme

Gruppiertes Säulendiagramm

2 2 2
2
1 1 1 1 1

0 0 0
0

sehr unzufrieden unzufrieden zufrieden sehr zufrieden

Kommunikation BWL Informatik

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 46
Bedingte relative Häufigkeitsverteilung
Idee:
▶ Bestimme relative Häufigkeitsverteilung des ersten Merkmals ...
▶ ... für verschiedene Merkmalsausprägungen des zweiten Merkmals.
Beispiel:
▶ Relative Häufigkeitsverteilung des Merkmals Zufriedenheit“ ...

▶ für verschiedene Merkmalsausprägungen des Merkmals Studiengang“.

Daten:
Kommunikation: 0 %, 14 %, 14 %, 71 %
BWL: 20 %, 40 %, 40 %, 0%
Interpretation:
Studierende im Studiengang Kommunikation sind zufriedener

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 47
Bedingte relative Häufigkeitsverteilung
Die bedingte relative Häufigkeitsverteilung von Y unter der Bedingung
X = ai ist wie folgt definiert:
hi1 him
fY (b1 |ai ) = , . . . , fY (bm |ai ) =
hi• hi•

Wir schreiben: Y |X = ai

Die bedingte relative Häufigkeitsverteilung von X unter der Bedingung


Y = bj ist gegeben durch:

h1j hkm
fX (a1 |bj ) = , . . . , fX (ak |bj ) =
h•j h•j

Wir schreiben: X |Y = bj
Berechnung: Gemeinsame Häufigkeiten durch jew. Randhäufigkeit teilen

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 48
Beispiel – Fernsehen

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.2. Gemeinsame Darstellung

Seite: 49
Motivation
▶ Ausgangspunkt:
Es gibt einen Zusammenhang zwischen den Merkmalen.
Die bedingten Häufigkeitsverteilungen unterscheiden sich.
▶ Ziel:
Stärke des Zusammenhangs messen
▶ Kennzahlen:
χ2 – ausgesprochen: Chi Quadrat

Kontingenzkoeffizient
▶ Idee:
Wenn zwischen zwei Merkmalen kein Zusammenhang besteht, dann
müssen die bedingten Häufigkeiten eines Merkmals den einfachen
relativen Häufigkeiten entsprechen.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 50
Unabhängigkeit
Die Merkmale X und Y heißen unabhängig genau dann, wenn:

Die bedingten relativen Häufigkeitsverteilungen Y |X = ai entsprechen der


Randverteilung des Merkmals Y , d. h.:
h1j hkj h•j
fY (bj |a1 ) = = . . . = fY (bj |ak ) = = = f•j
h1• hk• n
Achtung: Andere Darstellung als im Buch!

Beispiel:
Randverteilung des Merkmals Zufriedenheit“ ist

12,50 %, 18,75 %, 31,25 %, 37,50 %

Wenn die Zufriedenheit unabhängig vom Studiengang ist, dann entspricht


die bedingte Verteilung der Zufriedenheit stets der Randverteilung.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 51
Erwartete Verteilung bei Unabhängigkeit
Wenn die Zufriedenheit unabhängig vom Studiengang ist, dann entspricht
die bedingte Verteilung der Zufriedenheit stets der Randverteilung.
Zufriedenheit
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 7 · 12,50 % 7 · 18,75 % 7 · 31,25 % 7 · 37,50 % 7
BWL a2 5 · 12,50 % 5 · 18,75 % 5 · 31,25 % 5 · 37,50 % 5
Informatik a3 4 · 12,50 % 4 · 18,75 % 4 · 31,25 % 4 · 37,50 % 4
Gesamt 2 3 5 6 16
12,50 % 18,75 % 31,25 % 37,50 %

Zufriedenheit
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 0,88 1,31 2,19 2,63 7
BWL a2 0,63 0,94 1,56 1,88 5
Informatik a3 0,50 0,75 1,25 1,50 4
Gesamt 2 3 5 6 16

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 52
Erwartete Verteilung bei Unabhängigkeit
Wenn die Zufriedenheit unabhängig vom Studiengang ist, dann entspricht
die bedingte Verteilung der Zufriedenheit stets der Randverteilung.

Allgemeine Formel für die Berechnung


Wir bezeichnen die erwartete Häufigkeit mit h̃ij .
Wir können sie berechnen mit:

h̃ij = hi• · f•j

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 53
Vergleich: tatsächlich vs. erwartet
Je weiter das Stichprobenergebnis (links) von der bei Unabhängigkeit der
Merkmale erwarteten Häufigkeitsverteilung (rechts) abweicht, desto stärker
ist die gegenseitige Abhängigkeit.
→ Änderung eines Merkmals hat einen Einfluss auf das andere Merkmal

Zufriedenheit Zufriedenheit

b1 b2 b3 b4 Gesamt b1 b2 b3 b4 Gesamt
Studiengang

a1 0 1 1 5 7 a1 0,88 1,31 2,19 2,63 7

a2 1 2 2 0 5 a2 0,63 0,94 1,56 1,88 5

a3 1 0 2 1 4 a3 0,50 0,75 1,25 1,50 4

Gesamt 2 3 5 6 16 Gesamt 2 3 5 6 16

Je mehr sich die erwarteten Häufigkeiten und die beobachteten


Häufigkeiten gleichen, desto weniger sind die beiden Merkmale abhängig.
→ Änderung eines Merkmals hat keinen Einfluss auf das andere Merkmal

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 54
Definition χ2 -Wert
Gegeben sei eine gemeinsame Verteilung hij .
Definition für den χ2 -Wert:
 2
hi• ·h•j
k X
X m hij − n
χ2 = hi• ·h•j
i=1 j=1 n

In Worten ausgedrückt: Bilde für jede Zelle die erwarteten Häufigkeiten,


indem die Randhäufigkeiten multipliziert und durch n geteilt werden.
hi• · h•j
n
Subtrahiere für jede Zelle die erwarteten Häufigkeiten von den in der
Stichprobe beobachteten Häufigkeiten hij . Quadriere diese Differenz und
teile den Wert je Zelle durch die erwartete Häufigkeit. Zähle die so für jede
Zelle erhaltenen Werte zusammen.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 55
Berechnung χ2 -Wert im Beispiel
links: Differenzen zwischen beobachteten und erwarteten Häufigkeiten
rechts: Quadrierte und mit den erwarteten Häufigkeiten gewichtete Werte

b1 b2 b3 b4 b1 b2 b3 b4

a1 −0,88 −0,31 −1,19 2,37 a1 0,88 0,07 0,65 2,14

a2 0,37 1,06 0,44 −1,88 a2 0,22 1,20 0,12 1,88

a3 0,50 −0,75 0,75 −0,50 a3 0,50 0,75 0,45 0,17

Somit ergibt sich der Wert:

χ2 = 0,88 + 0,07 + 0,65 + . . . + 0,17 = 9,03

Der Wert ist deutlich größer 0. Das deutet auf Abhängigkeit hin.
→ Zufriedenheit“ und Studiengang“ sind abhängige Merkmale
” ”

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 56
Berechnung χ2 -Wert im Beispiel – Fortsetzung
Annahme: Die beobachtete gemeinsame Verteilung der Merkmale
Studiengang“ und Zufriedenheit“ habe zwar die gleichen
” ”
Randverteilungen, jedoch unterschiedliche gemeinsame Häufigkeiten.
(links: Variante A; rechts: Variante B)

Zufriedenheit Zufriedenheit

b1 b2 b3 b4 Gesamt b1 b2 b3 b4 Gesamt
Studiengang

Studiengang
a1 1 1 2 3 7 a1 0 0 1 6 7

a2 1 1 2 1 5 a2 0 2 3 0 5

a3 0 1 1 2 4 a3 2 1 1 0 4

Gesamt 2 3 5 6 16 Gesamt 2 3 5 6 16

Variante A: χ2 = 1,71 Variante B: χ2 = 18,33


Vergleiche das Ergebnis mit den jeweiligen Verteilungen.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 57
Eigenschaften χ2
Beobachtungen:
▶ Je größer der χ2 -Wert, desto stärker ist der Zusammenhang.
▶ Der χ2 -Wert wird umso kleiner, je größer die Stichprobe n ist.
▶ χ2 wird umso größer, je mehr Zellen k · m die Kreuztabelle hat.
Konsequenzen:
▶ Stärke des Zusammenhangs mit χ2 -Wert schwer zu beurteilen
▶ Vergleiche verschiedener χ2 -Werte schwierig
Lösung:
▶ Normierung der Größe

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 58
Kontingenzkoeffizienten
Kontingenzkoeffizient
Der Kontingenzkoeffizient ist definiert durch:
s
χ2
K=
n + χ2
q
min{k, m}−1
Der Wert K ist nach oben begrenzt durch den Wert Kmax = min{k, m}

Korrigierter Kontingenzkoeffizient
Der korrigierte Kontingenzkoeffizient ist definiert durch:
s
min{k, m} K
K∗ = K · =
min{k, m} − 1 Kmax

K ∗ liegt immer im Intervall [0; 1].

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 59
Lernziele
Nach dem Studium des Abschnitts zur bivariaten Darstellung qualitativer
Merkmale können Studierende ...
1. eine gemeinsame Häufigkeitsverteilung zweier Merkmale sowie ihre
Randverteilung berechnen, indem sie eine Kontingenztafel erstellen,
um damit später den Grad der Unabhängigkeit der Merkmale zu
ermitteln.
2. eine bedingte Häufigkeitsverteilung bestimmen sowie den Unterschied
zu einer einfachen Häufigkeitsverteilung erläutern.
3. die erwartete gemeinsame Häufigkeitsverteilung zweier Merkmale –
unter der Annahme der Unabhängigkeit der beiden Merkmale –
kalkulieren.
4. den (korrigierten) Kontingenzkoeffizienten auf Basis einer
gemeinsamen Häufigkeitsverteilung mit Hilfe der Formel berechnen
und damit eine Vermutung über den Grad der Unabhängigkeit der
Merkmale formulieren.

Statistik ˆ 3. Qualitative Merkmale zweidimensional ˆ 3.3. Unabhängigkeit

Seite: 60
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.0. Inhaltsverzeichnis

Seite: 61
Vorüberlegungen

Quantitative Merkmale
Quantitative Merkmale sind intervall- oder verhältnisskalierte Merkmale.
Ihre Ausprägungen spiegeln die Intensität eines Merkmals wieder.

Beispiele für quantitative Merkmale


▶ Alter
▶ Einkommen
▶ Jahr Berufseinstieg
Wiederholung
▶ Ein Merkmal ist diskret, wenn es endlich viele oder abzählbar
unendlich viele Ausprägungen annehmen kann.
▶ Ein Merkmal ist stetig, wenn innerhalb eines Intervalls theoretisch
unendlich viele Werte möglich sind.

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.1. Vorüberlegungen

Seite: 62
Häufigkeiten diskreter quantitativer Merkmale
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester 2019 an der TH Köln
▶ Merkmal: Alter
▶ Merkmalsausprägungen: vollendete Lebensjahre
▶ Urliste: (24,23,22,20,24,21,21,25,20,24,20,23,20,22,23,25)
Häufigkeitsverteilung:
absolute relative kumulierte
Alter Häufigkeit rel. Häufigkeit
20 4 25 % 25 %
21 2 12,5 % 37,5 %
22 2 12,5 % 50 %
23 3 18,75 % 68,75 %
24 3 18,75 % 87,5 %
25 2 12,5 % 100 %

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 63
Darstellung diskreter quantitativer Merkmale
Für diskrete quantitative Merkmale können wir Säulendiagramme erstellen.
Säulendiagramm

5
4
4
3 3
3
2 2 2
2

20 21 22 23 24 25

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 64
Häufigkeiten stetiger quantitativer Merkmale
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester 2019 an der TH Köln
▶ Merkmal: Körpergröße
▶ Merkmalsausprägungen: m
▶ Urliste (schon sortiert): (1,60, 1,61, 1,63, 1,64, 1,65, 1,65, 1,66, 1,73, . . .
. . . 1,74, 1,77, 1,77, 1,81, 1,85, 1,87, 1,92, 1,97)
Zwischenschritt: Bestimmung von Klassen
z. B.: [1,60, 1,70), [1,70, 1,80), [1,80, 1,90) und [1,90, 2,00)
absolute relative kumulierte
Klasse Häufigkeit rel. Häufigkeit
[1,60, 1,70) 7 44 % 44 %
[1,70, 1,80) 4 25 % 69 %
[1,80, 1,90) 3 19 % 88 %
[1,90, 2,00) 2 13 % 100 %

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 65
Darstellung stetiger quantitativer Merkmale
Für stetige Merkmale erstellen wir Histogramme als grafische Darstellung.

Histogramm
Ein Histogramm stellt die Häufigkeiten in einzelnen Klassen flächengetreu
dar.
Wesentliche Unterschiede zum normalen“ Säulendiagramm:

▶ zwischen den Säulen liegen keine Abstände
▶ Breite der Merkmalsbereiche ist nicht notwendigerweise gleich
Konstruktion Histogramm für Klassen [c0 , c1 ), [c1 , c2 ), . . . ,[ck−1 , ck )
▶ Rechtecke
▶ Breite: dj = cj − cj−1
▶ Höhe: proportional zu hj /dj bzw. fj /dj
▶ Fläche: proportional zu hj bzw. fj

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 66
Darstellung stetiger quantitativer Merkmale

Histogramm
10

6
Anzahl

150 160 170 180 190 200 210


Körpergröße in cm

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 67
Empirische Verteilungsfunktion
Absolute kumulierte Häufigkeitsverteilung
Die absolute kumulierte Häufigkeitsverteilung wird mit H(x) bezeichnet.
Sie ist definiert durch:

H(x) = Anzahl der Werte xi mit xi ≤ x

Empirische Verteilungsfunktion
Wir bezeichnen die empirische Verteilungsfunktion mit F (x).
Sie ist gegeben durch:
H(x)
F (x) =
n
Sie beschreibt den Anteil der Beobachtungswerte, die kleiner oder gleich
einem bestimmten Wert x sind.

Beide Funktionen sind monoton wachsende Treppenfunktionen.

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 68
Empirische Verteilungsfunktion – Darstellung

Empirische Verteilungsfunktion

1
0,9
0,75

0,5

0,25
0,1
0
150 160 170 180 190 200 210
Körpergröße in cm

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.2. Verteilungsdarstellungen

Seite: 69
Lagemaße
Kennzahlen
▶ Modus
... kann aus Häufigkeitsverteilung abgelesen werden.
... bei diskreten Merkmalen durchaus aussagekräftig.
▶ Median
... wenn die empirische Verteilungsfunktion erstmalig 0,5 erreicht
Beispiele
▶ Alter
▶ Modus: Alter 20
▶ Median: Alter 22
▶ Körpergröße
▶ Modus: Klasse 1,60 m bis 1,70 m
▶ Median: Klasse 1,70 m bis 1,80 m

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 70
Arithmetisches Mittel
Arithmetisches Mittel/Mittelwert
Das arithmetische Mittel (Mittelwert) eines Merkmals und zugehöriger
Urliste (x1 , . . . ,xn ) ist definiert durch:

1
x̄ = · (x1 + . . . + xn )
n

▶ Wert soll eine Tendenz anzeigen


▶ Aussagekraft nimmt ab, umso weniger eine zentrale Tendenz vorliegt
und umso verschiedener die Objekte sind
Beispiele:
▶ Alter x̄ = 22,31
▶ Körpergröße x̄ = 1,74 m

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 71
Arithmetisches Mittel
Annahme: Es liegt eine Häufigkeitsverteilung (f1 , . . . ,fk ) vor.

Arithmetisches Mittel/Mittelwert
Das arithmetische Mittel (Mittelwert) eines Merkmals mit Ausprägungen
a1 , . . . ,ak und zugehöriger Urliste (x1 , . . . ,xn ) ist definiert durch:

x̄ = a1 · f1 + . . . + ak · fk

Diskussion
▶ bimodale Verteilungen
▶ Verteilungen mit heterogenen Merkmalsausprägungen
Ob die Verteilung breit oder eng, spitz oder flach, symmetrisch oder schief
ist, können wir anhand der Lagemaße allein nicht feststellen.

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 72
Spannweite
Spannweite
Die Spannweite ist definiert durch:

range = xmax − xmin

Die Spannweite allein ist besonders anfällig für Ausreißer“. Deshalb hat

die Statistik noch weitere Streuungsmaße entwickelt, die gegenüber
Ausreißern robust sind und auf diese Weise auch ein Kriterium zur
Beurteilung und Identifikation von Ausreißern bilden können.
Beispiel:
Alter: 5, Körpergröße: 0,37

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 73
Quantil
Quantil
Ein p-Quantil teilt die Anzahl der Objekte so in zwei Teile auf, dass
p · 100 % der an den diesen Objekten gemessenen Werte bzw. Daten unter
diesem Wert und (1 − p) · 100 % der Daten über diesem Wert liegen.
Wenn die empirische Verteilungsfunktion vorliegt, dann entspricht das
Quantil der Merkmalsausprägung, bei der das erste Mal der entsprechende
Anteil erreicht wird.
Anmerkungen:
▶ Der Median ist das 50 %-Quantil.
▶ Übliche Quantile: 25 % und 75 % (Quartile) bzw. 5 % und 95 %
▶ Interquartilsabstand: dQ = x0,75 − x0,25
▶ Fünf-Punkte-Zusammenfassung eines Merkmals:

xmin , x0,25 , xmed , x0,75 , xmax

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 74
Quantil und Boxplot – Beispiel
Fünf-Punkte-Zusammenfassung sowie Boxplots

xmin = 20, x0,25 = 20, xmed = 22, x0,75 = 24, xmax = 25

18 19 20 21 22 23 24 25 26
Alter

xmin = 160, x0,25 = 164, xmed = 173, x0,75 = 181, xmax = 197

150 155 160 165 170 175 180 185 190 195 200
Körpergröße in cm

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 75
Varianz und Standardabweichung
Varianz
Für beobachtete Werte x1 , . . . ,xn eines Merkmals ist die Varianz definiert
durch:
1
s̃ 2 = · (x1 − x̄)2 + . . . + (xn − x̄)2

n
Standardabweichung √
Die Standardabweichung ist: s̃ = + s̃ 2
Anmerkungen
▶ Berechnung nur für quantitative Merkmale möglich
▶ Die Standardabweichung beschreibt die durchschnittliche Streuung
der gemessenen Ausprägungen eines Merkmals um den Mittelwert.
▶ s 2 bzw. s wird als Stichprobenvarianz und
Stichprobenstandardabweichung bezeichnet (hier noch nicht relevant)
▶ Standardabweichung: Maßeinheit identisch zu Merkmalen

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 76
Varianz und Standardabweichung – Beispiel
Alter:
1
s̃ 2 = · (24 − 22,31)2 + . . . + (25 − 22,31)2 = 3,09

16
p
s̃ = 3,09 = 1,76

Körpergröße:
1
s̃ 2 = · (1,60 − 1,74)2 + . . . + (1,97 − 1,74)2 = 0,01. . .

16
p
s̃ = 0,01. . . = 0,11

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 77
Gruppierte Daten
Median
Wenn [ct−1 ,ct ) die Gruppe ist, in der der Median liegt, dann können wir
den Median schätzen mit:
(ct − ct−1 ) · (0,5 − F (ct−1 ))
xmed,grupp = ct−1 +
ft
Arithmetisches Mittel
Wir bestimmen zunächst die Mittelpunkte mj der k Gruppen und addieren
dann die Mittelpunkte gewichtet mit der relativen Häufigkeit auf:

x̄grupp = f1 · m1 + . . . + fk · mk

Beispiel Größe:

x̄grupp = 44 % · 1,65 + 25 % · 1,75 + 19 % · 1,85 + 13 % · 1,95 = 1,77

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 78
Beispiel Median bei gruppierten Daten
Wir bestimmen den Median für die Körpergröße auf Basis der gruppierten
Daten.

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 79
Lernziele
Nach dem Studium des Abschnitts zur eindimensionalen Darstellung
quantitativer Merkmale können Studierende ...
1. für einen gegebenen Datensatz eine empirische Verteilungsfunktion
ermitteln, um damit z. B. Quantile zu bestimmen.
2. Histogramme, empirische Verteilungsfunktionen und Boxplots
zeichnen (auf Basis der jeweiligen Definition), um die Verteilung eines
Merkmals grafisch zu visualisieren.
3. klassische Kennwerte quantitativer Daten wie Median, Mittelwert,
Varianz und Standardabweichung kalkulieren, indem sie die
entsprechenden Formeln anwenden.
4. mit gruppierten Daten den Median und den Mittelwert abschätzen.

Statistik ˆ 4. Quantitative Merkmale eindimensional ˆ 4.3. Lage- und Streuungsmaße

Seite: 80
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.0. Inhaltsverzeichnis

Seite: 81
Motivation
Prinzipielles Vorgehen bei der Zusammenhangsanalyse
▶ Zwei qualitative Merkmale (Kapitel 3):
Kreuztabelle und bedingte Häufigkeitsverteilung
▶ Ein qualitatives Merkmal und ein quantitatives Merkmal:
Analyse der Verteilung des quantitativen Merkmals unter den
verschiedenen Bedingungen des kategorialen Merkmals
Unterschiedliche Verteilung ⇒ Zusammenhang/Abhängigkeit möglich

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 82
Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Datenmaterial:
▶ Studie mit 10 Personen (5 Männer/5 Frauen)
▶ Urliste:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
9 10 11 12 13 6 7 8 9 10
▶ Die ersten fünf Werte stammen von den fünf Frauen und die letzten
fünf Werte von den Männern. Daher alternative Bezeichnung:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
9 10 11 12 13 6 7 8 9 10
xij mit i ∈ {1, 2} und j ∈ {1, . . . ,5}

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 83
Variationskoeffizient – Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Vergleich der statistischen Kenngrößen der Verteilung:

Geschlecht Anzahl Mittelwert Std.abw.


weiblich 5 11,0 1,41
männlich 5 8,0 1,41
insgesamt 10 9,5 2,06

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 84
Motivation – Berechnungen (1/2)

x̄ = 9,5 x̄1 = 11 x̄2 = 8 s̃ = 2,06 s̃1 = s̃2 = 1,41

10 · s̃ 2 = (x11 − x̄)2 + . . . + (x15 − x̄)2 + (x21 − x̄)2 + . . . + (x25 − x̄)2


| {z } | {z }
Frauen Männer
2 2
= (x11 −x̄1 + x̄1 −x̄) + . . . + (x15 −x̄1 + x̄1 −x̄)
| {z } | {z }
=0 =0
+ (x21 − x̄2 + x̄2 − x̄) + . . . + (x25 − x̄2 + x̄2 − x̄)2
2

= (x11 − x̄1 )2 + (x̄1 − x̄)2 + . . . + (x15 − x̄1 )2 + (x̄1 − x̄)2


+ 2 · (x11 − x̄1 ) · (x̄1 − x̄) + . . . + 2 · (x15 − x̄1 ) · (x̄1 − x̄)
+ (x21 − x̄2 )2 + (x̄2 − x̄)2 + . . . + (x25 − x̄2 )2 + (x̄2 − x̄)2
+ 2 · (x21 − x̄2 ) · (x̄2 − x̄) + . . . + 2 · (x25 − x̄2 ) · (x̄2 − x̄)

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 85
Motivation – Berechnungen (2/2)

. . . = (x11 − x̄1 )2 + . . . + (x15 − x̄1 )2 + (x̄1 − x̄)2 + . . . + (x̄1 − x̄)2


+ 2 · (x̄1 − x̄) · ((x11 − x̄1 ) + . . . + (x15 − x̄1 ))
| {z }
=0
+ (x21 − x̄2 ) + . . . + (x25 − x̄2 )2 + (x̄2 − x̄)2 + . . . + (x̄2 − x̄)2
2

+ 2 · (x̄2 − x̄) · ((x21 − x̄2 ) + . . . + (x25 − x̄2 ))


| {z }
=0
= (x11 − x̄1 )2 + . . . + (x15 − x̄1 )2 + (x21 − x̄2 )2 + . . . + (x25 − x̄2 )2
+ (x̄1 − x̄)2 + . . . + (x̄1 − x̄)2 + (x̄2 − x̄)2 + . . . + (x̄2 − x̄)2
= 5 · s̃12 + 5 · s̃22 + 5 · (x̄1 − x̄)2 + 5 · (x̄2 − x̄)2

s̃ 2 = 50 % · s̃12 + 50 % · s̃22 + 50 % · (x̄1 − x̄)2 + 50 % · (x̄2 − x̄)2


 

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 86
Streuungszerlegung
Mit der Varianzzerlegung können wir analysieren, in welchem Verhältnis
die gesamte Varianz eines Merkmals zu der Varianz in den durch das
kategoriale Merkmal gebildeten Gruppen (mit k Gruppen) steht.
n1 2 nk 2
s̃ 2 = · s̃ + . . . + · s̃
n 1 n k
n1 nk
+ · (x̄1 − x̄)2 + . . . + · (x̄k − x̄)2
n n
Im Beispiel:

4,25 = 50 % · 2 + 50 % · 2 + 50 % · (11 − 9,5)2 + 50 % · (8 − 9,5)2


= 2 + 2,25

Interpretation: Etwa die Hälfte der Gesamtvarianz, 2,25


4,25 = 53 %, wird durch
die Gruppierung erklärt. Der Anteil der Varianzen in den einzelnen Gruppen
besitzt einen Anteil von 47 %. Es besteht keine Unabhängigkeit.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 87
Streuungszerlegung – Beispiele
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Urliste:
▶ Ausgangsvariante:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
9 10 11 12 13 6 7 8 9 10
▶ Variante A:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
10 10,5 11 11,5 12 7 7,5 8 8,5 9
▶ Variante B:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
7 9 11 13 15 4 6 8 10 12

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 88
Streuungszerlegung – Beispiele
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Vergleich der statistischen Kenngrößen der Verteilung:

Geschlecht x̄ s̃ 2 x̄1 s̃12 x̄2 s̃22


Ausgangsvariante 9,5 4,25 11,0 2,0 8,0 2,0
Variante A 9,5 2,75 11,0 0,5 8,0 0,5
Variante B 9,5 10,25 11,0 8,0 8,0 8,0

Zentrale Frage:
Wie aussagekräftig ist der Unterschied in den Mittelwerten? (3 Stunden)

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 89
Streuungszerlegung – Beispiele
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Analyse der Streuungszerlegung:

s̃ 2 = 50 % · s̃12 + 50 % · s̃22 + 50 % · (x̄1 − x̄)2 + 50 % · (x̄2 − x̄)2


| {z } | {z }
1. Summand 2. Summand

Geschlecht s̃ 2 1. Summand 2. Summand


Ausgangsvariante 4,25 47 % 53 %
Variante A 2,75 18 % 82 %
Variante B 10,25 78 % 22 %

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 90
Streuungszerlegung – Interpretation
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Analyse der Streuungszerlegung:
Je geringer die Standardabweichung eines Merkmals in den jeweiligen
Gruppen (1. Summand), d. h. je weniger stark die Daten um die
Mittelwerte in den Gruppen schwanken, umso aussagekräftiger sind
Mittelwertunterschiede zwischen den Gruppen (2. Summand).

Für die fiktiven Werte gilt: Es kann angenommen werden, dass in den
Gruppen unterschiedliche Gesetzmäßigkeiten wirken.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 91
Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: echte Werte, siehe Buch)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Analyse der Streuungszerlegung:

Geschlecht Anzahl Mittelwert Varianz


weiblich 58 10,88 96,38
männlich 63 7,91 91,19
insgesamt 121 9,33 95,89
⇒ Nur 2,3 % der Varianz wird durch die Mittelwertdifferenz erklärt.
58 63
121 · 96,38 + 121 · 91,19
1− = 2,3 %
95,89

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 92
Tabellenkalkulationsprogramm
Wir führen eine Streuungszerlegung exemplarisch mit einem
Tabellenkalkulationsprogramm durch.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 93
Lernziele
Nach dem Studium des Abschnitts zum Variationskoeffizienten und zur
Varianzanalyse können Studierende ...
1. metrische Daten in verschiedenen Gruppen vergleichen.
2. den Einfluss eines kategorialen Merkmals auf die Varianz eines
metrischen Merkmals mit Hilfe der Streuungszerlegung
(Varianzanalyse) beurteilen.
3. die Summanden der Streuungszerlegung explizit bestimmen und die
Summanden ins Verhältnis zur Varianz setzen.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.1. Vergleich metrischer Daten

Seite: 94
Motivation
Zusammenhang zwischen zwei metrischen Merkmalen messen
▶ verschiedene Messwerte für gemeinsame Streuung kennenlernen
▶ Stärke und Richtung des Zusammenhangs berücksichtigen
Begriffe in diesem Abschnitt
▶ Kovarianz
▶ Korrelationskoeffizient
▶ Lineare Regression
▶ Bestimmtheitsmaß

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 95
Beispiel
Daten zur Nachrichtenanalyse (n = 34)
▶ Nachrichtenwert ȳ = 2,18
▶ Beitragslänge x̄ = 70,15
5
Nachrichtenwert

Beitragslänge
50 100 150 200

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 96
Kovarianz
Definition
Seien X und Y zwei an einem Objekt erhobene Merkmale und (xi ,yi ) mit
i = 1, . . . ,n die Ausprägung der gemeinsamen Variablen. Dann heißt:
n
1 X
s̃XY = · (xi − x̄) · (yi − ȳ )
n
i=1

die empirische Kovarianz.


▶ Sie ist die Summe der Abweichungsprodukte geteilt durch den
Stichprobenumfang.
▶ Maß für die gemeinsame Streuung
Wenn die Punkte in allen vier Feldern (siehe oben) gleichmäßig verteilt sind, dann
gleichen sich die positiven und negativen Werte aus. → Kovarianz nahe bei 0.
Wenn sich die Punkte jedoch in positiven oder negativen Feldern sammeln, so ergibt
sich jeweils eine negative oder eine positive Kovarianz.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 97
Beispiel
Daten der Nachrichtenanalyse (n = 34)
Dauer Wert xi − x̄ yi − ȳ (xi − x̄) · (yi − ȳ ) Dauer Wert xi − x̄ yi − ȳ (xi − x̄) · (yi − ȳ )
15 3 −55,15 0,82 −45,42 67 1 −3,15 −1,18 3,70
21 3 −49,15 0,82 −40,47 91 2 20,85 −0,18 −3,68
21 3 −49,15 0,82 −40,47 91 3 20,85 0,82 17,17
22 0 −48,15 −2,18 104,79 93 1 22,85 −1,18 −26,89
23 1 −47,15 −1,18 55,47 103 3 32,85 0,82 27,06
24 1 −46,15 −1,18 54,29 106 2 35,85 −0,18 −6,33
25 0 −45,15 −2,18 98,26 107 1 36,85 −1,18 −43,36
26 0 −44,15 −2,18 96,08 111 2 40,85 −0,18 −7,21
26 3 −44,15 0,82 −36,36 113 2 42,85 −0,18 −7,56
26 4 −44,15 1,82 −80,50 114 1 43,85 −1,18 −51,59
27 2 −43,15 −0,18 7,61 118 2 47,85 −0,18 −8,44
27 3 −43,15 0,82 −35,53 121 3 50,85 0,82 41,88
30 4 −40,15 1,82 −73,21 126 3 55,85 0,82 46,00
30 4 −40,15 1,82 −73,21 129 3 58,85 0,82 48,47
32 2 −38,15 −0,18 6,73 133 2 62,85 −0,18 −11,09
32 2 −38,15 −0,18 6,73 136 4 65,85 1,82 120,08
42 2 −28,15 −0,18 4,97 177 2 106,85 −0,18 −18,86

Die Summe über die letzte Spalte ergibt einen Wert von 129,12.
Somit ist: Kovarianz s̃XY =3,80

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 98
Eigenschaften der Kovarianz
▶ Die Kovarianz misst einen Zusammenhang der Art:
je größer x, desto größer y“ oder je größer x, desto kleiner y“
” ”
▶ Je mehr sich die Punkte auf die diagonalen Quadranten (siehe oben)
konzentrieren, desto größer ist der Betrag der Kovarianz.
▶ Je größer die Kovarianz ist, desto stärker ist der lineare
Zusammenhang zwischen den Merkmalen.
▶ Je größer die Streuung der beiden Merkmale ist, desto größer wird der
Betrag der Kovarianz.
▶ Achtung:
Kovarianz 0 bedeutet nicht, dass die Merkmale keinen
Zusammenhang haben, sondern nur, dass sie in keinem linearen
Zusammenhang stehen.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 99
Drei weitere Beispiele
Jedes Merkmal hat sechs Messwerte und einen Mittelwert von 5.

Beispiel 1 Beispiel 2 Beispiel 3


10 10 10
Merkmal 2 Merkmal 2 Merkmal 2

8 8 8

6 6 6

4 4 4

2 2 2

Merkmal 1 Merkmal 1 Merkmal 1


2 4 6 8 10 2 4 6 8 10 2 4 6 8 10

▶ Beispiel 1: s̃XY = 16 · ((2 − 5) · (2 − 5) + . . . (8 − 5) · (7 − 5)) = 4,33


▶ Beispiel 2: s̃XY = 16 · ((2 − 5) · (7 − 5) + . . . (8 − 5) · (3 − 5)) = − 4,33
▶ Beispiel 3: s̃XY = 0

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 100
Korrelationskoeffizient nach Pearson
Definition
Seien X und Y zwei an einem Objekt erhobene Merkmale und (xi ,yi ) mit
i = 1, . . . ,n die Ausprägung der gemeinsamen Variablen. Dann heißt:
Pn
(xi − x̄) · (yi − ȳ ) s̃XY
rXY = qP i=1 =
n 2
P n 2 s̃X · s̃Y
i=1 (xi − x̄) · i=1 (yi − ȳ )

Korrelationskoeffizient nach Pearson.


▶ Maß für die gemeinsame Streuung
▶ Werte liegen zwischen −1 und +1
▶ Werte −1 und 1: exakter linearer Zusammenhang
▶ Wert 0: kein linearer Zusammenhang (lineare Unabhängigkeit)

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 101
Korrelationskoeffizient nach Pearson
Interpretation

Wert Interpretation
0 bis ±0,1 kein bzw. nahezu kein linearer Zusammenhang
±0,1 bis ±0,3 sehr schwacher linearer Zusammenhang
±0,3 bis ±0,5 schwacher bis mittlerer linearer Zusammenhang
±0,5 bis ±0,8 deutlicher bis starker linearer Zusammenhang
±0,8 bis ±1 sehr starker linearer Zusammenhang

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 102
Beispiel
Daten der Nachrichtenanalyse (n = 34)

s̃XY 3,80
rXY = = = 0,07
s̃X · s̃Y 46,9 · 1,12

▶ Wert nahe Null, so dass nicht von einem linearen Zusammenhang


ausgegangen werden kann
▶ Mögliche Ursachen:
▶ Beitragslänge ist kein guter Indikator für den Nachrichtenwert
▶ Nachrichtenwert wird nicht gut durch den Nachrichtenfaktor
(Merkmal mit Ausprägungen 0 bis 4) gelungen
▶ Zusammenhang ist nicht linear

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 103
Drei weitere Beispiele
Jedes Merkmal hat sechs Messwerte und einen Mittelwert von 5.

Beispiel 1 Beispiel 2 Beispiel 3


10 10 10
Merkmal 2 Merkmal 2 Merkmal 2

8 8 8

6 6 6

4 4 4

2 2 2

Merkmal 1 Merkmal 1 Merkmal 1


2 4 6 8 10 2 4 6 8 10 2 4 6 8 10

▶ Beispiel 1: rXY = 0,93


▶ Beispiel 2: rXY = − 0,93
▶ Beispiel 3: rXY = 0

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 104
Lineare Regression
Grundidee
▶ Modellierung der Abhängigkeit zweier Merkmale
▶ Wie wirkt sich ein Merkmal (Regressor) auf ein anderes Merkmal
(Regressand) aus?
▶ Beispielhafte Bezeichnung: Regressor x und Regressand y
▶ Achtung:
Die Regression kann nicht überprüfen, ob x tatsächlich y bedingt!
Annahme
▶ y ist eine lineare Funktion von x, d. h.

y =β·x +α

Unterschied zur Korrelationsanalyse: ein Merkmal wird als abhängig von


dem anderen Merkmal angesehen (Korrelationsanalyse: die Merkmale
werden als gleichwertig angesehen)
Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 105
Lineare Regression
Modellgleichung
yi = β · xi + α + εi
Dabei ist:
▶ i = 1, . . . ,n
▶ y1 , . . . ,yn : Beobachtungen von Merkmal y
▶ x1 , . . . ,xn : Beobachtungen von Merkmal x
▶ ε1 , . . . ,εn : zufälliger Fehler mit Mittelwert 0

Nächster Schritt
Die Parameter α und β sind aus den Daten (x1 , y1 ), . . . ,(xn ,yn ) zu
schätzen.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 106
Lineare Regression
Modellgleichung
yi = β · xi + α + εi
Idee der Schätzung
▶ minimiere die Fehlerquadrate (yi − (β · xi + α))2 = ε2i
▶ Schätzer
s̃Y
β = rXY ·
s̃X
α = ȳ − β · x̄
Eigenschaften der Regressionsgeraden
▶ Die Gerade geht durch den Punkt (x̄, ȳ ).
▶ Die Summe der Abweichungen ist Null, d. h.:
n
X
(yi − (β · xi + α)) = 0
i=1

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 107
Güte der Modellanpassung – Streuungszerlegung
Wie lässt sich beurteilen, ob α und β ein vernünftiges Modell liefern?
▶ Wenn die Streuung des Regressanden durch die Streuung des
Regressors erklärt werden kann, dann haben wir einen Hinweis für ein
gutes Modell. (hier: ŷi = β · xi + α)

yi − ȳ = (ŷi − ȳ ) + (yi − ŷi )


n
X n
X n
X
(yi − ȳ )2 = (ŷi − ȳ )2 + (yi − ŷi )2
i=1 i=1 i=1

SQT = SQE + SQR


▶ Bestimmtheitsmaß R 2

SQE
R2 = 2
= rXY
SQT
Bestimmtheitsmaß ist quadrierter Korrelationskoeffizient nach Pearson
Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 108
Tabellenkalkulationsprogramm
Wir führen die Berechnungen exemplarisch mit einem
Tabellenkalkulationsprogramm durch.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 109
Lernziele
Nach dem Studium des Abschnitts zu Zusammenhängen zwischen zwei
metrischen Variablen können Studierende ...
1. ... die Kovarianz und den Korrelationskoeffizienten nach Pearson für
einen gegebenen Datensatz berechnen.
2. ... das Ergebnis der Berechnung eines Korrelationskoeffizienten nach
Pearson interpretieren.
3. ... den Unterschied zwischen dem Korrelationskoeffizienten nach
Pearson und nach Spearman erklären.
4. ... eine Situation angeben, in dem ein Zusammenhang besteht, obwohl
der Korrelationskoeffizient nach Pearson Null ist.
5. ... Unterschiede und Gemeinsamkeiten einer Korrelationsanalyse und
einer Regressionsanalyse erläutern.
6. ... eine lineare Regression durchführen und die Güte der linearen
Regression mit dem Bestimmtheitsmaß R 2 beurteilen.

Statistik ˆ 5. Quantitative Merkmale zweidimensional ˆ 5.2. Zusammenhänge metrische Variablen

Seite: 110
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.0. Inhaltsverzeichnis

Seite: 111
Motivation
Ausgangspunkt
Stichprobe, und damit nur Teil der Grundgesamtheit vorhanden, da ...
▶ Grundgesamtheit zu umfangreich oder ändert sich laufend
▶ Objekte in der Stichprobe durch Messung zerstört werden
Problem
Fehlende Elemente der Grundgesamtheit
▶ Aussagen lassen sich nicht auf Grundgesamtheit übertragen
▶ Es entstehen Fehler/Irrtümer
Ziel
Problem lösen
▶ Übertragung der Aussagen auf die Grundgesamtheit
▶ Irrtumswahrscheinlichkeit abschätzen

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.1. Ziel und Vorgehensweise

Seite: 112
Schätzen und Testen

Aufgaben der Inferenzstatistik


Die wesentlichen Aufgaben der Inferenzstatistik sind Schätzen und Testen.

▶ Schätzen
Zum Beispiel: Ist der aus der Stichprobe bestimmte Mittelwert ein
guter Wert für den wahren, aber unbekannten Mittelwert der
Grundgesamtheit?
▶ Testen
Zum Beispiel: Können wir den Kontingenzkoeffizient oder den
Korrelationskoeffizient, den wir in der Stichprobe gemessen haben, auf
die Grundgesamtheit übertragen?
In diesem Kapitel geht es um die Voraussetzungen, um Inferenzstatistik
durchzuführen. Konkrete Test-Verfahren lernen wir erst in den nächsten
Kapiteln kennen.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.1. Ziel und Vorgehensweise

Seite: 113
Wichtige Begriffe
▶ Ein Zufallsvorgang ist ein Vorgang, bei dem am Ende mehrere
Ergebnisse vorliegen können und bei dem vor der Durchführung nicht
klar ist, welches Ergebnis eintreten wird.
▶ Bei einem Zufallsvorgang können mehrere verschiedene Ergebnisse
eintreten. Den Bereich der möglichen Ergebnisse nennt man
Ergebnisraum oder Ereignisraum.
▶ Die Ergebnisse von Zufallsvorgängen bezeichnen wir auch als
Zufallsvariablen.
▶ Diskrete Zufallsvariablen: Der Ereignisraum besteht aus einer
endlichen bzw. abzählbaren Menge an möglichen Ereignissen.
▶ Stetige Zufallsvariablen: Der Ereignisraum besteht aus einer unendlich
großen Menge an möglichen Ereignissen.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 114
Wahrscheinlichkeitsfunktion

Wahrscheinlichkeitsfunktion
Die Wahrscheinlichkeitsfunktion f einer diskreten Zufallsvariable beschreibt
die Wahrscheinlichkeit, mit der die einzelnen Ergebnisse eines
Zufallsexperiments auftreten.

▶ Bezeichnung:
▶ (Diskrete) Zufallsvariablen X , Y , ...
▶ Einzelne Ereignisse: x1 , x2 , . . . bzw. y1 , y2 , . . .
▶ Die Wahrscheinlichkeit (probability) wird mit P bzw. p abgekürzt.
▶ Zuordnung von xi zu pi , oder formal: f (xi ) = P(X = xi ) = pi
▶ Vergleiche Analogie zur relativen Häufigkeitsverteilung eines Merkmals
bei der Datenanalyse.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 115
Wahrscheinlichkeitsfunktion – Beispiel
Zufallsvariable X : Anzahl Männer bei vier zufällig ausgewählten Personen
▶ Annahme:
Männer und Frauen werden gleichwahrscheinlich ausgewählt
▶ Einzelne Ereignisse:
FFFF → 0, FFFM → 1, FFMF → 1, ..., MMMM → 4
▶ Wahrscheinlichkeitsfunktion:
1
kein Mann: f (0) = P(X = 0) = 16
4 1
ein Mann: f (1) = P(X = 1) = 16 = 4
6 3
zwei Männer: f (2) = P(X = 2) = 16 = 8
4 1
drei Männer: f (3) = P(X = 3) = 16 = 4
1
vier Männer: f (4) = P(X = 4) = 16

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 116
Verteilungsfunktion

Verteilungsfunktion
Der Wert der Verteilungsfunktion F an der Stelle x einer diskreten
Zufallsvariable ist definiert als Summe aller Wahrscheinlichkeiten der
Ereignisse, deren Ereigniswert kleiner oder gleich dem Wert x ist.
X
F (x) = P(X ≤ x) = P(X = xi )
xi ≤x

▶ Die Summe aller pi ist gleich 1.


▶ Vergleiche Analogie zur kumulierten relativen Häufigkeitsverteilung
eines Merkmals bei der Datenanalyse.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 117
Verteilungsfunktion – Beispiel
Zufallsvariable X : Anzahl Männer bei vier zufällig ausgewählten Personen
▶ Annahme:
Männer und Frauen werden gleichwahrscheinlich ausgewählt
▶ Einzelne Ereignisse:
FFFF → 0, FFFM → 1, FFMF → 1, ..., MMMM → 4
▶ Verteilungsfunktion:
1
kein Mann: F (0) = P(X ≤ 0) = 16
5
ein Mann: F (1) = P(X ≤ 1) = 16
11
zwei Männer: F (2) = P(X ≤ 2) = 16
15
drei Männer: F (3) = P(X ≤ 3) = 16
16
vier Männer: F (4) = P(X ≤ 4) = 16 =1

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 118
Wahrscheinlichkeitsdichte
Für eine stetige Zufallsvariable ist eine Wahrscheinlichkeitsfunktion nicht
sinnvoll, da die Wahrscheinlichkeit eines einzelnen Ereignisses 0 ist.

Wahrscheinlichkeitsdichte
Die Wahrscheinlichkeitsdichte f einer stetigen Zufallsvariable ermöglicht
die Bestimmung der Wahrscheinlichkeit, mit der das Ergebnis eines
Zufallsexperiments in einem Bereich [a; b] liegt.

▶ X sei eine (stetige) Zufallsvariable


▶ Die Wahrscheinlichkeit (probability) wird mit P abgekürzt.
▶ Notation: Z b
P(a ≤ X ≤ b) = f (x) dx
a
▶ Vergleiche Analogie zu einem Histogramm eines stetigen Merkmals.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 119
Verteilungsfunktion

Verteilungsfunktion
Der Wert der Verteilungsfunktion F an der Stelle x einer stetigen
Zufallsvariable ist definiert als Fläche unterhalb der
Wahrscheinlichkeitsdichte von allen Werten, deren Ereigniswert kleiner
oder gleich dem Wert x ist.
Z x
F (x) = P(X ≤ x) = f (u) du
−∞

Bestimmung von Wahrscheinlichkeiten mit der Verteilungsfunktion:

P(a ≤ X ≤ b) = F (b) − F (a)

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 120
Dichte und Verteilung – Beispiel
Zufallsvariable X : Verspätung Bus an der Haltestelle Ubierring
▶ Annahme:
Die Verspätung ist gleichverteilt“. Alle 10 Minuten fährt ein Bus.

Der Folgebus ist pünktlich.
▶ Mögliche Ereignisse:
Werte im Intervall 0 Minuten (pünktlich) bis 10 Minuten (Folgebus)
▶ Wahrscheinlichkeitsdichte:
1
f (x) = für x ∈ [0; 10] und sonst f (x) = 0
10
▶ Verteilungsfunktion:
x
F (x) = für x ∈ [0; 10]
10
F (x) = 0 für x < 0 und F (x) = 1 für x > 10

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 121
Dichte und Verteilung – Beispiel – Fortsetzung
Zufallsvariable X : Verspätung Bus an der Haltestelle Ubierring
▶ Annahme:
Die Verspätung ist gleichverteilt“. Alle 10 Minuten fährt ein Bus.

Der Folgebus ist pünktlich.
▶ Mögliche Ereignisse:
Werte im Intervall 0 Minuten (pünktlich) bis 10 Minuten (Folgebus)
▶ Für die Wahrscheinlichkeit einer Verspätung kleiner 5 Minuten gilt:
Z 5
5 0 1
P(0 ≤ X ≤ 5) = f (x) dx = F (5) − F (0) = − = = 50 %
0 10 10 2
▶ Für die Wahrscheinlichkeit einer Verspätung von mindestens 2
Minuten und höchstens 4 Minuten gilt:
Z 4
4 2 2
P(2 ≤ X ≤ 4) = f (x) dx = F (4) − F (2) = − = = 20 %
2 10 10 10
Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.2. Zufall und Zufallsverteilung

Seite: 122
Normalverteilung
Die Normalverteilung ist eine besondere Verteilung von Zufallsvariablen.

Beispiele von Zufallsvorgängen mit Normalverteilung


andere Formulierung: ... mit normalverteilten Ergebnissen...“

▶ Abweichungen von einer Norm
▶ Zusammenwirken verschiedener Fehlerquellen auf eine Messgröße
▶ Zusammensetzung von zufälligen Stichproben
▶ Zusammenfassung von Ergebnissen einzelner Zufallsvorgänge
Normalverteilte Zufallsvariablen sind stetige Zufallsvariablen.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 123
Normalverteilung – Dichte- und Verteilungsfunktion
Die Normalverteilung ist eine besondere Verteilung von Zufallsvariablen.

Sie besitzt zwei Parameter, nämlich µ und σ 2 > 0, und ist definiert über
ihre Wahrscheinlichkeitsdichte f .
(x − µ)2
 
1
f (x; µ, σ) = √ exp −
σ · 2π 2 · σ2
Z x
(u − µ)2
 
1
F (x; µ, σ) = √ exp − du
σ · 2π −∞ 2 · σ2
Die Verteilungsfunktion lässt sich nicht durch eine analytisch geschlossene
Formel darstellen (sondern nur durch dieses Integral).

Die Funktionswerte lassen sich mit jeder Statistik-Software berechnen.


Wir schreiben:
X ∼ N (µ; σ 2 )

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 124
Eigenschaften der Normalverteilung
Wahrscheinlichkeitsdichte hat ...
▶ ... glockenförmigen Verlauf
▶ ... verläuft symmetrisch um den Wert µ
▶ ... Wertebereich von −∞ bis ∞
3 Beispiele: µ = 0, σ 2 = 4 bzw. µ = 2, σ 2 = 2 bzw. µ = −2, σ 2 = 2
0,3

Verteilungsfunktion F (x) = P(X ≤ x)


1

0,8
Dichtefunktion f (x)

0,2
0,6

0,4
0,1

0,2

0 0

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Werte x Werte x

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 125
Standardnormalverteilung
▶ Wenn µ = 0 und σ 2 = 1 ist, dann heißt die Normalverteilung
Standardnormalverteilung; außerdem ist dann f = ϕ und F = Φ.
▶ Eine normalverteilte Zufallsvariable X mit Parametern µ und σ 2 wird
zu einer standardnormalverteilten Zufallsvariable Z durch:
X −µ
Z= (z-Transformation)
σ
0,4 1

Verteilungsfunktion Φ(x)
0,8
Dichtefunktion ϕ(x)

0,3

0,6
0,2
0,4

0,1
0,2

0 0

−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Werte x Werte x

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 126
Eigenschaften der Normalverteilung
Die Parameter haben folgende Bedeutung:
▶ µ ist der Erwartungswert der Verteilung.
▶ σ ist die Standardabweichung der Verteilung.
Die Symmetrie bedeutet:

F (µ − x) = 1 − F (µ + x)

Wenn die Werte links von µ bekannt sind, dann können damit die Werte
rechts von µ berechnet werden.
Entsprechend gilt für die Standardnormalverteilung:

Φ(−x) = 1 − Φ(x)

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 127
Beispiel
Die Anlage einer Brauerei füllt laut Hersteller normalverteilt ab mit
µ = 500 ml und σ 2 = 16 ml2 .
Wie viel Prozent der Flaschen beinhalten 490 ml bis 510 ml?
Wir schreiben:
X ∼ N (500; 16)
Wir suchen: P(490 ≤ X ≤ 510)

Lösung: F (510; 500, 4) − F (490; 500, 4) = 99,4 % − 0,6 % = 98,8 %

Alternative Lösung:
   
510 − 500 490 − 500
Φ −Φ = Φ (2,5) − Φ (−2,5)
4 4
= Φ (2,5) − (1 − Φ (2,5)) = 98,8 %

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 128
Tabellenkalkulationsprogramm
Wir führen die Berechnungen exemplarisch mit einem
Tabellenkalkulationsprogramm durch.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 129
Lernziele
Nach dem Studium des Abschnitts zu Grundlagen der induktiven Statistik
können Studierende ...
1. die wesentlichen Aufgaben der Inferenzstatistik anhand von Beispielen
erläutern.
2. Beispiele für Zufallsvorgänge nennen und den Ereignisraum sowie
zwischen stetigen und diskreten Zufallsvariablen unterscheiden.
3. die Begriffe Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte
sowie Verteilungsfunktion erklären und Beispiele angeben.
4. mit einer Verteilungsfunktion die Wahrscheinlichkeit von Ereignissen
kalkulieren.
5. die Eigenschaften der Normalverteilung aufzählen sowie die Dichte-
und die Verteilungsfunktion skizzieren.

Statistik ˆ 6. Grundlagen der induktiven Statistik ˆ 6.3. Normalverteilung

Seite: 130
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 7. Hypothesentests ˆ 7.0. Inhaltsverzeichnis

Seite: 131
Motivation
Ausgangspunkt: Hypothese über einen Unterschied oder Zusammenhang

Grundsätzliche Frage
Wie sicher können wir sein, dass das in der Stichprobe festgestellte
Ergebnis nicht durch Zufall entstanden ist?

▶ Annahme: Ergebnis ist zufällig (Gegenteil ursprüngliche Hypothese)


▶ Wenn der Test diese Annahme als unwahrscheinlich ausweist, dann
wird die Annahme verworfen.
▶ Wenn die Annahme verworfen wird, dann gehen wir von einem
systematischen Unterschied oder Zusammenhang aus, der auch in der
Grundgesamtheit existiert (ursprüngliche Hypothese).

Statistik ˆ 7. Hypothesentests ˆ 7.1. Grundprinzip

Seite: 132
Falsifikation

Nullhypothese und Alternativhypothese


Die Nullhypothese postuliert die Situation, dass alle Unterschiede oder
Zusammenhänge rein zufällig sind. Die Alternativhypothese beschreibt die
Situation eines systematischen Zusammenhangs bzw. eines systematischen
Unterschieds.

▶ Ein statistischer Test geht zunächst von der Unschuld“ (z. B. kein

Zusammenhang) der Stichprobe aus. → Nullhypothese
▶ Er versucht dann, die Schuld“ (z. B. Zusammenhang liegt vor) zu

zeigen. → Alternativhypothese
▶ Wenn Schuld“ gezeigt, dann nennen wir das Ergebnis signifikant.

Wichtig: Eine Verifikation der Alternativhypothese ist nicht möglich.
Die Beurteilung wird über eine Falsifikation der Alternative erreicht.

Statistik ˆ 7. Hypothesentests ˆ 7.1. Grundprinzip

Seite: 133
Fehlerarten
Die folgende Vierfelder-Matrix zeigt alle möglichen Situationen.

Realität
kein Unterschied Unterschied
Unterschied Fehler 1. Art kein Fehler
Test
kein Unterschied kein Fehler Fehler 2. Art

Statistik ˆ 7. Hypothesentests ˆ 7.1. Grundprinzip

Seite: 134
Vorgehensweise – Beispiel
Zusammenhang zwischen Satellitenempfang und Programmzufriedenheit
−→ Nullhypothese: Es gibt keinen Zusammenhang.
1. Entwicklung Teststatistik
−→ χ2
2. Berechnung der Teststatistik für Stichprobe
−→ χ2 = 6,97
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (5,99; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 6,97 ∈ / [0; 5,99]
Interpretation: Zusammenhang kann auf Grundgesamtheit mit einer
Irrtumswahrscheinlichkeit von 5 % übertragen werden
Es gibt einen Zusammenhang.
Statistik ˆ 7. Hypothesentests ˆ 7.1. Grundprinzip

Seite: 135
Annahmen
Annahmen für folgende Abschnitte:
▶ Stichprobe zufällig ausgewählt
▶ Stichprobe hinreichend groß ist (i. d. R. n ≥ 30):
Kennwerte (z. B. der Mittelwert) sind normalverteilte Zufallsvariablen
Mit diesen Annahmen gilt:
Wir können µ und σ der Normalverteilung hinreichend gut bestimmen.

Schätzer für den Mittelwert:


1
µ := x̄ = · (x1 + . . . + xn )
n
Schätzer für die Varianz:
n 1
σ 2 := s 2 = · s̃ 2 = · ((x1 − x̄)2 + . . . + (xn − x̄)2 )
n−1 n−1

Statistik ˆ 7. Hypothesentests ˆ 7.1. Grundprinzip

Seite: 136
Motivation – t-Test für den Erwartungswert
Hypothese:
Wir testen, ob ein in einer Stichprobe festgestellter Mittelwert x̄ dem
theoretisch ermittelten bzw. festgelegten Wert µ0 entspricht.

µ0 = x̄ (Nullhypothese; kein Unterschied)

Anmerkungen:
▶ Werte unterscheiden sich schon allein deshalb, weil eine Stichprobe in
der Regel immer nur einen Ausschnitt zeigt
▶ Test fällt die Entscheidung, ob der Unterschied auf eine zufällige
Schwankung zurückzuführen ist (oder einen tatsächlichen
Unterschied, Alternativhypothese, ausdrückt)
Wenn die Stichprobe n ≥ 30 ist, dann kann die Situation unter der
Nullhypothese mit Hilfe der Normalverteilung spezifiziert werden.
Achtung: Eigentlich t-Verteilung (vgl. Testname); wir orientieren uns hier am Buch.

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 137
Beispiel
Hypothese:
Wir testen, ob die durchschnittliche Dauer der Tagesschau in den letzten
40 Tagen x̄ = 975 Sekunden (ein in einer Stichprobe festgestellter
Mittelwert) dem in der Programmzeitschrift angegebenen Wert von
µ0 = 900 Sekunden (dem theoretisch ermittelten bzw. festgelegten Wert)
entspricht.

µ0 = x̄ (Nullhypothese; kein Unterschied)

Anmerkungen:
▶ Stichprobe zeigt nur einen Ausschnitt → 40 Sendungen
▶ Test fällt die Entscheidung, ob der Unterschied von 75 Sekunden auf
eine zufällige Schwankung zurückzuführen ist
Da die Stichprobe n = 40 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 138
Entwicklung Teststatistik
Die Teststatistik (konkrete Zahl; daher Dach“) ist:

√ θ̂ − µ0
θ̂ := x̄ bzw. transformiert: n·
s
Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik
(Zufallsvariable) gegeben durch:

s2 √ θ − µ0
 
θ ∼ N µ0 ; bzw. transformiert: n· ∼ N (0; 1)
n s
Achtung: Eigentlich t-Verteilung (vgl. Testname); wir orientieren uns hier am Buch.

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 139
Visualisierung Teststatistik für Beispiel
Teststatistik bzw. transformierte Teststatistik (n = 40, s = 91,14):
√ θ − 900
θ ∼ N (900; 207,7) bzw. 40 · ∼ N (0; 1)
91,14
Teststatistik Transformierte Teststatistik
0,04 0,5

0,4
0,03
Dichtefunktion

Dichtefunktion
0,3
0,02
0,2

0,01
0,1

0 0

850 900 950 1000 −2 0 2 4 6


Werte x Werte x

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 140
Bestimmung Ablehnungsbereich
Weil die transformierte Teststatistik standardnormalverteilt ist, lässt sich
der Ablehnungsbereich exakt angeben mit:
 
−∞; −z1− α2 ∪ z1− α2 ; ,∞

wobei z1− α2 der Wert ist, so dass für ein Z ∼ N (0; 1) gilt:

P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α

Ablehnungsbereich symmetrisch (um 0); daher Nullhypothese ablehnen,


wenn:
√ x̄ − µ0
n· > z1− α2
s
α 1% 5% 10 %
Überblick (Auswahl):
z1− α2 2,576 1,960 1,645

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 141
Visualisierung Ablehnungsbereich für Beispiel
Wenn α = 5 % ist, dann gilt für den Ablehnungsbereich (rot):

0,4

0,3
Dichtefunktion

0,2

0,1

−6 −4 −2 0 2 4 6
Werte x

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 142
Beispiel – Gesamtsicht
Nullhypothese: Es gibt keinen Unterschied (µ0 = x̄).
1. Entwicklung
√ Teststatistik
−→ 40 · x̄−900
91,14
2. Berechnung
√ der Teststatistik für Stichprobe
−→ 40 · 975−900
91,14 = 5,205
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 5,205 ∈ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann mit einer Irrtumswahrscheinlichkeit
von 5 % auf Grundgesamtheit übertragen werden.
Die Dauer der Tagesschau weicht signifikant von 15 Minuten ab.

Statistik ˆ 7. Hypothesentests ˆ 7.2. t-Test für den Erwartungswert

Seite: 143
Motivation – t-Test für Mittelwertunterschiede
hier: unverbundene Gruppen

Hypothese:
Wir testen, ob die Unterschiede zwischen zwei Teilstichproben von der
Stichprobe d := x̄A − x̄B (z. B. Differenz der Gruppenmittelwerte von
Frauen und Männer in der Stichprobe) zufällig sind.

Annahmen:
▶ Stichprobenziehung basiert auf einer Zufallsauswahl
▶ zwischen den Teilstichproben wurde ein Mittelwertunterschied
festgestellt
▶ Umfang der beiden Teilstichproben größer als 30

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 144
Beispiel
Hypothese:
Wir testen, ob der Unterschied in der durchschnittlichen Dauer der
Haushaltstätigkeit bei Frauen und Männern d = x̄F − x̄M (Unterschiede
zwischen zwei Teilstichproben von der Stichprobe) zufällig sind.

d = 0 =: d0 (Nullhypothese; kein Unterschied)

Anmerkungen:
▶ Stichprobenziehungen (Variante 1 und Variante 2) basieren auf einer
Zufallsauswahl
▶ Umfang der beiden Teilstichproben größer als 30
Da die Stichproben 40 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 145
Beispiel – Daten
In beiden Varianten jeweils 40 Frauen und 40 Männer:
Variante 1:
Frauen: 12,65 12,84 12,75 3,59 7,65 7,58 10,00 8,57 12,93 11,71 10,28 7,56
14,52 8,99 10,57 11,78 13,65 11,41 13,51 12,92 10,89 8,39 17,25 7,53 12,16
12,01 6,50 16,23 12,79 9,22 7,73 9,94 6,76 11,51 13,79 14,83 17,19 15,56 11,62
11,96
Männer: 7,26 9,54 6,71 4,75 8,03 7,94 11,00 3,68 7,26 7,73 9,12 8,67 7,50 6,50
10,22 8,57 14,01 11,62 3,09 5,31 10,59 5,25 9,11 13,95 8,26 9,41 7,79 2,04 4,07
6,61 10,73 4,27 7,85 6,19 11,10 7,24 11,11 6,60 10,15 10,43
Variante 2:
Frauen: 0,00 9,09 5,13 16,11 37,75 1,03 4,21 22,00 5,26 5,57 14,64 24,67 9,11
21,10 15,75 9,54 19,85 19,80 24,98 23,54 0,00 9,42 8,82 9,07 9,47 0,31 7,43
17,91 5,32 13,72 6,16 10,75 6,51 11,49 5,35 1,79 21,35 18,65 15,80 0,23
Männer: 11,54 6,73 10,03 1,43 5,96 9,61 8,83 4,38 11,86 3,99 7,59 9,54 4,70
10,88 0,00 25,05 9,79 0,00 12,07 10,00 0,00 0,00 7,59 20,10 0,00 2,96 25,44
5,52 8,09 9,43 1,64 13,53 11,60 11,92 12,65 3,17 18,82 0,00 21,05 7,68

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 146
Entwicklung Teststatistik
Die Teilstichprobe A habe nA Beobachtungen
bzw. Teilstichprobe B habe nB Beobachtungen.
Die Teststatistik (konkrete Zahl; daher Dach“) ist:

θ̂ − d
θ̂ := x̄A − x̄B bzw. transformiert: q 2 02
sA sB
nA + nB

Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik


(Zufallsvariable) gegeben durch:

sA2 sB2
 
θ − d0
θ ∼ N d0 ; + bzw. transformiert: q 2 ∼ N (0; 1)
nA nB sA sB2
nA + nB

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 147
Bestimmung Ablehnungsbereich
Weil die transformierte Teststatistik standardnormalverteilt ist, lässt sich
der Ablehnungsbereich exakt angeben mit:
 
−∞; −z1− α2 ∪ z1− α2 ; ,∞

wobei z1− α2 der Wert ist, so dass für ein Z ∼ N (0; 1) gilt:

P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α

Ablehnungsbereich symmetrisch (um 0); daher Nullhypothese ablehnen,


wenn:
x̄ − x̄
qA 2 B 2 > z1− α2
sA sB
nA + nB

α 1% 5% 10 %
Überblick (Auswahl):
z1− α2 2,576 1,960 1,645

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 148
Beispiel – Fortsetzung – Variante 1
Nullhypothese: Es gibt keinen Unterschied (x̄F − x̄M = 0).
1. Entwicklung Teststatistik
x̄ − x̄
−→ qF 2 M2
sF sM
nF + nM

2. Berechnung der Teststatistik für Stichprobe −→ 4,90


3. Festlegung einer Irrtumswahrscheinlichkeit −→ 5 %
4. Bestimmung Ablehnungsbereich −→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 4,90 ∈ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann mit einer Irrtumswahrscheinlichkeit
von 5 % auf die Grundgesamtheit übertragen werden.
Frauen haben eine höhere wöchentliche Hausarbeitszeit

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 149
Beispiel – Fortsetzung – Variante 2
Nullhypothese: Es gibt keinen Unterschied (x̄F − x̄M = 0).
1. Entwicklung Teststatistik (siehe oben)
2. Berechnung der Teststatistik für Stichprobe −→ 1,80
3. Festlegung einer Irrtumswahrscheinlichkeit −→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese nicht ablehnen, da
1,80 ∈
/ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann nicht auf Grundgesamtheit
übertragen werden.
Unterschied zwischen Mittelwerten möglicherweise zufällig

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 150
Anmerkungen
Das Ergebnis des Tests wird von der Effektgröße (Unterschied im
Mittelwert), vom Stichprobenumfang und von der Streuung beeinflusst.
▶ Je größer die Effektgröße (festgestellter Unterschied), desto eher ist er
auf die Grundgesamtheit übertragbar.
▶ Je größer die Stichprobe ist, desto leichter werden auch kleine Effekte
signifikant.
▶ Je kleiner die Streuung in den Gruppen ist, desto eher ist der
Mittelwert auf die Grundgesamtheit übertragbar.
Ist eine der beiden Gruppen vom Umfang kleiner als 30 und kann nicht von
einer Normalverteilung ausgegangen werden, dann besteht noch die
Möglichkeit, auf einen parameterfreien Test auszuweichen.
−→ Wilcoxon-Rangsummen-Test oder U-Test von Mann-Whitney

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 151
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests über Unterschiede
und Zusammenhänge können Studierende ...
1. zwischen Nullhypothese und Alternativhypothese unterscheiden und
die grundsätzliche Vorgehensweise bei Hypothesentests erläutern.
2. den Unterschied zwischen Fehler 1. Art und Fehler 2. Art erklären.
3. einen t-Test für den Erwartungswert durchführen, in dem die
entsprechende Teststatistik für einen Datensatz berechnet wird und
mit den Quantilen der Standardnormalverteilung verglichen wird.
4. einen t-Test für Mittelwertunterschiede berechnen und mit den
Ergebnissen einer Streuungszerlegung vergleichen.
5. verschiedene Testprobleme unterscheiden bzw. identifizieren.
6. das zur Fragestellung passende Testverfahren anwenden.

Statistik ˆ 7. Hypothesentests ˆ 7.3. t-Test für Mittelwertunterschiede (unverbunden)

Seite: 152
Motivation – t-Test für Mittelwertunterschiede
Wir möchten von einem Objekt zwei verschiedene metrische Merkmale
miteinander vergleichen.

Beispiele:
▶ Einstellung einer Person vor und nach dem Lesen eines Artikels
▶ Bekanntheit einer Marke vor und nach einer Werbekampagne
▶ Blutdruck vor und nach der Medikamenten-Einnahme
▶ Unterschied Echtzeitfernsehen und Zeitversetztfernsehen zur
Informationsgewinnung

Weitere Beispiele?

Statistik ˆ 7. Hypothesentests ˆ 7.4. t-Test für Mittelwertunterschiede (verbunden)

Seite: 153
Motivation – Formulierung der Hypothese
Hypothese:
Wir testen, ob ein in einer Stichprobe festgestellter Mittelwert des
Unterschieds (vor/nach) ū dem theoretisch ermittelten bzw. festgelegten
Wert µ0 entspricht.

µ0 = ū (Nullhypothese; kein Unterschied)

Anmerkungen:
▶ Werte unterscheiden sich schon allein deshalb, weil eine Stichprobe in
der Regel immer nur einen Ausschnitt zeigt
▶ Test fällt die Entscheidung, ob der Unterschied von µ0 und ū auf eine
zufällige Schwankung zurückzuführen ist (oder einen tatsächlichen
Unterschied, Alternativhypothese, ausdrückt)
Wenn die Stichprobe n ≥ 30 ist, dann kann die Situation unter der
Nullhypothese mit Hilfe der Normalverteilung spezifiziert werden.

Statistik ˆ 7. Hypothesentests ˆ 7.4. t-Test für Mittelwertunterschiede (verbunden)

Seite: 154
Beispiel
Hypothese:
Wir testen, ob der Unterschied zwischen Echtzeitfernsehen und
Zeitversetztfernsehen zur Informationsgewinnung ū = 1,12 (ein in einer
Stichprobe festgestellter Mittelwert des Unterschieds) dem Wert µ0 = 0
(dem theoretisch ermittelten bzw. festgelegten Wert) entspricht.

µ0 = ū (Nullhypothese; kein Unterschied)

Anmerkungen:
▶ Stichprobe zeigt nur einen Ausschnitt → 87 Teilnehmer
▶ Test fällt die Entscheidung, ob der Unterschied von 1,12 auf eine
zufällige Schwankung zurückzuführen ist
Da die Stichprobe n = 87 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.

Statistik ˆ 7. Hypothesentests ˆ 7.4. t-Test für Mittelwertunterschiede (verbunden)

Seite: 155
Entwicklung Teststatistik
Die Teststatistik (konkrete Zahl) ist:

√ θ̂
θ̂ := ū bzw. transformiert: n·
s
Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik
(Zufallsvariable) gegeben durch:

s2 √ θ
 
θ ∼ N 0; bzw. transformiert: n · ∼ N (0; 1)
n s

Statistik ˆ 7. Hypothesentests ˆ 7.4. t-Test für Mittelwertunterschiede (verbunden)

Seite: 156
Beispiel – Gesamtsicht
Nullhypothese: Es gibt keinen Unterschied (0 = µ0 = ū).
1. Entwicklung
√ Teststatistik

−→ 87 · 1,6523
2. Berechnung
√ der Teststatistik für Stichprobe
1,12
−→ 87 · 1,6523 = 6,323
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 6,323 ∈ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann mit einer Irrtumswahrscheinlichkeit
von 5 % auf Grundgesamtheit übertragen werden.
Es gibt einen Unterschied zwischen Echtzeitfernsehen und
Zeitversetztfernsehen zur Informationsgewinnung.
Statistik ˆ 7. Hypothesentests ˆ 7.4. t-Test für Mittelwertunterschiede (verbunden)

Seite: 157
Motivation – Einfache Varianzanalyse

Ziel
Die Varianzanalyse zielt darauf ab, zu untersuchen, ob durch ein
Gruppierungsmerkmal (z. B. Frau/Mann oder klein/mittel/groß) ein
entscheidender Anteil der in einem metrischen Merkmal insgesamt
vorhandenen Streuung erklärt werden kann.

Beispiele:
▶ Welche Schwankungen im Einkommen einer Person können durch die
jeweilige Steuerklasse erklärt werden?
▶ Inwiefern kann die Anzahl der in verschiedenen Genres einer
Fernsehgattung durchschnittlich gezeigten Kinder durch die
verschiedenen Genres (Kinderserien, Familienserien, Krimiserien)
erklärt werden?
Weitere Beispiele?

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 158
Einfache Varianzanalyse
Idee
▶ Teststatistik: Verhältnis zwischen erklärter Streuung und Reststreuung
▶ Verteilung der Teststatistik (bei Gültigkeit der Nullhypothese):
F -Verteilung
Annahmen
▶ Das metrische Merkmal ist in den einzelnen Gruppen normalverteilt.
▶ Die Varianz in den einzelnen Gruppen ist gleich.
▶ Die Gruppen sind voneinander unabhängig.
Nullhypothese
▶ kein Gruppen-Mittelwert hat einen Abstand vom Gesamt-Mittelwert
▶ d. h. die Gruppen-Mittelwerte entsprechen dem Gesamt-Mittelwert

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 159
Entwicklung Teststatistik
Notation
▶ k Gruppen mit jeweils ni Werten (i = 1, . . . ,k)
▶ insgesamt: n Werte (n = n1 + . . . + nk )
▶ x̄ Gesamt-Mittelwert; x̄i Gruppen-Mittelwert in Gruppe i
Die Teststatistik (konkrete Zahl) ist:
Pk 2
i=1ni · (x̄i − x̄) /(k − 1)
θ̂ := Pk Pni 2
i=1 j=1 (xij − x̄i ) /(n − k)

Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik


(Zufallsvariable) gegeben durch:

θ ∼ F (k − 1, n − k)

Hiermit kann der Ablehnungsbereich konstruiert werden.

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 160
Beispiel – Daten (siehe oben)
In beiden Varianten jeweils 40 Frauen und 40 Männer:
Variante 1:
Frauen: 12,65 12,84 12,75 3,59 7,65 7,58 10,00 8,57 12,93 11,71 10,28 7,56
14,52 8,99 10,57 11,78 13,65 11,41 13,51 12,92 10,89 8,39 17,25 7,53 12,16
12,01 6,50 16,23 12,79 9,22 7,73 9,94 6,76 11,51 13,79 14,83 17,19 15,56 11,62
11,96
Männer: 7,26 9,54 6,71 4,75 8,03 7,94 11,00 3,68 7,26 7,73 9,12 8,67 7,50 6,50
10,22 8,57 14,01 11,62 3,09 5,31 10,59 5,25 9,11 13,95 8,26 9,41 7,79 2,04 4,07
6,61 10,73 4,27 7,85 6,19 11,10 7,24 11,11 6,60 10,15 10,43
Variante 2:
Frauen: 0,00 9,09 5,13 16,11 37,75 1,03 4,21 22,00 5,26 5,57 14,64 24,67 9,11
21,10 15,75 9,54 19,85 19,80 24,98 23,54 0,00 9,42 8,82 9,07 9,47 0,31 7,43
17,91 5,32 13,72 6,16 10,75 6,51 11,49 5,35 1,79 21,35 18,65 15,80 0,23
Männer: 11,54 6,73 10,03 1,43 5,96 9,61 8,83 4,38 11,86 3,99 7,59 9,54 4,70
10,88 0,00 25,05 9,79 0,00 12,07 10,00 0,00 0,00 7,59 20,10 0,00 2,96 25,44
5,52 8,09 9,43 1,64 13,53 11,60 11,92 12,65 3,17 18,82 0,00 21,05 7,68

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 161
Beispiel – Streuungszerlegung (Wiederholung)
Die beiden Varianten unterscheiden sich bezüglich ihrer
Streuungszerlegung:

Variante 1: Variante 2:
2
Geschlecht n x̄ s̃ Geschlecht n x̄ s̃ 2
weiblich 40 11,23 9,25 weiblich 40 11,72 71,55
männlich 40 8,03 7,41 männlich 40 8,63 43,34
insgesamt 80 9,63 10,89 insgesamt 80 10,17 59,83
24 % erklärt durch Gruppierung 4 % erklärt durch Gruppierung

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 162
Teststatistik im Beispiel
Für beide Varianten gilt:
▶ k = 2 Gruppen mit jeweils ni = 40 Werten (i = 1,2)
▶ insgesamt: n = 80 Werte (n = n1 + n2 )
▶ x̄ = 9,63 Gesamt-Mittelwert
▶ Gruppen-Mittelwerte: siehe oben
Die Teststatistik (konkrete Zahl) ist:
P2 2
ni · (x̄i − x̄) /(2 − 1)
θ̂V1 = P2 i=1
P40 2 = 24,00 bzw. θ̂V2 = 3,24
i=1 j=1 (xij − x̄i ) /(80 − 2)

Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik


(Zufallsvariable) gegeben durch:

θ ∼ F (2 − 1; 80 − 2) = F (1; 78)

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 163
Gesamtsicht für Beispiel
Weil die Teststatistik F -verteilt ist, lässt sich der Ablehnungsbereich exakt
angeben. z1−α bezeichne den Wert, so dass für ein Z ∼ F (1; 78) gilt:

P(Z ≥ z1−α ) = α

Für α = 5 % gilt:
z95 % = 3,963
Variante 1: Nullhypothese ablehnen, da: 24,00 > 3,963
Schlussfolgerung: Das Geschlecht hat einen signifikanten Einfluss auf die
durchschnittliche wöchentliche Haushaltstätigkeit.

Variante 2: Nullhypothese nicht ablehnen, da: 3,24 < 3,963


Schlussfolgerung: Der Einfluss des Geschlechts auf die durchschnittliche
wöchentliche Haushaltstätigkeit ist nicht signifikant.

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 164
Visualisierung – Dichte der F -Verteilung

0,8 Dichtefunktion von Z ∼ F (1; 78)

0,6

0,4

0,2

0
0 1 2 3 4 5 6

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 165
Beispiel – Sachverhalt
Bei einem Lesetest an einem Kölner Gymnasium wurde die Lesekompetenz
der 1. Fremdsprache Englisch untersucht. Dazu mussten 200 Schüler:innen
einen englischsprachigen Text lesen. Im Anschluss wurden die
Schüler:innen zu dem Text befragt. Dabei konnten sie einen Testscore
erzielen. Die folgende Tabelle zeigt in Abhängigkeit der Stufe (Unterstufe,
Mittelstufe und Oberstufe) die Anzahl der Schüler sowie den Mittelwert
und die Varianz des Testscores.
Anzahl Mittelwert Testscore x̄ Varianz Testscore s̃ 2
Unterstufe 55 51 69
Mittelstufe 79 61 98
Oberstufe 66 71 96
Gesamt 200 62 150
Hinweis: Die Daten sind fiktiv und gerundet.

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 166
Beispiel – Aufgaben
a) Bestimmen Sie die Streuungszerlegung und beantworten Sie mit dem
Ergebnis Ihrer Berechnung die folgende Frage: Wieviel Prozent der
Gesamtvarianz des Testscores wird durch die Einteilung in die drei
Gruppen (Unterstufe, Mittelstufe und Oberstufe) erklärt?
b) Wie lautet die Nullhypothese bei der ANOVA im vorliegenden Fall?
c) Berechnen Sie den Wert der Teststatistik der ANOVA.
d) Wie lautet der Name der Verteilung der Teststatistik (auch: konkrete
Angabe der Anzahl der Freiheitsgrade) im vorliegenden Fall?
e) Mit welchem Befehl kann in Microsoft Excel der kritische Wert bzw.
der p-Wert ermittelt werden?
f) Wie interpretieren Sie das Ergebnis?

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 167
Tabellenkalkulationsprogramm
Wir führen die Berechnungen exemplarisch mit einem
Tabellenkalkulationsprogramm durch.

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 168
ANOVA – Herausforderungen
▶ Sind die Voraussetzungen erfüllt?
Varianzhomogenität, Normalverteilung, Unabhängigkeit
▶ Wie geht es nach der ANOVA weiter?
Testergebnis global
Unterschiede zwischen einzelnen Gruppen signifikant?

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 169
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests über Unterschiede
und Zusammenhänge (auch ANOVA) können Studierende ...
1. einen t-Test für Mittelwertunterschiede bei verbundenen Gruppen
durchführen.
2. eine ANOVA durchführen und die Ergebnisse der ANOVA
interpretieren.
3. verschiedene Testprobleme unterscheiden bzw. identifizieren.
4. das zur Fragestellung passende Testverfahren anwenden.

Statistik ˆ 7. Hypothesentests ˆ 7.5. ANOVA

Seite: 170
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.0. Inhaltsverzeichnis

Seite: 171
Motivation

Motivation
Bei Hypothesen über Zusammenhänge fragen wir, ob wir die in der
deskriptiven Analyse festgestellten Zusammenhänge in der Stichprobe auf
die Grundgesamtheit übertragen können.

Maßzahlen für den Zusammenhang


▶ Kapitel 3: χ2
▶ Kapitel 5: Korrelationskoeffizient
Unterschied zwischen χ2 und Korrelationskoeffizient?

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest


Seite: 172
Beispiel
Zusammenhang zwischen Programmzufriedenheit und Satellitenempfang

weniger zufrieden

sehr zufrieden
Zufriedenheit

unzufrieden
Satellitenempfang b1 b2 b3 Gesamt
nicht vorhanden a1 9 51 28 88
vorhanden a2 3 11 19 33
Gesamt 12 62 47 121

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest


Seite: 173
Definition χ2 -Wert – Wiederholung
Gegeben sei eine gemeinsame Verteilung hij . Definition χ2 -Wert:
 2
hi• ·h•j
k X
X m hij − n
χ2 = hi• ·h•j
i=1 j=1 n

Berechnung des χ2 -Wertes im Beispiel:

tats. Häufigkeiten erw. Häufigkeiten quadr. u. norm. Diff.

b1 b2 b3 b1 b2 b3 b1 b2 b3

a1 9 51 28 a1 8,7 45,1 34,2 a1 0,01 0,77 1,12

a2 3 11 19 a2 3,3 16,9 12,8 a2 0,02 2,07 2,98

χ2 = 0,01 + 0,77 + 1,12 + 0,02 + 2,07 + 2,98 = 6,97


K = 0,23 K ∗ = 0,33
Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest
Seite: 174
Nullhypothese und Teststatistik
Nullhypothese:
▶ Es gibt keine Abhängigkeit zwischen zwei nominal (bzw. ordinal)
skalierten Merkmalen.
Teststatistik:
θ = χ2
Wenn die Nullhypothese gilt, dann ist die Teststatistik χ2 verteilt mit
(m − 1) · (k − 1) Freiheitsgraden:

θ ∼ χ2 ((m − 1) · (k − 1))

Voraussetzungen
▶ Die erwartete Häufigkeit ist in mindestens 80 % der Fälle größer als 5.
▶ Keine der erwarteten Häufigkeiten ist Null.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest


Seite: 175
Ablehnungsbereich und Testentscheidung
Der Ablehnungsbereich für die Nullhypothese ergibt sich somit zu:

(z1−α ; ∞)

wobei für eine χ2 -verteilte Zufallsvariable Z mit (m − 1) · (k − 1)


Freiheitsgraden und für z1−α gilt:

P(Z ≤ z1−α ) = 1 − α

Die Nullhypothese wird also abgelehnt, wenn gilt:

χ2 > z1−α

Der Fehler 1. Art beträgt dann maximal α.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest


Seite: 176
Beispiel – Fortsetzung
Die Nullhypothese lautet:
▶ Es gibt keinen Zusammenhang zwischen Programmzufriedenheit und
Satellitenempfang.
Die Teststatistik beträgt:
χ2 = 6,97
Der Ablehnungsbereich für die Nullhypothese für α = 0,05 ist:

(5,9912; ∞),

wobei für eine χ2 -verteilte Zufallsvariable Z mit 2 Freiheitsgraden und für


z95 % = 5,9912 gilt:
P(Z ≤ 5,9912) = 95 %
Die Nullhypothese wird also abgelehnt, da 6,97 > 5,9912.
Wir verwerfen die Nullhypothese und gehen von einem signifikanten
Zusammenhang zw. Programmzufriedenheit und Satellitenempfang aus.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest


Seite: 177
Dichte der χ2 -Verteilung

0,5

0,4
1 Freiheitsgrad
2 Freiheitsgrade
0,3 4 Freiheitsgrade

0,2

0,1

0
0 2 4 6 8 10 12 14

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.1. χ2 -Unabhängigkeitstest


Seite: 178
Korrelationskoeffizient – Wiederholung
Definition
Seien X und Y zwei an einem Objekt erhobene Merkmale und (xi ,yi ) mit
i = 1, . . . ,n die Ausprägung der gemeinsamen Variablen. Dann heißt:
Pn
(xi − x̄) · (yi − ȳ ) s̃XY
rXY = qP i=1 =
n 2
P n 2 s̃X · s̃Y
i=1 (xi − x̄) · i=1 (yi − ȳ )

Korrelationskoeffizient nach Pearson.


▶ Maß für die gemeinsame Streuung
▶ Werte liegen zwischen −1 und +1
▶ Werte −1 und 1: exakter linearer Zusammenhang
▶ Wert 0: kein linearer Zusammenhang (lineare Unabhängigkeit)

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 179
Test auf signifikante Korrelation
Den unbekannten Zusammenhang zwischen den Merkmalen X und Y
bezeichnen wir mit ρXY .

Nullhypothese
Die Merkmale korrelieren nicht miteinander.

ρXY = 0

Die Alternativhypothese lautet:

ρXY ̸= 0

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 180
Beispiel
Bei einer Stichprobe vom Umfang n = 45 haben wir einen positiven
Korrelationskoeffizient gemessen:

rXY = 0,35.

Können wir die Korrelation rXY mit einer Irrtumswahrscheinlichkeit von


maximal α = 0,05 auf die Korrelation ρXY der Grundgesamtheit
übertragen?

Die Nullhypothese lautet:


ρXY = 0

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 181
Nullhypothese und Teststatistik
Nullhypothese:
▶ Es gibt keine Abhängigkeit zwischen zwei metrischen Merkmalen.
Teststatistik: √
ρXY · n − 2
θ= p
1 − ρ2XY
Wenn die Nullhypothese gilt, dann ist die Teststatistik
standardnormalverteilt:
θ ∼ N (0,1)
Voraussetzungen
▶ Für den Stichprobenumfang n gilt: n > 25.
▶ Achtung: eigentlich t-Verteilung

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 182
Ablehnungsbereich und Testentscheidung
Der Ablehnungsbereich für die Nullhypothese ergibt sich somit zu:

(−∞; −z1− α2 ) ∪ (z1− α2 ; ∞)

wobei für eine standardnormalverteilte Zufallsvariable Z und für z1− α2 gilt:

P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α

Die Nullhypothese wird also abgelehnt, wenn gilt:



rXY · n − 2
p
2
> z1− α2
1 − rXY

Der Fehler 1. Art beträgt dann maximal α.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 183
Beispiel – Fortsetzung
Die Nullhypothese lautet:
▶ Es gibt keine Abhängigkeit.
Der Wert der Teststatistik beträgt:
√ √
rXY · n − 2 0,35 · 43
p
2
=p = 2,450
1 − rXY 1 − 0,352

Der Ablehnungsbereich für die Nullhypothese für α = 0,05 ist:

(−∞; −1,960) ∪ (1,960; ∞).

Die Nullhypothese wird also abgelehnt, da 2,450 > 1,960.


Wir verwerfen die Nullhypothese und gehen von einer signifikanten
Korrelation aus.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 184
Weiteres Beispiel
Welche Korrelation wird bei 51 Studienteilnehmern als signifikant zum
Niveau α = 5 % angesehen?

rXY · 49
p
2
≥ 1,960
1 − rXY
⇔ rXY ≥ 0,27

bzw.
θ̂ ≤ −1,960 ⇔ rXY ≤ −0,27
Ab eine Korrelation von 0,27 (bzw. −0,27) wird bei 51 Studienteilnehmern
von einer signifikanten Korrelation (zum Niveau 5 %) gesprochen.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 185
Übungsaufgabe
Nach welchen Gesundheitsthemen (Fitness oder Wellness) suchen wir im
Internet?
Das Ergebnis eines Fragebogens zur Gesundheitskommunikation ergibt
folgende absolute Häufigkeitsverteilung.

Wellness
b1 b2 b3
a1 47 11 0
Fitness
a2 24 21 5
a3 12 10 14

Gibt es einen Zusammenhang? (Signifikanzniveau: 5 %)

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 186
Übungsaufgabe – Lösung

tats. Häufigkeiten erw. Häufigkeiten quadr. u. norm. Diff.

b1 b2 b3 b1 b2 b3 b1 b2 b3

a1 47 11 0 a1 33,43 16,92 7,65 a1 5,51 2,07 7,65

a2 24 21 5 a2 28,82 14,58 6,60 a2 0,81 2,82 0,39

a3 12 10 14 a3 20,75 10,50 4,75 a3 3,69 0,02 18,01

χ2 = 40,97
K = 0,47 K ∗ = 0,58
Es ist (Freiheitsgrade: 4):
40,97 > 9,49
Daher wird die Nullhypothese zum Niveau 5 % abgelehnt.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 187
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests auf
Zusammenhänge können Studierende ...
1. die Voraussetzungen für die Anwendbarkeit eines
χ2 -Unabhängigkeitstests nennen.
2. die Anzahl der Freiheitsgrade für die χ2 -Verteilung bei einem
χ2 -Unabhängigkeitstest bestimmen.
3. einen χ2 -Unabhängigkeitstest durchführen.
4. einen Test zur Überprüfung einer Korrelation durchführen.

Statistik ˆ 8. Tests auf signifikante Zusammenhänge ˆ 8.2. Signifikante Korrelation

Seite: 188
Inhaltsverzeichnis

1. Einführung

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

9. Klausurvorbereitung

Statistik ˆ 9. Klausurvorbereitung ˆ 9.0. Inhaltsverzeichnis

Seite: 189
Daten zur Prüfung
Datum und Ort:
▶ Tag und Uhrzeit der Prüfung:
▶ Ort der Prüfung:
Folgende Hilfsmittel sind in der Prüfung erlaubt:
▶ Dokumentenechter Stift
▶ Taschenrechner
▶ Ordner mit Unterlagen
Explizit nicht erlaubt sind:
▶ Geräte, die es Ihnen erlauben, mit anderen Personen zu
kommunizieren
▶ Mobiltelefone, Smart-Uhren, Tablet-Computer, etc.

Statistik ˆ 9. Klausurvorbereitung ˆ 9.1. Organisation

Seite: 190
Tipps zur Vorbereitung
▶ Orientieren Sie sich an den Lernzielen in den jeweiligen Kapiteln.
▶ Führen Sie schon im Vorfeld Berechnungen mit Ihrem eigenen
Taschenrechner durch.
▶ Nutzen Sie die Berechnungen aus dem Statistik-Projekt und die
Auswertungen des eigenen Fragenbogens, um sich auf die Prüfung
vorzubereiten.
▶ Der Kurzüberblick“ ist eine verkürzte Sicht auf alle Lernziele.

Er soll Ihnen helfen, Ihre Prüfungsvorbereitung zu strukturieren.

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 191
Kurzüberblick Lernziele – Begriffe
Lernziel: Begriffe verstehen und erläutern (ggf. mit Beispiel)
▶ Grundbegriffe der Datenanalyse, Skalenniveaus, diskret/stetig
▶ Lagemaße und Streuungsmaße, Boxplot
▶ Bedingte Verteilung und Unabhängigkeit
▶ Kovarianz und Korrelation
▶ Zufallsvorgang, Zufallsvariable, Wahrscheinlichkeitsfunktion,
Wahrscheinlichkeitsdichte, Verteilungsfunktion
▶ Nullhypothese, Alternativhypothese, Fehlerarten, Signifikanzniveau

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 192
Kurzüberblick Lernziele – Kennzahlen
Lernziel: Rechnen mit Formeln und Ergebnisse interpretieren
▶ Häufigkeitsverteilungen und empirische Verteilungsfunktion
▶ Korrigierter Kontingenzkoeffizient
▶ Arithmetisches Mittel, Modus, Median, Varianz, Standardabweichung,
Variationskoeffizient
▶ Streuungszerlegung
▶ Korrelationskoeffizient nach Pearson, Lineare Regression,
Bestimmtheitsmaß
▶ Wahrscheinlichkeiten mit vorgebener Verteilungsfunktion
▶ Teststatistiken für Erwartungswert, Mittelwertunterschiede, einfache
Varianzanalyse (ANOVA), χ2 -Test, Korrelation

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 193
Kurzüberblick Lernziele – Induktive Statistik
Lernziel: Hypothesentest durchführen
▶ Passenden Hypothesentest auswählen
▶ Teststatistiken berechnen (siehe oben)
▶ Testentscheidung treffen (kritischer Wert oder Ablehnungsbereich
vorgegeben)
▶ Ergebnis interpretieren

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 194
Kurzüberblick Lernziele – Excel
Lernziel: Auswertungen mit dem Computer (Excel)
▶ Funktionsweise der Befehle (Auswahl):
HÄUFIGKEIT(), SUMME(), ANZAHL(), MITTELWERT(),
STABW.N(), VAR.P(), MEDIAN(), KOVARIANZ.P(), KORREL(),
PEARSON(), NORM.INV(), F.INV(), CHIQU.INV()
usw.
▶ Funktionsweise des Add-Ins Datenanalyse aus dem Bereich
Analyse-Funktionen:
Histogramm, Korrelation, Regression, Zweistichproben t-Test, Anova
insbesondere Ausgabe dieser Funktionen

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 195
Übungsaufgabe – Daten
Daten zur digitalen Kommunikation (fitkiv)

Geschlecht Modell Alter 2015 2018 Differenz Geschlecht Modell Alter 2015 2018 Differenz
m ALDI 42 22 32 -10 m Galaxy 49 17 26 -9
w Galaxy 27 25 31 -6 w iPhone 15 48 48 0
w iPhone 50 37 41 -4 w ALDI 26 51 55 -4
w iPhone 35 50 51 -1 w Galaxy 45 42 40 2
m iPhone 42 39 44 -5 m iPhone 59 24 28 -4
m Galaxy 63 9 19 -10 m Galaxy 34 20 22 -2
w ALDI 35 39 38 1 w iPhone 37 47 54 -7
m iPhone 40 15 21 -6 w ALDI 30 44 46 -2
w iPhone 52 34 35 -1 m Galaxy 37 32 42 -10
w iPhone 45 34 35 -1 m iPhone 47 30 40 -10
m iPhone 26 36 42 -6 m ALDI 39 20 29 -9
w Galaxy 19 51 49 2 w ALDI 36 29 30 -1
m ALDI 38 31 33 -2 m ALDI 38 32 35 -3
m ALDI 41 12 22 -10 w Galaxy 18 41 42 -1
m iPhone 62 3 14 -11 m iPhone 69 6 11 -5

Informationen zur durchschnittlichen Nutzung digitaler Nachrichten über


das Smartphone in 2020 und in 2022

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 196
Übungsaufgabe – Fragen
▶ Sind die beiden Merkmale Geschlecht und Modell unabhängig?
▶ Wie groß ist die Korrelation zwischen dem Alter und der Anzahl
Nachrichten in 2020? Ist das Ergebnis signifikant?
▶ Bestimmen Sie die Regressionsgerade zwischen den Merkmalen Alter
und durchschnittliche Anzahl Nachrichten in 2020. Wie groß ist das
Bestimmtheitsmaß?
▶ Bestimmen Sie die Streuungszerlegung. Berechnen Sie die ANOVA.
▶ Es wird die Vermutung geäußert, dass im Jahr 2020 die
durchschnittliche Anzahl an Nachrichten bei 25 Nachrichten liegt.
Führen Sie einen Hypothesentest durch.
▶ Testen Sie die Hypothese, dass die durchschnittliche Anzahl an
Nachrichten von Frauen 10 Nachrichten über der durchschnittlichen
Anzahl an Nachrichten der Männer liegt.
▶ Ist die Anzahl an Nachrichten von 2020 auf 2022 signifikant gestiegen?

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 197
Notizen

Statistik ˆ 9. Klausurvorbereitung ˆ 9.2. Inhalt

Seite: 198

Das könnte Ihnen auch gefallen