Beruflich Dokumente
Kultur Dokumente
Sommersemester
Seite: 1
Ablauf und Kontaktdaten
▶ Ablauf
▶ Vorlesung – Einführung in die Statistik – 3 ECTS – 2 SWS
▶ im Hörsaal
▶ Übung – Statistik-Projekt – 2 ECTS – 2 SWS
▶ im Computerraum
▶ Kontaktdaten
▶ Dozent: Prof. Dr. Jan-Philipp Schmidt
▶ E-Mail: jan-philipp.schmidt@th-koeln.de
▶ Telefon: +49 221 8275 3854
▶ Büro: Raum D3.216, Claudiusstraße 1, 50678 Köln
Seite: 2
Lernziele und Kompetenzen
Dieses Modul bereitet die Studierenden auf ein weiterführendes Studium
im Bereich der Sozial- und Wirtschaftswissenschaften vor und entwickelt
die notwendigen Kenntnisse für statistische Erhebungen im Bereich
Marktforschung und Personal.
▶ Theoretische Grundlagen in der Vorlesung → Klausur
▶ Quantitative Methoden der Datenanalyse
▶ Interpretation von statistischen Kennzahlen
▶ Praktische Umsetzung im Projekt → Hausarbeit
▶ Besonderheiten von Fragebögen
▶ Auswertungen mit dem Computer (Excel)
Seite: 3
Literatur
▶ Uhlemann, I. Einführung in die Statistik für
Kommunikationswissenschaftler: Deskriptive und induktive
Verfahren für das Bachelorstudium. Springer, 2015.
https://doi.org/10.1007/978-3-658-05769-5
→ Dieses Buch bildet die Basis für die Vorlesung.
▶ Küchenhoff, H. Statistik für Kommunikationswissenschaftler.
UTB, 2006.
http://www.utb-studi-e-book.de/9783838528328
▶ Bortz, J., und N. Döring. Forschungsmethoden und Evaluation für
Human- und Sozialwissenschaftler. Springer, 2006.
http://dx.doi.org/10.1007/978-3-540-33306-7
▶ Spieß, S., und P. Wies. Excel 2016 Statistik. HERDT, 2016.
https://herdt-campus.com/product/EX2016S
▶ Fahrmeir, L. Statistik: Der Weg zur Datenanalyse. Springer, 2016.
Seite: 4
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 5
Zitate
▶ There are three kinds of lies: lies, damned lies and statistics.
Leonard Henry Courteney (1832-1918)
▶ Ich glaube nur den Statistiken, die ich selbst gefälscht habe.
Winston Curchill (1874-1965)
▶ Wir benutzen die Statistik wie ein Betrunkener einen Laternenpfahl:
Vor allem zur Stütze unseres Standpunkts und weniger zum
Beleuchten eines Sachverhalts.
Andrew Lang (1844-1912)
▶ Essentially, all models are wrong, but some are useful.
George Box (1919-2013)
▶ It is easy to lie with statistics. It is hard to tell the truth without it.
Andrejs Dunkles (1939-1998)
Seite: 6
Ziel der Statistik
Statistik
Mit dem Begriff Statistik wird ...
... zum einen die statistische Methodenlehre bezeichnet, also alle Verfahren
und Methoden der Gewinnung, vor allem aber der Verarbeitung,
empirischer Daten.
Zum anderen wird unter Statistik auch die tabellarische oder grafische
Darstellung eines konkret vorliegenden Datenmaterials (z. B. die aktuelle
Arbeitslosenstatistik) verstanden.
Unterscheidung
▶ Deskriptive Statistik → Wie bringe ich die Daten zum Sprechen?
▶ Induktive Statistik → Was können mir die Daten wirklich sagen?
Seite: 7
Beispiel – Deskriptive Statistik
Seite: 8
Beispiel – Fortsetzung
https://www.ard-werbung.de/fileadmin/user_upload/media-perspektiven/pdf/
2011/04-2011_Krueger_01.pdf
Seite: 9
Beispiel – Fortsetzung
https://www.ard-werbung.de/fileadmin/user_upload/media-perspektiven/pdf/
2011/04-2011_Krueger_01.pdf
Seite: 10
Ziel der Statistik
Induktive Statistik
Das Ziel der induktiven Statistik ist der Schluss von der Stichprobe als
einem Teil der Menge aller Objekte, über die eine Aussage gemacht werden
soll, auf die ganze Gesamtheit (Grundgesamtheit).
Seite: 11
Ziel der Statistik
Hypothesen
Hypothesen sind falsifizierbare Aussagen über Zusammenhänge zwischen
empirisch gehaltvollen Begriffen.
Seite: 12
Datenanalyse
Datenverarbeitung/Datenanalyse
Datenverarbeitung/Datenanalyse meint die Verdichtung und komprimierte
Darstellung einer größeren Anzahl von Daten durch aussagekräftige Werte,
in Form von Tabellen oder mittels grafischen Darstellungen.
Vorgehensweise:
1. Was soll untersucht werden?
2. Welche Fragen sollen gestellt werden?
3. Welche Antworten sind vorgesehen/zugelassen?
4. Welche Ergebnisse werden festgehalten?
Seite: 13
Grundbegriffe
Statistische Einheiten/Objekte
Merkmalsträger, an denen die empirischen Daten gewonnen wurden
Grundgesamtheit/Population
Menge aller statistischen Einheiten, über die Aussagen gemacht werden
Seite: 14
Grundbegriffe
Merkmale/Variablen
Interessierende Größen, die an den statistischen Einheiten erhoben werden
Anzahl Fremdsprachen, Größe Wortschatz, ...
Wert/Merkmalsausprägung
konkreter Wert des Merkmals für eine bestimmte statistische Einheit
3, 20.000, ...
Messen
Systematische Zuordnung von Zahlenwerten zu Messobjekten, so dass die
zugewiesenen Werte die Relationen zwischen den Objekten hinsichtlich des
gemessenen Merkmals abbilden.
Seite: 15
Datenanalyse
Es gibt unterschiedliche Formen der Datenerhebung.
→ Eine Möglichkeit stellt ein Fragebogen dar.
Seite: 16
Datenanalyse
Skala
Eine Skala ist das Ergebnis einer Messung. Entsprechend der Eigenschaften
verschiedener Merkmalsarten sowie unterschiedlicher Messanweisungen
gibt es verschiedene Skalenarten. Die Art einer Skala ergibt sich aus den
Verhältnissen (Relationen) der möglichen Messergebnisse (Ausprägungen)
und den zulässigen mathematischen Operationen.
▶ Nominalskala
▶ Ordinalskala
▶ Intervallskala
▶ Verhältnisskala
→ Je mehr Zahleneigenschaften für die Merkmalsausprägungen zutreffen,
umso höher ist das Skalenniveau.
→ Jede Skala kann auf die nächstniedrigere umgerechnet werden.
Seite: 17
Qualitative Merkmale
Nominalskala
Eine Nominalskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, wobei Objekten mit gleicher Merkmalsausprägung gleiche Zahlen,
Objekten mit verschiedenen Merkmalsausprägungen verschiedene Zahlen
zugewiesen werden.
Ordinalskala
Eine Ordinalskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, wobei von zwei unterschiedlich großen Objekten dem Objekt mit der
größeren Merkmalsausprägung eine größere Zahl zugewiesen wird als dem
Objekt mit der kleineren Merkmalsausprägung. Daneben erfüllt sie alle
Anforderungen an eine Nominalskala.
Seite: 18
Quantitative Merkmale/Metrische Skalen
Intervallskala
Eine Intervallskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, so dass die Zahlendifferenzen der Merkmalsauprägungen zwischen
unterschiedlich großen Objekten dem Größenunterschied zwischen diesen
Objekten entsprechen. Die Zahlenwerte drücken damit zusätzlich zur
Reihenfolge der Objekte auch deren Abstand zueinander aus.
Verhältnisskala
Eine Verhältnisskala ordnet den Objekten eines empirischen Relativs
Zahlen zu, so dass das Verhältnis der Zahlendifferenzen zwischen zwei
unterschiedlich großen Objekten dem Verhältnis der Merkmalsunterschiede
zwischen je zwei Objekten entspricht.
Seite: 19
Lernziele
Nach dem Studium des Abschnitts zur Einführung können Studierende ...
1. die Aufgaben der deskriptiven Statistik nennen und den
Zusammenhang zur induktiven Statistik erläutern.
2. die Begriffe Grundgesamtheit, Stichprobe und Untersuchungsobjekte
erklären und den Zusammenhang erläutern.
3. verschiedene Skalenniveaus benennen und zwischen ihnen
unterscheiden.
4. Besonderheiten von Skalenniveaus erläutern.
5. für bestimmte Merkmale das entsprechende Skalenniveau angeben.
Seite: 20
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 21
Motivation
Fragestellungen bei deskriptiver Datenanalyse
▶ Wie viele verschiedene Merkmalsausprägungen eines Merkmals liegen
bei den Objekten der Stichprobe vor?
→ Analyse der Merkmalsausprägungen
▶ Wie verteilen sich die Objekte der Stichprobe auf die
Merkmalsausprägungen?
→ Häufigkeiten und Häufigkeitsverteilungen
▶ Zeigt sich eine Tendenz?
z. B. Aussagen wie: Meistens ist es...“,
”
oder: Die meisten sind...“,
”
oder: Am verbreitesten ist...“
”
→ Diagramme, kumulierte Häufigkeiten, Modus, Median
Seite: 22
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium an der TH Köln
▶ Statistische Einheiten: Personen
▶ Grundgesamtheit: Studierende TH Köln (eingeschrieben am 1.4.)
▶ Stichprobe: Lisa, Max, Sophie, ..., Tim; (16 Personen)
▶ Merkmale: Studiengang, Semester, Geschlecht, Alter, ...
▶ Merkmalsausprägungen Merkmal Studiengang:
Kommunikation, BWL, Informatik, ...
▶ Skala Merkmal Studiengang: Nominalskala
Beispiel für Daten-Codierung Merkmal Studiengang:
Kommunikation → 1
BWL → 2
Informatik → 3
Seite: 23
Urliste
Urliste
Ein Merkmal x werde an den n statistischen Einheiten einer Stichprobe
gemessen (Stichprobengröße n). Die resultierenden Zahlen:
x1 , . . . ,xn
Die Urliste hat die Länge 16. Die Urliste ist schwer zu interpretieren.
Wir bestimmen daher statistische Kennwerte.
Seite: 24
Absolute und relative Häufigkeiten
Gegeben sei eine Stichprobe mit Stichprobengröße n.
Häufigkeiten
Wir bezeichnen mit a1 , . . . ,ak die Menge der möglichen
Merkmalsausprägungen eines Merkmals.
Die absoluten Häufigkeiten h(aj ) = hj sind die Anzahl an Objekten der
Stichprobe, die die Merkmalsausprägung aj besitzen.
Die relativen Häufigkeiten f (aj ) = fj ist der Anteil der Objekte mit
Merkmalsausprägung aj an der Stichprobe.
Seite: 25
Absolute und relative Häufigkeitsverteilungen
Gegeben sei eine Stichprobe mit Stichprobengröße n.
Häufigkeiten
Eine Häufigkeitsverteilung zeigt, wie sich die gemessenen Werte der
Stichprobe auf den Wertebereich des Merkmals verteilen.
Die absolute Häufigkeitsverteilung ist h1 , . . . ,hk .
Die relative Häufigkeitsverteilung ist f1 , . . . ,fk .
Die Summe der absoluten Häufigkeitsverteilung gibt n. Die Summe der
relativen Häufigkeitsverteilung ergibt 100 %.
Beispiel:
Absolute Häufigkeitsverteilung: 7, 5, 4
Relative Häufigkeitsverteilung: 43,75 %, 31,25 %, 25 %
Seite: 26
Säulen- und Balkendiagramme
Säulendiagramm Balkendiagramm
10
Informatik
8
BWL
4
Kommunikation
0
Kommunikation BWL Informatik 0 2 4 6 8 10
Seite: 27
Kreisdiagramme
Kommunikation Komm. Infor.
44% 25%
44%
31%
25% 31% BWL
BWL
Informatik
Seite: 28
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester an der TH Köln
▶ Statistische Einheiten: Personen
▶ Grundgesamtheit: Studierende TH Köln (eingeschrieben am 1.4.)
▶ Stichprobe: Lisa, Max, Sophie, ..., Tim; (16 Personen)
▶ Merkmal: Zufriedenheit
▶ Merkmalsausprägungen:
sehr unzufrieden, unzufrieden, zufrieden, sehr zufrieden
▶ Skala Merkmal Studiengang: Ordinalskala
Beispiel für Daten-Codierung:
sehr unzufrieden → 1; unzufrieden → 2;
zufrieden → 3; sehr zufrieden → 4
Urliste:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1)
Seite: 29
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester an der TH Köln
▶ Merkmal: Zufriedenheit
▶ Merkmalsausprägungen und Codierung:
sehr unzufrieden (1), unzufrieden (2), zufrieden (3), sehr zufrieden (4)
▶ Urliste:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1)
Häufigkeitsverteilung:
j aj h(aj )
1 a1 2
2 a2 3
3 a3 5
4 a4 6
Seite: 30
Kumulierte Häufigkeitsverteilung
Häufigkeitsverteilung:
j aj h(aj ) H(aj )
1 a1 2 2
2 a2 3 5
3 a3 5 10
4 a4 6 16
Fünf Personen sind sehr unzufrieden oder unzufrieden bzw. 11 Personen
sind mindestens zufrieden.
→ Wir haben die absoluten Häufigkeiten kumuliert, z. B. 2 + 3 = 5.
Absolute kumulierte Häufigkeitsverteilung:
Seite: 31
Kumulierte Häufigkeitsverteilung
Häufigkeitsverteilung:
j aj h(aj ) H(aj ) F (aj )
1 a1 2 2 12,5 %
2 a2 3 5 31,25 %
3 a3 5 10 62,5 %
4 a4 6 16 100 %
Relative kumulierte Häufigkeitsverteilung:
F (x) = H(x)/n
Seite: 32
Modus
Modus
Die Merkmalsausprägung mit der größten Häufigkeit wird Modus oder
einfach nur xmod genannt.
▶ Wenn es ein eindeutiges Maximum gibt, dann ist der Modus auch
eindeutig.
▶ Bei mehreren Maxima sprechen wir von einer multimodalen
Verteilung.
Wie lautet der Modus der Merkmale Studiengang“ bzw. Zufriedenheit“?
” ”
Kommunikation“ bzw. sehr zufrieden“
” ” Excel Formel
Modus
=Modus(A:A)
Seite: 33
Median
Als weiterer Kennwert zur Beschreibung der Verteilung lässt sich bei
mindestens ordinalskalierten Merkmalen auch der Median angeben.
Median
Der Median ist der Wert, für den gilt, dass die Hälfte aller beobachteten
Objekte einer Stichprobe kleinere (oder gleich große) Ausprägungen hat,
die andere Hälfte größere (oder gleich große) Ausprägungen hat.
Bezeichnung: xmed
▶ Der Median ist der Wert, bei dem die kumulierte Häufigkeitsverteilung
F (x) erstmals den Wert 0,5 erreicht.
Wie lautet der Median des Merkmals Zufriedenheit“?
”
zufrieden“
”
Seite: 34
Ordnungsstatistik
(x(1) , . . . ,x(n) ) ist die geordnete Urliste (x1 , . . . ,xn ), wobei x(1) die
Ausprägung mit dem kleinsten Rang ist, also die Beobachtung mit dem
kleinsten Wert.
Ordnungsstatistik
Die geordnete Urliste wird Ordnungsstatistik genannt.
Merkmal Zufriedenheit:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1) → (1,1,2,2,2,3,3,3,3,3,4,4,4,4,4,4)
Seite: 35
Lagemaße und Streuungsmaße
Lagemaße
Statistischer Kennwert, der die zentrale Tendenz der Objekte im Hinblick
auf das interessierende Merkmal ausdrücken soll.
→ Wir haben den Modus und den Median kennengelernt.
Streuungsmaße
Statistischer Kennwert, der das Ausmaß der Abweichung der Daten von
dem als zentrale Tendenz identifizierten Wert ausdrückt.
→ Wir lernen Streuungsmaße in Kapitel 4 kennen.
Seite: 36
Übung
Im Rahmen einer Umfrage wurden folgende Daten erhoben:
Nummer Alter Geschlecht Muttersprache ...
1 28 w Deutsch ...
2 24 m Englisch ...
3 29 w Englisch ...
4 18 w Englisch ...
5 31 m Spanisch ...
6 30 w Englisch ...
7 22 w Englisch ...
8 30 w Spanisch ...
Seite: 37
Lernziele
Nach dem Studium des Abschnitts zur eindimensionalen Darstellung
qualitativer Merkmale können Studierende ...
1. die Begriffe univariat, bivariat und multivariat erklären und
voneinander abgrenzen.
2. die drei Fragen benennen, die bei der deskriptiven Analyse von Daten
beantwortet werden sollen.
3. die absoluten und relativen Häufigkeiten eines Merkmals mit den
Ausprägungen aj , j = 1, . . . ,k ermitteln.
4. die kumulierten Häufigkeiten einer Verteilung bestimmen.
5. ein Lagemaß benennen, für das eine geordnete Urliste erforderlich ist.
6. den Median aus der Ordnungsstatistik ablesen.
7. den Unterschied zwischen Lage- und Streuungsmaßen erklären.
Seite: 38
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 39
Vorüberlegungen
Motivation
▶ Studie zur Zufriedenheit mit dem Studium an der TH Köln
▶ alleinige Betrachtung des Merkmals Zufriedenheit mit Studium an
”
der TH Köln“ potentiell nicht aussagekräftig
▶ möglicherweise gibt es Unterschiede zwischen den Studiengängen,
z. B. Kommunikation ←→ BWL
Vorgehen
Um einen Zusammenhang zwischen zwei Merkmalen zu untersuchen, muss
die gemeinsame Verteilung der Beobachtungswerte auf beide Merkmale
mit ihren je unterschiedlichen Ausprägungen betrachtet werden.
Seite: 40
Beispiel
Motivation
▶ Studie zur Zufriedenheit mit dem Studium an der TH Köln
▶ Wir verwenden die Daten (Urlisten) aus dem letzten Kapitel. Eine
gemeinsame Betrachtung der Beobachtungswerte ist:
Studiengang 1 1 3 2 1 1 1 1 2 3 3 2 2 2 1 3
Zufriedenheit 4 4 4 1 4 2 3 4 2 3 3 3 3 2 4 1
▶ Beispiel:
Der erste Teilnehmer studiert Kommunikation“
”
und ist sehr zufrieden“.
”
▶ Wie können wir die Daten (zwei Merkmale, daher zweidimensional“)
”
analysieren, um zu einer Aussage zu kommen?
Seite: 41
Gemeinsame Häufigkeitsverteilung – Beispiel
Merkmalsausprägungen Studiengang“: a1 , a2 , a3
”
Merkmalsausprägungen Zufriedenheit“: b1 , b2 , b3 , b4
”
Gemeinsame Häufigkeitsverteilung und Randverteilungen
sehr unzufrieden
sehr zufrieden
Zufriedenheit
unzufrieden
zufrieden
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 0 1 1 5 7
BWL a2 1 2 2 0 5
Informatik a3 1 0 2 1 4
Gesamt 2 3 5 6 16
Seite: 42
Gemeinsame Häufigkeitsverteilung – Allgemein
Merkmalsausprägungen von Merkmal X : a1 , . . . ,ak
Merkmalsausprägungen von Merkmal Y : b1 , . . . ,bm
Gemeinsame Häufigkeitsverteilung und Randverteilungen
Y
b1 b2 ... bm Randverteilung
a1 h11 h12 ··· h1m h1•
a2 h21 h22 ··· h2m h2•
X
... ...
ak hk1 hk2 ··· hkm hk•
Randverteilung h•1 h•2 ... h•m n
Seite: 43
Gemeinsame Häufigkeitsverteilung – Allgemein
Merkmalsausprägungen von Merkmal X : a1 , . . . ,ak
Merkmalsausprägungen von Merkmal Y : b1 , . . . ,bm
Gemeinsame relative Häufigkeitsverteilung
Y
b1 b2 ... bm Randverteilung
a1 f11 f12 ··· f1m f1•
a2 f21 f22 ··· f2m f2•
X
... ...
ak fk1 fk2 ··· fkm fk•
Randverteilung f•1 f•2 ... f•m
Seite: 44
Zweidimensionale Häufigkeitsdiagramme
Gestapeltes Säulendiagramm
6
6
5 5
4
3 3
2
2
1 1 1
0
0
Seite: 45
Zweidimensionale Häufigkeitsdiagramme
Gruppiertes Säulendiagramm
2 2 2
2
1 1 1 1 1
0 0 0
0
Seite: 46
Bedingte relative Häufigkeitsverteilung
Idee:
▶ Bestimme relative Häufigkeitsverteilung des ersten Merkmals ...
▶ ... für verschiedene Merkmalsausprägungen des zweiten Merkmals.
Beispiel:
▶ Relative Häufigkeitsverteilung des Merkmals Zufriedenheit“ ...
”
▶ für verschiedene Merkmalsausprägungen des Merkmals Studiengang“.
”
Daten:
Kommunikation: 0 %, 14 %, 14 %, 71 %
BWL: 20 %, 40 %, 40 %, 0%
Interpretation:
Studierende im Studiengang Kommunikation sind zufriedener
Seite: 47
Bedingte relative Häufigkeitsverteilung
Die bedingte relative Häufigkeitsverteilung von Y unter der Bedingung
X = ai ist wie folgt definiert:
hi1 him
fY (b1 |ai ) = , . . . , fY (bm |ai ) =
hi• hi•
Wir schreiben: Y |X = ai
h1j hkm
fX (a1 |bj ) = , . . . , fX (ak |bj ) =
h•j h•j
Wir schreiben: X |Y = bj
Berechnung: Gemeinsame Häufigkeiten durch jew. Randhäufigkeit teilen
Seite: 48
Beispiel – Fernsehen
Seite: 49
Motivation
▶ Ausgangspunkt:
Es gibt einen Zusammenhang zwischen den Merkmalen.
Die bedingten Häufigkeitsverteilungen unterscheiden sich.
▶ Ziel:
Stärke des Zusammenhangs messen
▶ Kennzahlen:
χ2 – ausgesprochen: Chi Quadrat
Kontingenzkoeffizient
▶ Idee:
Wenn zwischen zwei Merkmalen kein Zusammenhang besteht, dann
müssen die bedingten Häufigkeiten eines Merkmals den einfachen
relativen Häufigkeiten entsprechen.
Seite: 50
Unabhängigkeit
Die Merkmale X und Y heißen unabhängig genau dann, wenn:
Beispiel:
Randverteilung des Merkmals Zufriedenheit“ ist
”
12,50 %, 18,75 %, 31,25 %, 37,50 %
Seite: 51
Erwartete Verteilung bei Unabhängigkeit
Wenn die Zufriedenheit unabhängig vom Studiengang ist, dann entspricht
die bedingte Verteilung der Zufriedenheit stets der Randverteilung.
Zufriedenheit
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 7 · 12,50 % 7 · 18,75 % 7 · 31,25 % 7 · 37,50 % 7
BWL a2 5 · 12,50 % 5 · 18,75 % 5 · 31,25 % 5 · 37,50 % 5
Informatik a3 4 · 12,50 % 4 · 18,75 % 4 · 31,25 % 4 · 37,50 % 4
Gesamt 2 3 5 6 16
12,50 % 18,75 % 31,25 % 37,50 %
Zufriedenheit
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 0,88 1,31 2,19 2,63 7
BWL a2 0,63 0,94 1,56 1,88 5
Informatik a3 0,50 0,75 1,25 1,50 4
Gesamt 2 3 5 6 16
Seite: 52
Erwartete Verteilung bei Unabhängigkeit
Wenn die Zufriedenheit unabhängig vom Studiengang ist, dann entspricht
die bedingte Verteilung der Zufriedenheit stets der Randverteilung.
Seite: 53
Vergleich: tatsächlich vs. erwartet
Je weiter das Stichprobenergebnis (links) von der bei Unabhängigkeit der
Merkmale erwarteten Häufigkeitsverteilung (rechts) abweicht, desto stärker
ist die gegenseitige Abhängigkeit.
→ Änderung eines Merkmals hat einen Einfluss auf das andere Merkmal
Zufriedenheit Zufriedenheit
b1 b2 b3 b4 Gesamt b1 b2 b3 b4 Gesamt
Studiengang
Gesamt 2 3 5 6 16 Gesamt 2 3 5 6 16
Seite: 54
Definition χ2 -Wert
Gegeben sei eine gemeinsame Verteilung hij .
Definition für den χ2 -Wert:
2
hi• ·h•j
k X
X m hij − n
χ2 = hi• ·h•j
i=1 j=1 n
Seite: 55
Berechnung χ2 -Wert im Beispiel
links: Differenzen zwischen beobachteten und erwarteten Häufigkeiten
rechts: Quadrierte und mit den erwarteten Häufigkeiten gewichtete Werte
b1 b2 b3 b4 b1 b2 b3 b4
Der Wert ist deutlich größer 0. Das deutet auf Abhängigkeit hin.
→ Zufriedenheit“ und Studiengang“ sind abhängige Merkmale
” ”
Seite: 56
Berechnung χ2 -Wert im Beispiel – Fortsetzung
Annahme: Die beobachtete gemeinsame Verteilung der Merkmale
Studiengang“ und Zufriedenheit“ habe zwar die gleichen
” ”
Randverteilungen, jedoch unterschiedliche gemeinsame Häufigkeiten.
(links: Variante A; rechts: Variante B)
Zufriedenheit Zufriedenheit
b1 b2 b3 b4 Gesamt b1 b2 b3 b4 Gesamt
Studiengang
Studiengang
a1 1 1 2 3 7 a1 0 0 1 6 7
a2 1 1 2 1 5 a2 0 2 3 0 5
a3 0 1 1 2 4 a3 2 1 1 0 4
Gesamt 2 3 5 6 16 Gesamt 2 3 5 6 16
Seite: 57
Eigenschaften χ2
Beobachtungen:
▶ Je größer der χ2 -Wert, desto stärker ist der Zusammenhang.
▶ Der χ2 -Wert wird umso kleiner, je größer die Stichprobe n ist.
▶ χ2 wird umso größer, je mehr Zellen k · m die Kreuztabelle hat.
Konsequenzen:
▶ Stärke des Zusammenhangs mit χ2 -Wert schwer zu beurteilen
▶ Vergleiche verschiedener χ2 -Werte schwierig
Lösung:
▶ Normierung der Größe
Seite: 58
Kontingenzkoeffizienten
Kontingenzkoeffizient
Der Kontingenzkoeffizient ist definiert durch:
s
χ2
K=
n + χ2
q
min{k, m}−1
Der Wert K ist nach oben begrenzt durch den Wert Kmax = min{k, m}
Korrigierter Kontingenzkoeffizient
Der korrigierte Kontingenzkoeffizient ist definiert durch:
s
min{k, m} K
K∗ = K · =
min{k, m} − 1 Kmax
Seite: 59
Lernziele
Nach dem Studium des Abschnitts zur bivariaten Darstellung qualitativer
Merkmale können Studierende ...
1. eine gemeinsame Häufigkeitsverteilung zweier Merkmale sowie ihre
Randverteilung berechnen, indem sie eine Kontingenztafel erstellen,
um damit später den Grad der Unabhängigkeit der Merkmale zu
ermitteln.
2. eine bedingte Häufigkeitsverteilung bestimmen sowie den Unterschied
zu einer einfachen Häufigkeitsverteilung erläutern.
3. die erwartete gemeinsame Häufigkeitsverteilung zweier Merkmale –
unter der Annahme der Unabhängigkeit der beiden Merkmale –
kalkulieren.
4. den (korrigierten) Kontingenzkoeffizienten auf Basis einer
gemeinsamen Häufigkeitsverteilung mit Hilfe der Formel berechnen
und damit eine Vermutung über den Grad der Unabhängigkeit der
Merkmale formulieren.
Seite: 60
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 61
Vorüberlegungen
Quantitative Merkmale
Quantitative Merkmale sind intervall- oder verhältnisskalierte Merkmale.
Ihre Ausprägungen spiegeln die Intensität eines Merkmals wieder.
Seite: 62
Häufigkeiten diskreter quantitativer Merkmale
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester 2019 an der TH Köln
▶ Merkmal: Alter
▶ Merkmalsausprägungen: vollendete Lebensjahre
▶ Urliste: (24,23,22,20,24,21,21,25,20,24,20,23,20,22,23,25)
Häufigkeitsverteilung:
absolute relative kumulierte
Alter Häufigkeit rel. Häufigkeit
20 4 25 % 25 %
21 2 12,5 % 37,5 %
22 2 12,5 % 50 %
23 3 18,75 % 68,75 %
24 3 18,75 % 87,5 %
25 2 12,5 % 100 %
Seite: 63
Darstellung diskreter quantitativer Merkmale
Für diskrete quantitative Merkmale können wir Säulendiagramme erstellen.
Säulendiagramm
5
4
4
3 3
3
2 2 2
2
20 21 22 23 24 25
Seite: 64
Häufigkeiten stetiger quantitativer Merkmale
Fragebogen zur Studie
Zufriedenheit mit Studium im Sommersemester 2019 an der TH Köln
▶ Merkmal: Körpergröße
▶ Merkmalsausprägungen: m
▶ Urliste (schon sortiert): (1,60, 1,61, 1,63, 1,64, 1,65, 1,65, 1,66, 1,73, . . .
. . . 1,74, 1,77, 1,77, 1,81, 1,85, 1,87, 1,92, 1,97)
Zwischenschritt: Bestimmung von Klassen
z. B.: [1,60, 1,70), [1,70, 1,80), [1,80, 1,90) und [1,90, 2,00)
absolute relative kumulierte
Klasse Häufigkeit rel. Häufigkeit
[1,60, 1,70) 7 44 % 44 %
[1,70, 1,80) 4 25 % 69 %
[1,80, 1,90) 3 19 % 88 %
[1,90, 2,00) 2 13 % 100 %
Seite: 65
Darstellung stetiger quantitativer Merkmale
Für stetige Merkmale erstellen wir Histogramme als grafische Darstellung.
Histogramm
Ein Histogramm stellt die Häufigkeiten in einzelnen Klassen flächengetreu
dar.
Wesentliche Unterschiede zum normalen“ Säulendiagramm:
”
▶ zwischen den Säulen liegen keine Abstände
▶ Breite der Merkmalsbereiche ist nicht notwendigerweise gleich
Konstruktion Histogramm für Klassen [c0 , c1 ), [c1 , c2 ), . . . ,[ck−1 , ck )
▶ Rechtecke
▶ Breite: dj = cj − cj−1
▶ Höhe: proportional zu hj /dj bzw. fj /dj
▶ Fläche: proportional zu hj bzw. fj
Seite: 66
Darstellung stetiger quantitativer Merkmale
Histogramm
10
6
Anzahl
Seite: 67
Empirische Verteilungsfunktion
Absolute kumulierte Häufigkeitsverteilung
Die absolute kumulierte Häufigkeitsverteilung wird mit H(x) bezeichnet.
Sie ist definiert durch:
Empirische Verteilungsfunktion
Wir bezeichnen die empirische Verteilungsfunktion mit F (x).
Sie ist gegeben durch:
H(x)
F (x) =
n
Sie beschreibt den Anteil der Beobachtungswerte, die kleiner oder gleich
einem bestimmten Wert x sind.
Seite: 68
Empirische Verteilungsfunktion – Darstellung
Empirische Verteilungsfunktion
1
0,9
0,75
0,5
0,25
0,1
0
150 160 170 180 190 200 210
Körpergröße in cm
Seite: 69
Lagemaße
Kennzahlen
▶ Modus
... kann aus Häufigkeitsverteilung abgelesen werden.
... bei diskreten Merkmalen durchaus aussagekräftig.
▶ Median
... wenn die empirische Verteilungsfunktion erstmalig 0,5 erreicht
Beispiele
▶ Alter
▶ Modus: Alter 20
▶ Median: Alter 22
▶ Körpergröße
▶ Modus: Klasse 1,60 m bis 1,70 m
▶ Median: Klasse 1,70 m bis 1,80 m
Seite: 70
Arithmetisches Mittel
Arithmetisches Mittel/Mittelwert
Das arithmetische Mittel (Mittelwert) eines Merkmals und zugehöriger
Urliste (x1 , . . . ,xn ) ist definiert durch:
1
x̄ = · (x1 + . . . + xn )
n
Seite: 71
Arithmetisches Mittel
Annahme: Es liegt eine Häufigkeitsverteilung (f1 , . . . ,fk ) vor.
Arithmetisches Mittel/Mittelwert
Das arithmetische Mittel (Mittelwert) eines Merkmals mit Ausprägungen
a1 , . . . ,ak und zugehöriger Urliste (x1 , . . . ,xn ) ist definiert durch:
x̄ = a1 · f1 + . . . + ak · fk
Diskussion
▶ bimodale Verteilungen
▶ Verteilungen mit heterogenen Merkmalsausprägungen
Ob die Verteilung breit oder eng, spitz oder flach, symmetrisch oder schief
ist, können wir anhand der Lagemaße allein nicht feststellen.
Seite: 72
Spannweite
Spannweite
Die Spannweite ist definiert durch:
Die Spannweite allein ist besonders anfällig für Ausreißer“. Deshalb hat
”
die Statistik noch weitere Streuungsmaße entwickelt, die gegenüber
Ausreißern robust sind und auf diese Weise auch ein Kriterium zur
Beurteilung und Identifikation von Ausreißern bilden können.
Beispiel:
Alter: 5, Körpergröße: 0,37
Seite: 73
Quantil
Quantil
Ein p-Quantil teilt die Anzahl der Objekte so in zwei Teile auf, dass
p · 100 % der an den diesen Objekten gemessenen Werte bzw. Daten unter
diesem Wert und (1 − p) · 100 % der Daten über diesem Wert liegen.
Wenn die empirische Verteilungsfunktion vorliegt, dann entspricht das
Quantil der Merkmalsausprägung, bei der das erste Mal der entsprechende
Anteil erreicht wird.
Anmerkungen:
▶ Der Median ist das 50 %-Quantil.
▶ Übliche Quantile: 25 % und 75 % (Quartile) bzw. 5 % und 95 %
▶ Interquartilsabstand: dQ = x0,75 − x0,25
▶ Fünf-Punkte-Zusammenfassung eines Merkmals:
Seite: 74
Quantil und Boxplot – Beispiel
Fünf-Punkte-Zusammenfassung sowie Boxplots
18 19 20 21 22 23 24 25 26
Alter
xmin = 160, x0,25 = 164, xmed = 173, x0,75 = 181, xmax = 197
150 155 160 165 170 175 180 185 190 195 200
Körpergröße in cm
Seite: 75
Varianz und Standardabweichung
Varianz
Für beobachtete Werte x1 , . . . ,xn eines Merkmals ist die Varianz definiert
durch:
1
s̃ 2 = · (x1 − x̄)2 + . . . + (xn − x̄)2
n
Standardabweichung √
Die Standardabweichung ist: s̃ = + s̃ 2
Anmerkungen
▶ Berechnung nur für quantitative Merkmale möglich
▶ Die Standardabweichung beschreibt die durchschnittliche Streuung
der gemessenen Ausprägungen eines Merkmals um den Mittelwert.
▶ s 2 bzw. s wird als Stichprobenvarianz und
Stichprobenstandardabweichung bezeichnet (hier noch nicht relevant)
▶ Standardabweichung: Maßeinheit identisch zu Merkmalen
Seite: 76
Varianz und Standardabweichung – Beispiel
Alter:
1
s̃ 2 = · (24 − 22,31)2 + . . . + (25 − 22,31)2 = 3,09
16
p
s̃ = 3,09 = 1,76
Körpergröße:
1
s̃ 2 = · (1,60 − 1,74)2 + . . . + (1,97 − 1,74)2 = 0,01. . .
16
p
s̃ = 0,01. . . = 0,11
Seite: 77
Gruppierte Daten
Median
Wenn [ct−1 ,ct ) die Gruppe ist, in der der Median liegt, dann können wir
den Median schätzen mit:
(ct − ct−1 ) · (0,5 − F (ct−1 ))
xmed,grupp = ct−1 +
ft
Arithmetisches Mittel
Wir bestimmen zunächst die Mittelpunkte mj der k Gruppen und addieren
dann die Mittelpunkte gewichtet mit der relativen Häufigkeit auf:
x̄grupp = f1 · m1 + . . . + fk · mk
Beispiel Größe:
Seite: 78
Beispiel Median bei gruppierten Daten
Wir bestimmen den Median für die Körpergröße auf Basis der gruppierten
Daten.
Seite: 79
Lernziele
Nach dem Studium des Abschnitts zur eindimensionalen Darstellung
quantitativer Merkmale können Studierende ...
1. für einen gegebenen Datensatz eine empirische Verteilungsfunktion
ermitteln, um damit z. B. Quantile zu bestimmen.
2. Histogramme, empirische Verteilungsfunktionen und Boxplots
zeichnen (auf Basis der jeweiligen Definition), um die Verteilung eines
Merkmals grafisch zu visualisieren.
3. klassische Kennwerte quantitativer Daten wie Median, Mittelwert,
Varianz und Standardabweichung kalkulieren, indem sie die
entsprechenden Formeln anwenden.
4. mit gruppierten Daten den Median und den Mittelwert abschätzen.
Seite: 80
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 81
Motivation
Prinzipielles Vorgehen bei der Zusammenhangsanalyse
▶ Zwei qualitative Merkmale (Kapitel 3):
Kreuztabelle und bedingte Häufigkeitsverteilung
▶ Ein qualitatives Merkmal und ein quantitatives Merkmal:
Analyse der Verteilung des quantitativen Merkmals unter den
verschiedenen Bedingungen des kategorialen Merkmals
Unterschiedliche Verteilung ⇒ Zusammenhang/Abhängigkeit möglich
Seite: 82
Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Datenmaterial:
▶ Studie mit 10 Personen (5 Männer/5 Frauen)
▶ Urliste:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
9 10 11 12 13 6 7 8 9 10
▶ Die ersten fünf Werte stammen von den fünf Frauen und die letzten
fünf Werte von den Männern. Daher alternative Bezeichnung:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
9 10 11 12 13 6 7 8 9 10
xij mit i ∈ {1, 2} und j ∈ {1, . . . ,5}
Seite: 83
Variationskoeffizient – Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Vergleich der statistischen Kenngrößen der Verteilung:
Seite: 84
Motivation – Berechnungen (1/2)
Seite: 85
Motivation – Berechnungen (2/2)
Seite: 86
Streuungszerlegung
Mit der Varianzzerlegung können wir analysieren, in welchem Verhältnis
die gesamte Varianz eines Merkmals zu der Varianz in den durch das
kategoriale Merkmal gebildeten Gruppen (mit k Gruppen) steht.
n1 2 nk 2
s̃ 2 = · s̃ + . . . + · s̃
n 1 n k
n1 nk
+ · (x̄1 − x̄)2 + . . . + · (x̄k − x̄)2
n n
Im Beispiel:
Seite: 87
Streuungszerlegung – Beispiele
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Urliste:
▶ Ausgangsvariante:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
9 10 11 12 13 6 7 8 9 10
▶ Variante A:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
10 10,5 11 11,5 12 7 7,5 8 8,5 9
▶ Variante B:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
7 9 11 13 15 4 6 8 10 12
Seite: 88
Streuungszerlegung – Beispiele
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Vergleich der statistischen Kenngrößen der Verteilung:
Zentrale Frage:
Wie aussagekräftig ist der Unterschied in den Mittelwerten? (3 Stunden)
Seite: 89
Streuungszerlegung – Beispiele
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Analyse der Streuungszerlegung:
Seite: 90
Streuungszerlegung – Interpretation
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Analyse der Streuungszerlegung:
Je geringer die Standardabweichung eines Merkmals in den jeweiligen
Gruppen (1. Summand), d. h. je weniger stark die Daten um die
Mittelwerte in den Gruppen schwanken, umso aussagekräftiger sind
Mittelwertunterschiede zwischen den Gruppen (2. Summand).
Für die fiktiven Werte gilt: Es kann angenommen werden, dass in den
Gruppen unterschiedliche Gesetzmäßigkeiten wirken.
Seite: 91
Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: echte Werte, siehe Buch)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Analyse der Streuungszerlegung:
Seite: 92
Tabellenkalkulationsprogramm
Wir führen eine Streuungszerlegung exemplarisch mit einem
Tabellenkalkulationsprogramm durch.
Seite: 93
Lernziele
Nach dem Studium des Abschnitts zum Variationskoeffizienten und zur
Varianzanalyse können Studierende ...
1. metrische Daten in verschiedenen Gruppen vergleichen.
2. den Einfluss eines kategorialen Merkmals auf die Varianz eines
metrischen Merkmals mit Hilfe der Streuungszerlegung
(Varianzanalyse) beurteilen.
3. die Summanden der Streuungszerlegung explizit bestimmen und die
Summanden ins Verhältnis zur Varianz setzen.
Seite: 94
Motivation
Zusammenhang zwischen zwei metrischen Merkmalen messen
▶ verschiedene Messwerte für gemeinsame Streuung kennenlernen
▶ Stärke und Richtung des Zusammenhangs berücksichtigen
Begriffe in diesem Abschnitt
▶ Kovarianz
▶ Korrelationskoeffizient
▶ Lineare Regression
▶ Bestimmtheitsmaß
Seite: 95
Beispiel
Daten zur Nachrichtenanalyse (n = 34)
▶ Nachrichtenwert ȳ = 2,18
▶ Beitragslänge x̄ = 70,15
5
Nachrichtenwert
Beitragslänge
50 100 150 200
Seite: 96
Kovarianz
Definition
Seien X und Y zwei an einem Objekt erhobene Merkmale und (xi ,yi ) mit
i = 1, . . . ,n die Ausprägung der gemeinsamen Variablen. Dann heißt:
n
1 X
s̃XY = · (xi − x̄) · (yi − ȳ )
n
i=1
Seite: 97
Beispiel
Daten der Nachrichtenanalyse (n = 34)
Dauer Wert xi − x̄ yi − ȳ (xi − x̄) · (yi − ȳ ) Dauer Wert xi − x̄ yi − ȳ (xi − x̄) · (yi − ȳ )
15 3 −55,15 0,82 −45,42 67 1 −3,15 −1,18 3,70
21 3 −49,15 0,82 −40,47 91 2 20,85 −0,18 −3,68
21 3 −49,15 0,82 −40,47 91 3 20,85 0,82 17,17
22 0 −48,15 −2,18 104,79 93 1 22,85 −1,18 −26,89
23 1 −47,15 −1,18 55,47 103 3 32,85 0,82 27,06
24 1 −46,15 −1,18 54,29 106 2 35,85 −0,18 −6,33
25 0 −45,15 −2,18 98,26 107 1 36,85 −1,18 −43,36
26 0 −44,15 −2,18 96,08 111 2 40,85 −0,18 −7,21
26 3 −44,15 0,82 −36,36 113 2 42,85 −0,18 −7,56
26 4 −44,15 1,82 −80,50 114 1 43,85 −1,18 −51,59
27 2 −43,15 −0,18 7,61 118 2 47,85 −0,18 −8,44
27 3 −43,15 0,82 −35,53 121 3 50,85 0,82 41,88
30 4 −40,15 1,82 −73,21 126 3 55,85 0,82 46,00
30 4 −40,15 1,82 −73,21 129 3 58,85 0,82 48,47
32 2 −38,15 −0,18 6,73 133 2 62,85 −0,18 −11,09
32 2 −38,15 −0,18 6,73 136 4 65,85 1,82 120,08
42 2 −28,15 −0,18 4,97 177 2 106,85 −0,18 −18,86
Die Summe über die letzte Spalte ergibt einen Wert von 129,12.
Somit ist: Kovarianz s̃XY =3,80
Seite: 98
Eigenschaften der Kovarianz
▶ Die Kovarianz misst einen Zusammenhang der Art:
je größer x, desto größer y“ oder je größer x, desto kleiner y“
” ”
▶ Je mehr sich die Punkte auf die diagonalen Quadranten (siehe oben)
konzentrieren, desto größer ist der Betrag der Kovarianz.
▶ Je größer die Kovarianz ist, desto stärker ist der lineare
Zusammenhang zwischen den Merkmalen.
▶ Je größer die Streuung der beiden Merkmale ist, desto größer wird der
Betrag der Kovarianz.
▶ Achtung:
Kovarianz 0 bedeutet nicht, dass die Merkmale keinen
Zusammenhang haben, sondern nur, dass sie in keinem linearen
Zusammenhang stehen.
Seite: 99
Drei weitere Beispiele
Jedes Merkmal hat sechs Messwerte und einen Mittelwert von 5.
8 8 8
6 6 6
4 4 4
2 2 2
Seite: 100
Korrelationskoeffizient nach Pearson
Definition
Seien X und Y zwei an einem Objekt erhobene Merkmale und (xi ,yi ) mit
i = 1, . . . ,n die Ausprägung der gemeinsamen Variablen. Dann heißt:
Pn
(xi − x̄) · (yi − ȳ ) s̃XY
rXY = qP i=1 =
n 2
P n 2 s̃X · s̃Y
i=1 (xi − x̄) · i=1 (yi − ȳ )
Seite: 101
Korrelationskoeffizient nach Pearson
Interpretation
Wert Interpretation
0 bis ±0,1 kein bzw. nahezu kein linearer Zusammenhang
±0,1 bis ±0,3 sehr schwacher linearer Zusammenhang
±0,3 bis ±0,5 schwacher bis mittlerer linearer Zusammenhang
±0,5 bis ±0,8 deutlicher bis starker linearer Zusammenhang
±0,8 bis ±1 sehr starker linearer Zusammenhang
Seite: 102
Beispiel
Daten der Nachrichtenanalyse (n = 34)
s̃XY 3,80
rXY = = = 0,07
s̃X · s̃Y 46,9 · 1,12
Seite: 103
Drei weitere Beispiele
Jedes Merkmal hat sechs Messwerte und einen Mittelwert von 5.
8 8 8
6 6 6
4 4 4
2 2 2
Seite: 104
Lineare Regression
Grundidee
▶ Modellierung der Abhängigkeit zweier Merkmale
▶ Wie wirkt sich ein Merkmal (Regressor) auf ein anderes Merkmal
(Regressand) aus?
▶ Beispielhafte Bezeichnung: Regressor x und Regressand y
▶ Achtung:
Die Regression kann nicht überprüfen, ob x tatsächlich y bedingt!
Annahme
▶ y ist eine lineare Funktion von x, d. h.
y =β·x +α
Seite: 105
Lineare Regression
Modellgleichung
yi = β · xi + α + εi
Dabei ist:
▶ i = 1, . . . ,n
▶ y1 , . . . ,yn : Beobachtungen von Merkmal y
▶ x1 , . . . ,xn : Beobachtungen von Merkmal x
▶ ε1 , . . . ,εn : zufälliger Fehler mit Mittelwert 0
Nächster Schritt
Die Parameter α und β sind aus den Daten (x1 , y1 ), . . . ,(xn ,yn ) zu
schätzen.
Seite: 106
Lineare Regression
Modellgleichung
yi = β · xi + α + εi
Idee der Schätzung
▶ minimiere die Fehlerquadrate (yi − (β · xi + α))2 = ε2i
▶ Schätzer
s̃Y
β = rXY ·
s̃X
α = ȳ − β · x̄
Eigenschaften der Regressionsgeraden
▶ Die Gerade geht durch den Punkt (x̄, ȳ ).
▶ Die Summe der Abweichungen ist Null, d. h.:
n
X
(yi − (β · xi + α)) = 0
i=1
Seite: 107
Güte der Modellanpassung – Streuungszerlegung
Wie lässt sich beurteilen, ob α und β ein vernünftiges Modell liefern?
▶ Wenn die Streuung des Regressanden durch die Streuung des
Regressors erklärt werden kann, dann haben wir einen Hinweis für ein
gutes Modell. (hier: ŷi = β · xi + α)
SQE
R2 = 2
= rXY
SQT
Bestimmtheitsmaß ist quadrierter Korrelationskoeffizient nach Pearson
Statistik 5. Quantitative Merkmale zweidimensional 5.2. Zusammenhänge metrische Variablen
Seite: 108
Tabellenkalkulationsprogramm
Wir führen die Berechnungen exemplarisch mit einem
Tabellenkalkulationsprogramm durch.
Seite: 109
Lernziele
Nach dem Studium des Abschnitts zu Zusammenhängen zwischen zwei
metrischen Variablen können Studierende ...
1. ... die Kovarianz und den Korrelationskoeffizienten nach Pearson für
einen gegebenen Datensatz berechnen.
2. ... das Ergebnis der Berechnung eines Korrelationskoeffizienten nach
Pearson interpretieren.
3. ... den Unterschied zwischen dem Korrelationskoeffizienten nach
Pearson und nach Spearman erklären.
4. ... eine Situation angeben, in dem ein Zusammenhang besteht, obwohl
der Korrelationskoeffizient nach Pearson Null ist.
5. ... Unterschiede und Gemeinsamkeiten einer Korrelationsanalyse und
einer Regressionsanalyse erläutern.
6. ... eine lineare Regression durchführen und die Güte der linearen
Regression mit dem Bestimmtheitsmaß R 2 beurteilen.
Seite: 110
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 111
Motivation
Ausgangspunkt
Stichprobe, und damit nur Teil der Grundgesamtheit vorhanden, da ...
▶ Grundgesamtheit zu umfangreich oder ändert sich laufend
▶ Objekte in der Stichprobe durch Messung zerstört werden
Problem
Fehlende Elemente der Grundgesamtheit
▶ Aussagen lassen sich nicht auf Grundgesamtheit übertragen
▶ Es entstehen Fehler/Irrtümer
Ziel
Problem lösen
▶ Übertragung der Aussagen auf die Grundgesamtheit
▶ Irrtumswahrscheinlichkeit abschätzen
Seite: 112
Schätzen und Testen
▶ Schätzen
Zum Beispiel: Ist der aus der Stichprobe bestimmte Mittelwert ein
guter Wert für den wahren, aber unbekannten Mittelwert der
Grundgesamtheit?
▶ Testen
Zum Beispiel: Können wir den Kontingenzkoeffizient oder den
Korrelationskoeffizient, den wir in der Stichprobe gemessen haben, auf
die Grundgesamtheit übertragen?
In diesem Kapitel geht es um die Voraussetzungen, um Inferenzstatistik
durchzuführen. Konkrete Test-Verfahren lernen wir erst in den nächsten
Kapiteln kennen.
Seite: 113
Wichtige Begriffe
▶ Ein Zufallsvorgang ist ein Vorgang, bei dem am Ende mehrere
Ergebnisse vorliegen können und bei dem vor der Durchführung nicht
klar ist, welches Ergebnis eintreten wird.
▶ Bei einem Zufallsvorgang können mehrere verschiedene Ergebnisse
eintreten. Den Bereich der möglichen Ergebnisse nennt man
Ergebnisraum oder Ereignisraum.
▶ Die Ergebnisse von Zufallsvorgängen bezeichnen wir auch als
Zufallsvariablen.
▶ Diskrete Zufallsvariablen: Der Ereignisraum besteht aus einer
endlichen bzw. abzählbaren Menge an möglichen Ereignissen.
▶ Stetige Zufallsvariablen: Der Ereignisraum besteht aus einer unendlich
großen Menge an möglichen Ereignissen.
Seite: 114
Wahrscheinlichkeitsfunktion
Wahrscheinlichkeitsfunktion
Die Wahrscheinlichkeitsfunktion f einer diskreten Zufallsvariable beschreibt
die Wahrscheinlichkeit, mit der die einzelnen Ergebnisse eines
Zufallsexperiments auftreten.
▶ Bezeichnung:
▶ (Diskrete) Zufallsvariablen X , Y , ...
▶ Einzelne Ereignisse: x1 , x2 , . . . bzw. y1 , y2 , . . .
▶ Die Wahrscheinlichkeit (probability) wird mit P bzw. p abgekürzt.
▶ Zuordnung von xi zu pi , oder formal: f (xi ) = P(X = xi ) = pi
▶ Vergleiche Analogie zur relativen Häufigkeitsverteilung eines Merkmals
bei der Datenanalyse.
Seite: 115
Wahrscheinlichkeitsfunktion – Beispiel
Zufallsvariable X : Anzahl Männer bei vier zufällig ausgewählten Personen
▶ Annahme:
Männer und Frauen werden gleichwahrscheinlich ausgewählt
▶ Einzelne Ereignisse:
FFFF → 0, FFFM → 1, FFMF → 1, ..., MMMM → 4
▶ Wahrscheinlichkeitsfunktion:
1
kein Mann: f (0) = P(X = 0) = 16
4 1
ein Mann: f (1) = P(X = 1) = 16 = 4
6 3
zwei Männer: f (2) = P(X = 2) = 16 = 8
4 1
drei Männer: f (3) = P(X = 3) = 16 = 4
1
vier Männer: f (4) = P(X = 4) = 16
Seite: 116
Verteilungsfunktion
Verteilungsfunktion
Der Wert der Verteilungsfunktion F an der Stelle x einer diskreten
Zufallsvariable ist definiert als Summe aller Wahrscheinlichkeiten der
Ereignisse, deren Ereigniswert kleiner oder gleich dem Wert x ist.
X
F (x) = P(X ≤ x) = P(X = xi )
xi ≤x
Seite: 117
Verteilungsfunktion – Beispiel
Zufallsvariable X : Anzahl Männer bei vier zufällig ausgewählten Personen
▶ Annahme:
Männer und Frauen werden gleichwahrscheinlich ausgewählt
▶ Einzelne Ereignisse:
FFFF → 0, FFFM → 1, FFMF → 1, ..., MMMM → 4
▶ Verteilungsfunktion:
1
kein Mann: F (0) = P(X ≤ 0) = 16
5
ein Mann: F (1) = P(X ≤ 1) = 16
11
zwei Männer: F (2) = P(X ≤ 2) = 16
15
drei Männer: F (3) = P(X ≤ 3) = 16
16
vier Männer: F (4) = P(X ≤ 4) = 16 =1
Seite: 118
Wahrscheinlichkeitsdichte
Für eine stetige Zufallsvariable ist eine Wahrscheinlichkeitsfunktion nicht
sinnvoll, da die Wahrscheinlichkeit eines einzelnen Ereignisses 0 ist.
Wahrscheinlichkeitsdichte
Die Wahrscheinlichkeitsdichte f einer stetigen Zufallsvariable ermöglicht
die Bestimmung der Wahrscheinlichkeit, mit der das Ergebnis eines
Zufallsexperiments in einem Bereich [a; b] liegt.
Seite: 119
Verteilungsfunktion
Verteilungsfunktion
Der Wert der Verteilungsfunktion F an der Stelle x einer stetigen
Zufallsvariable ist definiert als Fläche unterhalb der
Wahrscheinlichkeitsdichte von allen Werten, deren Ereigniswert kleiner
oder gleich dem Wert x ist.
Z x
F (x) = P(X ≤ x) = f (u) du
−∞
Seite: 120
Dichte und Verteilung – Beispiel
Zufallsvariable X : Verspätung Bus an der Haltestelle Ubierring
▶ Annahme:
Die Verspätung ist gleichverteilt“. Alle 10 Minuten fährt ein Bus.
”
Der Folgebus ist pünktlich.
▶ Mögliche Ereignisse:
Werte im Intervall 0 Minuten (pünktlich) bis 10 Minuten (Folgebus)
▶ Wahrscheinlichkeitsdichte:
1
f (x) = für x ∈ [0; 10] und sonst f (x) = 0
10
▶ Verteilungsfunktion:
x
F (x) = für x ∈ [0; 10]
10
F (x) = 0 für x < 0 und F (x) = 1 für x > 10
Seite: 121
Dichte und Verteilung – Beispiel – Fortsetzung
Zufallsvariable X : Verspätung Bus an der Haltestelle Ubierring
▶ Annahme:
Die Verspätung ist gleichverteilt“. Alle 10 Minuten fährt ein Bus.
”
Der Folgebus ist pünktlich.
▶ Mögliche Ereignisse:
Werte im Intervall 0 Minuten (pünktlich) bis 10 Minuten (Folgebus)
▶ Für die Wahrscheinlichkeit einer Verspätung kleiner 5 Minuten gilt:
Z 5
5 0 1
P(0 ≤ X ≤ 5) = f (x) dx = F (5) − F (0) = − = = 50 %
0 10 10 2
▶ Für die Wahrscheinlichkeit einer Verspätung von mindestens 2
Minuten und höchstens 4 Minuten gilt:
Z 4
4 2 2
P(2 ≤ X ≤ 4) = f (x) dx = F (4) − F (2) = − = = 20 %
2 10 10 10
Statistik 6. Grundlagen der induktiven Statistik 6.2. Zufall und Zufallsverteilung
Seite: 122
Normalverteilung
Die Normalverteilung ist eine besondere Verteilung von Zufallsvariablen.
Seite: 123
Normalverteilung – Dichte- und Verteilungsfunktion
Die Normalverteilung ist eine besondere Verteilung von Zufallsvariablen.
Sie besitzt zwei Parameter, nämlich µ und σ 2 > 0, und ist definiert über
ihre Wahrscheinlichkeitsdichte f .
(x − µ)2
1
f (x; µ, σ) = √ exp −
σ · 2π 2 · σ2
Z x
(u − µ)2
1
F (x; µ, σ) = √ exp − du
σ · 2π −∞ 2 · σ2
Die Verteilungsfunktion lässt sich nicht durch eine analytisch geschlossene
Formel darstellen (sondern nur durch dieses Integral).
Seite: 124
Eigenschaften der Normalverteilung
Wahrscheinlichkeitsdichte hat ...
▶ ... glockenförmigen Verlauf
▶ ... verläuft symmetrisch um den Wert µ
▶ ... Wertebereich von −∞ bis ∞
3 Beispiele: µ = 0, σ 2 = 4 bzw. µ = 2, σ 2 = 2 bzw. µ = −2, σ 2 = 2
0,3
0,8
Dichtefunktion f (x)
0,2
0,6
0,4
0,1
0,2
0 0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Werte x Werte x
Seite: 125
Standardnormalverteilung
▶ Wenn µ = 0 und σ 2 = 1 ist, dann heißt die Normalverteilung
Standardnormalverteilung; außerdem ist dann f = ϕ und F = Φ.
▶ Eine normalverteilte Zufallsvariable X mit Parametern µ und σ 2 wird
zu einer standardnormalverteilten Zufallsvariable Z durch:
X −µ
Z= (z-Transformation)
σ
0,4 1
Verteilungsfunktion Φ(x)
0,8
Dichtefunktion ϕ(x)
0,3
0,6
0,2
0,4
0,1
0,2
0 0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Werte x Werte x
Seite: 126
Eigenschaften der Normalverteilung
Die Parameter haben folgende Bedeutung:
▶ µ ist der Erwartungswert der Verteilung.
▶ σ ist die Standardabweichung der Verteilung.
Die Symmetrie bedeutet:
F (µ − x) = 1 − F (µ + x)
Wenn die Werte links von µ bekannt sind, dann können damit die Werte
rechts von µ berechnet werden.
Entsprechend gilt für die Standardnormalverteilung:
Φ(−x) = 1 − Φ(x)
Seite: 127
Beispiel
Die Anlage einer Brauerei füllt laut Hersteller normalverteilt ab mit
µ = 500 ml und σ 2 = 16 ml2 .
Wie viel Prozent der Flaschen beinhalten 490 ml bis 510 ml?
Wir schreiben:
X ∼ N (500; 16)
Wir suchen: P(490 ≤ X ≤ 510)
Alternative Lösung:
510 − 500 490 − 500
Φ −Φ = Φ (2,5) − Φ (−2,5)
4 4
= Φ (2,5) − (1 − Φ (2,5)) = 98,8 %
Seite: 128
Tabellenkalkulationsprogramm
Wir führen die Berechnungen exemplarisch mit einem
Tabellenkalkulationsprogramm durch.
Seite: 129
Lernziele
Nach dem Studium des Abschnitts zu Grundlagen der induktiven Statistik
können Studierende ...
1. die wesentlichen Aufgaben der Inferenzstatistik anhand von Beispielen
erläutern.
2. Beispiele für Zufallsvorgänge nennen und den Ereignisraum sowie
zwischen stetigen und diskreten Zufallsvariablen unterscheiden.
3. die Begriffe Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte
sowie Verteilungsfunktion erklären und Beispiele angeben.
4. mit einer Verteilungsfunktion die Wahrscheinlichkeit von Ereignissen
kalkulieren.
5. die Eigenschaften der Normalverteilung aufzählen sowie die Dichte-
und die Verteilungsfunktion skizzieren.
Seite: 130
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 131
Motivation
Ausgangspunkt: Hypothese über einen Unterschied oder Zusammenhang
Grundsätzliche Frage
Wie sicher können wir sein, dass das in der Stichprobe festgestellte
Ergebnis nicht durch Zufall entstanden ist?
Seite: 132
Falsifikation
▶ Ein statistischer Test geht zunächst von der Unschuld“ (z. B. kein
”
Zusammenhang) der Stichprobe aus. → Nullhypothese
▶ Er versucht dann, die Schuld“ (z. B. Zusammenhang liegt vor) zu
”
zeigen. → Alternativhypothese
▶ Wenn Schuld“ gezeigt, dann nennen wir das Ergebnis signifikant.
”
Wichtig: Eine Verifikation der Alternativhypothese ist nicht möglich.
Die Beurteilung wird über eine Falsifikation der Alternative erreicht.
Seite: 133
Fehlerarten
Die folgende Vierfelder-Matrix zeigt alle möglichen Situationen.
Realität
kein Unterschied Unterschied
Unterschied Fehler 1. Art kein Fehler
Test
kein Unterschied kein Fehler Fehler 2. Art
Seite: 134
Vorgehensweise – Beispiel
Zusammenhang zwischen Satellitenempfang und Programmzufriedenheit
−→ Nullhypothese: Es gibt keinen Zusammenhang.
1. Entwicklung Teststatistik
−→ χ2
2. Berechnung der Teststatistik für Stichprobe
−→ χ2 = 6,97
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (5,99; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 6,97 ∈ / [0; 5,99]
Interpretation: Zusammenhang kann auf Grundgesamtheit mit einer
Irrtumswahrscheinlichkeit von 5 % übertragen werden
Es gibt einen Zusammenhang.
Statistik 7. Hypothesentests 7.1. Grundprinzip
Seite: 135
Annahmen
Annahmen für folgende Abschnitte:
▶ Stichprobe zufällig ausgewählt
▶ Stichprobe hinreichend groß ist (i. d. R. n ≥ 30):
Kennwerte (z. B. der Mittelwert) sind normalverteilte Zufallsvariablen
Mit diesen Annahmen gilt:
Wir können µ und σ der Normalverteilung hinreichend gut bestimmen.
Seite: 136
Motivation – t-Test für den Erwartungswert
Hypothese:
Wir testen, ob ein in einer Stichprobe festgestellter Mittelwert x̄ dem
theoretisch ermittelten bzw. festgelegten Wert µ0 entspricht.
Anmerkungen:
▶ Werte unterscheiden sich schon allein deshalb, weil eine Stichprobe in
der Regel immer nur einen Ausschnitt zeigt
▶ Test fällt die Entscheidung, ob der Unterschied auf eine zufällige
Schwankung zurückzuführen ist (oder einen tatsächlichen
Unterschied, Alternativhypothese, ausdrückt)
Wenn die Stichprobe n ≥ 30 ist, dann kann die Situation unter der
Nullhypothese mit Hilfe der Normalverteilung spezifiziert werden.
Achtung: Eigentlich t-Verteilung (vgl. Testname); wir orientieren uns hier am Buch.
Seite: 137
Beispiel
Hypothese:
Wir testen, ob die durchschnittliche Dauer der Tagesschau in den letzten
40 Tagen x̄ = 975 Sekunden (ein in einer Stichprobe festgestellter
Mittelwert) dem in der Programmzeitschrift angegebenen Wert von
µ0 = 900 Sekunden (dem theoretisch ermittelten bzw. festgelegten Wert)
entspricht.
Anmerkungen:
▶ Stichprobe zeigt nur einen Ausschnitt → 40 Sendungen
▶ Test fällt die Entscheidung, ob der Unterschied von 75 Sekunden auf
eine zufällige Schwankung zurückzuführen ist
Da die Stichprobe n = 40 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.
Seite: 138
Entwicklung Teststatistik
Die Teststatistik (konkrete Zahl; daher Dach“) ist:
”
√ θ̂ − µ0
θ̂ := x̄ bzw. transformiert: n·
s
Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik
(Zufallsvariable) gegeben durch:
s2 √ θ − µ0
θ ∼ N µ0 ; bzw. transformiert: n· ∼ N (0; 1)
n s
Achtung: Eigentlich t-Verteilung (vgl. Testname); wir orientieren uns hier am Buch.
Seite: 139
Visualisierung Teststatistik für Beispiel
Teststatistik bzw. transformierte Teststatistik (n = 40, s = 91,14):
√ θ − 900
θ ∼ N (900; 207,7) bzw. 40 · ∼ N (0; 1)
91,14
Teststatistik Transformierte Teststatistik
0,04 0,5
0,4
0,03
Dichtefunktion
Dichtefunktion
0,3
0,02
0,2
0,01
0,1
0 0
Seite: 140
Bestimmung Ablehnungsbereich
Weil die transformierte Teststatistik standardnormalverteilt ist, lässt sich
der Ablehnungsbereich exakt angeben mit:
−∞; −z1− α2 ∪ z1− α2 ; ,∞
wobei z1− α2 der Wert ist, so dass für ein Z ∼ N (0; 1) gilt:
P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α
Seite: 141
Visualisierung Ablehnungsbereich für Beispiel
Wenn α = 5 % ist, dann gilt für den Ablehnungsbereich (rot):
0,4
0,3
Dichtefunktion
0,2
0,1
−6 −4 −2 0 2 4 6
Werte x
Seite: 142
Beispiel – Gesamtsicht
Nullhypothese: Es gibt keinen Unterschied (µ0 = x̄).
1. Entwicklung
√ Teststatistik
−→ 40 · x̄−900
91,14
2. Berechnung
√ der Teststatistik für Stichprobe
−→ 40 · 975−900
91,14 = 5,205
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 5,205 ∈ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann mit einer Irrtumswahrscheinlichkeit
von 5 % auf Grundgesamtheit übertragen werden.
Die Dauer der Tagesschau weicht signifikant von 15 Minuten ab.
Seite: 143
Motivation – t-Test für Mittelwertunterschiede
hier: unverbundene Gruppen
Hypothese:
Wir testen, ob die Unterschiede zwischen zwei Teilstichproben von der
Stichprobe d := x̄A − x̄B (z. B. Differenz der Gruppenmittelwerte von
Frauen und Männer in der Stichprobe) zufällig sind.
Annahmen:
▶ Stichprobenziehung basiert auf einer Zufallsauswahl
▶ zwischen den Teilstichproben wurde ein Mittelwertunterschied
festgestellt
▶ Umfang der beiden Teilstichproben größer als 30
Seite: 144
Beispiel
Hypothese:
Wir testen, ob der Unterschied in der durchschnittlichen Dauer der
Haushaltstätigkeit bei Frauen und Männern d = x̄F − x̄M (Unterschiede
zwischen zwei Teilstichproben von der Stichprobe) zufällig sind.
Anmerkungen:
▶ Stichprobenziehungen (Variante 1 und Variante 2) basieren auf einer
Zufallsauswahl
▶ Umfang der beiden Teilstichproben größer als 30
Da die Stichproben 40 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.
Seite: 145
Beispiel – Daten
In beiden Varianten jeweils 40 Frauen und 40 Männer:
Variante 1:
Frauen: 12,65 12,84 12,75 3,59 7,65 7,58 10,00 8,57 12,93 11,71 10,28 7,56
14,52 8,99 10,57 11,78 13,65 11,41 13,51 12,92 10,89 8,39 17,25 7,53 12,16
12,01 6,50 16,23 12,79 9,22 7,73 9,94 6,76 11,51 13,79 14,83 17,19 15,56 11,62
11,96
Männer: 7,26 9,54 6,71 4,75 8,03 7,94 11,00 3,68 7,26 7,73 9,12 8,67 7,50 6,50
10,22 8,57 14,01 11,62 3,09 5,31 10,59 5,25 9,11 13,95 8,26 9,41 7,79 2,04 4,07
6,61 10,73 4,27 7,85 6,19 11,10 7,24 11,11 6,60 10,15 10,43
Variante 2:
Frauen: 0,00 9,09 5,13 16,11 37,75 1,03 4,21 22,00 5,26 5,57 14,64 24,67 9,11
21,10 15,75 9,54 19,85 19,80 24,98 23,54 0,00 9,42 8,82 9,07 9,47 0,31 7,43
17,91 5,32 13,72 6,16 10,75 6,51 11,49 5,35 1,79 21,35 18,65 15,80 0,23
Männer: 11,54 6,73 10,03 1,43 5,96 9,61 8,83 4,38 11,86 3,99 7,59 9,54 4,70
10,88 0,00 25,05 9,79 0,00 12,07 10,00 0,00 0,00 7,59 20,10 0,00 2,96 25,44
5,52 8,09 9,43 1,64 13,53 11,60 11,92 12,65 3,17 18,82 0,00 21,05 7,68
Seite: 146
Entwicklung Teststatistik
Die Teilstichprobe A habe nA Beobachtungen
bzw. Teilstichprobe B habe nB Beobachtungen.
Die Teststatistik (konkrete Zahl; daher Dach“) ist:
”
θ̂ − d
θ̂ := x̄A − x̄B bzw. transformiert: q 2 02
sA sB
nA + nB
sA2 sB2
θ − d0
θ ∼ N d0 ; + bzw. transformiert: q 2 ∼ N (0; 1)
nA nB sA sB2
nA + nB
Seite: 147
Bestimmung Ablehnungsbereich
Weil die transformierte Teststatistik standardnormalverteilt ist, lässt sich
der Ablehnungsbereich exakt angeben mit:
−∞; −z1− α2 ∪ z1− α2 ; ,∞
wobei z1− α2 der Wert ist, so dass für ein Z ∼ N (0; 1) gilt:
P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α
α 1% 5% 10 %
Überblick (Auswahl):
z1− α2 2,576 1,960 1,645
Seite: 148
Beispiel – Fortsetzung – Variante 1
Nullhypothese: Es gibt keinen Unterschied (x̄F − x̄M = 0).
1. Entwicklung Teststatistik
x̄ − x̄
−→ qF 2 M2
sF sM
nF + nM
Seite: 149
Beispiel – Fortsetzung – Variante 2
Nullhypothese: Es gibt keinen Unterschied (x̄F − x̄M = 0).
1. Entwicklung Teststatistik (siehe oben)
2. Berechnung der Teststatistik für Stichprobe −→ 1,80
3. Festlegung einer Irrtumswahrscheinlichkeit −→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese nicht ablehnen, da
1,80 ∈
/ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann nicht auf Grundgesamtheit
übertragen werden.
Unterschied zwischen Mittelwerten möglicherweise zufällig
Seite: 150
Anmerkungen
Das Ergebnis des Tests wird von der Effektgröße (Unterschied im
Mittelwert), vom Stichprobenumfang und von der Streuung beeinflusst.
▶ Je größer die Effektgröße (festgestellter Unterschied), desto eher ist er
auf die Grundgesamtheit übertragbar.
▶ Je größer die Stichprobe ist, desto leichter werden auch kleine Effekte
signifikant.
▶ Je kleiner die Streuung in den Gruppen ist, desto eher ist der
Mittelwert auf die Grundgesamtheit übertragbar.
Ist eine der beiden Gruppen vom Umfang kleiner als 30 und kann nicht von
einer Normalverteilung ausgegangen werden, dann besteht noch die
Möglichkeit, auf einen parameterfreien Test auszuweichen.
−→ Wilcoxon-Rangsummen-Test oder U-Test von Mann-Whitney
Seite: 151
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests über Unterschiede
und Zusammenhänge können Studierende ...
1. zwischen Nullhypothese und Alternativhypothese unterscheiden und
die grundsätzliche Vorgehensweise bei Hypothesentests erläutern.
2. den Unterschied zwischen Fehler 1. Art und Fehler 2. Art erklären.
3. einen t-Test für den Erwartungswert durchführen, in dem die
entsprechende Teststatistik für einen Datensatz berechnet wird und
mit den Quantilen der Standardnormalverteilung verglichen wird.
4. einen t-Test für Mittelwertunterschiede berechnen und mit den
Ergebnissen einer Streuungszerlegung vergleichen.
5. verschiedene Testprobleme unterscheiden bzw. identifizieren.
6. das zur Fragestellung passende Testverfahren anwenden.
Seite: 152
Motivation – t-Test für Mittelwertunterschiede
Wir möchten von einem Objekt zwei verschiedene metrische Merkmale
miteinander vergleichen.
Beispiele:
▶ Einstellung einer Person vor und nach dem Lesen eines Artikels
▶ Bekanntheit einer Marke vor und nach einer Werbekampagne
▶ Blutdruck vor und nach der Medikamenten-Einnahme
▶ Unterschied Echtzeitfernsehen und Zeitversetztfernsehen zur
Informationsgewinnung
Weitere Beispiele?
Seite: 153
Motivation – Formulierung der Hypothese
Hypothese:
Wir testen, ob ein in einer Stichprobe festgestellter Mittelwert des
Unterschieds (vor/nach) ū dem theoretisch ermittelten bzw. festgelegten
Wert µ0 entspricht.
Anmerkungen:
▶ Werte unterscheiden sich schon allein deshalb, weil eine Stichprobe in
der Regel immer nur einen Ausschnitt zeigt
▶ Test fällt die Entscheidung, ob der Unterschied von µ0 und ū auf eine
zufällige Schwankung zurückzuführen ist (oder einen tatsächlichen
Unterschied, Alternativhypothese, ausdrückt)
Wenn die Stichprobe n ≥ 30 ist, dann kann die Situation unter der
Nullhypothese mit Hilfe der Normalverteilung spezifiziert werden.
Seite: 154
Beispiel
Hypothese:
Wir testen, ob der Unterschied zwischen Echtzeitfernsehen und
Zeitversetztfernsehen zur Informationsgewinnung ū = 1,12 (ein in einer
Stichprobe festgestellter Mittelwert des Unterschieds) dem Wert µ0 = 0
(dem theoretisch ermittelten bzw. festgelegten Wert) entspricht.
Anmerkungen:
▶ Stichprobe zeigt nur einen Ausschnitt → 87 Teilnehmer
▶ Test fällt die Entscheidung, ob der Unterschied von 1,12 auf eine
zufällige Schwankung zurückzuführen ist
Da die Stichprobe n = 87 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.
Seite: 155
Entwicklung Teststatistik
Die Teststatistik (konkrete Zahl) ist:
√ θ̂
θ̂ := ū bzw. transformiert: n·
s
Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik
(Zufallsvariable) gegeben durch:
s2 √ θ
θ ∼ N 0; bzw. transformiert: n · ∼ N (0; 1)
n s
Seite: 156
Beispiel – Gesamtsicht
Nullhypothese: Es gibt keinen Unterschied (0 = µ0 = ū).
1. Entwicklung
√ Teststatistik
ū
−→ 87 · 1,6523
2. Berechnung
√ der Teststatistik für Stichprobe
1,12
−→ 87 · 1,6523 = 6,323
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (−∞; −1,960) ∪ (1,960; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 6,323 ∈ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann mit einer Irrtumswahrscheinlichkeit
von 5 % auf Grundgesamtheit übertragen werden.
Es gibt einen Unterschied zwischen Echtzeitfernsehen und
Zeitversetztfernsehen zur Informationsgewinnung.
Statistik 7. Hypothesentests 7.4. t-Test für Mittelwertunterschiede (verbunden)
Seite: 157
Motivation – Einfache Varianzanalyse
Ziel
Die Varianzanalyse zielt darauf ab, zu untersuchen, ob durch ein
Gruppierungsmerkmal (z. B. Frau/Mann oder klein/mittel/groß) ein
entscheidender Anteil der in einem metrischen Merkmal insgesamt
vorhandenen Streuung erklärt werden kann.
Beispiele:
▶ Welche Schwankungen im Einkommen einer Person können durch die
jeweilige Steuerklasse erklärt werden?
▶ Inwiefern kann die Anzahl der in verschiedenen Genres einer
Fernsehgattung durchschnittlich gezeigten Kinder durch die
verschiedenen Genres (Kinderserien, Familienserien, Krimiserien)
erklärt werden?
Weitere Beispiele?
Seite: 158
Einfache Varianzanalyse
Idee
▶ Teststatistik: Verhältnis zwischen erklärter Streuung und Reststreuung
▶ Verteilung der Teststatistik (bei Gültigkeit der Nullhypothese):
F -Verteilung
Annahmen
▶ Das metrische Merkmal ist in den einzelnen Gruppen normalverteilt.
▶ Die Varianz in den einzelnen Gruppen ist gleich.
▶ Die Gruppen sind voneinander unabhängig.
Nullhypothese
▶ kein Gruppen-Mittelwert hat einen Abstand vom Gesamt-Mittelwert
▶ d. h. die Gruppen-Mittelwerte entsprechen dem Gesamt-Mittelwert
Seite: 159
Entwicklung Teststatistik
Notation
▶ k Gruppen mit jeweils ni Werten (i = 1, . . . ,k)
▶ insgesamt: n Werte (n = n1 + . . . + nk )
▶ x̄ Gesamt-Mittelwert; x̄i Gruppen-Mittelwert in Gruppe i
Die Teststatistik (konkrete Zahl) ist:
Pk 2
i=1ni · (x̄i − x̄) /(k − 1)
θ̂ := Pk Pni 2
i=1 j=1 (xij − x̄i ) /(n − k)
θ ∼ F (k − 1, n − k)
Seite: 160
Beispiel – Daten (siehe oben)
In beiden Varianten jeweils 40 Frauen und 40 Männer:
Variante 1:
Frauen: 12,65 12,84 12,75 3,59 7,65 7,58 10,00 8,57 12,93 11,71 10,28 7,56
14,52 8,99 10,57 11,78 13,65 11,41 13,51 12,92 10,89 8,39 17,25 7,53 12,16
12,01 6,50 16,23 12,79 9,22 7,73 9,94 6,76 11,51 13,79 14,83 17,19 15,56 11,62
11,96
Männer: 7,26 9,54 6,71 4,75 8,03 7,94 11,00 3,68 7,26 7,73 9,12 8,67 7,50 6,50
10,22 8,57 14,01 11,62 3,09 5,31 10,59 5,25 9,11 13,95 8,26 9,41 7,79 2,04 4,07
6,61 10,73 4,27 7,85 6,19 11,10 7,24 11,11 6,60 10,15 10,43
Variante 2:
Frauen: 0,00 9,09 5,13 16,11 37,75 1,03 4,21 22,00 5,26 5,57 14,64 24,67 9,11
21,10 15,75 9,54 19,85 19,80 24,98 23,54 0,00 9,42 8,82 9,07 9,47 0,31 7,43
17,91 5,32 13,72 6,16 10,75 6,51 11,49 5,35 1,79 21,35 18,65 15,80 0,23
Männer: 11,54 6,73 10,03 1,43 5,96 9,61 8,83 4,38 11,86 3,99 7,59 9,54 4,70
10,88 0,00 25,05 9,79 0,00 12,07 10,00 0,00 0,00 7,59 20,10 0,00 2,96 25,44
5,52 8,09 9,43 1,64 13,53 11,60 11,92 12,65 3,17 18,82 0,00 21,05 7,68
Seite: 161
Beispiel – Streuungszerlegung (Wiederholung)
Die beiden Varianten unterscheiden sich bezüglich ihrer
Streuungszerlegung:
Variante 1: Variante 2:
2
Geschlecht n x̄ s̃ Geschlecht n x̄ s̃ 2
weiblich 40 11,23 9,25 weiblich 40 11,72 71,55
männlich 40 8,03 7,41 männlich 40 8,63 43,34
insgesamt 80 9,63 10,89 insgesamt 80 10,17 59,83
24 % erklärt durch Gruppierung 4 % erklärt durch Gruppierung
Seite: 162
Teststatistik im Beispiel
Für beide Varianten gilt:
▶ k = 2 Gruppen mit jeweils ni = 40 Werten (i = 1,2)
▶ insgesamt: n = 80 Werte (n = n1 + n2 )
▶ x̄ = 9,63 Gesamt-Mittelwert
▶ Gruppen-Mittelwerte: siehe oben
Die Teststatistik (konkrete Zahl) ist:
P2 2
ni · (x̄i − x̄) /(2 − 1)
θ̂V1 = P2 i=1
P40 2 = 24,00 bzw. θ̂V2 = 3,24
i=1 j=1 (xij − x̄i ) /(80 − 2)
θ ∼ F (2 − 1; 80 − 2) = F (1; 78)
Seite: 163
Gesamtsicht für Beispiel
Weil die Teststatistik F -verteilt ist, lässt sich der Ablehnungsbereich exakt
angeben. z1−α bezeichne den Wert, so dass für ein Z ∼ F (1; 78) gilt:
P(Z ≥ z1−α ) = α
Für α = 5 % gilt:
z95 % = 3,963
Variante 1: Nullhypothese ablehnen, da: 24,00 > 3,963
Schlussfolgerung: Das Geschlecht hat einen signifikanten Einfluss auf die
durchschnittliche wöchentliche Haushaltstätigkeit.
Seite: 164
Visualisierung – Dichte der F -Verteilung
0,6
0,4
0,2
0
0 1 2 3 4 5 6
Seite: 165
Beispiel – Sachverhalt
Bei einem Lesetest an einem Kölner Gymnasium wurde die Lesekompetenz
der 1. Fremdsprache Englisch untersucht. Dazu mussten 200 Schüler:innen
einen englischsprachigen Text lesen. Im Anschluss wurden die
Schüler:innen zu dem Text befragt. Dabei konnten sie einen Testscore
erzielen. Die folgende Tabelle zeigt in Abhängigkeit der Stufe (Unterstufe,
Mittelstufe und Oberstufe) die Anzahl der Schüler sowie den Mittelwert
und die Varianz des Testscores.
Anzahl Mittelwert Testscore x̄ Varianz Testscore s̃ 2
Unterstufe 55 51 69
Mittelstufe 79 61 98
Oberstufe 66 71 96
Gesamt 200 62 150
Hinweis: Die Daten sind fiktiv und gerundet.
Seite: 166
Beispiel – Aufgaben
a) Bestimmen Sie die Streuungszerlegung und beantworten Sie mit dem
Ergebnis Ihrer Berechnung die folgende Frage: Wieviel Prozent der
Gesamtvarianz des Testscores wird durch die Einteilung in die drei
Gruppen (Unterstufe, Mittelstufe und Oberstufe) erklärt?
b) Wie lautet die Nullhypothese bei der ANOVA im vorliegenden Fall?
c) Berechnen Sie den Wert der Teststatistik der ANOVA.
d) Wie lautet der Name der Verteilung der Teststatistik (auch: konkrete
Angabe der Anzahl der Freiheitsgrade) im vorliegenden Fall?
e) Mit welchem Befehl kann in Microsoft Excel der kritische Wert bzw.
der p-Wert ermittelt werden?
f) Wie interpretieren Sie das Ergebnis?
Seite: 167
Tabellenkalkulationsprogramm
Wir führen die Berechnungen exemplarisch mit einem
Tabellenkalkulationsprogramm durch.
Seite: 168
ANOVA – Herausforderungen
▶ Sind die Voraussetzungen erfüllt?
Varianzhomogenität, Normalverteilung, Unabhängigkeit
▶ Wie geht es nach der ANOVA weiter?
Testergebnis global
Unterschiede zwischen einzelnen Gruppen signifikant?
Seite: 169
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests über Unterschiede
und Zusammenhänge (auch ANOVA) können Studierende ...
1. einen t-Test für Mittelwertunterschiede bei verbundenen Gruppen
durchführen.
2. eine ANOVA durchführen und die Ergebnisse der ANOVA
interpretieren.
3. verschiedene Testprobleme unterscheiden bzw. identifizieren.
4. das zur Fragestellung passende Testverfahren anwenden.
Seite: 170
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 171
Motivation
Motivation
Bei Hypothesen über Zusammenhänge fragen wir, ob wir die in der
deskriptiven Analyse festgestellten Zusammenhänge in der Stichprobe auf
die Grundgesamtheit übertragen können.
weniger zufrieden
sehr zufrieden
Zufriedenheit
unzufrieden
Satellitenempfang b1 b2 b3 Gesamt
nicht vorhanden a1 9 51 28 88
vorhanden a2 3 11 19 33
Gesamt 12 62 47 121
b1 b2 b3 b1 b2 b3 b1 b2 b3
θ ∼ χ2 ((m − 1) · (k − 1))
Voraussetzungen
▶ Die erwartete Häufigkeit ist in mindestens 80 % der Fälle größer als 5.
▶ Keine der erwarteten Häufigkeiten ist Null.
(z1−α ; ∞)
P(Z ≤ z1−α ) = 1 − α
χ2 > z1−α
(5,9912; ∞),
0,5
0,4
1 Freiheitsgrad
2 Freiheitsgrade
0,3 4 Freiheitsgrade
0,2
0,1
0
0 2 4 6 8 10 12 14
Seite: 179
Test auf signifikante Korrelation
Den unbekannten Zusammenhang zwischen den Merkmalen X und Y
bezeichnen wir mit ρXY .
Nullhypothese
Die Merkmale korrelieren nicht miteinander.
ρXY = 0
ρXY ̸= 0
Seite: 180
Beispiel
Bei einer Stichprobe vom Umfang n = 45 haben wir einen positiven
Korrelationskoeffizient gemessen:
rXY = 0,35.
Seite: 181
Nullhypothese und Teststatistik
Nullhypothese:
▶ Es gibt keine Abhängigkeit zwischen zwei metrischen Merkmalen.
Teststatistik: √
ρXY · n − 2
θ= p
1 − ρ2XY
Wenn die Nullhypothese gilt, dann ist die Teststatistik
standardnormalverteilt:
θ ∼ N (0,1)
Voraussetzungen
▶ Für den Stichprobenumfang n gilt: n > 25.
▶ Achtung: eigentlich t-Verteilung
Seite: 182
Ablehnungsbereich und Testentscheidung
Der Ablehnungsbereich für die Nullhypothese ergibt sich somit zu:
P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α
Seite: 183
Beispiel – Fortsetzung
Die Nullhypothese lautet:
▶ Es gibt keine Abhängigkeit.
Der Wert der Teststatistik beträgt:
√ √
rXY · n − 2 0,35 · 43
p
2
=p = 2,450
1 − rXY 1 − 0,352
Seite: 184
Weiteres Beispiel
Welche Korrelation wird bei 51 Studienteilnehmern als signifikant zum
Niveau α = 5 % angesehen?
√
rXY · 49
p
2
≥ 1,960
1 − rXY
⇔ rXY ≥ 0,27
bzw.
θ̂ ≤ −1,960 ⇔ rXY ≤ −0,27
Ab eine Korrelation von 0,27 (bzw. −0,27) wird bei 51 Studienteilnehmern
von einer signifikanten Korrelation (zum Niveau 5 %) gesprochen.
Seite: 185
Übungsaufgabe
Nach welchen Gesundheitsthemen (Fitness oder Wellness) suchen wir im
Internet?
Das Ergebnis eines Fragebogens zur Gesundheitskommunikation ergibt
folgende absolute Häufigkeitsverteilung.
Wellness
b1 b2 b3
a1 47 11 0
Fitness
a2 24 21 5
a3 12 10 14
Seite: 186
Übungsaufgabe – Lösung
b1 b2 b3 b1 b2 b3 b1 b2 b3
χ2 = 40,97
K = 0,47 K ∗ = 0,58
Es ist (Freiheitsgrade: 4):
40,97 > 9,49
Daher wird die Nullhypothese zum Niveau 5 % abgelehnt.
Seite: 187
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests auf
Zusammenhänge können Studierende ...
1. die Voraussetzungen für die Anwendbarkeit eines
χ2 -Unabhängigkeitstests nennen.
2. die Anzahl der Freiheitsgrade für die χ2 -Verteilung bei einem
χ2 -Unabhängigkeitstest bestimmen.
3. einen χ2 -Unabhängigkeitstest durchführen.
4. einen Test zur Überprüfung einer Korrelation durchführen.
Seite: 188
Inhaltsverzeichnis
1. Einführung
9. Klausurvorbereitung
Seite: 189
Daten zur Prüfung
Datum und Ort:
▶ Tag und Uhrzeit der Prüfung:
▶ Ort der Prüfung:
Folgende Hilfsmittel sind in der Prüfung erlaubt:
▶ Dokumentenechter Stift
▶ Taschenrechner
▶ Ordner mit Unterlagen
Explizit nicht erlaubt sind:
▶ Geräte, die es Ihnen erlauben, mit anderen Personen zu
kommunizieren
▶ Mobiltelefone, Smart-Uhren, Tablet-Computer, etc.
Seite: 190
Tipps zur Vorbereitung
▶ Orientieren Sie sich an den Lernzielen in den jeweiligen Kapiteln.
▶ Führen Sie schon im Vorfeld Berechnungen mit Ihrem eigenen
Taschenrechner durch.
▶ Nutzen Sie die Berechnungen aus dem Statistik-Projekt und die
Auswertungen des eigenen Fragenbogens, um sich auf die Prüfung
vorzubereiten.
▶ Der Kurzüberblick“ ist eine verkürzte Sicht auf alle Lernziele.
”
Er soll Ihnen helfen, Ihre Prüfungsvorbereitung zu strukturieren.
Seite: 191
Kurzüberblick Lernziele – Begriffe
Lernziel: Begriffe verstehen und erläutern (ggf. mit Beispiel)
▶ Grundbegriffe der Datenanalyse, Skalenniveaus, diskret/stetig
▶ Lagemaße und Streuungsmaße, Boxplot
▶ Bedingte Verteilung und Unabhängigkeit
▶ Kovarianz und Korrelation
▶ Zufallsvorgang, Zufallsvariable, Wahrscheinlichkeitsfunktion,
Wahrscheinlichkeitsdichte, Verteilungsfunktion
▶ Nullhypothese, Alternativhypothese, Fehlerarten, Signifikanzniveau
Seite: 192
Kurzüberblick Lernziele – Kennzahlen
Lernziel: Rechnen mit Formeln und Ergebnisse interpretieren
▶ Häufigkeitsverteilungen und empirische Verteilungsfunktion
▶ Korrigierter Kontingenzkoeffizient
▶ Arithmetisches Mittel, Modus, Median, Varianz, Standardabweichung,
Variationskoeffizient
▶ Streuungszerlegung
▶ Korrelationskoeffizient nach Pearson, Lineare Regression,
Bestimmtheitsmaß
▶ Wahrscheinlichkeiten mit vorgebener Verteilungsfunktion
▶ Teststatistiken für Erwartungswert, Mittelwertunterschiede, einfache
Varianzanalyse (ANOVA), χ2 -Test, Korrelation
Seite: 193
Kurzüberblick Lernziele – Induktive Statistik
Lernziel: Hypothesentest durchführen
▶ Passenden Hypothesentest auswählen
▶ Teststatistiken berechnen (siehe oben)
▶ Testentscheidung treffen (kritischer Wert oder Ablehnungsbereich
vorgegeben)
▶ Ergebnis interpretieren
Seite: 194
Kurzüberblick Lernziele – Excel
Lernziel: Auswertungen mit dem Computer (Excel)
▶ Funktionsweise der Befehle (Auswahl):
HÄUFIGKEIT(), SUMME(), ANZAHL(), MITTELWERT(),
STABW.N(), VAR.P(), MEDIAN(), KOVARIANZ.P(), KORREL(),
PEARSON(), NORM.INV(), F.INV(), CHIQU.INV()
usw.
▶ Funktionsweise des Add-Ins Datenanalyse aus dem Bereich
Analyse-Funktionen:
Histogramm, Korrelation, Regression, Zweistichproben t-Test, Anova
insbesondere Ausgabe dieser Funktionen
Seite: 195
Übungsaufgabe – Daten
Daten zur digitalen Kommunikation (fitkiv)
Geschlecht Modell Alter 2015 2018 Differenz Geschlecht Modell Alter 2015 2018 Differenz
m ALDI 42 22 32 -10 m Galaxy 49 17 26 -9
w Galaxy 27 25 31 -6 w iPhone 15 48 48 0
w iPhone 50 37 41 -4 w ALDI 26 51 55 -4
w iPhone 35 50 51 -1 w Galaxy 45 42 40 2
m iPhone 42 39 44 -5 m iPhone 59 24 28 -4
m Galaxy 63 9 19 -10 m Galaxy 34 20 22 -2
w ALDI 35 39 38 1 w iPhone 37 47 54 -7
m iPhone 40 15 21 -6 w ALDI 30 44 46 -2
w iPhone 52 34 35 -1 m Galaxy 37 32 42 -10
w iPhone 45 34 35 -1 m iPhone 47 30 40 -10
m iPhone 26 36 42 -6 m ALDI 39 20 29 -9
w Galaxy 19 51 49 2 w ALDI 36 29 30 -1
m ALDI 38 31 33 -2 m ALDI 38 32 35 -3
m ALDI 41 12 22 -10 w Galaxy 18 41 42 -1
m iPhone 62 3 14 -11 m iPhone 69 6 11 -5
Seite: 196
Übungsaufgabe – Fragen
▶ Sind die beiden Merkmale Geschlecht und Modell unabhängig?
▶ Wie groß ist die Korrelation zwischen dem Alter und der Anzahl
Nachrichten in 2020? Ist das Ergebnis signifikant?
▶ Bestimmen Sie die Regressionsgerade zwischen den Merkmalen Alter
und durchschnittliche Anzahl Nachrichten in 2020. Wie groß ist das
Bestimmtheitsmaß?
▶ Bestimmen Sie die Streuungszerlegung. Berechnen Sie die ANOVA.
▶ Es wird die Vermutung geäußert, dass im Jahr 2020 die
durchschnittliche Anzahl an Nachrichten bei 25 Nachrichten liegt.
Führen Sie einen Hypothesentest durch.
▶ Testen Sie die Hypothese, dass die durchschnittliche Anzahl an
Nachrichten von Frauen 10 Nachrichten über der durchschnittlichen
Anzahl an Nachrichten der Männer liegt.
▶ Ist die Anzahl an Nachrichten von 2020 auf 2022 signifikant gestiegen?
Seite: 197
Notizen
Seite: 198