Einfuehrung in Die Statistik

Einführung in die Statistik
Statistik-Modul im Studiengang Mehrsprachige Kommunikation

Jan-Philipp Schmidt
Sommersemester
Seite: 1
Ablauf und Kontaktdaten
▶ Ablauf
▶ Vorlesung – Einführung in die Statistik – 3 ECTS – 2 SWS
▶ im Hörsaal
▶ Übung – Statistik-Projekt – 2 ECTS – 2 SWS
▶ im Computerraum
▶ Kontaktdaten
▶ Dozent: Prof. Dr. Jan-Philipp Schmidt
▶ E-Mail: jan-philipp.schmidt@th-koeln.de
▶ Telefon: +49 221 8275 3854
▶ Büro: Raum D3.216, Claudiusstraße 1, 50678 Köln
Statistik 0. Organisatorisches 0.1. Informationen
Seite: 2
Lernziele und Kompetenzen
Dieses Modul bereitet die Studierenden auf ein weiterführendes Studium
im Bereich der Sozial- und Wirtschaftswissenschaften vor und entwickelt
die notwendigen Kenntnisse für statistische Erhebungen im Bereich
Marktforschung und Personal.
▶ Theoretische Grundlagen in der Vorlesung → Klausur
▶ Quantitative Methoden der Datenanalyse
▶ Interpretation von statistischen Kennzahlen
▶ Praktische Umsetzung im Projekt → Hausarbeit
▶ Besonderheiten von Fragebögen
▶ Auswertungen mit dem Computer (Excel)
Statistik 0. Organisatorisches 0.1. Informationen
Seite: 3
Literatur
▶ Uhlemann, I. Einführung in die Statistik für
Kommunikationswissenschaftler: Deskriptive und induktive
Verfahren für das Bachelorstudium. Springer, 2015.
https://doi.org/10.1007/978-3-658-05769-5
→ Dieses Buch bildet die Basis für die Vorlesung.
▶ Küchenhoff, H. Statistik für Kommunikationswissenschaftler.
UTB, 2006.
http://www.utb-studi-e-book.de/9783838528328
▶ Bortz, J., und N. Döring. Forschungsmethoden und Evaluation für
Human- und Sozialwissenschaftler. Springer, 2006.
http://dx.doi.org/10.1007/978-3-540-33306-7
▶ Spieß, S., und P. Wies. Excel 2016 Statistik. HERDT, 2016.
https://herdt-campus.com/product/EX2016S
▶ Fahrmeir, L. Statistik: Der Weg zur Datenanalyse. Springer, 2016.
Statistik 0. Organisatorisches 0.2. Literatur
Seite: 4
Inhaltsverzeichnis
1. Einführung
2. Eindimensionale Darstellung qualitativer Merkmale
3. Bivariate Darstellung kategorialer Merkmale
4. Eindimensionale Darstellung quantitativer Merkmale
5. Zweidimensionale Analysen mit quantitativen Merkmalen
6. Grundlagen der induktiven Statistik
7. Testen von Hypothesen über Unterschiede und Zusammenhänge
8. Tests auf signifikante Zusammenhänge
9. Klausurvorbereitung
Statistik 1. Einführung 1.0. Inhaltsverzeichnis
Seite: 5
Zitate
▶ There are three kinds of lies: lies, damned lies and statistics.
Leonard Henry Courteney (1832-1918)
▶ Ich glaube nur den Statistiken, die ich selbst gefälscht habe.
Winston Curchill (1874-1965)
▶ Wir benutzen die Statistik wie ein Betrunkener einen Laternenpfahl:
Vor allem zur Stütze unseres Standpunkts und weniger zum
Beleuchten eines Sachverhalts.
Andrew Lang (1844-1912)
▶ Essentially, all models are wrong, but some are useful.
George Box (1919-2013)
▶ It is easy to lie with statistics. It is hard to tell the truth without it.
Andrejs Dunkles (1939-1998)
Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik
Seite: 6
Ziel der Statistik
Statistik
Mit dem Begriff Statistik wird ...
... zum einen die statistische Methodenlehre bezeichnet, also alle Verfahren
und Methoden der Gewinnung, vor allem aber der Verarbeitung,
empirischer Daten.
Zum anderen wird unter Statistik auch die tabellarische oder grafische
Darstellung eines konkret vorliegenden Datenmaterials (z. B. die aktuelle
Arbeitslosenstatistik) verstanden.
Unterscheidung
▶ Deskriptive Statistik → Wie bringe ich die Daten zum Sprechen?
▶ Induktive Statistik → Was können mir die Daten wirklich sagen?
Seite: 7
Beispiel – Deskriptive Statistik
Seite: 8
Beispiel – Fortsetzung
https://www.ard-werbung.de/fileadmin/user_upload/media-perspektiven/pdf/
2011/04-2011_Krueger_01.pdf
Seite: 9
https://www.ard-werbung.de/fileadmin/user_upload/media-perspektiven/pdf/
2011/04-2011_Krueger_01.pdf
Seite: 10
Ziel der Statistik
Induktive Statistik
Das Ziel der induktiven Statistik ist der Schluss von der Stichprobe als
einem Teil der Menge aller Objekte, über die eine Aussage gemacht werden
soll, auf die ganze Gesamtheit (Grundgesamtheit).
Seite: 11
Ziel der Statistik
Hypothesen
Hypothesen sind falsifizierbare Aussagen über Zusammenhänge zwischen
empirisch gehaltvollen Begriffen.
In diesem Fall dient die Statistik dazu, festzustellen, ob der in der

Stichprobe gemessene Unterschied auf die Grundgesamtheit übertragbar
ist.
▶ Beispiel:
Einfluss der Verwendung des generischen Maskulinums auf den
gedanklichen Einbezug von Frauen
Seite: 12
Datenanalyse
Datenverarbeitung/Datenanalyse
Datenverarbeitung/Datenanalyse meint die Verdichtung und komprimierte
Darstellung einer größeren Anzahl von Daten durch aussagekräftige Werte,
in Form von Tabellen oder mittels grafischen Darstellungen.
Sie verwendet Verfahren, die Daten nach Zusammenhängen und Mustern

zu untersuchen und Hypothesen rechnerisch zu überprüfen.
Vorgehensweise:
1. Was soll untersucht werden?
2. Welche Fragen sollen gestellt werden?
3. Welche Antworten sind vorgesehen/zugelassen?
4. Welche Ergebnisse werden festgehalten?
Seite: 13
Grundbegriffe
Statistische Einheiten/Objekte
Merkmalsträger, an denen die empirischen Daten gewonnen wurden
Personen, Einrichtungen (Universitäten), Fernsehsender, Artikel,

Fernsehsendungen, Öffentliche Verkehrsmittel, ...
Grundgesamtheit/Population
Menge aller statistischen Einheiten, über die Aussagen gemacht werden
Alle Studierenden der TH Köln, Öffentlich-rechtliche Sender, ...

Stichprobe
Teil der Grundgesamtheit, über die gewünschte Informationen vorliegen
Fr. Schmidt, Hr. Maier, Fr. Müller
Statistik 1. Einführung 1.2. Wichtige Grundbegriffe
Seite: 14
Grundbegriffe
Merkmale/Variablen
Interessierende Größen, die an den statistischen Einheiten erhoben werden
Anzahl Fremdsprachen, Größe Wortschatz, ...
Wert/Merkmalsausprägung
konkreter Wert des Merkmals für eine bestimmte statistische Einheit
3, 20.000, ...
Messen
Systematische Zuordnung von Zahlenwerten zu Messobjekten, so dass die
zugewiesenen Werte die Relationen zwischen den Objekten hinsichtlich des
gemessenen Merkmals abbilden.
Statistik 1. Einführung 1.2. Wichtige Grundbegriffe
Seite: 15
Datenanalyse
Es gibt unterschiedliche Formen der Datenerhebung.
→ Eine Möglichkeit stellt ein Fragebogen dar.
Statistik 1. Einführung 1.3. Datenanalyse
Seite: 16
Datenanalyse
Skala
Eine Skala ist das Ergebnis einer Messung. Entsprechend der Eigenschaften
verschiedener Merkmalsarten sowie unterschiedlicher Messanweisungen
gibt es verschiedene Skalenarten. Die Art einer Skala ergibt sich aus den
Verhältnissen (Relationen) der möglichen Messergebnisse (Ausprägungen)
und den zulässigen mathematischen Operationen.
▶ Nominalskala
▶ Ordinalskala
▶ Intervallskala
▶ Verhältnisskala
→ Je mehr Zahleneigenschaften für die Merkmalsausprägungen zutreffen,
umso höher ist das Skalenniveau.
→ Jede Skala kann auf die nächstniedrigere umgerechnet werden.
Seite: 17
Qualitative Merkmale
Nominalskala
Eine Nominalskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, wobei Objekten mit gleicher Merkmalsausprägung gleiche Zahlen,
Objekten mit verschiedenen Merkmalsausprägungen verschiedene Zahlen
zugewiesen werden.
→ keine natürliche Ordnung der Ausprägungen
Ordinalskala
Eine Ordinalskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, wobei von zwei unterschiedlich großen Objekten dem Objekt mit der
größeren Merkmalsausprägung eine größere Zahl zugewiesen wird als dem
Objekt mit der kleineren Merkmalsausprägung. Daneben erfüllt sie alle
Anforderungen an eine Nominalskala.
→ Ausprägungen natürlich geordnet; Abstand nicht messbar

Seite: 18
Quantitative Merkmale/Metrische Skalen
Intervallskala
Eine Intervallskala ordnet den Objekten eines empirischen Relativs Zahlen
zu, so dass die Zahlendifferenzen der Merkmalsauprägungen zwischen
unterschiedlich großen Objekten dem Größenunterschied zwischen diesen
Objekten entsprechen. Die Zahlenwerte drücken damit zusätzlich zur
Reihenfolge der Objekte auch deren Abstand zueinander aus.
→ Ausprägungen natürlich geordnet; Abstand messbar
Verhältnisskala
Eine Verhältnisskala ordnet den Objekten eines empirischen Relativs
Zahlen zu, so dass das Verhältnis der Zahlendifferenzen zwischen zwei
unterschiedlich großen Objekten dem Verhältnis der Merkmalsunterschiede
zwischen je zwei Objekten entspricht.
Seite: 19
Lernziele
Nach dem Studium des Abschnitts zur Einführung können Studierende ...
1. die Aufgaben der deskriptiven Statistik nennen und den
Zusammenhang zur induktiven Statistik erläutern.
2. die Begriffe Grundgesamtheit, Stichprobe und Untersuchungsobjekte
erklären und den Zusammenhang erläutern.
3. verschiedene Skalenniveaus benennen und zwischen ihnen
unterscheiden.
4. Besonderheiten von Skalenniveaus erläutern.
5. für bestimmte Merkmale das entsprechende Skalenniveau angeben.
Seite: 20
Inhaltsverzeichnis
1. Einführung
Statistik 2. Qualitative Merkmale 2.0. Inhaltsverzeichnis
Seite: 21
Motivation
Fragestellungen bei deskriptiver Datenanalyse
▶ Wie viele verschiedene Merkmalsausprägungen eines Merkmals liegen
bei den Objekten der Stichprobe vor?
→ Analyse der Merkmalsausprägungen
▶ Wie verteilen sich die Objekte der Stichprobe auf die
Merkmalsausprägungen?
→ Häufigkeiten und Häufigkeitsverteilungen
▶ Zeigt sich eine Tendenz?
z. B. Aussagen wie: Meistens ist es...“,
”
oder: Die meisten sind...“,
”
oder: Am verbreitesten ist...“
”
→ Diagramme, kumulierte Häufigkeiten, Modus, Median
Statistik 2. Qualitative Merkmale 2.1. Analysebereiche
Seite: 22
Beispiel
Fragebogen zur Studie
Zufriedenheit mit Studium an der TH Köln
▶ Statistische Einheiten: Personen
▶ Grundgesamtheit: Studierende TH Köln (eingeschrieben am 1.4.)
▶ Stichprobe: Lisa, Max, Sophie, ..., Tim; (16 Personen)
▶ Merkmale: Studiengang, Semester, Geschlecht, Alter, ...
▶ Merkmalsausprägungen Merkmal Studiengang:
Kommunikation, BWL, Informatik, ...
▶ Skala Merkmal Studiengang: Nominalskala
Beispiel für Daten-Codierung Merkmal Studiengang:
Kommunikation → 1
BWL → 2
Informatik → 3
Seite: 23
Urliste
Urliste
Ein Merkmal x werde an den n statistischen Einheiten einer Stichprobe
gemessen (Stichprobengröße n). Die resultierenden Zahlen:
x1 , . . . ,xn
bezeichnen die Beobachtungswerte.

xi ist die bei der i-ten Einheit gemessene Merkmalsausprägung von x.
Die Zahlenreihe, also (x1 , . . . ,xn ), wird auch Urliste genannt.
Beispiel für eine Urliste zum Merkmal Studiengang“:

”
(1,1,3,2,1,1,1,1,2,3,3,2,2,2,1,3)
Die Urliste hat die Länge 16. Die Urliste ist schwer zu interpretieren.
Wir bestimmen daher statistische Kennwerte.
Seite: 24
Absolute und relative Häufigkeiten
Gegeben sei eine Stichprobe mit Stichprobengröße n.
Häufigkeiten
Wir bezeichnen mit a1 , . . . ,ak die Menge der möglichen
Merkmalsausprägungen eines Merkmals.
Die absoluten Häufigkeiten h(aj ) = hj sind die Anzahl an Objekten der
Stichprobe, die die Merkmalsausprägung aj besitzen.
Die relativen Häufigkeiten f (aj ) = fj ist der Anteil der Objekte mit
Merkmalsausprägung aj an der Stichprobe.
Beispiel: a1 → Kommunikation, a2 → BWL, a3 → Informatik

h(Kommunikation) = h(a1 ) = h1 = 7 h(a2 ) = h2 = 5 h(a3 ) = h3 = 4
f1 = 7/16 = 0,4375 = 43,75 % f2 = 31,25 % f3 = 4/16 = 25 %
Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale
Seite: 25
Absolute und relative Häufigkeitsverteilungen
Gegeben sei eine Stichprobe mit Stichprobengröße n.
Häufigkeiten
Eine Häufigkeitsverteilung zeigt, wie sich die gemessenen Werte der
Stichprobe auf den Wertebereich des Merkmals verteilen.
Die absolute Häufigkeitsverteilung ist h1 , . . . ,hk .
Die relative Häufigkeitsverteilung ist f1 , . . . ,fk .
Die Summe der absoluten Häufigkeitsverteilung gibt n. Die Summe der
relativen Häufigkeitsverteilung ergibt 100 %.
Beispiel:
Absolute Häufigkeitsverteilung: 7, 5, 4
Relative Häufigkeitsverteilung: 43,75 %, 31,25 %, 25 %
Seite: 26
Säulen- und Balkendiagramme
Säulendiagramm Balkendiagramm
10
Informatik
8
BWL
4
Kommunikation
0
Kommunikation BWL Informatik 0 2 4 6 8 10
▶ Säulendiagramm: Trage über den Merkmalsausprägungen a1 , . . . ,ak

jeweils eine senkrechte Säule (Rechteck) der Höhe h1 , . . . ,hk (bzw.
der Höhe f1 , . . . ,fk ) ein.
▶ Balkendiagramm: Zeichne an den Merkmalsausprägungen a1 , . . . ,ak
jeweils einen waagerechten Balken der Länge h1 , . . . ,hk (bzw. der
Länge f1 , . . . ,fk ) ein.
Seite: 27
Kreisdiagramme
Kommunikation Komm. Infor.
44% 25%
44%
31%
25% 31% BWL
BWL
Informatik
▶ Kreisdiagramm: Der Kreis entspricht allen Ausprägungen. Die

einzelnen Kreissektoren verdeutlichen die Anteile (relative
Häufigkeiten f1 , . . . ,fk ) der einzelnen Merkmalsausprägungen
a1 , . . . ,ak an der gesamten Stichprobe.
Seite: 28
Beispiel
Zufriedenheit mit Studium im Sommersemester an der TH Köln
▶ Statistische Einheiten: Personen
▶ Grundgesamtheit: Studierende TH Köln (eingeschrieben am 1.4.)
▶ Stichprobe: Lisa, Max, Sophie, ..., Tim; (16 Personen)
▶ Merkmal: Zufriedenheit
▶ Merkmalsausprägungen:
sehr unzufrieden, unzufrieden, zufrieden, sehr zufrieden
▶ Skala Merkmal Studiengang: Ordinalskala
Beispiel für Daten-Codierung:
sehr unzufrieden → 1; unzufrieden → 2;
zufrieden → 3; sehr zufrieden → 4
Urliste:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1)
Seite: 29
Beispiel
Zufriedenheit mit Studium im Sommersemester an der TH Köln
▶ Merkmal: Zufriedenheit
▶ Merkmalsausprägungen und Codierung:
sehr unzufrieden (1), unzufrieden (2), zufrieden (3), sehr zufrieden (4)
▶ Urliste:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1)
Häufigkeitsverteilung:
j aj h(aj )
1 a1 2
2 a2 3
3 a3 5
4 a4 6
Seite: 30
Kumulierte Häufigkeitsverteilung
j aj h(aj ) H(aj )
1 a1 2 2
2 a2 3 5
3 a3 5 10
4 a4 6 16
Fünf Personen sind sehr unzufrieden oder unzufrieden bzw. 11 Personen
sind mindestens zufrieden.
→ Wir haben die absoluten Häufigkeiten kumuliert, z. B. 2 + 3 = 5.
Absolute kumulierte Häufigkeitsverteilung:
H(x) = h(a1 ) + . . . + h(aj ) für aj ≤ x und aj+1 > x
Außerdem wird vorausgesetzt: a1 < a2 < . . . < ak
Seite: 31
Kumulierte Häufigkeitsverteilung
j aj h(aj ) H(aj ) F (aj )
1 a1 2 2 12,5 %
2 a2 3 5 31,25 %
3 a3 5 10 62,5 %
4 a4 6 16 100 %
Relative kumulierte Häufigkeitsverteilung:
F (x) = H(x)/n
21 % sind nicht zufrieden
Seite: 32
Modus
Modus
Die Merkmalsausprägung mit der größten Häufigkeit wird Modus oder
einfach nur xmod genannt.
▶ Wenn es ein eindeutiges Maximum gibt, dann ist der Modus auch
eindeutig.
▶ Bei mehreren Maxima sprechen wir von einer multimodalen
Verteilung.
Wie lautet der Modus der Merkmale Studiengang“ bzw. Zufriedenheit“?
” ”
Kommunikation“ bzw. sehr zufrieden“
” ” Excel Formel
Modus
=Modus(A:A)
Statistik 2. Qualitative Merkmale 2.3. Lagemaße kategorialer Merkmale
Seite: 33
Median
Als weiterer Kennwert zur Beschreibung der Verteilung lässt sich bei
mindestens ordinalskalierten Merkmalen auch der Median angeben.
Median
Der Median ist der Wert, für den gilt, dass die Hälfte aller beobachteten
Objekte einer Stichprobe kleinere (oder gleich große) Ausprägungen hat,
die andere Hälfte größere (oder gleich große) Ausprägungen hat.
Bezeichnung: xmed
▶ Der Median ist der Wert, bei dem die kumulierte Häufigkeitsverteilung
F (x) erstmals den Wert 0,5 erreicht.
Wie lautet der Median des Merkmals Zufriedenheit“?
”
zufrieden“
”
Seite: 34
Ordnungsstatistik
(x(1) , . . . ,x(n) ) ist die geordnete Urliste (x1 , . . . ,xn ), wobei x(1) die
Ausprägung mit dem kleinsten Rang ist, also die Beobachtung mit dem
kleinsten Wert.
Ordnungsstatistik
Die geordnete Urliste wird Ordnungsstatistik genannt.
Merkmal Zufriedenheit:
(4,4,4,1,4,2,3,4,2,3,3,3,3,2,4,1) → (1,1,2,2,2,3,3,3,3,3,4,4,4,4,4,4)
Der Median ist 3, also zufrieden“.

”
Seite: 35
Lagemaße und Streuungsmaße
Lagemaße
Statistischer Kennwert, der die zentrale Tendenz der Objekte im Hinblick
auf das interessierende Merkmal ausdrücken soll.
→ Wir haben den Modus und den Median kennengelernt.
Streuungsmaße
Statistischer Kennwert, der das Ausmaß der Abweichung der Daten von
dem als zentrale Tendenz identifizierten Wert ausdrückt.
→ Wir lernen Streuungsmaße in Kapitel 4 kennen.
Seite: 36
Übung
Im Rahmen einer Umfrage wurden folgende Daten erhoben:
Nummer Alter Geschlecht Muttersprache ...
1 28 w Deutsch ...
2 24 m Englisch ...
3 29 w Englisch ...
4 18 w Englisch ...
5 31 m Spanisch ...
6 30 w Englisch ...
7 22 w Englisch ...
8 30 w Spanisch ...
a) Bestimmen Sie das Skalenniveau der Merkmale.

b) Bestimmen Sie die relative Häufigkeitsverteilungen der Merkmale.
c) Zeichnen Sie Kreisdiagramme zu den Häufigkeitsverteilungen.
d) Wie lautet der Modus von Muttersprache und der Median von Alter?
Seite: 37
Lernziele
Nach dem Studium des Abschnitts zur eindimensionalen Darstellung
qualitativer Merkmale können Studierende ...
1. die Begriffe univariat, bivariat und multivariat erklären und
voneinander abgrenzen.
2. die drei Fragen benennen, die bei der deskriptiven Analyse von Daten
beantwortet werden sollen.
3. die absoluten und relativen Häufigkeiten eines Merkmals mit den
Ausprägungen aj , j = 1, . . . ,k ermitteln.
4. die kumulierten Häufigkeiten einer Verteilung bestimmen.
5. ein Lagemaß benennen, für das eine geordnete Urliste erforderlich ist.
6. den Median aus der Ordnungsstatistik ablesen.
7. den Unterschied zwischen Lage- und Streuungsmaßen erklären.
Seite: 38
Inhaltsverzeichnis
1. Einführung
Statistik 3. Qualitative Merkmale zweidimensional 3.0. Inhaltsverzeichnis
Seite: 39
Vorüberlegungen
Motivation
▶ Studie zur Zufriedenheit mit dem Studium an der TH Köln
▶ alleinige Betrachtung des Merkmals Zufriedenheit mit Studium an
”
der TH Köln“ potentiell nicht aussagekräftig
▶ möglicherweise gibt es Unterschiede zwischen den Studiengängen,
z. B. Kommunikation ←→ BWL
Vorgehen
Um einen Zusammenhang zwischen zwei Merkmalen zu untersuchen, muss
die gemeinsame Verteilung der Beobachtungswerte auf beide Merkmale
mit ihren je unterschiedlichen Ausprägungen betrachtet werden.
Beispiel für eine offene Hypothese:

Studierende im Studiengang Kommunikation sind zufriedener
als BWL-Studierende
Statistik 3. Qualitative Merkmale zweidimensional 3.1. Vorüberlegungen
Seite: 40
Beispiel
Motivation
▶ Studie zur Zufriedenheit mit dem Studium an der TH Köln
▶ Wir verwenden die Daten (Urlisten) aus dem letzten Kapitel. Eine
gemeinsame Betrachtung der Beobachtungswerte ist:
Studiengang 1 1 3 2 1 1 1 1 2 3 3 2 2 2 1 3
Zufriedenheit 4 4 4 1 4 2 3 4 2 3 3 3 3 2 4 1
▶ Beispiel:
Der erste Teilnehmer studiert Kommunikation“
”
und ist sehr zufrieden“.
”
▶ Wie können wir die Daten (zwei Merkmale, daher zweidimensional“)
”
analysieren, um zu einer Aussage zu kommen?
Statistik 3. Qualitative Merkmale zweidimensional 3.1. Vorüberlegungen
Seite: 41
Gemeinsame Häufigkeitsverteilung – Beispiel
Merkmalsausprägungen Studiengang“: a1 , a2 , a3
”
Merkmalsausprägungen Zufriedenheit“: b1 , b2 , b3 , b4
”
Gemeinsame Häufigkeitsverteilung und Randverteilungen
sehr unzufrieden
sehr zufrieden
Zufriedenheit
unzufrieden
zufrieden
Studiengang b1 b2 b3 b4 Gesamt
Kommunikation a1 0 1 1 5 7
BWL a2 1 2 2 0 5
Informatik a3 1 0 2 1 4
Gesamt 2 3 5 6 16
Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung
Seite: 42
Gemeinsame Häufigkeitsverteilung – Allgemein
Merkmalsausprägungen von Merkmal X : a1 , . . . ,ak
Merkmalsausprägungen von Merkmal Y : b1 , . . . ,bm
Gemeinsame Häufigkeitsverteilung und Randverteilungen
Y
b1 b2 ... bm Randverteilung
a1 h11 h12 ··· h1m h1•
a2 h21 h22 ··· h2m h2•
X
... ...
ak hk1 hk2 ··· hkm hk•
Randverteilung h•1 h•2 ... h•m n
Diese Tabelle wird Kontingenztafel genannt.

h11 , . . . ,hkm bildet die Verteilung eines neuen Merkmals.
Seite: 43
Gemeinsame Häufigkeitsverteilung – Allgemein
Merkmalsausprägungen von Merkmal X : a1 , . . . ,ak
Merkmalsausprägungen von Merkmal Y : b1 , . . . ,bm
Gemeinsame relative Häufigkeitsverteilung
Y
b1 b2 ... bm Randverteilung
a1 f11 f12 ··· f1m f1•
a2 f21 f22 ··· f2m f2•
X
... ...
ak fk1 fk2 ··· fkm fk•
Randverteilung f•1 f•2 ... f•m
Die relativen Häufigkeiten ergeben sich aus den absoluten Häufigkeiten,

indem durch die Stichprobengröße n geteilt wird.
Seite: 44
Zweidimensionale Häufigkeitsdiagramme
Gestapeltes Säulendiagramm
6
6
5 5
4
3 3
2
2
1 1 1
0
0
sehr unzufrieden unzufrieden zufrieden sehr zufrieden
Kommunikation BWL Informatik
Seite: 45
Zweidimensionale Häufigkeitsdiagramme
Gruppiertes Säulendiagramm
2 2 2
2
1 1 1 1 1
0 0 0
0
sehr unzufrieden unzufrieden zufrieden sehr zufrieden
Kommunikation BWL Informatik
Seite: 46
Bedingte relative Häufigkeitsverteilung
Idee:
▶ Bestimme relative Häufigkeitsverteilung des ersten Merkmals ...
▶ ... für verschiedene Merkmalsausprägungen des zweiten Merkmals.
Beispiel:
▶ Relative Häufigkeitsverteilung des Merkmals Zufriedenheit“ ...
”
▶ für verschiedene Merkmalsausprägungen des Merkmals Studiengang“.
”
Daten:
Kommunikation: 0 %, 14 %, 14 %, 71 %
BWL: 20 %, 40 %, 40 %, 0%
Interpretation:
Studierende im Studiengang Kommunikation sind zufriedener
Seite: 47
Bedingte relative Häufigkeitsverteilung
Die bedingte relative Häufigkeitsverteilung von Y unter der Bedingung
X = ai ist wie folgt definiert:
hi1 him
fY (b1 |ai ) = , . . . , fY (bm |ai ) =
hi• hi•
Wir schreiben: Y |X = ai
Die bedingte relative Häufigkeitsverteilung von X unter der Bedingung

Y = bj ist gegeben durch:
h1j hkm
fX (a1 |bj ) = , . . . , fX (ak |bj ) =
h•j h•j
Wir schreiben: X |Y = bj
Berechnung: Gemeinsame Häufigkeiten durch jew. Randhäufigkeit teilen
Seite: 48
Beispiel – Fernsehen
Seite: 49
Motivation
▶ Ausgangspunkt:
Es gibt einen Zusammenhang zwischen den Merkmalen.
Die bedingten Häufigkeitsverteilungen unterscheiden sich.
▶ Ziel:
Stärke des Zusammenhangs messen
▶ Kennzahlen:
χ2 – ausgesprochen: Chi Quadrat
Kontingenzkoeffizient
▶ Idee:
Wenn zwischen zwei Merkmalen kein Zusammenhang besteht, dann
müssen die bedingten Häufigkeiten eines Merkmals den einfachen
relativen Häufigkeiten entsprechen.
Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit
Seite: 50
Unabhängigkeit
Die Merkmale X und Y heißen unabhängig genau dann, wenn:
Die bedingten relativen Häufigkeitsverteilungen Y |X = ai entsprechen der

Randverteilung des Merkmals Y , d. h.:
h1j hkj h•j
fY (bj |a1 ) = = . . . = fY (bj |ak ) = = = f•j
h1• hk• n
Achtung: Andere Darstellung als im Buch!
Beispiel:
Randverteilung des Merkmals Zufriedenheit“ ist
”
12,50 %, 18,75 %, 31,25 %, 37,50 %
Wenn die Zufriedenheit unabhängig vom Studiengang ist, dann entspricht

die bedingte Verteilung der Zufriedenheit stets der Randverteilung.
Seite: 51
Erwartete Verteilung bei Unabhängigkeit
Zufriedenheit
Kommunikation a1 7 · 12,50 % 7 · 18,75 % 7 · 31,25 % 7 · 37,50 % 7
BWL a2 5 · 12,50 % 5 · 18,75 % 5 · 31,25 % 5 · 37,50 % 5
Informatik a3 4 · 12,50 % 4 · 18,75 % 4 · 31,25 % 4 · 37,50 % 4
Gesamt 2 3 5 6 16
12,50 % 18,75 % 31,25 % 37,50 %
Zufriedenheit
Kommunikation a1 0,88 1,31 2,19 2,63 7
BWL a2 0,63 0,94 1,56 1,88 5
Informatik a3 0,50 0,75 1,25 1,50 4
Gesamt 2 3 5 6 16
Seite: 52
Erwartete Verteilung bei Unabhängigkeit
Allgemeine Formel für die Berechnung

Wir bezeichnen die erwartete Häufigkeit mit h̃ij .
Wir können sie berechnen mit:
h̃ij = hi• · f•j
Seite: 53
Vergleich: tatsächlich vs. erwartet
Je weiter das Stichprobenergebnis (links) von der bei Unabhängigkeit der
Merkmale erwarteten Häufigkeitsverteilung (rechts) abweicht, desto stärker
ist die gegenseitige Abhängigkeit.
→ Änderung eines Merkmals hat einen Einfluss auf das andere Merkmal
Zufriedenheit Zufriedenheit
b1 b2 b3 b4 Gesamt b1 b2 b3 b4 Gesamt
Studiengang
a1 0 1 1 5 7 a1 0,88 1,31 2,19 2,63 7
a2 1 2 2 0 5 a2 0,63 0,94 1,56 1,88 5
a3 1 0 2 1 4 a3 0,50 0,75 1,25 1,50 4
Gesamt 2 3 5 6 16 Gesamt 2 3 5 6 16
Je mehr sich die erwarteten Häufigkeiten und die beobachteten

Häufigkeiten gleichen, desto weniger sind die beiden Merkmale abhängig.
→ Änderung eines Merkmals hat keinen Einfluss auf das andere Merkmal
Seite: 54
Definition χ2 -Wert
Gegeben sei eine gemeinsame Verteilung hij .
Definition für den χ2 -Wert:
2
hi• ·h•j
k X
X m hij − n
χ2 = hi• ·h•j
i=1 j=1 n
In Worten ausgedrückt: Bilde für jede Zelle die erwarteten Häufigkeiten,

indem die Randhäufigkeiten multipliziert und durch n geteilt werden.
hi• · h•j
n
Subtrahiere für jede Zelle die erwarteten Häufigkeiten von den in der
Stichprobe beobachteten Häufigkeiten hij . Quadriere diese Differenz und
teile den Wert je Zelle durch die erwartete Häufigkeit. Zähle die so für jede
Zelle erhaltenen Werte zusammen.
Seite: 55
Berechnung χ2 -Wert im Beispiel
links: Differenzen zwischen beobachteten und erwarteten Häufigkeiten
rechts: Quadrierte und mit den erwarteten Häufigkeiten gewichtete Werte
b1 b2 b3 b4 b1 b2 b3 b4
a1 −0,88 −0,31 −1,19 2,37 a1 0,88 0,07 0,65 2,14
a2 0,37 1,06 0,44 −1,88 a2 0,22 1,20 0,12 1,88
a3 0,50 −0,75 0,75 −0,50 a3 0,50 0,75 0,45 0,17
Somit ergibt sich der Wert:
χ2 = 0,88 + 0,07 + 0,65 + . . . + 0,17 = 9,03
Der Wert ist deutlich größer 0. Das deutet auf Abhängigkeit hin.
→ Zufriedenheit“ und Studiengang“ sind abhängige Merkmale
” ”
Seite: 56
Berechnung χ2 -Wert im Beispiel – Fortsetzung
Annahme: Die beobachtete gemeinsame Verteilung der Merkmale
Studiengang“ und Zufriedenheit“ habe zwar die gleichen
” ”
Randverteilungen, jedoch unterschiedliche gemeinsame Häufigkeiten.
(links: Variante A; rechts: Variante B)
Zufriedenheit Zufriedenheit
b1 b2 b3 b4 Gesamt b1 b2 b3 b4 Gesamt
Studiengang
Studiengang
a1 1 1 2 3 7 a1 0 0 1 6 7
a2 1 1 2 1 5 a2 0 2 3 0 5
a3 0 1 1 2 4 a3 2 1 1 0 4
Gesamt 2 3 5 6 16 Gesamt 2 3 5 6 16
Variante A: χ2 = 1,71 Variante B: χ2 = 18,33

Vergleiche das Ergebnis mit den jeweiligen Verteilungen.
Seite: 57
Eigenschaften χ2
Beobachtungen:
▶ Je größer der χ2 -Wert, desto stärker ist der Zusammenhang.
▶ Der χ2 -Wert wird umso kleiner, je größer die Stichprobe n ist.
▶ χ2 wird umso größer, je mehr Zellen k · m die Kreuztabelle hat.
Konsequenzen:
▶ Stärke des Zusammenhangs mit χ2 -Wert schwer zu beurteilen
▶ Vergleiche verschiedener χ2 -Werte schwierig
Lösung:
▶ Normierung der Größe
Seite: 58
Kontingenzkoeffizienten
Kontingenzkoeffizient
Der Kontingenzkoeffizient ist definiert durch:
s
χ2
K=
n + χ2
q
min{k, m}−1
Der Wert K ist nach oben begrenzt durch den Wert Kmax = min{k, m}
Korrigierter Kontingenzkoeffizient
Der korrigierte Kontingenzkoeffizient ist definiert durch:
s
min{k, m} K
K∗ = K · =
min{k, m} − 1 Kmax
K ∗ liegt immer im Intervall [0; 1].
Seite: 59
Lernziele
Nach dem Studium des Abschnitts zur bivariaten Darstellung qualitativer
Merkmale können Studierende ...
1. eine gemeinsame Häufigkeitsverteilung zweier Merkmale sowie ihre
Randverteilung berechnen, indem sie eine Kontingenztafel erstellen,
um damit später den Grad der Unabhängigkeit der Merkmale zu
ermitteln.
2. eine bedingte Häufigkeitsverteilung bestimmen sowie den Unterschied
zu einer einfachen Häufigkeitsverteilung erläutern.
3. die erwartete gemeinsame Häufigkeitsverteilung zweier Merkmale –
unter der Annahme der Unabhängigkeit der beiden Merkmale –
kalkulieren.
4. den (korrigierten) Kontingenzkoeffizienten auf Basis einer
gemeinsamen Häufigkeitsverteilung mit Hilfe der Formel berechnen
und damit eine Vermutung über den Grad der Unabhängigkeit der
Merkmale formulieren.
Seite: 60
Inhaltsverzeichnis
1. Einführung
Statistik 4. Quantitative Merkmale eindimensional 4.0. Inhaltsverzeichnis
Seite: 61
Vorüberlegungen
Quantitative Merkmale
Quantitative Merkmale sind intervall- oder verhältnisskalierte Merkmale.
Ihre Ausprägungen spiegeln die Intensität eines Merkmals wieder.
Beispiele für quantitative Merkmale

▶ Alter
▶ Einkommen
▶ Jahr Berufseinstieg
Wiederholung
▶ Ein Merkmal ist diskret, wenn es endlich viele oder abzählbar
unendlich viele Ausprägungen annehmen kann.
▶ Ein Merkmal ist stetig, wenn innerhalb eines Intervalls theoretisch
unendlich viele Werte möglich sind.
Statistik 4. Quantitative Merkmale eindimensional 4.1. Vorüberlegungen
Seite: 62
Häufigkeiten diskreter quantitativer Merkmale
Zufriedenheit mit Studium im Sommersemester 2019 an der TH Köln
▶ Merkmal: Alter
▶ Merkmalsausprägungen: vollendete Lebensjahre
▶ Urliste: (24,23,22,20,24,21,21,25,20,24,20,23,20,22,23,25)
absolute relative kumulierte
Alter Häufigkeit rel. Häufigkeit
20 4 25 % 25 %
21 2 12,5 % 37,5 %
22 2 12,5 % 50 %
23 3 18,75 % 68,75 %
24 3 18,75 % 87,5 %
25 2 12,5 % 100 %
Statistik 4. Quantitative Merkmale eindimensional 4.2. Verteilungsdarstellungen
Seite: 63
Darstellung diskreter quantitativer Merkmale
Für diskrete quantitative Merkmale können wir Säulendiagramme erstellen.
Säulendiagramm
5
4
4
3 3
3
2 2 2
2
20 21 22 23 24 25
Seite: 64
Häufigkeiten stetiger quantitativer Merkmale
Zufriedenheit mit Studium im Sommersemester 2019 an der TH Köln
▶ Merkmal: Körpergröße
▶ Merkmalsausprägungen: m
▶ Urliste (schon sortiert): (1,60, 1,61, 1,63, 1,64, 1,65, 1,65, 1,66, 1,73, . . .
. . . 1,74, 1,77, 1,77, 1,81, 1,85, 1,87, 1,92, 1,97)
Zwischenschritt: Bestimmung von Klassen
z. B.: [1,60, 1,70), [1,70, 1,80), [1,80, 1,90) und [1,90, 2,00)
absolute relative kumulierte
Klasse Häufigkeit rel. Häufigkeit
[1,60, 1,70) 7 44 % 44 %
[1,70, 1,80) 4 25 % 69 %
[1,80, 1,90) 3 19 % 88 %
[1,90, 2,00) 2 13 % 100 %
Seite: 65
Darstellung stetiger quantitativer Merkmale
Für stetige Merkmale erstellen wir Histogramme als grafische Darstellung.
Histogramm
Ein Histogramm stellt die Häufigkeiten in einzelnen Klassen flächengetreu
dar.
Wesentliche Unterschiede zum normalen“ Säulendiagramm:
”
▶ zwischen den Säulen liegen keine Abstände
▶ Breite der Merkmalsbereiche ist nicht notwendigerweise gleich
Konstruktion Histogramm für Klassen [c0 , c1 ), [c1 , c2 ), . . . ,[ck−1 , ck )
▶ Rechtecke
▶ Breite: dj = cj − cj−1
▶ Höhe: proportional zu hj /dj bzw. fj /dj
▶ Fläche: proportional zu hj bzw. fj
Seite: 66
Darstellung stetiger quantitativer Merkmale
Histogramm
10
6
Anzahl
150 160 170 180 190 200 210

Körpergröße in cm
Seite: 67
Empirische Verteilungsfunktion
Absolute kumulierte Häufigkeitsverteilung
Die absolute kumulierte Häufigkeitsverteilung wird mit H(x) bezeichnet.
Sie ist definiert durch:
H(x) = Anzahl der Werte xi mit xi ≤ x
Wir bezeichnen die empirische Verteilungsfunktion mit F (x).
Sie ist gegeben durch:
H(x)
F (x) =
n
Sie beschreibt den Anteil der Beobachtungswerte, die kleiner oder gleich
einem bestimmten Wert x sind.
Beide Funktionen sind monoton wachsende Treppenfunktionen.
Seite: 68
Empirische Verteilungsfunktion – Darstellung
1
0,9
0,75
0,5
0,25
0,1
0
150 160 170 180 190 200 210
Seite: 69
Lagemaße
Kennzahlen
▶ Modus
... kann aus Häufigkeitsverteilung abgelesen werden.
... bei diskreten Merkmalen durchaus aussagekräftig.
▶ Median
... wenn die empirische Verteilungsfunktion erstmalig 0,5 erreicht
Beispiele
▶ Alter
▶ Modus: Alter 20
▶ Median: Alter 22
▶ Körpergröße
▶ Modus: Klasse 1,60 m bis 1,70 m
▶ Median: Klasse 1,70 m bis 1,80 m
Statistik 4. Quantitative Merkmale eindimensional 4.3. Lage- und Streuungsmaße
Seite: 70
Arithmetisches Mittel
Arithmetisches Mittel/Mittelwert
Das arithmetische Mittel (Mittelwert) eines Merkmals und zugehöriger
Urliste (x1 , . . . ,xn ) ist definiert durch:
1
x̄ = · (x1 + . . . + xn )
n
▶ Wert soll eine Tendenz anzeigen

▶ Aussagekraft nimmt ab, umso weniger eine zentrale Tendenz vorliegt
und umso verschiedener die Objekte sind
Beispiele:
▶ Alter x̄ = 22,31
▶ Körpergröße x̄ = 1,74 m
Seite: 71
Annahme: Es liegt eine Häufigkeitsverteilung (f1 , . . . ,fk ) vor.
Arithmetisches Mittel/Mittelwert
Das arithmetische Mittel (Mittelwert) eines Merkmals mit Ausprägungen
a1 , . . . ,ak und zugehöriger Urliste (x1 , . . . ,xn ) ist definiert durch:
x̄ = a1 · f1 + . . . + ak · fk
Diskussion
▶ bimodale Verteilungen
▶ Verteilungen mit heterogenen Merkmalsausprägungen
Ob die Verteilung breit oder eng, spitz oder flach, symmetrisch oder schief
ist, können wir anhand der Lagemaße allein nicht feststellen.
Seite: 72
Spannweite
Spannweite
Die Spannweite ist definiert durch:
range = xmax − xmin
Die Spannweite allein ist besonders anfällig für Ausreißer“. Deshalb hat
”
die Statistik noch weitere Streuungsmaße entwickelt, die gegenüber
Ausreißern robust sind und auf diese Weise auch ein Kriterium zur
Beurteilung und Identifikation von Ausreißern bilden können.
Beispiel:
Alter: 5, Körpergröße: 0,37
Seite: 73
Quantil
Quantil
Ein p-Quantil teilt die Anzahl der Objekte so in zwei Teile auf, dass
p · 100 % der an den diesen Objekten gemessenen Werte bzw. Daten unter
diesem Wert und (1 − p) · 100 % der Daten über diesem Wert liegen.
Wenn die empirische Verteilungsfunktion vorliegt, dann entspricht das
Quantil der Merkmalsausprägung, bei der das erste Mal der entsprechende
Anteil erreicht wird.
Anmerkungen:
▶ Der Median ist das 50 %-Quantil.
▶ Übliche Quantile: 25 % und 75 % (Quartile) bzw. 5 % und 95 %
▶ Interquartilsabstand: dQ = x0,75 − x0,25
▶ Fünf-Punkte-Zusammenfassung eines Merkmals:
xmin , x0,25 , xmed , x0,75 , xmax
Seite: 74
Quantil und Boxplot – Beispiel
Fünf-Punkte-Zusammenfassung sowie Boxplots
xmin = 20, x0,25 = 20, xmed = 22, x0,75 = 24, xmax = 25
18 19 20 21 22 23 24 25 26
Alter
xmin = 160, x0,25 = 164, xmed = 173, x0,75 = 181, xmax = 197
150 155 160 165 170 175 180 185 190 195 200
Seite: 75
Varianz und Standardabweichung
Varianz
Für beobachtete Werte x1 , . . . ,xn eines Merkmals ist die Varianz definiert
durch:
1
s̃ 2 = · (x1 − x̄)2 + . . . + (xn − x̄)2

n
Standardabweichung √
Die Standardabweichung ist: s̃ = + s̃ 2
Anmerkungen
▶ Berechnung nur für quantitative Merkmale möglich
▶ Die Standardabweichung beschreibt die durchschnittliche Streuung
der gemessenen Ausprägungen eines Merkmals um den Mittelwert.
▶ s 2 bzw. s wird als Stichprobenvarianz und
Stichprobenstandardabweichung bezeichnet (hier noch nicht relevant)
▶ Standardabweichung: Maßeinheit identisch zu Merkmalen
Seite: 76
Varianz und Standardabweichung – Beispiel
Alter:
1
s̃ 2 = · (24 − 22,31)2 + . . . + (25 − 22,31)2 = 3,09

16
p
s̃ = 3,09 = 1,76
Körpergröße:
1
s̃ 2 = · (1,60 − 1,74)2 + . . . + (1,97 − 1,74)2 = 0,01. . .

16
p
s̃ = 0,01. . . = 0,11
Seite: 77
Gruppierte Daten
Median
Wenn [ct−1 ,ct ) die Gruppe ist, in der der Median liegt, dann können wir
den Median schätzen mit:
(ct − ct−1 ) · (0,5 − F (ct−1 ))
xmed,grupp = ct−1 +
ft
Wir bestimmen zunächst die Mittelpunkte mj der k Gruppen und addieren
dann die Mittelpunkte gewichtet mit der relativen Häufigkeit auf:
x̄grupp = f1 · m1 + . . . + fk · mk
Beispiel Größe:
x̄grupp = 44 % · 1,65 + 25 % · 1,75 + 19 % · 1,85 + 13 % · 1,95 = 1,77
Seite: 78
Beispiel Median bei gruppierten Daten
Wir bestimmen den Median für die Körpergröße auf Basis der gruppierten
Daten.
Seite: 79
Lernziele
Nach dem Studium des Abschnitts zur eindimensionalen Darstellung
quantitativer Merkmale können Studierende ...
1. für einen gegebenen Datensatz eine empirische Verteilungsfunktion
ermitteln, um damit z. B. Quantile zu bestimmen.
2. Histogramme, empirische Verteilungsfunktionen und Boxplots
zeichnen (auf Basis der jeweiligen Definition), um die Verteilung eines
Merkmals grafisch zu visualisieren.
3. klassische Kennwerte quantitativer Daten wie Median, Mittelwert,
Varianz und Standardabweichung kalkulieren, indem sie die
entsprechenden Formeln anwenden.
4. mit gruppierten Daten den Median und den Mittelwert abschätzen.
Seite: 80
Inhaltsverzeichnis
1. Einführung
Statistik 5. Quantitative Merkmale zweidimensional 5.0. Inhaltsverzeichnis
Seite: 81
Motivation
Prinzipielles Vorgehen bei der Zusammenhangsanalyse
▶ Zwei qualitative Merkmale (Kapitel 3):
Kreuztabelle und bedingte Häufigkeitsverteilung
▶ Ein qualitatives Merkmal und ein quantitatives Merkmal:
Analyse der Verteilung des quantitativen Merkmals unter den
verschiedenen Bedingungen des kategorialen Merkmals
Unterschiedliche Verteilung ⇒ Zusammenhang/Abhängigkeit möglich
Statistik 5. Quantitative Merkmale zweidimensional 5.1. Vergleich metrischer Daten
Seite: 82
Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: fiktive Werte)
▶ Qualitatives Merkmal: Geschlecht
▶ Quantitatives Merkmal: Durchschnittliche Dauer der wöchentlichen
Haushaltstätigkeit (gemessen in Stunden)
Datenmaterial:
▶ Studie mit 10 Personen (5 Männer/5 Frauen)
▶ Urliste:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
9 10 11 12 13 6 7 8 9 10
▶ Die ersten fünf Werte stammen von den fünf Frauen und die letzten
fünf Werte von den Männern. Daher alternative Bezeichnung:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
9 10 11 12 13 6 7 8 9 10
xij mit i ∈ {1, 2} und j ∈ {1, . . . ,5}
Seite: 83
Variationskoeffizient – Beispiel
Vergleich der statistischen Kenngrößen der Verteilung:
Geschlecht Anzahl Mittelwert Std.abw.

weiblich 5 11,0 1,41
männlich 5 8,0 1,41
insgesamt 10 9,5 2,06
Seite: 84
Motivation – Berechnungen (1/2)
x̄ = 9,5 x̄1 = 11 x̄2 = 8 s̃ = 2,06 s̃1 = s̃2 = 1,41
10 · s̃ 2 = (x11 − x̄)2 + . . . + (x15 − x̄)2 + (x21 − x̄)2 + . . . + (x25 − x̄)2

| {z } | {z }
Frauen Männer
2 2
= (x11 −x̄1 + x̄1 −x̄) + . . . + (x15 −x̄1 + x̄1 −x̄)
| {z } | {z }
=0 =0
+ (x21 − x̄2 + x̄2 − x̄) + . . . + (x25 − x̄2 + x̄2 − x̄)2
2
= (x11 − x̄1 )2 + (x̄1 − x̄)2 + . . . + (x15 − x̄1 )2 + (x̄1 − x̄)2

+ 2 · (x11 − x̄1 ) · (x̄1 − x̄) + . . . + 2 · (x15 − x̄1 ) · (x̄1 − x̄)
+ (x21 − x̄2 )2 + (x̄2 − x̄)2 + . . . + (x25 − x̄2 )2 + (x̄2 − x̄)2
+ 2 · (x21 − x̄2 ) · (x̄2 − x̄) + . . . + 2 · (x25 − x̄2 ) · (x̄2 − x̄)
Seite: 85
Motivation – Berechnungen (2/2)
. . . = (x11 − x̄1 )2 + . . . + (x15 − x̄1 )2 + (x̄1 − x̄)2 + . . . + (x̄1 − x̄)2

+ 2 · (x̄1 − x̄) · ((x11 − x̄1 ) + . . . + (x15 − x̄1 ))
| {z }
=0
+ (x21 − x̄2 ) + . . . + (x25 − x̄2 )2 + (x̄2 − x̄)2 + . . . + (x̄2 − x̄)2
2
+ 2 · (x̄2 − x̄) · ((x21 − x̄2 ) + . . . + (x25 − x̄2 ))

| {z }
=0
= (x11 − x̄1 )2 + . . . + (x15 − x̄1 )2 + (x21 − x̄2 )2 + . . . + (x25 − x̄2 )2
+ (x̄1 − x̄)2 + . . . + (x̄1 − x̄)2 + (x̄2 − x̄)2 + . . . + (x̄2 − x̄)2
= 5 · s̃12 + 5 · s̃22 + 5 · (x̄1 − x̄)2 + 5 · (x̄2 − x̄)2
s̃ 2 = 50 % · s̃12 + 50 % · s̃22 + 50 % · (x̄1 − x̄)2 + 50 % · (x̄2 − x̄)2

Seite: 86
Streuungszerlegung
Mit der Varianzzerlegung können wir analysieren, in welchem Verhältnis
die gesamte Varianz eines Merkmals zu der Varianz in den durch das
kategoriale Merkmal gebildeten Gruppen (mit k Gruppen) steht.
n1 2 nk 2
s̃ 2 = · s̃ + . . . + · s̃
n 1 n k
n1 nk
+ · (x̄1 − x̄)2 + . . . + · (x̄k − x̄)2
n n
Im Beispiel:
4,25 = 50 % · 2 + 50 % · 2 + 50 % · (11 − 9,5)2 + 50 % · (8 − 9,5)2

= 2 + 2,25
Interpretation: Etwa die Hälfte der Gesamtvarianz, 2,25

4,25 = 53 %, wird durch
die Gruppierung erklärt. Der Anteil der Varianzen in den einzelnen Gruppen
besitzt einen Anteil von 47 %. Es besteht keine Unabhängigkeit.
Seite: 87
Streuungszerlegung – Beispiele
Urliste:
▶ Ausgangsvariante:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
9 10 11 12 13 6 7 8 9 10
▶ Variante A:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
10 10,5 11 11,5 12 7 7,5 8 8,5 9
▶ Variante B:
x11 x12 x13 x14 x15 x21 x22 x23 x24 x25
7 9 11 13 15 4 6 8 10 12
Seite: 88
Vergleich der statistischen Kenngrößen der Verteilung:
Geschlecht x̄ s̃ 2 x̄1 s̃12 x̄2 s̃22

Ausgangsvariante 9,5 4,25 11,0 2,0 8,0 2,0
Variante A 9,5 2,75 11,0 0,5 8,0 0,5
Variante B 9,5 10,25 11,0 8,0 8,0 8,0
Zentrale Frage:
Wie aussagekräftig ist der Unterschied in den Mittelwerten? (3 Stunden)
Seite: 89
Analyse der Streuungszerlegung:
s̃ 2 = 50 % · s̃12 + 50 % · s̃22 + 50 % · (x̄1 − x̄)2 + 50 % · (x̄2 − x̄)2

| {z } | {z }
1. Summand 2. Summand
Geschlecht s̃ 2 1. Summand 2. Summand

Ausgangsvariante 4,25 47 % 53 %
Variante A 2,75 18 % 82 %
Variante B 10,25 78 % 22 %
Seite: 90
Streuungszerlegung – Interpretation
Je geringer die Standardabweichung eines Merkmals in den jeweiligen
Gruppen (1. Summand), d. h. je weniger stark die Daten um die
Mittelwerte in den Gruppen schwanken, umso aussagekräftiger sind
Mittelwertunterschiede zwischen den Gruppen (2. Summand).
Für die fiktiven Werte gilt: Es kann angenommen werden, dass in den
Gruppen unterschiedliche Gesetzmäßigkeiten wirken.
Seite: 91
Beispiel
Studie: Haushaltstätigkeit und Geschlecht (hier: echte Werte, siehe Buch)
Geschlecht Anzahl Mittelwert Varianz

weiblich 58 10,88 96,38
männlich 63 7,91 91,19
insgesamt 121 9,33 95,89
⇒ Nur 2,3 % der Varianz wird durch die Mittelwertdifferenz erklärt.
58 63
121 · 96,38 + 121 · 91,19
1− = 2,3 %
95,89
Seite: 92
Tabellenkalkulationsprogramm
Wir führen eine Streuungszerlegung exemplarisch mit einem
Tabellenkalkulationsprogramm durch.
Seite: 93
Lernziele
Nach dem Studium des Abschnitts zum Variationskoeffizienten und zur
Varianzanalyse können Studierende ...
1. metrische Daten in verschiedenen Gruppen vergleichen.
2. den Einfluss eines kategorialen Merkmals auf die Varianz eines
metrischen Merkmals mit Hilfe der Streuungszerlegung
(Varianzanalyse) beurteilen.
3. die Summanden der Streuungszerlegung explizit bestimmen und die
Summanden ins Verhältnis zur Varianz setzen.
Seite: 94
Motivation
Zusammenhang zwischen zwei metrischen Merkmalen messen
▶ verschiedene Messwerte für gemeinsame Streuung kennenlernen
▶ Stärke und Richtung des Zusammenhangs berücksichtigen
Begriffe in diesem Abschnitt
▶ Kovarianz
▶ Korrelationskoeffizient
▶ Lineare Regression
▶ Bestimmtheitsmaß
Statistik 5. Quantitative Merkmale zweidimensional 5.2. Zusammenhänge metrische Variablen
Seite: 95
Beispiel
Daten zur Nachrichtenanalyse (n = 34)
▶ Nachrichtenwert ȳ = 2,18
▶ Beitragslänge x̄ = 70,15
5
Nachrichtenwert
Beitragslänge
50 100 150 200
Seite: 96
Kovarianz
Definition
Seien X und Y zwei an einem Objekt erhobene Merkmale und (xi ,yi ) mit
i = 1, . . . ,n die Ausprägung der gemeinsamen Variablen. Dann heißt:
n
1 X
s̃XY = · (xi − x̄) · (yi − ȳ )
n
i=1
die empirische Kovarianz.

▶ Sie ist die Summe der Abweichungsprodukte geteilt durch den
Stichprobenumfang.
▶ Maß für die gemeinsame Streuung
Wenn die Punkte in allen vier Feldern (siehe oben) gleichmäßig verteilt sind, dann
gleichen sich die positiven und negativen Werte aus. → Kovarianz nahe bei 0.
Wenn sich die Punkte jedoch in positiven oder negativen Feldern sammeln, so ergibt
sich jeweils eine negative oder eine positive Kovarianz.
Seite: 97
Beispiel
Daten der Nachrichtenanalyse (n = 34)
Dauer Wert xi − x̄ yi − ȳ (xi − x̄) · (yi − ȳ ) Dauer Wert xi − x̄ yi − ȳ (xi − x̄) · (yi − ȳ )
15 3 −55,15 0,82 −45,42 67 1 −3,15 −1,18 3,70
21 3 −49,15 0,82 −40,47 91 2 20,85 −0,18 −3,68
21 3 −49,15 0,82 −40,47 91 3 20,85 0,82 17,17
22 0 −48,15 −2,18 104,79 93 1 22,85 −1,18 −26,89
23 1 −47,15 −1,18 55,47 103 3 32,85 0,82 27,06
24 1 −46,15 −1,18 54,29 106 2 35,85 −0,18 −6,33
25 0 −45,15 −2,18 98,26 107 1 36,85 −1,18 −43,36
26 0 −44,15 −2,18 96,08 111 2 40,85 −0,18 −7,21
26 3 −44,15 0,82 −36,36 113 2 42,85 −0,18 −7,56
26 4 −44,15 1,82 −80,50 114 1 43,85 −1,18 −51,59
27 2 −43,15 −0,18 7,61 118 2 47,85 −0,18 −8,44
27 3 −43,15 0,82 −35,53 121 3 50,85 0,82 41,88
30 4 −40,15 1,82 −73,21 126 3 55,85 0,82 46,00
30 4 −40,15 1,82 −73,21 129 3 58,85 0,82 48,47
32 2 −38,15 −0,18 6,73 133 2 62,85 −0,18 −11,09
32 2 −38,15 −0,18 6,73 136 4 65,85 1,82 120,08
42 2 −28,15 −0,18 4,97 177 2 106,85 −0,18 −18,86
Die Summe über die letzte Spalte ergibt einen Wert von 129,12.
Somit ist: Kovarianz s̃XY =3,80
Seite: 98
Eigenschaften der Kovarianz
▶ Die Kovarianz misst einen Zusammenhang der Art:
je größer x, desto größer y“ oder je größer x, desto kleiner y“
” ”
▶ Je mehr sich die Punkte auf die diagonalen Quadranten (siehe oben)
konzentrieren, desto größer ist der Betrag der Kovarianz.
▶ Je größer die Kovarianz ist, desto stärker ist der lineare
Zusammenhang zwischen den Merkmalen.
▶ Je größer die Streuung der beiden Merkmale ist, desto größer wird der
Betrag der Kovarianz.
▶ Achtung:
Kovarianz 0 bedeutet nicht, dass die Merkmale keinen
Zusammenhang haben, sondern nur, dass sie in keinem linearen
Zusammenhang stehen.
Seite: 99
Drei weitere Beispiele
Jedes Merkmal hat sechs Messwerte und einen Mittelwert von 5.
Beispiel 1 Beispiel 2 Beispiel 3

10 10 10
Merkmal 2 Merkmal 2 Merkmal 2
8 8 8
6 6 6
4 4 4
2 2 2

2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
▶ Beispiel 1: s̃XY = 16 · ((2 − 5) · (2 − 5) + . . . (8 − 5) · (7 − 5)) = 4,33

▶ Beispiel 2: s̃XY = 16 · ((2 − 5) · (7 − 5) + . . . (8 − 5) · (3 − 5)) = − 4,33
▶ Beispiel 3: s̃XY = 0
Seite: 100
Korrelationskoeffizient nach Pearson
Definition
Pn
(xi − x̄) · (yi − ȳ ) s̃XY
rXY = qP i=1 =
n 2
P n 2 s̃X · s̃Y
i=1 (xi − x̄) · i=1 (yi − ȳ )
Korrelationskoeffizient nach Pearson.

▶ Werte liegen zwischen −1 und +1
▶ Werte −1 und 1: exakter linearer Zusammenhang
▶ Wert 0: kein linearer Zusammenhang (lineare Unabhängigkeit)
Seite: 101
Korrelationskoeffizient nach Pearson
Interpretation
Wert Interpretation
0 bis ±0,1 kein bzw. nahezu kein linearer Zusammenhang
±0,1 bis ±0,3 sehr schwacher linearer Zusammenhang
±0,3 bis ±0,5 schwacher bis mittlerer linearer Zusammenhang
±0,5 bis ±0,8 deutlicher bis starker linearer Zusammenhang
±0,8 bis ±1 sehr starker linearer Zusammenhang
Seite: 102
Beispiel
Daten der Nachrichtenanalyse (n = 34)
s̃XY 3,80
rXY = = = 0,07
s̃X · s̃Y 46,9 · 1,12
▶ Wert nahe Null, so dass nicht von einem linearen Zusammenhang

ausgegangen werden kann
▶ Mögliche Ursachen:
▶ Beitragslänge ist kein guter Indikator für den Nachrichtenwert
▶ Nachrichtenwert wird nicht gut durch den Nachrichtenfaktor
(Merkmal mit Ausprägungen 0 bis 4) gelungen
▶ Zusammenhang ist nicht linear
Seite: 103
Drei weitere Beispiele
Jedes Merkmal hat sechs Messwerte und einen Mittelwert von 5.
Beispiel 1 Beispiel 2 Beispiel 3

10 10 10
8 8 8
6 6 6
4 4 4
2 2 2

2 4 6 8 10 2 4 6 8 10 2 4 6 8 10
▶ Beispiel 1: rXY = 0,93

▶ Beispiel 2: rXY = − 0,93
▶ Beispiel 3: rXY = 0
Seite: 104
Lineare Regression
Grundidee
▶ Modellierung der Abhängigkeit zweier Merkmale
▶ Wie wirkt sich ein Merkmal (Regressor) auf ein anderes Merkmal
(Regressand) aus?
▶ Beispielhafte Bezeichnung: Regressor x und Regressand y
▶ Achtung:
Die Regression kann nicht überprüfen, ob x tatsächlich y bedingt!
Annahme
▶ y ist eine lineare Funktion von x, d. h.
y =β·x +α
Unterschied zur Korrelationsanalyse: ein Merkmal wird als abhängig von

dem anderen Merkmal angesehen (Korrelationsanalyse: die Merkmale
werden als gleichwertig angesehen)
Seite: 105
Lineare Regression
Modellgleichung
yi = β · xi + α + εi
Dabei ist:
▶ i = 1, . . . ,n
▶ y1 , . . . ,yn : Beobachtungen von Merkmal y
▶ x1 , . . . ,xn : Beobachtungen von Merkmal x
▶ ε1 , . . . ,εn : zufälliger Fehler mit Mittelwert 0
Nächster Schritt
Die Parameter α und β sind aus den Daten (x1 , y1 ), . . . ,(xn ,yn ) zu
schätzen.
Seite: 106
Lineare Regression
Modellgleichung
yi = β · xi + α + εi
Idee der Schätzung
▶ minimiere die Fehlerquadrate (yi − (β · xi + α))2 = ε2i
▶ Schätzer
s̃Y
β = rXY ·
s̃X
α = ȳ − β · x̄
Eigenschaften der Regressionsgeraden
▶ Die Gerade geht durch den Punkt (x̄, ȳ ).
▶ Die Summe der Abweichungen ist Null, d. h.:
n
X
(yi − (β · xi + α)) = 0
i=1
Seite: 107
Güte der Modellanpassung – Streuungszerlegung
Wie lässt sich beurteilen, ob α und β ein vernünftiges Modell liefern?
▶ Wenn die Streuung des Regressanden durch die Streuung des
Regressors erklärt werden kann, dann haben wir einen Hinweis für ein
gutes Modell. (hier: ŷi = β · xi + α)
yi − ȳ = (ŷi − ȳ ) + (yi − ŷi )

n
X n
X n
X
(yi − ȳ )2 = (ŷi − ȳ )2 + (yi − ŷi )2
i=1 i=1 i=1
SQT = SQE + SQR

▶ Bestimmtheitsmaß R 2
SQE
R2 = 2
= rXY
SQT
Bestimmtheitsmaß ist quadrierter Korrelationskoeffizient nach Pearson
Seite: 108
Wir führen die Berechnungen exemplarisch mit einem
Seite: 109
Lernziele
Nach dem Studium des Abschnitts zu Zusammenhängen zwischen zwei
metrischen Variablen können Studierende ...
1. ... die Kovarianz und den Korrelationskoeffizienten nach Pearson für
einen gegebenen Datensatz berechnen.
2. ... das Ergebnis der Berechnung eines Korrelationskoeffizienten nach
Pearson interpretieren.
3. ... den Unterschied zwischen dem Korrelationskoeffizienten nach
Pearson und nach Spearman erklären.
4. ... eine Situation angeben, in dem ein Zusammenhang besteht, obwohl
der Korrelationskoeffizient nach Pearson Null ist.
5. ... Unterschiede und Gemeinsamkeiten einer Korrelationsanalyse und
einer Regressionsanalyse erläutern.
6. ... eine lineare Regression durchführen und die Güte der linearen
Regression mit dem Bestimmtheitsmaß R 2 beurteilen.
Seite: 110
Inhaltsverzeichnis
1. Einführung
Statistik 6. Grundlagen der induktiven Statistik 6.0. Inhaltsverzeichnis
Seite: 111
Motivation
Ausgangspunkt
Stichprobe, und damit nur Teil der Grundgesamtheit vorhanden, da ...
▶ Grundgesamtheit zu umfangreich oder ändert sich laufend
▶ Objekte in der Stichprobe durch Messung zerstört werden
Problem
Fehlende Elemente der Grundgesamtheit
▶ Aussagen lassen sich nicht auf Grundgesamtheit übertragen
▶ Es entstehen Fehler/Irrtümer
Ziel
Problem lösen
▶ Übertragung der Aussagen auf die Grundgesamtheit
▶ Irrtumswahrscheinlichkeit abschätzen
Statistik 6. Grundlagen der induktiven Statistik 6.1. Ziel und Vorgehensweise
Seite: 112
Schätzen und Testen
Aufgaben der Inferenzstatistik

Die wesentlichen Aufgaben der Inferenzstatistik sind Schätzen und Testen.
▶ Schätzen
Zum Beispiel: Ist der aus der Stichprobe bestimmte Mittelwert ein
guter Wert für den wahren, aber unbekannten Mittelwert der
Grundgesamtheit?
▶ Testen
Zum Beispiel: Können wir den Kontingenzkoeffizient oder den
Korrelationskoeffizient, den wir in der Stichprobe gemessen haben, auf
die Grundgesamtheit übertragen?
In diesem Kapitel geht es um die Voraussetzungen, um Inferenzstatistik
durchzuführen. Konkrete Test-Verfahren lernen wir erst in den nächsten
Kapiteln kennen.
Statistik 6. Grundlagen der induktiven Statistik 6.1. Ziel und Vorgehensweise
Seite: 113
Wichtige Begriffe
▶ Ein Zufallsvorgang ist ein Vorgang, bei dem am Ende mehrere
Ergebnisse vorliegen können und bei dem vor der Durchführung nicht
klar ist, welches Ergebnis eintreten wird.
▶ Bei einem Zufallsvorgang können mehrere verschiedene Ergebnisse
eintreten. Den Bereich der möglichen Ergebnisse nennt man
Ergebnisraum oder Ereignisraum.
▶ Die Ergebnisse von Zufallsvorgängen bezeichnen wir auch als
Zufallsvariablen.
▶ Diskrete Zufallsvariablen: Der Ereignisraum besteht aus einer
endlichen bzw. abzählbaren Menge an möglichen Ereignissen.
▶ Stetige Zufallsvariablen: Der Ereignisraum besteht aus einer unendlich
großen Menge an möglichen Ereignissen.
Statistik 6. Grundlagen der induktiven Statistik 6.2. Zufall und Zufallsverteilung
Seite: 114
Wahrscheinlichkeitsfunktion
Wahrscheinlichkeitsfunktion
Die Wahrscheinlichkeitsfunktion f einer diskreten Zufallsvariable beschreibt
die Wahrscheinlichkeit, mit der die einzelnen Ergebnisse eines
Zufallsexperiments auftreten.
▶ Bezeichnung:
▶ (Diskrete) Zufallsvariablen X , Y , ...
▶ Einzelne Ereignisse: x1 , x2 , . . . bzw. y1 , y2 , . . .
▶ Die Wahrscheinlichkeit (probability) wird mit P bzw. p abgekürzt.
▶ Zuordnung von xi zu pi , oder formal: f (xi ) = P(X = xi ) = pi
▶ Vergleiche Analogie zur relativen Häufigkeitsverteilung eines Merkmals
bei der Datenanalyse.
Seite: 115
Wahrscheinlichkeitsfunktion – Beispiel
Zufallsvariable X : Anzahl Männer bei vier zufällig ausgewählten Personen
▶ Annahme:
Männer und Frauen werden gleichwahrscheinlich ausgewählt
▶ Einzelne Ereignisse:
FFFF → 0, FFFM → 1, FFMF → 1, ..., MMMM → 4
▶ Wahrscheinlichkeitsfunktion:
1
kein Mann: f (0) = P(X = 0) = 16
4 1
ein Mann: f (1) = P(X = 1) = 16 = 4
6 3
zwei Männer: f (2) = P(X = 2) = 16 = 8
4 1
drei Männer: f (3) = P(X = 3) = 16 = 4
1
vier Männer: f (4) = P(X = 4) = 16
Seite: 116
Verteilungsfunktion
Verteilungsfunktion
Der Wert der Verteilungsfunktion F an der Stelle x einer diskreten
Zufallsvariable ist definiert als Summe aller Wahrscheinlichkeiten der
Ereignisse, deren Ereigniswert kleiner oder gleich dem Wert x ist.
X
F (x) = P(X ≤ x) = P(X = xi )
xi ≤x
▶ Die Summe aller pi ist gleich 1.

▶ Vergleiche Analogie zur kumulierten relativen Häufigkeitsverteilung
eines Merkmals bei der Datenanalyse.
Seite: 117
Verteilungsfunktion – Beispiel
Zufallsvariable X : Anzahl Männer bei vier zufällig ausgewählten Personen
▶ Annahme:
Männer und Frauen werden gleichwahrscheinlich ausgewählt
▶ Einzelne Ereignisse:
FFFF → 0, FFFM → 1, FFMF → 1, ..., MMMM → 4
▶ Verteilungsfunktion:
1
kein Mann: F (0) = P(X ≤ 0) = 16
5
ein Mann: F (1) = P(X ≤ 1) = 16
11
zwei Männer: F (2) = P(X ≤ 2) = 16
15
drei Männer: F (3) = P(X ≤ 3) = 16
16
vier Männer: F (4) = P(X ≤ 4) = 16 =1
Seite: 118
Wahrscheinlichkeitsdichte
Für eine stetige Zufallsvariable ist eine Wahrscheinlichkeitsfunktion nicht
sinnvoll, da die Wahrscheinlichkeit eines einzelnen Ereignisses 0 ist.
Wahrscheinlichkeitsdichte
Die Wahrscheinlichkeitsdichte f einer stetigen Zufallsvariable ermöglicht
die Bestimmung der Wahrscheinlichkeit, mit der das Ergebnis eines
Zufallsexperiments in einem Bereich [a; b] liegt.
▶ X sei eine (stetige) Zufallsvariable

▶ Die Wahrscheinlichkeit (probability) wird mit P abgekürzt.
▶ Notation: Z b
P(a ≤ X ≤ b) = f (x) dx
a
▶ Vergleiche Analogie zu einem Histogramm eines stetigen Merkmals.
Seite: 119
Verteilungsfunktion
Verteilungsfunktion
Der Wert der Verteilungsfunktion F an der Stelle x einer stetigen
Zufallsvariable ist definiert als Fläche unterhalb der
Wahrscheinlichkeitsdichte von allen Werten, deren Ereigniswert kleiner
oder gleich dem Wert x ist.
Z x
F (x) = P(X ≤ x) = f (u) du
−∞
Bestimmung von Wahrscheinlichkeiten mit der Verteilungsfunktion:
P(a ≤ X ≤ b) = F (b) − F (a)
Seite: 120
Dichte und Verteilung – Beispiel
Zufallsvariable X : Verspätung Bus an der Haltestelle Ubierring
▶ Annahme:
Die Verspätung ist gleichverteilt“. Alle 10 Minuten fährt ein Bus.
”
Der Folgebus ist pünktlich.
▶ Mögliche Ereignisse:
Werte im Intervall 0 Minuten (pünktlich) bis 10 Minuten (Folgebus)
▶ Wahrscheinlichkeitsdichte:
1
f (x) = für x ∈ [0; 10] und sonst f (x) = 0
10
▶ Verteilungsfunktion:
x
F (x) = für x ∈ [0; 10]
10
F (x) = 0 für x < 0 und F (x) = 1 für x > 10
Seite: 121
Dichte und Verteilung – Beispiel – Fortsetzung
Zufallsvariable X : Verspätung Bus an der Haltestelle Ubierring
▶ Annahme:
Die Verspätung ist gleichverteilt“. Alle 10 Minuten fährt ein Bus.
”
Der Folgebus ist pünktlich.
▶ Mögliche Ereignisse:
Werte im Intervall 0 Minuten (pünktlich) bis 10 Minuten (Folgebus)
▶ Für die Wahrscheinlichkeit einer Verspätung kleiner 5 Minuten gilt:
Z 5
5 0 1
P(0 ≤ X ≤ 5) = f (x) dx = F (5) − F (0) = − = = 50 %
0 10 10 2
▶ Für die Wahrscheinlichkeit einer Verspätung von mindestens 2
Minuten und höchstens 4 Minuten gilt:
Z 4
4 2 2
P(2 ≤ X ≤ 4) = f (x) dx = F (4) − F (2) = − = = 20 %
2 10 10 10
Seite: 122
Normalverteilung
Die Normalverteilung ist eine besondere Verteilung von Zufallsvariablen.
Beispiele von Zufallsvorgängen mit Normalverteilung

andere Formulierung: ... mit normalverteilten Ergebnissen...“
”
▶ Abweichungen von einer Norm
▶ Zusammenwirken verschiedener Fehlerquellen auf eine Messgröße
▶ Zusammensetzung von zufälligen Stichproben
▶ Zusammenfassung von Ergebnissen einzelner Zufallsvorgänge
Normalverteilte Zufallsvariablen sind stetige Zufallsvariablen.
Statistik 6. Grundlagen der induktiven Statistik 6.3. Normalverteilung
Seite: 123
Normalverteilung – Dichte- und Verteilungsfunktion
Die Normalverteilung ist eine besondere Verteilung von Zufallsvariablen.
Sie besitzt zwei Parameter, nämlich µ und σ 2 > 0, und ist definiert über
ihre Wahrscheinlichkeitsdichte f .
(x − µ)2

1
f (x; µ, σ) = √ exp −
σ · 2π 2 · σ2
Z x
(u − µ)2

1
F (x; µ, σ) = √ exp − du
σ · 2π −∞ 2 · σ2
Die Verteilungsfunktion lässt sich nicht durch eine analytisch geschlossene
Formel darstellen (sondern nur durch dieses Integral).
Die Funktionswerte lassen sich mit jeder Statistik-Software berechnen.

Wir schreiben:
X ∼ N (µ; σ 2 )
Seite: 124
Eigenschaften der Normalverteilung
Wahrscheinlichkeitsdichte hat ...
▶ ... glockenförmigen Verlauf
▶ ... verläuft symmetrisch um den Wert µ
▶ ... Wertebereich von −∞ bis ∞
3 Beispiele: µ = 0, σ 2 = 4 bzw. µ = 2, σ 2 = 2 bzw. µ = −2, σ 2 = 2
0,3
Verteilungsfunktion F (x) = P(X ≤ x)

1
0,8
Dichtefunktion f (x)
0,2
0,6
0,4
0,1
0,2
0 0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Werte x Werte x
Seite: 125
Standardnormalverteilung
▶ Wenn µ = 0 und σ 2 = 1 ist, dann heißt die Normalverteilung
Standardnormalverteilung; außerdem ist dann f = ϕ und F = Φ.
▶ Eine normalverteilte Zufallsvariable X mit Parametern µ und σ 2 wird
zu einer standardnormalverteilten Zufallsvariable Z durch:
X −µ
Z= (z-Transformation)
σ
0,4 1
Verteilungsfunktion Φ(x)
0,8
Dichtefunktion ϕ(x)
0,3
0,6
0,2
0,4
0,1
0,2
0 0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6
Werte x Werte x
Seite: 126
Eigenschaften der Normalverteilung
Die Parameter haben folgende Bedeutung:
▶ µ ist der Erwartungswert der Verteilung.
▶ σ ist die Standardabweichung der Verteilung.
Die Symmetrie bedeutet:
F (µ − x) = 1 − F (µ + x)
Wenn die Werte links von µ bekannt sind, dann können damit die Werte
rechts von µ berechnet werden.
Entsprechend gilt für die Standardnormalverteilung:
Φ(−x) = 1 − Φ(x)
Seite: 127
Beispiel
Die Anlage einer Brauerei füllt laut Hersteller normalverteilt ab mit
µ = 500 ml und σ 2 = 16 ml2 .
Wie viel Prozent der Flaschen beinhalten 490 ml bis 510 ml?
Wir schreiben:
X ∼ N (500; 16)
Wir suchen: P(490 ≤ X ≤ 510)
Lösung: F (510; 500, 4) − F (490; 500, 4) = 99,4 % − 0,6 % = 98,8 %
Alternative Lösung:

510 − 500 490 − 500
Φ −Φ = Φ (2,5) − Φ (−2,5)
4 4
= Φ (2,5) − (1 − Φ (2,5)) = 98,8 %
Seite: 128
Seite: 129
Lernziele
Nach dem Studium des Abschnitts zu Grundlagen der induktiven Statistik
können Studierende ...
1. die wesentlichen Aufgaben der Inferenzstatistik anhand von Beispielen
erläutern.
2. Beispiele für Zufallsvorgänge nennen und den Ereignisraum sowie
zwischen stetigen und diskreten Zufallsvariablen unterscheiden.
3. die Begriffe Wahrscheinlichkeitsfunktion, Wahrscheinlichkeitsdichte
sowie Verteilungsfunktion erklären und Beispiele angeben.
4. mit einer Verteilungsfunktion die Wahrscheinlichkeit von Ereignissen
kalkulieren.
5. die Eigenschaften der Normalverteilung aufzählen sowie die Dichte-
und die Verteilungsfunktion skizzieren.
Seite: 130
Inhaltsverzeichnis
1. Einführung
Statistik 7. Hypothesentests 7.0. Inhaltsverzeichnis
Seite: 131
Motivation
Ausgangspunkt: Hypothese über einen Unterschied oder Zusammenhang
Grundsätzliche Frage
Wie sicher können wir sein, dass das in der Stichprobe festgestellte
Ergebnis nicht durch Zufall entstanden ist?
▶ Annahme: Ergebnis ist zufällig (Gegenteil ursprüngliche Hypothese)

▶ Wenn der Test diese Annahme als unwahrscheinlich ausweist, dann
wird die Annahme verworfen.
▶ Wenn die Annahme verworfen wird, dann gehen wir von einem
systematischen Unterschied oder Zusammenhang aus, der auch in der
Grundgesamtheit existiert (ursprüngliche Hypothese).
Statistik 7. Hypothesentests 7.1. Grundprinzip
Seite: 132
Falsifikation
Nullhypothese und Alternativhypothese

Die Nullhypothese postuliert die Situation, dass alle Unterschiede oder
Zusammenhänge rein zufällig sind. Die Alternativhypothese beschreibt die
Situation eines systematischen Zusammenhangs bzw. eines systematischen
Unterschieds.
▶ Ein statistischer Test geht zunächst von der Unschuld“ (z. B. kein
”
Zusammenhang) der Stichprobe aus. → Nullhypothese
▶ Er versucht dann, die Schuld“ (z. B. Zusammenhang liegt vor) zu
”
zeigen. → Alternativhypothese
▶ Wenn Schuld“ gezeigt, dann nennen wir das Ergebnis signifikant.
”
Wichtig: Eine Verifikation der Alternativhypothese ist nicht möglich.
Die Beurteilung wird über eine Falsifikation der Alternative erreicht.
Seite: 133
Fehlerarten
Die folgende Vierfelder-Matrix zeigt alle möglichen Situationen.
Realität
kein Unterschied Unterschied
Unterschied Fehler 1. Art kein Fehler
Test
kein Unterschied kein Fehler Fehler 2. Art
Seite: 134
Vorgehensweise – Beispiel
Zusammenhang zwischen Satellitenempfang und Programmzufriedenheit
−→ Nullhypothese: Es gibt keinen Zusammenhang.
1. Entwicklung Teststatistik
−→ χ2
2. Berechnung der Teststatistik für Stichprobe
−→ χ2 = 6,97
3. Festlegung einer Irrtumswahrscheinlichkeit
−→ 5 %
4. Bestimmung Ablehnungsbereich
−→ (5,99; ∞)
5. Vergleich Teststatistik mit Ablehnungsbereich
−→ Nullhypothese ablehnen, da 6,97 ∈ / [0; 5,99]
Interpretation: Zusammenhang kann auf Grundgesamtheit mit einer
Irrtumswahrscheinlichkeit von 5 % übertragen werden
Es gibt einen Zusammenhang.
Seite: 135
Annahmen
Annahmen für folgende Abschnitte:
▶ Stichprobe zufällig ausgewählt
▶ Stichprobe hinreichend groß ist (i. d. R. n ≥ 30):
Kennwerte (z. B. der Mittelwert) sind normalverteilte Zufallsvariablen
Mit diesen Annahmen gilt:
Wir können µ und σ der Normalverteilung hinreichend gut bestimmen.
Schätzer für den Mittelwert:

1
µ := x̄ = · (x1 + . . . + xn )
n
Schätzer für die Varianz:
n 1
σ 2 := s 2 = · s̃ 2 = · ((x1 − x̄)2 + . . . + (xn − x̄)2 )
n−1 n−1
Seite: 136
Motivation – t-Test für den Erwartungswert
Hypothese:
Wir testen, ob ein in einer Stichprobe festgestellter Mittelwert x̄ dem
theoretisch ermittelten bzw. festgelegten Wert µ0 entspricht.
µ0 = x̄ (Nullhypothese; kein Unterschied)
Anmerkungen:
▶ Werte unterscheiden sich schon allein deshalb, weil eine Stichprobe in
der Regel immer nur einen Ausschnitt zeigt
▶ Test fällt die Entscheidung, ob der Unterschied auf eine zufällige
Schwankung zurückzuführen ist (oder einen tatsächlichen
Unterschied, Alternativhypothese, ausdrückt)
Wenn die Stichprobe n ≥ 30 ist, dann kann die Situation unter der
Nullhypothese mit Hilfe der Normalverteilung spezifiziert werden.
Achtung: Eigentlich t-Verteilung (vgl. Testname); wir orientieren uns hier am Buch.
Statistik 7. Hypothesentests 7.2. t-Test für den Erwartungswert
Seite: 137
Beispiel
Hypothese:
Wir testen, ob die durchschnittliche Dauer der Tagesschau in den letzten
40 Tagen x̄ = 975 Sekunden (ein in einer Stichprobe festgestellter
Mittelwert) dem in der Programmzeitschrift angegebenen Wert von
µ0 = 900 Sekunden (dem theoretisch ermittelten bzw. festgelegten Wert)
entspricht.
µ0 = x̄ (Nullhypothese; kein Unterschied)
Anmerkungen:
▶ Stichprobe zeigt nur einen Ausschnitt → 40 Sendungen
▶ Test fällt die Entscheidung, ob der Unterschied von 75 Sekunden auf
eine zufällige Schwankung zurückzuführen ist
Da die Stichprobe n = 40 ≥ 30 ist, kann die Situation mit Hilfe der
Normalverteilung spezifiziert werden.
Seite: 138
Entwicklung Teststatistik
Die Teststatistik (konkrete Zahl; daher Dach“) ist:
”
√ θ̂ − µ0
θ̂ := x̄ bzw. transformiert: n·
s
Wenn die Nullhypothese gilt, ist die Verteilung der Teststatistik
(Zufallsvariable) gegeben durch:
s2 √ θ − µ0

θ ∼ N µ0 ; bzw. transformiert: n· ∼ N (0; 1)
n s
Achtung: Eigentlich t-Verteilung (vgl. Testname); wir orientieren uns hier am Buch.
Seite: 139
Visualisierung Teststatistik für Beispiel
Teststatistik bzw. transformierte Teststatistik (n = 40, s = 91,14):
√ θ − 900
θ ∼ N (900; 207,7) bzw. 40 · ∼ N (0; 1)
91,14
Teststatistik Transformierte Teststatistik
0,04 0,5
0,4
0,03
Dichtefunktion
Dichtefunktion
0,3
0,02
0,2
0,01
0,1
0 0
850 900 950 1000 −2 0 2 4 6

Werte x Werte x
Seite: 140
Bestimmung Ablehnungsbereich
Weil die transformierte Teststatistik standardnormalverteilt ist, lässt sich
der Ablehnungsbereich exakt angeben mit:

−∞; −z1− α2 ∪ z1− α2 ; ,∞
wobei z1− α2 der Wert ist, so dass für ein Z ∼ N (0; 1) gilt:
P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α
Ablehnungsbereich symmetrisch (um 0); daher Nullhypothese ablehnen,

wenn:
√ x̄ − µ0
n· > z1− α2
s
α 1% 5% 10 %
Überblick (Auswahl):
z1− α2 2,576 1,960 1,645
Seite: 141
Visualisierung Ablehnungsbereich für Beispiel
Wenn α = 5 % ist, dann gilt für den Ablehnungsbereich (rot):
0,4
0,3
Dichtefunktion
0,2
0,1
−6 −4 −2 0 2 4 6
Werte x
Seite: 142
Beispiel – Gesamtsicht
Nullhypothese: Es gibt keinen Unterschied (µ0 = x̄).
1. Entwicklung
√ Teststatistik
−→ 40 · x̄−900
91,14
2. Berechnung
√ der Teststatistik für Stichprobe
−→ 40 · 975−900
91,14 = 5,205
−→ 5 %
−→ (−∞; −1,960) ∪ (1,960; ∞)
−→ Nullhypothese ablehnen, da 5,205 ∈ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann mit einer Irrtumswahrscheinlichkeit
von 5 % auf Grundgesamtheit übertragen werden.
Die Dauer der Tagesschau weicht signifikant von 15 Minuten ab.
Seite: 143
Motivation – t-Test für Mittelwertunterschiede
hier: unverbundene Gruppen
Hypothese:
Wir testen, ob die Unterschiede zwischen zwei Teilstichproben von der
Stichprobe d := x̄A − x̄B (z. B. Differenz der Gruppenmittelwerte von
Frauen und Männer in der Stichprobe) zufällig sind.
Annahmen:
▶ Stichprobenziehung basiert auf einer Zufallsauswahl
▶ zwischen den Teilstichproben wurde ein Mittelwertunterschied
festgestellt
▶ Umfang der beiden Teilstichproben größer als 30
Statistik 7. Hypothesentests 7.3. t-Test für Mittelwertunterschiede (unverbunden)
Seite: 144
Beispiel
Hypothese:
Wir testen, ob der Unterschied in der durchschnittlichen Dauer der
Haushaltstätigkeit bei Frauen und Männern d = x̄F − x̄M (Unterschiede
zwischen zwei Teilstichproben von der Stichprobe) zufällig sind.
d = 0 =: d0 (Nullhypothese; kein Unterschied)
Anmerkungen:
▶ Stichprobenziehungen (Variante 1 und Variante 2) basieren auf einer
Zufallsauswahl
▶ Umfang der beiden Teilstichproben größer als 30
Da die Stichproben 40 ≥ 30 ist, kann die Situation mit Hilfe der
Seite: 145
Beispiel – Daten
In beiden Varianten jeweils 40 Frauen und 40 Männer:
Variante 1:
Frauen: 12,65 12,84 12,75 3,59 7,65 7,58 10,00 8,57 12,93 11,71 10,28 7,56
14,52 8,99 10,57 11,78 13,65 11,41 13,51 12,92 10,89 8,39 17,25 7,53 12,16
12,01 6,50 16,23 12,79 9,22 7,73 9,94 6,76 11,51 13,79 14,83 17,19 15,56 11,62
11,96
Männer: 7,26 9,54 6,71 4,75 8,03 7,94 11,00 3,68 7,26 7,73 9,12 8,67 7,50 6,50
10,22 8,57 14,01 11,62 3,09 5,31 10,59 5,25 9,11 13,95 8,26 9,41 7,79 2,04 4,07
6,61 10,73 4,27 7,85 6,19 11,10 7,24 11,11 6,60 10,15 10,43
Variante 2:
Frauen: 0,00 9,09 5,13 16,11 37,75 1,03 4,21 22,00 5,26 5,57 14,64 24,67 9,11
21,10 15,75 9,54 19,85 19,80 24,98 23,54 0,00 9,42 8,82 9,07 9,47 0,31 7,43
17,91 5,32 13,72 6,16 10,75 6,51 11,49 5,35 1,79 21,35 18,65 15,80 0,23
Männer: 11,54 6,73 10,03 1,43 5,96 9,61 8,83 4,38 11,86 3,99 7,59 9,54 4,70
10,88 0,00 25,05 9,79 0,00 12,07 10,00 0,00 0,00 7,59 20,10 0,00 2,96 25,44
5,52 8,09 9,43 1,64 13,53 11,60 11,92 12,65 3,17 18,82 0,00 21,05 7,68
Seite: 146
Die Teilstichprobe A habe nA Beobachtungen
bzw. Teilstichprobe B habe nB Beobachtungen.
Die Teststatistik (konkrete Zahl; daher Dach“) ist:
”
θ̂ − d
θ̂ := x̄A − x̄B bzw. transformiert: q 2 02
sA sB
nA + nB

sA2 sB2

θ − d0
θ ∼ N d0 ; + bzw. transformiert: q 2 ∼ N (0; 1)
nA nB sA sB2
nA + nB
Seite: 147
Bestimmung Ablehnungsbereich
Weil die transformierte Teststatistik standardnormalverteilt ist, lässt sich
der Ablehnungsbereich exakt angeben mit:

−∞; −z1− α2 ∪ z1− α2 ; ,∞
wobei z1− α2 der Wert ist, so dass für ein Z ∼ N (0; 1) gilt:
P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α
Ablehnungsbereich symmetrisch (um 0); daher Nullhypothese ablehnen,

wenn:
x̄ − x̄
qA 2 B 2 > z1− α2
sA sB
nA + nB
α 1% 5% 10 %
Überblick (Auswahl):
z1− α2 2,576 1,960 1,645
Seite: 148
Beispiel – Fortsetzung – Variante 1
Nullhypothese: Es gibt keinen Unterschied (x̄F − x̄M = 0).
1. Entwicklung Teststatistik
x̄ − x̄
−→ qF 2 M2
sF sM
nF + nM
2. Berechnung der Teststatistik für Stichprobe −→ 4,90

3. Festlegung einer Irrtumswahrscheinlichkeit −→ 5 %
4. Bestimmung Ablehnungsbereich −→ (−∞; −1,960) ∪ (1,960; ∞)
von 5 % auf die Grundgesamtheit übertragen werden.
Frauen haben eine höhere wöchentliche Hausarbeitszeit
Seite: 149
Beispiel – Fortsetzung – Variante 2
Nullhypothese: Es gibt keinen Unterschied (x̄F − x̄M = 0).
1. Entwicklung Teststatistik (siehe oben)
2. Berechnung der Teststatistik für Stichprobe −→ 1,80
3. Festlegung einer Irrtumswahrscheinlichkeit −→ 5 %
−→ (−∞; −1,960) ∪ (1,960; ∞)
−→ Nullhypothese nicht ablehnen, da
1,80 ∈
/ (−∞; −1,960) ∪ (1,960; ∞)
Interpretation: Der Unterschied kann nicht auf Grundgesamtheit
übertragen werden.
Unterschied zwischen Mittelwerten möglicherweise zufällig
Seite: 150
Anmerkungen
Das Ergebnis des Tests wird von der Effektgröße (Unterschied im
Mittelwert), vom Stichprobenumfang und von der Streuung beeinflusst.
▶ Je größer die Effektgröße (festgestellter Unterschied), desto eher ist er
auf die Grundgesamtheit übertragbar.
▶ Je größer die Stichprobe ist, desto leichter werden auch kleine Effekte
signifikant.
▶ Je kleiner die Streuung in den Gruppen ist, desto eher ist der
Mittelwert auf die Grundgesamtheit übertragbar.
Ist eine der beiden Gruppen vom Umfang kleiner als 30 und kann nicht von
einer Normalverteilung ausgegangen werden, dann besteht noch die
Möglichkeit, auf einen parameterfreien Test auszuweichen.
−→ Wilcoxon-Rangsummen-Test oder U-Test von Mann-Whitney
Seite: 151
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests über Unterschiede
und Zusammenhänge können Studierende ...
1. zwischen Nullhypothese und Alternativhypothese unterscheiden und
die grundsätzliche Vorgehensweise bei Hypothesentests erläutern.
2. den Unterschied zwischen Fehler 1. Art und Fehler 2. Art erklären.
3. einen t-Test für den Erwartungswert durchführen, in dem die
entsprechende Teststatistik für einen Datensatz berechnet wird und
mit den Quantilen der Standardnormalverteilung verglichen wird.
4. einen t-Test für Mittelwertunterschiede berechnen und mit den
Ergebnissen einer Streuungszerlegung vergleichen.
5. verschiedene Testprobleme unterscheiden bzw. identifizieren.
6. das zur Fragestellung passende Testverfahren anwenden.
Seite: 152
Motivation – t-Test für Mittelwertunterschiede
Wir möchten von einem Objekt zwei verschiedene metrische Merkmale
miteinander vergleichen.
Beispiele:
▶ Einstellung einer Person vor und nach dem Lesen eines Artikels
▶ Bekanntheit einer Marke vor und nach einer Werbekampagne
▶ Blutdruck vor und nach der Medikamenten-Einnahme
▶ Unterschied Echtzeitfernsehen und Zeitversetztfernsehen zur
Informationsgewinnung
Weitere Beispiele?
Statistik 7. Hypothesentests 7.4. t-Test für Mittelwertunterschiede (verbunden)
Seite: 153
Motivation – Formulierung der Hypothese
Hypothese:
Wir testen, ob ein in einer Stichprobe festgestellter Mittelwert des
Unterschieds (vor/nach) ū dem theoretisch ermittelten bzw. festgelegten
Wert µ0 entspricht.
µ0 = ū (Nullhypothese; kein Unterschied)
Anmerkungen:
▶ Werte unterscheiden sich schon allein deshalb, weil eine Stichprobe in
der Regel immer nur einen Ausschnitt zeigt
▶ Test fällt die Entscheidung, ob der Unterschied von µ0 und ū auf eine
zufällige Schwankung zurückzuführen ist (oder einen tatsächlichen
Unterschied, Alternativhypothese, ausdrückt)
Wenn die Stichprobe n ≥ 30 ist, dann kann die Situation unter der
Nullhypothese mit Hilfe der Normalverteilung spezifiziert werden.
Seite: 154
Beispiel
Hypothese:
Wir testen, ob der Unterschied zwischen Echtzeitfernsehen und
Zeitversetztfernsehen zur Informationsgewinnung ū = 1,12 (ein in einer
Stichprobe festgestellter Mittelwert des Unterschieds) dem Wert µ0 = 0
(dem theoretisch ermittelten bzw. festgelegten Wert) entspricht.
µ0 = ū (Nullhypothese; kein Unterschied)
Anmerkungen:
▶ Stichprobe zeigt nur einen Ausschnitt → 87 Teilnehmer
▶ Test fällt die Entscheidung, ob der Unterschied von 1,12 auf eine
zufällige Schwankung zurückzuführen ist
Da die Stichprobe n = 87 ≥ 30 ist, kann die Situation mit Hilfe der
Seite: 155
Die Teststatistik (konkrete Zahl) ist:
√ θ̂
θ̂ := ū bzw. transformiert: n·
s
s2 √ θ

θ ∼ N 0; bzw. transformiert: n · ∼ N (0; 1)
n s
Seite: 156
Beispiel – Gesamtsicht
Nullhypothese: Es gibt keinen Unterschied (0 = µ0 = ū).
1. Entwicklung
√ Teststatistik
ū
−→ 87 · 1,6523
2. Berechnung
√ der Teststatistik für Stichprobe
1,12
−→ 87 · 1,6523 = 6,323
−→ 5 %
−→ (−∞; −1,960) ∪ (1,960; ∞)
von 5 % auf Grundgesamtheit übertragen werden.
Es gibt einen Unterschied zwischen Echtzeitfernsehen und
Zeitversetztfernsehen zur Informationsgewinnung.
Seite: 157
Motivation – Einfache Varianzanalyse
Ziel
Die Varianzanalyse zielt darauf ab, zu untersuchen, ob durch ein
Gruppierungsmerkmal (z. B. Frau/Mann oder klein/mittel/groß) ein
entscheidender Anteil der in einem metrischen Merkmal insgesamt
vorhandenen Streuung erklärt werden kann.
Beispiele:
▶ Welche Schwankungen im Einkommen einer Person können durch die
jeweilige Steuerklasse erklärt werden?
▶ Inwiefern kann die Anzahl der in verschiedenen Genres einer
Fernsehgattung durchschnittlich gezeigten Kinder durch die
verschiedenen Genres (Kinderserien, Familienserien, Krimiserien)
erklärt werden?
Weitere Beispiele?
Statistik 7. Hypothesentests 7.5. ANOVA
Seite: 158
Einfache Varianzanalyse
Idee
▶ Teststatistik: Verhältnis zwischen erklärter Streuung und Reststreuung
▶ Verteilung der Teststatistik (bei Gültigkeit der Nullhypothese):
F -Verteilung
Annahmen
▶ Das metrische Merkmal ist in den einzelnen Gruppen normalverteilt.
▶ Die Varianz in den einzelnen Gruppen ist gleich.
▶ Die Gruppen sind voneinander unabhängig.
Nullhypothese
▶ kein Gruppen-Mittelwert hat einen Abstand vom Gesamt-Mittelwert
▶ d. h. die Gruppen-Mittelwerte entsprechen dem Gesamt-Mittelwert
Seite: 159
Notation
▶ k Gruppen mit jeweils ni Werten (i = 1, . . . ,k)
▶ insgesamt: n Werte (n = n1 + . . . + nk )
▶ x̄ Gesamt-Mittelwert; x̄i Gruppen-Mittelwert in Gruppe i
Pk 2
i=1ni · (x̄i − x̄) /(k − 1)
θ̂ := Pk Pni 2
i=1 j=1 (xij − x̄i ) /(n − k)

θ ∼ F (k − 1, n − k)
Hiermit kann der Ablehnungsbereich konstruiert werden.
Seite: 160
Beispiel – Daten (siehe oben)
In beiden Varianten jeweils 40 Frauen und 40 Männer:
Variante 1:
Frauen: 12,65 12,84 12,75 3,59 7,65 7,58 10,00 8,57 12,93 11,71 10,28 7,56
14,52 8,99 10,57 11,78 13,65 11,41 13,51 12,92 10,89 8,39 17,25 7,53 12,16
12,01 6,50 16,23 12,79 9,22 7,73 9,94 6,76 11,51 13,79 14,83 17,19 15,56 11,62
11,96
Männer: 7,26 9,54 6,71 4,75 8,03 7,94 11,00 3,68 7,26 7,73 9,12 8,67 7,50 6,50
10,22 8,57 14,01 11,62 3,09 5,31 10,59 5,25 9,11 13,95 8,26 9,41 7,79 2,04 4,07
6,61 10,73 4,27 7,85 6,19 11,10 7,24 11,11 6,60 10,15 10,43
Variante 2:
Frauen: 0,00 9,09 5,13 16,11 37,75 1,03 4,21 22,00 5,26 5,57 14,64 24,67 9,11
21,10 15,75 9,54 19,85 19,80 24,98 23,54 0,00 9,42 8,82 9,07 9,47 0,31 7,43
17,91 5,32 13,72 6,16 10,75 6,51 11,49 5,35 1,79 21,35 18,65 15,80 0,23
Männer: 11,54 6,73 10,03 1,43 5,96 9,61 8,83 4,38 11,86 3,99 7,59 9,54 4,70
10,88 0,00 25,05 9,79 0,00 12,07 10,00 0,00 0,00 7,59 20,10 0,00 2,96 25,44
5,52 8,09 9,43 1,64 13,53 11,60 11,92 12,65 3,17 18,82 0,00 21,05 7,68
Seite: 161
Beispiel – Streuungszerlegung (Wiederholung)
Die beiden Varianten unterscheiden sich bezüglich ihrer
Streuungszerlegung:
Variante 1: Variante 2:
2
Geschlecht n x̄ s̃ Geschlecht n x̄ s̃ 2
weiblich 40 11,23 9,25 weiblich 40 11,72 71,55
männlich 40 8,03 7,41 männlich 40 8,63 43,34
insgesamt 80 9,63 10,89 insgesamt 80 10,17 59,83
24 % erklärt durch Gruppierung 4 % erklärt durch Gruppierung
Seite: 162
Teststatistik im Beispiel
Für beide Varianten gilt:
▶ k = 2 Gruppen mit jeweils ni = 40 Werten (i = 1,2)
▶ insgesamt: n = 80 Werte (n = n1 + n2 )
▶ x̄ = 9,63 Gesamt-Mittelwert
▶ Gruppen-Mittelwerte: siehe oben
P2 2
ni · (x̄i − x̄) /(2 − 1)
θ̂V1 = P2 i=1
P40 2 = 24,00 bzw. θ̂V2 = 3,24
i=1 j=1 (xij − x̄i ) /(80 − 2)

θ ∼ F (2 − 1; 80 − 2) = F (1; 78)
Seite: 163
Gesamtsicht für Beispiel
Weil die Teststatistik F -verteilt ist, lässt sich der Ablehnungsbereich exakt
angeben. z1−α bezeichne den Wert, so dass für ein Z ∼ F (1; 78) gilt:
P(Z ≥ z1−α ) = α
Für α = 5 % gilt:
z95 % = 3,963
Variante 1: Nullhypothese ablehnen, da: 24,00 > 3,963
Schlussfolgerung: Das Geschlecht hat einen signifikanten Einfluss auf die
durchschnittliche wöchentliche Haushaltstätigkeit.
Variante 2: Nullhypothese nicht ablehnen, da: 3,24 < 3,963

Schlussfolgerung: Der Einfluss des Geschlechts auf die durchschnittliche
wöchentliche Haushaltstätigkeit ist nicht signifikant.
Seite: 164
Visualisierung – Dichte der F -Verteilung
0,8 Dichtefunktion von Z ∼ F (1; 78)
0,6
0,4
0,2
0
0 1 2 3 4 5 6
Seite: 165
Beispiel – Sachverhalt
Bei einem Lesetest an einem Kölner Gymnasium wurde die Lesekompetenz
der 1. Fremdsprache Englisch untersucht. Dazu mussten 200 Schüler:innen
einen englischsprachigen Text lesen. Im Anschluss wurden die
Schüler:innen zu dem Text befragt. Dabei konnten sie einen Testscore
erzielen. Die folgende Tabelle zeigt in Abhängigkeit der Stufe (Unterstufe,
Mittelstufe und Oberstufe) die Anzahl der Schüler sowie den Mittelwert
und die Varianz des Testscores.
Anzahl Mittelwert Testscore x̄ Varianz Testscore s̃ 2
Unterstufe 55 51 69
Mittelstufe 79 61 98
Oberstufe 66 71 96
Gesamt 200 62 150
Hinweis: Die Daten sind fiktiv und gerundet.
Seite: 166
Beispiel – Aufgaben
a) Bestimmen Sie die Streuungszerlegung und beantworten Sie mit dem
Ergebnis Ihrer Berechnung die folgende Frage: Wieviel Prozent der
Gesamtvarianz des Testscores wird durch die Einteilung in die drei
Gruppen (Unterstufe, Mittelstufe und Oberstufe) erklärt?
b) Wie lautet die Nullhypothese bei der ANOVA im vorliegenden Fall?
c) Berechnen Sie den Wert der Teststatistik der ANOVA.
d) Wie lautet der Name der Verteilung der Teststatistik (auch: konkrete
Angabe der Anzahl der Freiheitsgrade) im vorliegenden Fall?
e) Mit welchem Befehl kann in Microsoft Excel der kritische Wert bzw.
der p-Wert ermittelt werden?
f) Wie interpretieren Sie das Ergebnis?
Seite: 167
Seite: 168
ANOVA – Herausforderungen
▶ Sind die Voraussetzungen erfüllt?
Varianzhomogenität, Normalverteilung, Unabhängigkeit
▶ Wie geht es nach der ANOVA weiter?
Testergebnis global
Unterschiede zwischen einzelnen Gruppen signifikant?
Seite: 169
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests über Unterschiede
und Zusammenhänge (auch ANOVA) können Studierende ...
1. einen t-Test für Mittelwertunterschiede bei verbundenen Gruppen
durchführen.
2. eine ANOVA durchführen und die Ergebnisse der ANOVA
interpretieren.
3. verschiedene Testprobleme unterscheiden bzw. identifizieren.
4. das zur Fragestellung passende Testverfahren anwenden.
Seite: 170
Inhaltsverzeichnis
1. Einführung
Statistik 8. Tests auf signifikante Zusammenhänge 8.0. Inhaltsverzeichnis
Seite: 171
Motivation
Motivation
Bei Hypothesen über Zusammenhänge fragen wir, ob wir die in der
deskriptiven Analyse festgestellten Zusammenhänge in der Stichprobe auf
die Grundgesamtheit übertragen können.
Maßzahlen für den Zusammenhang

▶ Kapitel 3: χ2
▶ Kapitel 5: Korrelationskoeffizient
Unterschied zwischen χ2 und Korrelationskoeffizient?
Statistik 8. Tests auf signifikante Zusammenhänge 8.1. χ2 -Unabhängigkeitstest

Seite: 172
Beispiel
Zusammenhang zwischen Programmzufriedenheit und Satellitenempfang
weniger zufrieden
sehr zufrieden
Zufriedenheit
unzufrieden
Satellitenempfang b1 b2 b3 Gesamt
nicht vorhanden a1 9 51 28 88
vorhanden a2 3 11 19 33
Gesamt 12 62 47 121

Seite: 173
Definition χ2 -Wert – Wiederholung
Gegeben sei eine gemeinsame Verteilung hij . Definition χ2 -Wert:
2
hi• ·h•j
k X
X m hij − n
χ2 = hi• ·h•j
i=1 j=1 n
Berechnung des χ2 -Wertes im Beispiel:
tats. Häufigkeiten erw. Häufigkeiten quadr. u. norm. Diff.
b1 b2 b3 b1 b2 b3 b1 b2 b3
a1 9 51 28 a1 8,7 45,1 34,2 a1 0,01 0,77 1,12
a2 3 11 19 a2 3,3 16,9 12,8 a2 0,02 2,07 2,98
χ2 = 0,01 + 0,77 + 1,12 + 0,02 + 2,07 + 2,98 = 6,97

K = 0,23 K ∗ = 0,33
Seite: 174
Nullhypothese und Teststatistik
Nullhypothese:
▶ Es gibt keine Abhängigkeit zwischen zwei nominal (bzw. ordinal)
skalierten Merkmalen.
Teststatistik:
θ = χ2
Wenn die Nullhypothese gilt, dann ist die Teststatistik χ2 verteilt mit
(m − 1) · (k − 1) Freiheitsgraden:
θ ∼ χ2 ((m − 1) · (k − 1))
Voraussetzungen
▶ Die erwartete Häufigkeit ist in mindestens 80 % der Fälle größer als 5.
▶ Keine der erwarteten Häufigkeiten ist Null.

Seite: 175
Ablehnungsbereich und Testentscheidung
Der Ablehnungsbereich für die Nullhypothese ergibt sich somit zu:
(z1−α ; ∞)
wobei für eine χ2 -verteilte Zufallsvariable Z mit (m − 1) · (k − 1)

Freiheitsgraden und für z1−α gilt:
P(Z ≤ z1−α ) = 1 − α
Die Nullhypothese wird also abgelehnt, wenn gilt:
χ2 > z1−α
Der Fehler 1. Art beträgt dann maximal α.

Seite: 176
Die Nullhypothese lautet:
▶ Es gibt keinen Zusammenhang zwischen Programmzufriedenheit und
Satellitenempfang.
Die Teststatistik beträgt:
χ2 = 6,97
Der Ablehnungsbereich für die Nullhypothese für α = 0,05 ist:
(5,9912; ∞),
wobei für eine χ2 -verteilte Zufallsvariable Z mit 2 Freiheitsgraden und für

z95 % = 5,9912 gilt:
P(Z ≤ 5,9912) = 95 %
Die Nullhypothese wird also abgelehnt, da 6,97 > 5,9912.
Wir verwerfen die Nullhypothese und gehen von einem signifikanten
Zusammenhang zw. Programmzufriedenheit und Satellitenempfang aus.

Seite: 177
Dichte der χ2 -Verteilung
0,5
0,4
1 Freiheitsgrad
2 Freiheitsgrade
0,3 4 Freiheitsgrade
0,2
0,1
0
0 2 4 6 8 10 12 14

Seite: 178
Korrelationskoeffizient – Wiederholung
Definition
Pn
(xi − x̄) · (yi − ȳ ) s̃XY
rXY = qP i=1 =
n 2
P n 2 s̃X · s̃Y
i=1 (xi − x̄) · i=1 (yi − ȳ )
Korrelationskoeffizient nach Pearson.

▶ Werte liegen zwischen −1 und +1
▶ Werte −1 und 1: exakter linearer Zusammenhang
▶ Wert 0: kein linearer Zusammenhang (lineare Unabhängigkeit)
Statistik 8. Tests auf signifikante Zusammenhänge 8.2. Signifikante Korrelation
Seite: 179
Test auf signifikante Korrelation
Den unbekannten Zusammenhang zwischen den Merkmalen X und Y
bezeichnen wir mit ρXY .
Nullhypothese
Die Merkmale korrelieren nicht miteinander.
ρXY = 0
Die Alternativhypothese lautet:
ρXY ̸= 0
Seite: 180
Beispiel
Bei einer Stichprobe vom Umfang n = 45 haben wir einen positiven
Korrelationskoeffizient gemessen:
rXY = 0,35.
Können wir die Korrelation rXY mit einer Irrtumswahrscheinlichkeit von

maximal α = 0,05 auf die Korrelation ρXY der Grundgesamtheit
übertragen?

ρXY = 0
Seite: 181
Nullhypothese und Teststatistik
Nullhypothese:
▶ Es gibt keine Abhängigkeit zwischen zwei metrischen Merkmalen.
Teststatistik: √
ρXY · n − 2
θ= p
1 − ρ2XY
Wenn die Nullhypothese gilt, dann ist die Teststatistik
standardnormalverteilt:
θ ∼ N (0,1)
Voraussetzungen
▶ Für den Stichprobenumfang n gilt: n > 25.
▶ Achtung: eigentlich t-Verteilung
Seite: 182
Ablehnungsbereich und Testentscheidung
Der Ablehnungsbereich für die Nullhypothese ergibt sich somit zu:
(−∞; −z1− α2 ) ∪ (z1− α2 ; ∞)
wobei für eine standardnormalverteilte Zufallsvariable Z und für z1− α2 gilt:
P(−z1− α2 ≤ Z ≤ z1− α2 ) = 1 − α
Die Nullhypothese wird also abgelehnt, wenn gilt:

√
rXY · n − 2
p
2
> z1− α2
1 − rXY
Der Fehler 1. Art beträgt dann maximal α.
Seite: 183
▶ Es gibt keine Abhängigkeit.
Der Wert der Teststatistik beträgt:
√ √
rXY · n − 2 0,35 · 43
p
2
=p = 2,450
1 − rXY 1 − 0,352
Der Ablehnungsbereich für die Nullhypothese für α = 0,05 ist:
(−∞; −1,960) ∪ (1,960; ∞).
Die Nullhypothese wird also abgelehnt, da 2,450 > 1,960.

Wir verwerfen die Nullhypothese und gehen von einer signifikanten
Korrelation aus.
Seite: 184
Weiteres Beispiel
Welche Korrelation wird bei 51 Studienteilnehmern als signifikant zum
Niveau α = 5 % angesehen?
√
rXY · 49
p
2
≥ 1,960
1 − rXY
⇔ rXY ≥ 0,27
bzw.
θ̂ ≤ −1,960 ⇔ rXY ≤ −0,27
Ab eine Korrelation von 0,27 (bzw. −0,27) wird bei 51 Studienteilnehmern
von einer signifikanten Korrelation (zum Niveau 5 %) gesprochen.
Seite: 185
Übungsaufgabe
Nach welchen Gesundheitsthemen (Fitness oder Wellness) suchen wir im
Internet?
Das Ergebnis eines Fragebogens zur Gesundheitskommunikation ergibt
folgende absolute Häufigkeitsverteilung.
Wellness
b1 b2 b3
a1 47 11 0
Fitness
a2 24 21 5
a3 12 10 14
Gibt es einen Zusammenhang? (Signifikanzniveau: 5 %)
Seite: 186
Übungsaufgabe – Lösung
tats. Häufigkeiten erw. Häufigkeiten quadr. u. norm. Diff.
b1 b2 b3 b1 b2 b3 b1 b2 b3
a1 47 11 0 a1 33,43 16,92 7,65 a1 5,51 2,07 7,65
a2 24 21 5 a2 28,82 14,58 6,60 a2 0,81 2,82 0,39
a3 12 10 14 a3 20,75 10,50 4,75 a3 3,69 0,02 18,01
χ2 = 40,97
K = 0,47 K ∗ = 0,58
Es ist (Freiheitsgrade: 4):
40,97 > 9,49
Daher wird die Nullhypothese zum Niveau 5 % abgelehnt.
Seite: 187
Lernziele
Nach dem Studium des Abschnitts zu Hypothesentests auf
Zusammenhänge können Studierende ...
1. die Voraussetzungen für die Anwendbarkeit eines
χ2 -Unabhängigkeitstests nennen.
2. die Anzahl der Freiheitsgrade für die χ2 -Verteilung bei einem
χ2 -Unabhängigkeitstest bestimmen.
3. einen χ2 -Unabhängigkeitstest durchführen.
4. einen Test zur Überprüfung einer Korrelation durchführen.
Seite: 188
Inhaltsverzeichnis
1. Einführung
Statistik 9. Klausurvorbereitung 9.0. Inhaltsverzeichnis
Seite: 189
Daten zur Prüfung
Datum und Ort:
▶ Tag und Uhrzeit der Prüfung:
▶ Ort der Prüfung:
Folgende Hilfsmittel sind in der Prüfung erlaubt:
▶ Dokumentenechter Stift
▶ Taschenrechner
▶ Ordner mit Unterlagen
Explizit nicht erlaubt sind:
▶ Geräte, die es Ihnen erlauben, mit anderen Personen zu
kommunizieren
▶ Mobiltelefone, Smart-Uhren, Tablet-Computer, etc.
Statistik 9. Klausurvorbereitung 9.1. Organisation
Seite: 190
Tipps zur Vorbereitung
▶ Orientieren Sie sich an den Lernzielen in den jeweiligen Kapiteln.
▶ Führen Sie schon im Vorfeld Berechnungen mit Ihrem eigenen
Taschenrechner durch.
▶ Nutzen Sie die Berechnungen aus dem Statistik-Projekt und die
Auswertungen des eigenen Fragenbogens, um sich auf die Prüfung
vorzubereiten.
▶ Der Kurzüberblick“ ist eine verkürzte Sicht auf alle Lernziele.
”
Er soll Ihnen helfen, Ihre Prüfungsvorbereitung zu strukturieren.
Statistik 9. Klausurvorbereitung 9.2. Inhalt
Seite: 191
Kurzüberblick Lernziele – Begriffe
Lernziel: Begriffe verstehen und erläutern (ggf. mit Beispiel)
▶ Grundbegriffe der Datenanalyse, Skalenniveaus, diskret/stetig
▶ Lagemaße und Streuungsmaße, Boxplot
▶ Bedingte Verteilung und Unabhängigkeit
▶ Kovarianz und Korrelation
▶ Zufallsvorgang, Zufallsvariable, Wahrscheinlichkeitsfunktion,
Wahrscheinlichkeitsdichte, Verteilungsfunktion
▶ Nullhypothese, Alternativhypothese, Fehlerarten, Signifikanzniveau
Seite: 192
Kurzüberblick Lernziele – Kennzahlen
Lernziel: Rechnen mit Formeln und Ergebnisse interpretieren
▶ Häufigkeitsverteilungen und empirische Verteilungsfunktion
▶ Korrigierter Kontingenzkoeffizient
▶ Arithmetisches Mittel, Modus, Median, Varianz, Standardabweichung,
Variationskoeffizient
▶ Streuungszerlegung
▶ Korrelationskoeffizient nach Pearson, Lineare Regression,
Bestimmtheitsmaß
▶ Wahrscheinlichkeiten mit vorgebener Verteilungsfunktion
▶ Teststatistiken für Erwartungswert, Mittelwertunterschiede, einfache
Varianzanalyse (ANOVA), χ2 -Test, Korrelation
Seite: 193
Kurzüberblick Lernziele – Induktive Statistik
Lernziel: Hypothesentest durchführen
▶ Passenden Hypothesentest auswählen
▶ Teststatistiken berechnen (siehe oben)
▶ Testentscheidung treffen (kritischer Wert oder Ablehnungsbereich
vorgegeben)
▶ Ergebnis interpretieren
Seite: 194
Kurzüberblick Lernziele – Excel
Lernziel: Auswertungen mit dem Computer (Excel)
▶ Funktionsweise der Befehle (Auswahl):
HÄUFIGKEIT(), SUMME(), ANZAHL(), MITTELWERT(),
STABW.N(), VAR.P(), MEDIAN(), KOVARIANZ.P(), KORREL(),
PEARSON(), NORM.INV(), F.INV(), CHIQU.INV()
usw.
▶ Funktionsweise des Add-Ins Datenanalyse aus dem Bereich
Analyse-Funktionen:
Histogramm, Korrelation, Regression, Zweistichproben t-Test, Anova
insbesondere Ausgabe dieser Funktionen
Seite: 195
Übungsaufgabe – Daten
Daten zur digitalen Kommunikation (fitkiv)
Geschlecht Modell Alter 2015 2018 Differenz Geschlecht Modell Alter 2015 2018 Differenz
m ALDI 42 22 32 -10 m Galaxy 49 17 26 -9
w Galaxy 27 25 31 -6 w iPhone 15 48 48 0
w iPhone 50 37 41 -4 w ALDI 26 51 55 -4
w iPhone 35 50 51 -1 w Galaxy 45 42 40 2
m iPhone 42 39 44 -5 m iPhone 59 24 28 -4
m Galaxy 63 9 19 -10 m Galaxy 34 20 22 -2
w ALDI 35 39 38 1 w iPhone 37 47 54 -7
m iPhone 40 15 21 -6 w ALDI 30 44 46 -2
w iPhone 52 34 35 -1 m Galaxy 37 32 42 -10
w iPhone 45 34 35 -1 m iPhone 47 30 40 -10
m iPhone 26 36 42 -6 m ALDI 39 20 29 -9
w Galaxy 19 51 49 2 w ALDI 36 29 30 -1
m ALDI 38 31 33 -2 m ALDI 38 32 35 -3
m ALDI 41 12 22 -10 w Galaxy 18 41 42 -1
m iPhone 62 3 14 -11 m iPhone 69 6 11 -5
Informationen zur durchschnittlichen Nutzung digitaler Nachrichten über

das Smartphone in 2020 und in 2022
Seite: 196
Übungsaufgabe – Fragen
▶ Sind die beiden Merkmale Geschlecht und Modell unabhängig?
▶ Wie groß ist die Korrelation zwischen dem Alter und der Anzahl
Nachrichten in 2020? Ist das Ergebnis signifikant?
▶ Bestimmen Sie die Regressionsgerade zwischen den Merkmalen Alter
und durchschnittliche Anzahl Nachrichten in 2020. Wie groß ist das
Bestimmtheitsmaß?
▶ Bestimmen Sie die Streuungszerlegung. Berechnen Sie die ANOVA.
▶ Es wird die Vermutung geäußert, dass im Jahr 2020 die
durchschnittliche Anzahl an Nachrichten bei 25 Nachrichten liegt.
Führen Sie einen Hypothesentest durch.
▶ Testen Sie die Hypothese, dass die durchschnittliche Anzahl an
Nachrichten von Frauen 10 Nachrichten über der durchschnittlichen
Anzahl an Nachrichten der Männer liegt.
▶ Ist die Anzahl an Nachrichten von 2020 auf 2022 signifikant gestiegen?
Seite: 197
Notizen
Seite: 198

Einfuehrung in Die Statistik

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Einfuehrung in Die Statistik

Hochgeladen von

Copyright:

Verfügbare Formate

Einführung in die Statistik

Statistik-Modul im Studiengang Mehrsprachige Kommunikation

Statistik  0. Organisatorisches  0.1. Informationen

Statistik  0. Organisatorisches  0.1. Informationen

Statistik  0. Organisatorisches  0.2. Literatur

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

Statistik  1. Einführung  1.0. Inhaltsverzeichnis

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

In diesem Fall dient die Statistik dazu, festzustellen, ob der in der

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Sie verwendet Verfahren, die Daten nach Zusammenhängen und Mustern

Statistik  1. Einführung  1.1. Ziel und Aufgabe der Statistik

Personen, Einrichtungen (Universitäten), Fernsehsender, Artikel,

Alle Studierenden der TH Köln, Öffentlich-rechtliche Sender, ...

Fr. Schmidt, Hr. Maier, Fr. Müller

Statistik  1. Einführung  1.2. Wichtige Grundbegriffe

Statistik  1. Einführung  1.2. Wichtige Grundbegriffe

Statistik  1. Einführung  1.3. Datenanalyse

Statistik  1. Einführung  1.3. Datenanalyse

→ keine natürliche Ordnung der Ausprägungen

→ Ausprägungen natürlich geordnet; Abstand nicht messbar

→ Ausprägungen natürlich geordnet; Abstand messbar

Statistik  1. Einführung  1.3. Datenanalyse

Statistik  1. Einführung  1.3. Datenanalyse

2. Eindimensionale Darstellung qualitativer Merkmale

3. Bivariate Darstellung kategorialer Merkmale

4. Eindimensionale Darstellung quantitativer Merkmale

5. Zweidimensionale Analysen mit quantitativen Merkmalen

6. Grundlagen der induktiven Statistik

7. Testen von Hypothesen über Unterschiede und Zusammenhänge

8. Tests auf signifikante Zusammenhänge

Statistik  2. Qualitative Merkmale  2.0. Inhaltsverzeichnis

Statistik  2. Qualitative Merkmale  2.1. Analysebereiche

Statistik  2. Qualitative Merkmale  2.1. Analysebereiche

bezeichnen die Beobachtungswerte.

Beispiel für eine Urliste zum Merkmal Studiengang“:

Statistik  2. Qualitative Merkmale  2.1. Analysebereiche

Beispiel: a1 → Kommunikation, a2 → BWL, a3 → Informatik

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

▶ Säulendiagramm: Trage über den Merkmalsausprägungen a1 , . . . ,ak

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

▶ Kreisdiagramm: Der Kreis entspricht allen Ausprägungen. Die

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

H(x) = h(a1 ) + . . . + h(aj ) für aj ≤ x und aj+1 > x

Außerdem wird vorausgesetzt: a1 < a2 < . . . < ak

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

21 % sind nicht zufrieden

Statistik  2. Qualitative Merkmale  2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik  2. Qualitative Merkmale  2.3. Lagemaße kategorialer Merkmale

Statistik  2. Qualitative Merkmale  2.3. Lagemaße kategorialer Merkmale

Statistik 0. Organisatorisches 0.1. Informationen

Statistik 0. Organisatorisches 0.1. Informationen

Statistik 0. Organisatorisches 0.2. Literatur

Statistik 1. Einführung 1.0. Inhaltsverzeichnis

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.1. Ziel und Aufgabe der Statistik

Statistik 1. Einführung 1.2. Wichtige Grundbegriffe

Statistik 1. Einführung 1.2. Wichtige Grundbegriffe

Statistik 1. Einführung 1.3. Datenanalyse

Statistik 1. Einführung 1.3. Datenanalyse

Statistik 1. Einführung 1.3. Datenanalyse

Statistik 1. Einführung 1.3. Datenanalyse

Statistik 2. Qualitative Merkmale 2.0. Inhaltsverzeichnis

Statistik 2. Qualitative Merkmale 2.1. Analysebereiche

Statistik 2. Qualitative Merkmale 2.1. Analysebereiche

Statistik 2. Qualitative Merkmale 2.1. Analysebereiche

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.2. Häufigkeitsverteilung qualitativer Merkmale

Statistik 2. Qualitative Merkmale 2.3. Lagemaße kategorialer Merkmale

Statistik 2. Qualitative Merkmale 2.3. Lagemaße kategorialer Merkmale

Statistik 2. Qualitative Merkmale 2.3. Lagemaße kategorialer Merkmale

Statistik 2. Qualitative Merkmale 2.3. Lagemaße kategorialer Merkmale

Statistik 2. Qualitative Merkmale 2.3. Lagemaße kategorialer Merkmale

Statistik 3. Qualitative Merkmale zweidimensional 3.0. Inhaltsverzeichnis

Statistik 3. Qualitative Merkmale zweidimensional 3.1. Vorüberlegungen

Statistik 3. Qualitative Merkmale zweidimensional 3.1. Vorüberlegungen

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.2. Gemeinsame Darstellung

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 3. Qualitative Merkmale zweidimensional 3.3. Unabhängigkeit

Statistik 4. Quantitative Merkmale eindimensional 4.0. Inhaltsverzeichnis

Statistik 4. Quantitative Merkmale eindimensional 4.1. Vorüberlegungen

Statistik 4. Quantitative Merkmale eindimensional 4.2. Verteilungsdarstellungen

Statistik 4. Quantitative Merkmale eindimensional 4.2. Verteilungsdarstellungen