Zusammenfassung Teilklausur 1-Statistik

PI – Statistik SS 2017
Inhaltsverzeichnis für 1. Teilklausur
0) Grundlagen .................................................................................................................................................... 2
a) Binomialverteilung ................................................................................................................................. 2
b) Normalverteilung ................................................................................................................................... 2
c) zentraler Grenzwertsatz ......................................................................................................................... 2
1) Daten, Skalen ............................................................................................................................................. 3

a) Bereiche der Statistik nach Erkenntniszielen ......................................................................................... 3
b) Grundbegriffe der Statistik ..................................................................................................................... 3
c) Woher kommen die Untersuchungseinheiten? ..................................................................................... 3
d) Skalen ..................................................................................................................................................... 3
2) Deskriptive Statistik ................................................................................................................................... 4

a) Kategorien und ihre Häufigkeiten .......................................................................................................... 4
b) Darstellung ohne Verdichtung ............................................................................................................... 4
c) Verdichtung durch Gruppierung ............................................................................................................ 4
d) Beschreibung durch Quantile ................................................................................................................. 5
e) Lage und Streuung.................................................................................................................................. 6
f) Gestalt von Verteilungen........................................................................................................................ 7
3) Testen und Schätzen von Anteilswerten .................................................................................................. 8

a) Prognoseintervall ................................................................................................................................... 8
b) Zweiseitige Testprobleme ...................................................................................................................... 8
c) Praktische Durchführung eines Tests ..................................................................................................... 9
d) Fehlermöglichkeiten beim Testen .......................................................................................................... 9
e) Einseitige Testprobleme .......................................................................................................................10
f) p-Wert ..................................................................................................................................................10
g) Konfidenzintervalle ..............................................................................................................................11
h) Versuchsplanung ..................................................................................................................................11
4) Erwartungswert .......................................................................................................................................12
a) Definition des Erwartungswerts ...........................................................................................................12
b) Prognoseintervall .................................................................................................................................12
c) Schätzung des Erwartungswerts ..........................................................................................................13
d) Testen von Hypothesen – Testtheorie .................................................................................................13
Seite |1
0) Grundlagen
Prozente (Hunderstel), Promille (Tausendstel)
8 8
Gleitkommadarstellung verwenden zB 149.600.000 = 1.496 * 10 bzw. 1.496 e
Geradengleichung: y = ß0 + ß1 * x mit ß0 als additive Konstante d und ß1 als Steigung k
Ungleichungen: ) Multiplikation mit positiver Zahl/ streng monoton wachsend  Ungleichung bleibt gleich
) Multiplikation mit negativer Zahl/ streng monoton fallend  Ungleichung dreht sich um
< weniger ≤ höchstens > mehr ≥ mindestens
a) Binomialverteilung
Bernoulli- Experiment mit 2 möglichen Ausgängen
b) Normalverteilung
… wird durch Mittelwert (= Lageparameter) und Varianz (= Streuungsmaß) vollständig beschrieben
Varianz = Standardabweichung hoch 2 // Standardabweichung = Wurzel von Varianz  Varianz ist höher
Mittelwert = Wert der bei vielen Realisierungen im Durchschnitt zu erwarten ist
Quantile: bei gegebener Wahrscheinlichkeit ablesen ACHTUNG bei größer 1 – Wahrscheinlichkeit nachschauen
Risiko (für großen Gewinn/ Verlust bei Renditen) nimmt mit Größe der Streuung/ Varianz zu
Wahrscheinlichkeit ablesen Quantile bei gegebenen Wahrscheinlichkeiten
Standardisieren
Mittelwert ist immer 0 X in Formel einsetzen  in Tabelle nachschauen (bei Intervall: größer – kleiner)
Varianz muss nicht immer 1 sein ACHTUNG bei > oder „kein Eintritt“ : 1 – Wert aus Tabelle
c) zentraler Grenzwertsatz
mit Hilfe der Grafik erkennbar:
Seite |2
1) Daten, Skalen
Aufgaben der Statistik technische Umsetzung mathematischer Methoden
 Erhebung von Daten  Microsoft Excel, SPSS/PASW
 Auswertung von Daten  R (interaktive Computerumgebung für Datenanalyse und Grafik, frei
 Ergebnis einer Datenanalyse zB erhältlich unter GPL, leicht erweiterbar durch benutzerdefinierte
Tabellen, Diagramme, Maßzahlen Funktionen und Zusatzpakete, basiert auf der Sprache S)
a) Bereiche der Statistik nach Erkenntniszielen

Deskriptive Statistik Beschreibung von empirischen Daten (nur Eigenschaften einer Stichprobe)
Schließung von einer Stichprobe auf Eigenschaften der Grundgesamtheit
Induktive Statistik/  Theorien über das Zustandekommen der empirischen Daten
Schließende Statistik  Erklärungsmodelle für empirische Daten
 Wahrscheinlichkeitsrechnung
b) Grundbegriffe der Statistik

 Untersuchungseinheit (unit): Werte (Ausprägungen, Realisierungen) mit Daten (Beobachtungen) als Ergebnis
 Merkmal (Variable)
Datenmatrix
Variable Variable
 Zeile = Untersuchungseinheit Untersuchungseinheit Wert Wert
 Spalte = Variable Untersuchungseinheit Wert Wert
c) Woher kommen die Untersuchungseinheiten?

 Datenerhebung
o Totalerhebung zB Volkszählung, Inventur, Wahlergebnis
o Stichprobenerhebung zB Meinungsumfrage, Hochrechnung, Wirtschaftsprüfung
 Experimente
d) Skalen
… numerische Kodierung eines Merkmals, bei der bestimmte Eigenschaften der Zahlenwerte mit
Eigenschaften des Werts korrespondieren  beschreibt die Art, wie ein Wert eines Merkmals erfasst wird
Nominalskala =qualitative oder kategoriale Skala
 Modus
Ausprägungen können unterschieden werden, weisen jedoch
 Kreuztabelle
Kategoriale keine natürliche Rangfolge auf  Ordnung nach Größe unmöglich

2
x - Test
Variable zB Geschlecht, Farbe, PLZ, Familienstand, Telefonvorwahl
(Qualitative Ordinalskala = Rangskala  Nominalskala
Variable)
Reihenfolge der Variablen entspricht einer inhaltlich definierten  Median
Reihenfolge der Ausprägungen mit sinnvoller Ordnung  Quantil
zB Schulnoten, Güteklassen, Kritiken (gut – mittel – schlecht)  Rangkorrelation
 Ordinalskala
Intervallskala
 Mittelwert
Differenzen/Abstände können sinnvoll interpretiert und exakt
 Standardabweichung
gemessen werden  kein absoluter Nullpunkt
Metrische  (Pearson) Korrelation
zB Temperatur, Datumsangabe, Geburtsjahr, IQ  T-Test, F-Test
Variable
(Quantitative Quotientenskala
Variable) Differenzen/ Quotienten können sinnvoll interpretiert werden,  Intervallskala
Aussagen wie doppelt so viel, um x % mehr sind möglich   geometrisches Mittel
absoluter Nullpunkt existiert  % Veränderung
zB Größe, Gewicht, Alter, Meter/Liter/… Preis, Zählungen
Merksatz: NOM  Nominalskala, Ordinalskala, metrische Skala
Seite |3
2) Deskriptive Statistik
a) Kategorien und ihre Häufigkeiten
Die Variable X hat bei der Untersuchungseinheit i den Wert a  Xi = a
 Absolute Häufigkeit h h (X = a) Summe = n  Anzahl der Daten
ℎ(𝑋=𝑎)
 Relative Häufigkeit f 𝑓(𝑋 = 𝑎) = 𝑛
Summe = 1  Anteil in % an Stichprobenumfang
 Darstellung: Häufigkeitstabelle, Balkendiagramm, Tortendiagramm (nur für relative Häufigkeiten)
Darstellung von metrischen Variablen: komplexer als kategoriale Variablen da sie mehr Info enthalten
 Darstellung abhängig von Zweck (Verteilungsmaßzahlen): Lage und meistbeobachtete Werte (= Modi),
starke/ schwache Streuung, Symmetrie/ Asymmetrie (= Schiefe), Gewicht in den Rändern, Ausreißer
 Stabdiagramm, empirische Verteilungsfunktion, Häufigkeitstabelle, Histogramm, Boxplot

(weniger gut: Indexplot ist unübersichtlich, Balkendiagramm verzerrt Werte auf x-Achse)
b) Darstellung ohne Verdichtung

Verdichtung = in Gruppen/Intervalle einteilen  Darstellung ohne Verdichtung bezieht sich auf Einzeldaten
Empirische Verteilungsfunktion (beschreibt kumulierte relative Häufigkeiten)

Fn (X) = fn (X ≤ x)  Fn(X) ist der Anteil der Daten kleiner oder gleich x (X Variable bzw. x Wert)
 Sprungfunktion: Sprungstellen sind Daten // Sprunghöhen sind relative Häufigkeiten // monoton wachsend
1. Datensatz aufsteigend sortieren (mit kleinsten Wert beginnen zB 2, 3, 6, 6, 7)
2
2. Sprunghöhe zwischen Werten feststellen (Vorkommen des Wertes/ Anzahl Gesamt zB für 6 : )
5
3. Funktion zeichnen: Strich von 1ten – 2ten Wert  Sprunghöhe  Strich von 2ten – 3ten Wert etc.
X- Achse: Anteile bzw. Variablen // Y-Achse: Prozent bzw. Quantile  Fn(X) Werte zwischen 0 -1
Werte < kleinster Wert zB 2 = 0 // alle Werte > größter Wert zB 7 = 1 (Berechnung Zwischenwert: großer Wert – kleiner Wert)
c) Verdichtung durch Gruppierung

Gruppierung und Häufigkeitstabelle
gruppierte Häufigkeitstabelle komprimiert Datenliste eines metrischen Merkmals
1. Wertebereich in Intervalle aufteilen bzw. Intervallgrenzen festlegen
2. Absolute h (Anzahl Beobachtungen) und relative Häufigkeiten f (h/ n Summe Beobachtungen)
3. Kumulative absolute (H) und relative (F) Häufigkeiten (aufsummieren zB Hi = h1 + h2 + ... + hi)
Beispiel:
 Verdichtung der Datenlisten führt zu einem Informationsverlust,
jedoch auch zu Übersicht
 Skalenniveau eines Merkmals wird reduziert d.h. metrisches
Merkmal wird durch kategorielles ersetzt
Seite |4
Histogramm
Darstellung von Häufigkeiten durch Flächeninhalte (Flächeninhalt = relative Häufigkeit)
 Summe aller Balkenflächen = 1 (da Summe relative Häufigkeiten) und Höhe d ist die Datendichte
𝐟 (relative Häufigkeit)
d= abgeleitet von relative Häufigkeit f = Höhe * Breite (Intervallabstand zB oben 11)
Breite des Intervalls
Bsp 1: f(education < 5)

 X-Achse 5 * Y-Achse 0,06 = 0,3
d.h. 30 % haben niedrige Ausbildungsrate
Bsp 2: f(education > 25)

 X- Achse 8 (von 25 – 33) * Y-Achse 0,0082
+ X-Achse 11 * Y-Achse 0,0018 = 0,066 + 0,020
= 0,086 d.h. 8,6 % haben Ausbildungsrate über 25
Wahl der Intervalleinteilung

 genau (um Struktur der Datenliste zu erkennen) und möglichst grob (für hohe Komprimierung)
 große Intervalle (jedes Intervall muss genügend viele Daten enthalten) bzw. kleine Intervalle (zu viele Intervalle
führen zu unterbesetzen Intervallen - Häufigkeiten und Histogramm sind zufällig und Struktur nicht erkennbar)
 bei geringer Dichte wählt man lange Intervalle/ bei hoher Dichte wählt man kurze Intervalle
d) Beschreibung durch Quantile

Median Q0,5: teilt die Datenliste in zwei gleich große Segmente
1. Sortierung der Datenliste (Bindungen werden berücksichtigt, daher zB x(3) doppelt für gleichen Wert)
𝑛+1
2. Ist n ungerade, findet man die Stelle so: 2
= Stelle an der Median in Liste steht
𝑥1+𝑥2
3. Ist n gerade gibt es zwei mittlere Werte d.h. Mittelwert berechnen: 𝑄0,5 = 2
(2 Werte in Mitte/2)
Ränge
Rang(x) = k + 1 Beispiel:
 wenn k Beobachtungen kleiner als x sind
Quantil
… teilt Daten in zwei Teile im Verhältnis  : 1 -  (für jeden Prozentsatz, Gegenwahrscheinlichkeit bei >)
Berechnung des -Quantils Q

1. Sortieren der Daten
2. Ungefähre Position in sortierter Liste ist: k = n *  (zB 11 * 0,75 Quantil = 8,25 = 9ter Platz in sortierter Liste)
3. Ist k keine ganze Zahl, so wird k zur nächsten ganzen Zahl aufgerundet (nicht kaufmännisch abrunden)
Fünft-Punkt-Zusammenfassung: Q0: Min Q0,25: Unteres Quartil Q0,5: Median Q0,75: Oberes Quartil Q1: Max
 grafische Darstellung ist Boxplot (in Box liegen 50 % der Daten)
Quantil ablesen aus Histogramm:

1. Berechnen der relativen Häufigkeiten der Intervalle (Breite * Höhe des Balkens)
2. Intervall (bzw. Balken) finden in dem gesuchtes Quartil liegt laut relativen Häufigkeiten
3. gesuchtes Quartil zB 0,25 – Häufigkeit (Balken davor) = verbleibende Häufigkeit
4. Quantil durch Umformen berechnen: (Qgesucht – Anfangspunkt des Balken in dem Quantil liegt) * Höhe
auf Y- Achse = verbleibende Häufigkeit  nach Qgesucht umformen
Seite |5
e) Lage und Streuung

Lagemaßzahlen
x̅ Mittelwert (arithmetisches Mittel x1 + x2 + ⋯ + xn zB Verlust durch krankheitsbedingte
x̅ = Ausfälle
bzw. Durchschnittwert) n
mittlerer Wert aus geordneter zB AN will wissen ob er eher selten
Q0,5 Median
Aufzählung der Werte ablesen oder oft im Krankenstand ist
Streuungsmaße
Abweichung der Daten vom Zentrum
der Verteilung d.h. Streuungsstärke
(mittlere quadratische Abweichung der
Daten vom Mittelwert)
Beispiel:
Mittelwert als Lagemaß
Varianz
zeigt Streuungsbreite (wie weit oder

Standardabweichung breit sind Daten um Mittelwert √𝑠 2 d.h. Varianz immer größer
gestreut)
Länge der zentralen Box des Boxplots

Lagemaß
Median
Interquartilsdistanz d.h. Länge des Intervalls das die

zentralen 50 % enthält (zB n/100*25 = Stelle des Q25)
Standardisierung - Standardscore
… Abstände zum Zentrum der Daten, gemessen im „Datenmaßstab“ d.h. in Standardabweichungen
Mittel 𝑧̅ = 0 und Standardabweichung sz = 1 // Mittelwert und Median = 0
keine Infos über Lage und Streuung der Daten d.h. nur Darstellung wie Gestalt, Identifikation
 1x Standardabweichung nach links und rechts zwischen -1 und 1 ungefähr 2/3
 2x Standardabweichungen nach links und rechts zwischen -2 und -2 ungefähr 95%
 3x Standardabweichungen nach links und rechts zwischen -3 und 3 ungefähr 99,5%
Kontrolle ob Boxplot Daten von Normalverteilung mit x̅ und s darstellt: Symmetrie, Mittelwert (= Median), Streuung (ca. 1x s)
Robustheit
robust = statistische Methoden, die wenig auf Ausreißer (weichen sehr stark ab oder fehlerhaft) reagieren
 Median (50 % Änderung), Interquartilsabstand (25 % Änderung): robust d.h. trotz Ausreißer gleicher/ ähnlicher Wert
 Mittelwert, Varianz, Standardabweichung: nicht robust d.h. sehr sensitiv ggü Ausreißern
Variationskoeffizient Quartilsdispersionskoeffizient
Misst die Relation der Streuung zum Mittelwert
Misst die Relation der Quartilsdistanz zum Median
Wie groß ist Standardabweichung im Vergleich zum Mittelwert?
QK > 1 starke Streuung QK < 1 schwache Streuung
Seite |6
f) Gestalt von Verteilungen

Modalität = Gipfeligkeit
Modus = „meistbeobachteter“ Wert in einer Tabelle mit Kategorien
Unimodal (eingipfelig): Daten haben genau einen Modus (eine „Spitze“ im Histogramm  aus Boxplot nicht erkennbar)
Multimodal (mehrgipfelig): Daten haben mehr als einen Modus (mehrere „Spitzen“ im Histogramm)
Schiefe
Symmetrisch: Mittelwert und Median stimmen überein (Median ist das Symmetriezentrum)
Schief: Mittelwert und Median stimmen nicht überein (Seite wo mehr Platz ist zB rechts – rechtsschief)
Negativer SK: linksschief (Mittelwert links/kleiner Median)
Schiefekoeffizient  viele große Werte, wenig kleine
R = Q0,75 – Q0,5 rechter Teil der Box
L = Q0,5 – Q0,25 linker Teil der Box
Positiver SK: rechtsschief (Mittelwert rechts/größer Median)
 viele kleine Werte, wenig große
Gewichte in den Rändern (Kurtosis)

 Schwere Ränder (längere Enden als Normalverteilung): viele Beobachtungen liegen außerhalb Whiskers
 Leichte Ränder (kürzere Enden als Normalverteilung): viele Beobachtungen nahe Median, Box erscheint breit
 Ende annähernd wie Normalverteilung: Verhalten der Normalverteilung gilt als Referenz
Seite |7
3) Testen und Schätzen von Anteilswerten

a) Prognoseintervall
bekannt: Anteil (Häufigkeit) eines Merkmals in Grundgesamtheit : relative Häufigkeit
geplant: Stichprobenerhebung der Größe n n: Stichprobengröße (Anzahl Beobachtungen in Stichprobe)
Prognoseintervall… Anteil des Merkmals, der in Stichprobe zu erwarten ist (meist statistische Sicherheit von 95% - 1,96)
Modell: dichotomes Merkmal X mit den zwei Ausprägungen a (besitzt Merkmal) und a‘ (besitzt Merkmal nicht)
Standardfehler SD der
(je höher n, desto geringer Standardabweichung und
relativen Häufigkeit fn (X = a)
engeres Konfidenzintervall d.h. präzisere Aussagen)
 Standardabweichung
zB für 95%-ige Wahrscheinlichkeit

zentraler Grenzwertsatz für  Restwahrscheinlichkeit ausrechnen und auf
standardisierte Variable beide Seiten verteilen zB 2,5 % = 0,025
 1 – 0,025 = 0,975 in Quantiltabelle links
nachschauen und Wert 1,96 ablesen
 in Formel einsetzen ergibt zwei Werte für
Grenzen des Intervalls
Bei Gültigkeit der Nullhypothese ist fn innerhalb des Prognoseintervalls.
Testproblem = Aufgabe zwischen Nullhypothese und Alternativhypothese zu entscheiden
b) Zweiseitige Testprobleme
Der zu untersuchende Effekt ist in beide Richtungen möglich
Hypothese = Annahme, die mit Methoden der math. Statistik auf Basis empirischer Daten geprüft wird
Ablauf des Testens von Hypothesen

 Aufstellen einer Vermutung (Null- Hypothese H0) und ihrer Verneinung (Alternativ- Hypothese HA oder H1)
 Festlegen der statistischen Sicherheit
 Berechnen des Prognoseintervalls für relative Häufigkeit unter Null- Hypothese (SD berechnen und einsetzen)
 Prüfen ob beobachtete Häufigkeiten im Prognoseintervall liegen
o JA: Daten widersprechen nicht den Annahmen  Beibehaltung der Null- Hypothese (nicht-
signifikant)
o NEIN: Daten widersprechen den Annahmen  signifikante Abweichung d.h. wählen Alternative
Ziel des statistischen Tests: Verwerfung von H0 und Bestätigung von HA (Abweichung in beide Richtungen möglich)
 testen H0 (zB θ = 0,7) gegen Ha (zB θ ≠ 0,7)
Das Beibehalten der Nullhypothese ist kein statistischer Beweis dafür,

dass sie richtig ist!
Das Verwerfen der Nullhypothese ist ein statistischer Beweis dafür, dass
sie falsch ist!
Seite |8
Signifikanzniveau 
 Wahrscheinlichkeit, mit der die beobachteten Daten bei Gültigkeit der
Nullhypothese nicht in das Prognoseintervall fallen
 Wahrscheinlichkeit, beim Verwerfen der Nullhypothese einem Irrtum zu
unterliegen
Das Signifikanzniveau wird immer vom Statistiker vorgegeben
beobachtete relative Häufigkeit fn wird

standardisiert (T = Prüfgröße bzw. Teststatistik)
Teststatistik
 T liegt im Beibehaltungsbereich (1 - ) so fn = beobachteter Wert laut Umfrage, etc.
wird die Nullhypothese beibehalten θ0 = relative Häufigkeit (Wert den wir prüfen wollen)
Beibehaltungsbereich: Bereich, in den die Teststatistik bei Gültigkeit der Null-Hypothese mit
hoher (vom Statistiker vorgegebener) Wahrscheinlichkeit fällt
Verwerfungsbereich: Bereich jener Werte, die die Teststatistik bei Gültigkeit der
Nullhypothese nur mit sehr kleiner Wahrscheinlichkeit annimmt (=signifikantes Ergebnis)
Entscheidungs-
regeln
Kritische Werte
statische Sicherheit 99 %: ∝ = 1 % bzw. 0,5 % Abstand  zc = 2,58
statische Sicherheit 95 %: ∝ = 5 % bzw. 2,5 % Abstand  zc = 1,96 (~2)
c) Praktische Durchführung eines Tests

 Aufstellen von Nullhypothese + Alternativhypothese
 Festlegen des Signifikanzniveaus / Stichprobenumfang n/
Grenzen Beibehaltungsbereich (kritische Werte)
 Erheben der Daten
 Berechnen der Teststatistik
 Entscheidung (Ablehnen oder Beibehalten von H0 
Vergleich Ergebnis mit kritischen Werten)
 Interpretation des Ergebnisses
d) Fehlermöglichkeiten beim Testen

Die Entscheidung zur Beibehaltung oder Verwerfung der Nullhypothese kann richtig oder falsch sein.
Fehler 1. Art (- Fehler): Ablehnung der Nullhypothese, obwohl

sie richtig ist  Wahrscheinlichkeit ist  (Signifikanzniveau)
(richtige Hypothese fälschlicherweise verworfen  falsch 1 Mal)
Fehler 2. Art (𝛽- Fehler): Beibehalten der Nullhypothese,

obwohl sie falsch ist  Wahrscheinlichkeit ist unbekannt
(falsche Hypothese fälschlicherweise behalten  falsch 2 Mal)
Trennschärfe: Wahrscheinlichkeit mit der die falsche Null-
Hypothese verworfen wird (Wie gut kann zwischen H0 und HA
unterschieden werden?)
 umso größer, je größer n,  und Abstand θ (wahrer Parameter)
und θ0 (Parameter der Null- Hypothese) ist
 kann in Praxis nicht kontrolliert werden
Seite |9
e) Einseitige Testprobleme
Der zu untersuchende Effekt ist nur in eine Richtung möglich (Testen, ob Anteil geringer/ größer als angegebener Wert ist)
linksseitiges Testproblem rechtsseitiges Testproblem
zu widerlegende Aussage = Null- Hypothese H0

zu beweisende Aussage (lt. Fragestellung) = Alternativ- Hypothese HA
0 was wir kontrollieren wollen / 00 was wir angegeben haben
kritische
Werte
standardisierte Zufallsgröße
(wie bei zweiseitigem Testproblem)
 Ergebnis mit kritischem Wert zB 1,96 fn = beobachteter Wert laut Umfrage, etc.
vergleichen für Entscheidung θ0 = relative, unterstellte Häufigkeit (Wert den wir prüfen wollen)
Beispiel:
Teststatistik
f) p-Wert
Kleinstes Signifikanzniveau bei dem die Nullhypothese verworfen wird (beobachtetes Signifikanzniveau der erhobenen Daten)
Berechnung des p-Wertes erspart ein Nachschlagen der kritischen Werte
Verteilungsfunktion: Kleine p-Werte (< 0,05)
 Datenmaterial spricht gegen Nullhypothese
 verwerfen (If the p is low, the null must go)
Im Allgemeinen gilt, dass HA angenommen wird
wenn der p-Wert sehr klein ist.
Große p-Werte ( 0,05)

 Datenmaterial ist mit der Nullhypothese
verträglich  beibehalten
Signifikanztest:
p-Wert < α ⇒signifikantes Ergebnis, H0 ablehnen
p-Wert ≥ α ⇒nicht signifikantes Ergebnis, H0 beibehalten
S e i t e | 10
g) Konfidenzintervalle
Konfidenzintervall… welches Intervall den wahren Parameter mit einer gewissen Wahrscheinlichkeit überdeckt
bzw. gibt an, in welchem Intervall mit vorgegebener Wahrscheinlichkeit der wahre Anteil einer Verteilung
liegt, wenn ein Stichprobenanteil bekannt ist
 lediglich ein zufälliges Intervall d.h. keine sichere Auskunft über Lage des Parameters
unbekannte Wahrscheinlichkeit ist gegebene

Punkt-
relative Häufigkeit fn (SD hängt vom unbekannten
schätzung zB
Wert θ ab)
̂ schätzen,
SD durch geschätztes 𝜽
Bootstrap- Konfidenzintervall:
methode dank zentralem Grenzwertsatz in
Standardnormalverteilung einsetzen
(einfach SDmax verwenden)

unbekanntes SD wird maximal für θ = 0,5
Robuste robustes Konfidenzintervall:
Methode (Intervall meist größer als bei der Bootstrap-
Methode)
Beispiel Bootstrapmethode Beispiel robuste Methode
h) Versuchsplanung
Umfrage durchführen: Wie groß muss Stichprobe n sein, damit Konfidenzintervall für θ hinreichend klein ist?
𝑧𝑐 𝑧𝐵 1,96 2
n≥( )
𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 % 𝑧𝐵 0,01
Konfidenzinterval Länge höchstens ∆θ
l bei robuster
Methode
für jede Wahl der statistischen Sicherheit 1 - ∝ ist Länge des

Konfidenzintervalls indirekt proportional zu √n
√𝐧 - Gesetz
insbesondere gilt: damit Intervalllänge halbiert wird, muss
Stichprobenumfang vervierfacht werden
Testgröße berechnen signifikantes Ergebnis bei zweiseitigem Test
signifikantes Ergebnis bei links- bzw. rechtsseitigen Test

Stichprobengröße
für Tests auf
Anteile
S e i t e | 11
4) Erwartungswert
a) Definition des Erwartungswerts
Erwartungswert = Mittelwert bei allen Beobachtungen (durch Gesetz der großen Zahlen kommt Wert dem tatsächlichen
Erwartungswert immer näher): E(X) =  (zB Würfel: 16 * 1 + 16 * 2 + 16 * 3 + 16 * 4 + 16 *5 + 16 * 6 = 3,5)
Erwartungswert einer ZG X ist: ) der langfristige Durchschnitt von unabhängigen Realisationen der ZG
) eine Lagemaßzahl für das Zentrum der Wahrscheinlichkeitsverteilung der ZG
Statistische Bestimmung: Ein Schätzer für den Erwartungswert ist μ̂ = x̅

Mathematische Bestimmung: Bei bekannter Wahrscheinlichkeitsverteilung kann Erwartungswert exakt
bestimmt werden
Zufallsschankungen des Mittelwerts ZG X mit Realisationen x1,x2,...,xn

Der Mittelwert x̅ der Realisationen schwankt von Stichprobe zu
Stichprobe zufällig um den Erwartungswert µ.
Der Mittelwert ist daher selbst eine Zufallsgröße. Bezeichnung: 𝐱̅
 In welcher Beziehung stehen µ und x̅?
 In welchem Bereich kann x̅ bei gegebenem µ schwanken?
 Welche Schlüsse kann man von x̅ über µ ziehen?
Standardisierter Mittelwert (annähernd standardnormalverteilt)

(Genauigkeit der Aussage steigt mit Stichprobenumfang n)
b) Prognoseintervall
mit Wahrscheinlichkeit 1 - ∝ gilt für standardisierte Größe approximativ (im Folgenden umgeformt)
1) SD berechnen (! ändert sich als einziges im Vergleich

zu bisher)  Standardabweichung des Mittelwerts
2) c bzw. N berechnen und in Quantiltabelle

nachschauen (gleiche Werte wie immer zB 95% = 1,96)
bzw.
3) Werte in Formel einsetzen, um Grenzen zu
erhalten
S e i t e | 12
c) Schätzung des Erwartungswerts

Der Erwartungswert ist unbekannt und soll aus Daten geschätzt werden  Mittelwert 𝛍
̂ = 𝐱̅
Wie genau ist die Schätzung μ̂ ?  Konfidenzintervall KI
1) SD Standardfehler berechnen mit Sn – 1 als Schätzer

Schätzung der Varianz mit Stichprobenvarianz (begründet
durch Verschiebungssatz) 𝑛
Sn-1 = s2 * 𝑛−1 s = Standardabweichung
2) Schätzung des Konfidenzintervalls für unbekannten
Erwartungswert E(X) = 
statistische Sicherheit: lt. Überdeckungswahrscheinlichkeit 1 - ∝
Genauigkeit des KI: Länge des Intervalls
2
2
𝑧𝑐 𝑧𝐵 1,96∗√ 𝑠𝑛−1
Stichprobengröße berechnen n ≥ (𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 𝐺𝑒𝑛𝑎𝑢𝑖𝑔𝑘𝑒𝑖𝑡 𝜎 𝑧𝐵 2,5)
d) Testen von Hypothesen – Testtheorie

linksseitiges Testproblem rechtsseitiges Testproblem zweiseitiges Testproblem
HA: Wert wird unterschritten HA: Wert wird überschritten

zu widerlegende Aussage = Null- Hypothese H0
zu beweisende Aussage (lt. Fragestellung) = Alternativ- Hypothese HA
 was wir kontrollieren wollen / 0 was wir angegeben haben
3 Methoden zum Durchführung von Tests

) Prognoseintervalle
) Standardisierter Mittelwert als Testgröße (Ergebnis mit kritischen Wert vergleichen)
) p-Werte
Kritische Werte für Testgrößen für 5% Signifikanzniveau

linksseitig rechtsseitig
zweiseitig
Kritische Werte für wichtige Quantile Prognoseintervall Konfidenzintervall
gegeben: Erwartungswert  gegeben: Mittelwert x̅
S e i t e | 13

Zusammenfassung Teilklausur 1-Statistik

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Zusammenfassung Teilklausur 1-Statistik

Hochgeladen von

Copyright:

Verfügbare Formate

PI – Statistik SS 2017

Inhaltsverzeichnis für 1. Teilklausur

1) Daten, Skalen ............................................................................................................................................. 3

2) Deskriptive Statistik ................................................................................................................................... 4

3) Testen und Schätzen von Anteilswerten .................................................................................................. 8

Wahrscheinlichkeit ablesen Quantile bei gegebenen Wahrscheinlichkeiten

mit Hilfe der Grafik erkennbar:

a) Bereiche der Statistik nach Erkenntniszielen

b) Grundbegriffe der Statistik

c) Woher kommen die Untersuchungseinheiten?

 Stabdiagramm, empirische Verteilungsfunktion, Häufigkeitstabelle, Histogramm, Boxplot

b) Darstellung ohne Verdichtung

Empirische Verteilungsfunktion (beschreibt kumulierte relative Häufigkeiten)

c) Verdichtung durch Gruppierung

Bsp 1: f(education < 5)

Bsp 2: f(education > 25)

Wahl der Intervalleinteilung

d) Beschreibung durch Quantile

Berechnung des -Quantils Q

Quantil ablesen aus Histogramm:

e) Lage und Streuung

zeigt Streuungsbreite (wie weit oder

Länge der zentralen Box des Boxplots

Interquartilsdistanz d.h. Länge des Intervalls das die

QK > 1 starke Streuung QK < 1 schwache Streuung

f) Gestalt von Verteilungen

Gewichte in den Rändern (Kurtosis)

3) Testen und Schätzen von Anteilswerten

zB für 95%-ige Wahrscheinlichkeit

Ablauf des Testens von Hypothesen

Das Beibehalten der Nullhypothese ist kein statistischer Beweis dafür,

Das Signifikanzniveau wird immer vom Statistiker vorgegeben

beobachtete relative Häufigkeit fn wird

c) Praktische Durchführung eines Tests

d) Fehlermöglichkeiten beim Testen

Fehler 1. Art (- Fehler): Ablehnung der Nullhypothese, obwohl

Fehler 2. Art (𝛽- Fehler): Beibehalten der Nullhypothese,

zu widerlegende Aussage = Null- Hypothese H0

Große p-Werte ( 0,05)

unbekannte Wahrscheinlichkeit ist gegebene

(einfach SDmax verwenden)

Beispiel Bootstrapmethode Beispiel robuste Methode

für jede Wahl der statistischen Sicherheit 1 - ∝ ist Länge des

Testgröße berechnen signifikantes Ergebnis bei zweiseitigem Test

signifikantes Ergebnis bei links- bzw. rechtsseitigen Test

Statistische Bestimmung: Ein Schätzer für den Erwartungswert ist μ̂ = x̅

Zufallsschankungen des Mittelwerts ZG X mit Realisationen x1,x2,...,xn

Standardisierter Mittelwert (annähernd standardnormalverteilt)

1) SD berechnen (! ändert sich als einziges im Vergleich

2) c bzw. N berechnen und in Quantiltabelle

c) Schätzung des Erwartungswerts

1) SD Standardfehler berechnen mit Sn – 1 als Schätzer

d) Testen von Hypothesen – Testtheorie

HA: Wert wird unterschritten HA: Wert wird überschritten

3 Methoden zum Durchführung von Tests

) Standardisierter Mittelwert als Testgröße (Ergebnis mit kritischen Wert vergleichen)

Kritische Werte für Testgrößen für 5% Signifikanzniveau

Kritische Werte für wichtige Quantile Prognoseintervall Konfidenzintervall

gegeben: Erwartungswert  gegeben: Mittelwert x̅

Das könnte Ihnen auch gefallen