Sie sind auf Seite 1von 13

PI – Statistik SS 2017

Inhaltsverzeichnis für 1. Teilklausur

0) Grundlagen .................................................................................................................................................... 2
a) Binomialverteilung ................................................................................................................................. 2
b) Normalverteilung ................................................................................................................................... 2
c) zentraler Grenzwertsatz ......................................................................................................................... 2

1) Daten, Skalen ............................................................................................................................................. 3


a) Bereiche der Statistik nach Erkenntniszielen ......................................................................................... 3
b) Grundbegriffe der Statistik ..................................................................................................................... 3
c) Woher kommen die Untersuchungseinheiten? ..................................................................................... 3
d) Skalen ..................................................................................................................................................... 3

2) Deskriptive Statistik ................................................................................................................................... 4


a) Kategorien und ihre Häufigkeiten .......................................................................................................... 4
b) Darstellung ohne Verdichtung ............................................................................................................... 4
c) Verdichtung durch Gruppierung ............................................................................................................ 4
d) Beschreibung durch Quantile ................................................................................................................. 5
e) Lage und Streuung.................................................................................................................................. 6
f) Gestalt von Verteilungen........................................................................................................................ 7

3) Testen und Schätzen von Anteilswerten .................................................................................................. 8


a) Prognoseintervall ................................................................................................................................... 8
b) Zweiseitige Testprobleme ...................................................................................................................... 8
c) Praktische Durchführung eines Tests ..................................................................................................... 9
d) Fehlermöglichkeiten beim Testen .......................................................................................................... 9
e) Einseitige Testprobleme .......................................................................................................................10
f) p-Wert ..................................................................................................................................................10
g) Konfidenzintervalle ..............................................................................................................................11
h) Versuchsplanung ..................................................................................................................................11

4) Erwartungswert .......................................................................................................................................12
a) Definition des Erwartungswerts ...........................................................................................................12
b) Prognoseintervall .................................................................................................................................12
c) Schätzung des Erwartungswerts ..........................................................................................................13
d) Testen von Hypothesen – Testtheorie .................................................................................................13

Seite |1
PI – Statistik SS 2017

0) Grundlagen
Prozente (Hunderstel), Promille (Tausendstel)
8 8
Gleitkommadarstellung verwenden zB 149.600.000 = 1.496 * 10 bzw. 1.496 e
Geradengleichung: y = ß0 + ß1 * x mit ß0 als additive Konstante d und ß1 als Steigung k
Ungleichungen: ) Multiplikation mit positiver Zahl/ streng monoton wachsend  Ungleichung bleibt gleich
) Multiplikation mit negativer Zahl/ streng monoton fallend  Ungleichung dreht sich um
< weniger ≤ höchstens > mehr ≥ mindestens

a) Binomialverteilung
Bernoulli- Experiment mit 2 möglichen Ausgängen

b) Normalverteilung
… wird durch Mittelwert (= Lageparameter) und Varianz (= Streuungsmaß) vollständig beschrieben
Varianz = Standardabweichung hoch 2 // Standardabweichung = Wurzel von Varianz  Varianz ist höher
Mittelwert = Wert der bei vielen Realisierungen im Durchschnitt zu erwarten ist
Quantile: bei gegebener Wahrscheinlichkeit ablesen ACHTUNG bei größer 1 – Wahrscheinlichkeit nachschauen

Risiko (für großen Gewinn/ Verlust bei Renditen) nimmt mit Größe der Streuung/ Varianz zu

Wahrscheinlichkeit ablesen Quantile bei gegebenen Wahrscheinlichkeiten

Standardisieren

Mittelwert ist immer 0 X in Formel einsetzen  in Tabelle nachschauen (bei Intervall: größer – kleiner)
Varianz muss nicht immer 1 sein ACHTUNG bei > oder „kein Eintritt“ : 1 – Wert aus Tabelle

c) zentraler Grenzwertsatz

mit Hilfe der Grafik erkennbar:

Seite |2
PI – Statistik SS 2017

1) Daten, Skalen
Aufgaben der Statistik technische Umsetzung mathematischer Methoden
 Erhebung von Daten  Microsoft Excel, SPSS/PASW
 Auswertung von Daten  R (interaktive Computerumgebung für Datenanalyse und Grafik, frei
 Ergebnis einer Datenanalyse zB erhältlich unter GPL, leicht erweiterbar durch benutzerdefinierte
Tabellen, Diagramme, Maßzahlen Funktionen und Zusatzpakete, basiert auf der Sprache S)

a) Bereiche der Statistik nach Erkenntniszielen


Deskriptive Statistik Beschreibung von empirischen Daten (nur Eigenschaften einer Stichprobe)
Schließung von einer Stichprobe auf Eigenschaften der Grundgesamtheit
Induktive Statistik/  Theorien über das Zustandekommen der empirischen Daten
Schließende Statistik  Erklärungsmodelle für empirische Daten
 Wahrscheinlichkeitsrechnung

b) Grundbegriffe der Statistik


 Untersuchungseinheit (unit): Werte (Ausprägungen, Realisierungen) mit Daten (Beobachtungen) als Ergebnis
 Merkmal (Variable)
Datenmatrix
Variable Variable
 Zeile = Untersuchungseinheit Untersuchungseinheit Wert Wert
 Spalte = Variable Untersuchungseinheit Wert Wert

c) Woher kommen die Untersuchungseinheiten?


 Datenerhebung
o Totalerhebung zB Volkszählung, Inventur, Wahlergebnis
o Stichprobenerhebung zB Meinungsumfrage, Hochrechnung, Wirtschaftsprüfung
 Experimente

d) Skalen
… numerische Kodierung eines Merkmals, bei der bestimmte Eigenschaften der Zahlenwerte mit
Eigenschaften des Werts korrespondieren  beschreibt die Art, wie ein Wert eines Merkmals erfasst wird
Nominalskala =qualitative oder kategoriale Skala
 Modus
Ausprägungen können unterschieden werden, weisen jedoch
 Kreuztabelle
Kategoriale keine natürliche Rangfolge auf  Ordnung nach Größe unmöglich

2
x - Test
Variable zB Geschlecht, Farbe, PLZ, Familienstand, Telefonvorwahl
(Qualitative Ordinalskala = Rangskala  Nominalskala
Variable)
Reihenfolge der Variablen entspricht einer inhaltlich definierten  Median
Reihenfolge der Ausprägungen mit sinnvoller Ordnung  Quantil
zB Schulnoten, Güteklassen, Kritiken (gut – mittel – schlecht)  Rangkorrelation
 Ordinalskala
Intervallskala
 Mittelwert
Differenzen/Abstände können sinnvoll interpretiert und exakt
 Standardabweichung
gemessen werden  kein absoluter Nullpunkt
Metrische  (Pearson) Korrelation
zB Temperatur, Datumsangabe, Geburtsjahr, IQ  T-Test, F-Test
Variable
(Quantitative Quotientenskala
Variable) Differenzen/ Quotienten können sinnvoll interpretiert werden,  Intervallskala
Aussagen wie doppelt so viel, um x % mehr sind möglich   geometrisches Mittel
absoluter Nullpunkt existiert  % Veränderung
zB Größe, Gewicht, Alter, Meter/Liter/… Preis, Zählungen
Merksatz: NOM  Nominalskala, Ordinalskala, metrische Skala

Seite |3
PI – Statistik SS 2017

2) Deskriptive Statistik
a) Kategorien und ihre Häufigkeiten
Die Variable X hat bei der Untersuchungseinheit i den Wert a  Xi = a
 Absolute Häufigkeit h h (X = a) Summe = n  Anzahl der Daten
ℎ(𝑋=𝑎)
 Relative Häufigkeit f 𝑓(𝑋 = 𝑎) = 𝑛
Summe = 1  Anteil in % an Stichprobenumfang
 Darstellung: Häufigkeitstabelle, Balkendiagramm, Tortendiagramm (nur für relative Häufigkeiten)

Darstellung von metrischen Variablen: komplexer als kategoriale Variablen da sie mehr Info enthalten
 Darstellung abhängig von Zweck (Verteilungsmaßzahlen): Lage und meistbeobachtete Werte (= Modi),
starke/ schwache Streuung, Symmetrie/ Asymmetrie (= Schiefe), Gewicht in den Rändern, Ausreißer

 Stabdiagramm, empirische Verteilungsfunktion, Häufigkeitstabelle, Histogramm, Boxplot


(weniger gut: Indexplot ist unübersichtlich, Balkendiagramm verzerrt Werte auf x-Achse)

b) Darstellung ohne Verdichtung


Verdichtung = in Gruppen/Intervalle einteilen  Darstellung ohne Verdichtung bezieht sich auf Einzeldaten

Empirische Verteilungsfunktion (beschreibt kumulierte relative Häufigkeiten)


Fn (X) = fn (X ≤ x)  Fn(X) ist der Anteil der Daten kleiner oder gleich x (X Variable bzw. x Wert)
 Sprungfunktion: Sprungstellen sind Daten // Sprunghöhen sind relative Häufigkeiten // monoton wachsend
1. Datensatz aufsteigend sortieren (mit kleinsten Wert beginnen zB 2, 3, 6, 6, 7)
2
2. Sprunghöhe zwischen Werten feststellen (Vorkommen des Wertes/ Anzahl Gesamt zB für 6 : )
5
3. Funktion zeichnen: Strich von 1ten – 2ten Wert  Sprunghöhe  Strich von 2ten – 3ten Wert etc.

X- Achse: Anteile bzw. Variablen // Y-Achse: Prozent bzw. Quantile  Fn(X) Werte zwischen 0 -1
Werte < kleinster Wert zB 2 = 0 // alle Werte > größter Wert zB 7 = 1 (Berechnung Zwischenwert: großer Wert – kleiner Wert)

c) Verdichtung durch Gruppierung


Gruppierung und Häufigkeitstabelle
gruppierte Häufigkeitstabelle komprimiert Datenliste eines metrischen Merkmals
1. Wertebereich in Intervalle aufteilen bzw. Intervallgrenzen festlegen
2. Absolute h (Anzahl Beobachtungen) und relative Häufigkeiten f (h/ n Summe Beobachtungen)
3. Kumulative absolute (H) und relative (F) Häufigkeiten (aufsummieren zB Hi = h1 + h2 + ... + hi)

Beispiel:
 Verdichtung der Datenlisten führt zu einem Informationsverlust,
jedoch auch zu Übersicht
 Skalenniveau eines Merkmals wird reduziert d.h. metrisches
Merkmal wird durch kategorielles ersetzt

Seite |4
PI – Statistik SS 2017

Histogramm
Darstellung von Häufigkeiten durch Flächeninhalte (Flächeninhalt = relative Häufigkeit)
 Summe aller Balkenflächen = 1 (da Summe relative Häufigkeiten) und Höhe d ist die Datendichte

𝐟 (relative Häufigkeit)
d= abgeleitet von relative Häufigkeit f = Höhe * Breite (Intervallabstand zB oben 11)
Breite des Intervalls

Bsp 1: f(education < 5)


 X-Achse 5 * Y-Achse 0,06 = 0,3
d.h. 30 % haben niedrige Ausbildungsrate

Bsp 2: f(education > 25)


 X- Achse 8 (von 25 – 33) * Y-Achse 0,0082
+ X-Achse 11 * Y-Achse 0,0018 = 0,066 + 0,020
= 0,086 d.h. 8,6 % haben Ausbildungsrate über 25

Wahl der Intervalleinteilung


 genau (um Struktur der Datenliste zu erkennen) und möglichst grob (für hohe Komprimierung)
 große Intervalle (jedes Intervall muss genügend viele Daten enthalten) bzw. kleine Intervalle (zu viele Intervalle
führen zu unterbesetzen Intervallen - Häufigkeiten und Histogramm sind zufällig und Struktur nicht erkennbar)
 bei geringer Dichte wählt man lange Intervalle/ bei hoher Dichte wählt man kurze Intervalle

d) Beschreibung durch Quantile


Median Q0,5: teilt die Datenliste in zwei gleich große Segmente
1. Sortierung der Datenliste (Bindungen werden berücksichtigt, daher zB x(3) doppelt für gleichen Wert)
𝑛+1
2. Ist n ungerade, findet man die Stelle so: 2
= Stelle an der Median in Liste steht
𝑥1+𝑥2
3. Ist n gerade gibt es zwei mittlere Werte d.h. Mittelwert berechnen: 𝑄0,5 = 2
(2 Werte in Mitte/2)

Ränge
Rang(x) = k + 1 Beispiel:
 wenn k Beobachtungen kleiner als x sind

Quantil
… teilt Daten in zwei Teile im Verhältnis  : 1 -  (für jeden Prozentsatz, Gegenwahrscheinlichkeit bei >)

Berechnung des -Quantils Q


1. Sortieren der Daten
2. Ungefähre Position in sortierter Liste ist: k = n *  (zB 11 * 0,75 Quantil = 8,25 = 9ter Platz in sortierter Liste)
3. Ist k keine ganze Zahl, so wird k zur nächsten ganzen Zahl aufgerundet (nicht kaufmännisch abrunden)

Fünft-Punkt-Zusammenfassung: Q0: Min Q0,25: Unteres Quartil Q0,5: Median Q0,75: Oberes Quartil Q1: Max
 grafische Darstellung ist Boxplot (in Box liegen 50 % der Daten)

Quantil ablesen aus Histogramm:


1. Berechnen der relativen Häufigkeiten der Intervalle (Breite * Höhe des Balkens)
2. Intervall (bzw. Balken) finden in dem gesuchtes Quartil liegt laut relativen Häufigkeiten
3. gesuchtes Quartil zB 0,25 – Häufigkeit (Balken davor) = verbleibende Häufigkeit
4. Quantil durch Umformen berechnen: (Qgesucht – Anfangspunkt des Balken in dem Quantil liegt) * Höhe
auf Y- Achse = verbleibende Häufigkeit  nach Qgesucht umformen

Seite |5
PI – Statistik SS 2017

e) Lage und Streuung


Lagemaßzahlen
x̅ Mittelwert (arithmetisches Mittel x1 + x2 + ⋯ + xn zB Verlust durch krankheitsbedingte
x̅ = Ausfälle
bzw. Durchschnittwert) n
mittlerer Wert aus geordneter zB AN will wissen ob er eher selten
Q0,5 Median
Aufzählung der Werte ablesen oder oft im Krankenstand ist

Streuungsmaße
Abweichung der Daten vom Zentrum
der Verteilung d.h. Streuungsstärke
(mittlere quadratische Abweichung der
Daten vom Mittelwert)
Beispiel:
Mittelwert als Lagemaß

Varianz

zeigt Streuungsbreite (wie weit oder


Standardabweichung breit sind Daten um Mittelwert √𝑠 2 d.h. Varianz immer größer
gestreut)

Länge der zentralen Box des Boxplots


Lagemaß
Median

Interquartilsdistanz d.h. Länge des Intervalls das die


zentralen 50 % enthält (zB n/100*25 = Stelle des Q25)

Standardisierung - Standardscore
… Abstände zum Zentrum der Daten, gemessen im „Datenmaßstab“ d.h. in Standardabweichungen
Mittel 𝑧̅ = 0 und Standardabweichung sz = 1 // Mittelwert und Median = 0
keine Infos über Lage und Streuung der Daten d.h. nur Darstellung wie Gestalt, Identifikation
 1x Standardabweichung nach links und rechts zwischen -1 und 1 ungefähr 2/3
 2x Standardabweichungen nach links und rechts zwischen -2 und -2 ungefähr 95%
 3x Standardabweichungen nach links und rechts zwischen -3 und 3 ungefähr 99,5%
Kontrolle ob Boxplot Daten von Normalverteilung mit x̅ und s darstellt: Symmetrie, Mittelwert (= Median), Streuung (ca. 1x s)

Robustheit
robust = statistische Methoden, die wenig auf Ausreißer (weichen sehr stark ab oder fehlerhaft) reagieren
 Median (50 % Änderung), Interquartilsabstand (25 % Änderung): robust d.h. trotz Ausreißer gleicher/ ähnlicher Wert
 Mittelwert, Varianz, Standardabweichung: nicht robust d.h. sehr sensitiv ggü Ausreißern

Variationskoeffizient Quartilsdispersionskoeffizient
Misst die Relation der Streuung zum Mittelwert
Misst die Relation der Quartilsdistanz zum Median
Wie groß ist Standardabweichung im Vergleich zum Mittelwert?

QK > 1 starke Streuung QK < 1 schwache Streuung

Seite |6
PI – Statistik SS 2017

f) Gestalt von Verteilungen


Modalität = Gipfeligkeit
Modus = „meistbeobachteter“ Wert in einer Tabelle mit Kategorien
Unimodal (eingipfelig): Daten haben genau einen Modus (eine „Spitze“ im Histogramm  aus Boxplot nicht erkennbar)
Multimodal (mehrgipfelig): Daten haben mehr als einen Modus (mehrere „Spitzen“ im Histogramm)

Schiefe
Symmetrisch: Mittelwert und Median stimmen überein (Median ist das Symmetriezentrum)
Schief: Mittelwert und Median stimmen nicht überein (Seite wo mehr Platz ist zB rechts – rechtsschief)
Negativer SK: linksschief (Mittelwert links/kleiner Median)
Schiefekoeffizient  viele große Werte, wenig kleine
R = Q0,75 – Q0,5 rechter Teil der Box
L = Q0,5 – Q0,25 linker Teil der Box
Positiver SK: rechtsschief (Mittelwert rechts/größer Median)
 viele kleine Werte, wenig große

Gewichte in den Rändern (Kurtosis)


 Schwere Ränder (längere Enden als Normalverteilung): viele Beobachtungen liegen außerhalb Whiskers
 Leichte Ränder (kürzere Enden als Normalverteilung): viele Beobachtungen nahe Median, Box erscheint breit
 Ende annähernd wie Normalverteilung: Verhalten der Normalverteilung gilt als Referenz

Seite |7
PI – Statistik SS 2017

3) Testen und Schätzen von Anteilswerten


a) Prognoseintervall
bekannt: Anteil (Häufigkeit) eines Merkmals in Grundgesamtheit : relative Häufigkeit
geplant: Stichprobenerhebung der Größe n n: Stichprobengröße (Anzahl Beobachtungen in Stichprobe)
Prognoseintervall… Anteil des Merkmals, der in Stichprobe zu erwarten ist (meist statistische Sicherheit von 95% - 1,96)

Modell: dichotomes Merkmal X mit den zwei Ausprägungen a (besitzt Merkmal) und a‘ (besitzt Merkmal nicht)

Standardfehler SD der
(je höher n, desto geringer Standardabweichung und
relativen Häufigkeit fn (X = a)
engeres Konfidenzintervall d.h. präzisere Aussagen)
 Standardabweichung

zB für 95%-ige Wahrscheinlichkeit


zentraler Grenzwertsatz für  Restwahrscheinlichkeit ausrechnen und auf
standardisierte Variable beide Seiten verteilen zB 2,5 % = 0,025
 1 – 0,025 = 0,975 in Quantiltabelle links
nachschauen und Wert 1,96 ablesen
 in Formel einsetzen ergibt zwei Werte für
Grenzen des Intervalls
Bei Gültigkeit der Nullhypothese ist fn innerhalb des Prognoseintervalls.
Testproblem = Aufgabe zwischen Nullhypothese und Alternativhypothese zu entscheiden

b) Zweiseitige Testprobleme
Der zu untersuchende Effekt ist in beide Richtungen möglich
Hypothese = Annahme, die mit Methoden der math. Statistik auf Basis empirischer Daten geprüft wird

Ablauf des Testens von Hypothesen


 Aufstellen einer Vermutung (Null- Hypothese H0) und ihrer Verneinung (Alternativ- Hypothese HA oder H1)
 Festlegen der statistischen Sicherheit
 Berechnen des Prognoseintervalls für relative Häufigkeit unter Null- Hypothese (SD berechnen und einsetzen)
 Prüfen ob beobachtete Häufigkeiten im Prognoseintervall liegen
o JA: Daten widersprechen nicht den Annahmen  Beibehaltung der Null- Hypothese (nicht-
signifikant)
o NEIN: Daten widersprechen den Annahmen  signifikante Abweichung d.h. wählen Alternative

Ziel des statistischen Tests: Verwerfung von H0 und Bestätigung von HA (Abweichung in beide Richtungen möglich)
 testen H0 (zB θ = 0,7) gegen Ha (zB θ ≠ 0,7)

Das Beibehalten der Nullhypothese ist kein statistischer Beweis dafür,


dass sie richtig ist!

Das Verwerfen der Nullhypothese ist ein statistischer Beweis dafür, dass
sie falsch ist!

Seite |8
PI – Statistik SS 2017

Signifikanzniveau 
 Wahrscheinlichkeit, mit der die beobachteten Daten bei Gültigkeit der
Nullhypothese nicht in das Prognoseintervall fallen
 Wahrscheinlichkeit, beim Verwerfen der Nullhypothese einem Irrtum zu
unterliegen

Das Signifikanzniveau wird immer vom Statistiker vorgegeben

beobachtete relative Häufigkeit fn wird


standardisiert (T = Prüfgröße bzw. Teststatistik)
Teststatistik
 T liegt im Beibehaltungsbereich (1 - ) so fn = beobachteter Wert laut Umfrage, etc.
wird die Nullhypothese beibehalten θ0 = relative Häufigkeit (Wert den wir prüfen wollen)
Beibehaltungsbereich: Bereich, in den die Teststatistik bei Gültigkeit der Null-Hypothese mit
hoher (vom Statistiker vorgegebener) Wahrscheinlichkeit fällt
Verwerfungsbereich: Bereich jener Werte, die die Teststatistik bei Gültigkeit der
Nullhypothese nur mit sehr kleiner Wahrscheinlichkeit annimmt (=signifikantes Ergebnis)
Entscheidungs-
regeln
Kritische Werte
statische Sicherheit 99 %: ∝ = 1 % bzw. 0,5 % Abstand  zc = 2,58
statische Sicherheit 95 %: ∝ = 5 % bzw. 2,5 % Abstand  zc = 1,96 (~2)

c) Praktische Durchführung eines Tests


 Aufstellen von Nullhypothese + Alternativhypothese
 Festlegen des Signifikanzniveaus / Stichprobenumfang n/
Grenzen Beibehaltungsbereich (kritische Werte)
 Erheben der Daten
 Berechnen der Teststatistik
 Entscheidung (Ablehnen oder Beibehalten von H0 
Vergleich Ergebnis mit kritischen Werten)
 Interpretation des Ergebnisses

d) Fehlermöglichkeiten beim Testen


Die Entscheidung zur Beibehaltung oder Verwerfung der Nullhypothese kann richtig oder falsch sein.

Fehler 1. Art (- Fehler): Ablehnung der Nullhypothese, obwohl


sie richtig ist  Wahrscheinlichkeit ist  (Signifikanzniveau)
(richtige Hypothese fälschlicherweise verworfen  falsch 1 Mal)

Fehler 2. Art (𝛽- Fehler): Beibehalten der Nullhypothese,


obwohl sie falsch ist  Wahrscheinlichkeit ist unbekannt
(falsche Hypothese fälschlicherweise behalten  falsch 2 Mal)
Trennschärfe: Wahrscheinlichkeit mit der die falsche Null-
Hypothese verworfen wird (Wie gut kann zwischen H0 und HA
unterschieden werden?)
 umso größer, je größer n,  und Abstand θ (wahrer Parameter)
und θ0 (Parameter der Null- Hypothese) ist
 kann in Praxis nicht kontrolliert werden

Seite |9
PI – Statistik SS 2017

e) Einseitige Testprobleme
Der zu untersuchende Effekt ist nur in eine Richtung möglich (Testen, ob Anteil geringer/ größer als angegebener Wert ist)
linksseitiges Testproblem rechtsseitiges Testproblem

zu widerlegende Aussage = Null- Hypothese H0


zu beweisende Aussage (lt. Fragestellung) = Alternativ- Hypothese HA
0 was wir kontrollieren wollen / 00 was wir angegeben haben

kritische
Werte

standardisierte Zufallsgröße
(wie bei zweiseitigem Testproblem)

 Ergebnis mit kritischem Wert zB 1,96 fn = beobachteter Wert laut Umfrage, etc.
vergleichen für Entscheidung θ0 = relative, unterstellte Häufigkeit (Wert den wir prüfen wollen)
Beispiel:
Teststatistik

f) p-Wert
Kleinstes Signifikanzniveau bei dem die Nullhypothese verworfen wird (beobachtetes Signifikanzniveau der erhobenen Daten)
Berechnung des p-Wertes erspart ein Nachschlagen der kritischen Werte
Verteilungsfunktion: Kleine p-Werte (< 0,05)
 Datenmaterial spricht gegen Nullhypothese
 verwerfen (If the p is low, the null must go)
Im Allgemeinen gilt, dass HA angenommen wird
wenn der p-Wert sehr klein ist.

Große p-Werte ( 0,05)


 Datenmaterial ist mit der Nullhypothese
verträglich  beibehalten

Signifikanztest:
p-Wert < α ⇒signifikantes Ergebnis, H0 ablehnen
p-Wert ≥ α ⇒nicht signifikantes Ergebnis, H0 beibehalten

S e i t e | 10
PI – Statistik SS 2017

g) Konfidenzintervalle
Konfidenzintervall… welches Intervall den wahren Parameter mit einer gewissen Wahrscheinlichkeit überdeckt
bzw. gibt an, in welchem Intervall mit vorgegebener Wahrscheinlichkeit der wahre Anteil einer Verteilung
liegt, wenn ein Stichprobenanteil bekannt ist
 lediglich ein zufälliges Intervall d.h. keine sichere Auskunft über Lage des Parameters

unbekannte Wahrscheinlichkeit ist gegebene


Punkt-
relative Häufigkeit fn (SD hängt vom unbekannten
schätzung zB
Wert θ ab)
̂ schätzen,
SD durch geschätztes 𝜽
Bootstrap- Konfidenzintervall:
methode dank zentralem Grenzwertsatz in
Standardnormalverteilung einsetzen

(einfach SDmax verwenden)


unbekanntes SD wird maximal für θ = 0,5
Robuste robustes Konfidenzintervall:
Methode (Intervall meist größer als bei der Bootstrap-
Methode)

Beispiel Bootstrapmethode Beispiel robuste Methode

h) Versuchsplanung
Umfrage durchführen: Wie groß muss Stichprobe n sein, damit Konfidenzintervall für θ hinreichend klein ist?

𝑧𝑐 𝑧𝐵 1,96 2
n≥( )
𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 % 𝑧𝐵 0,01
Konfidenzinterval Länge höchstens ∆θ
l bei robuster
Methode

für jede Wahl der statistischen Sicherheit 1 - ∝ ist Länge des


Konfidenzintervalls indirekt proportional zu √n
√𝐧 - Gesetz
insbesondere gilt: damit Intervalllänge halbiert wird, muss
Stichprobenumfang vervierfacht werden

Testgröße berechnen signifikantes Ergebnis bei zweiseitigem Test

signifikantes Ergebnis bei links- bzw. rechtsseitigen Test


Stichprobengröße
für Tests auf
Anteile

S e i t e | 11
PI – Statistik SS 2017

4) Erwartungswert
a) Definition des Erwartungswerts
Erwartungswert = Mittelwert bei allen Beobachtungen (durch Gesetz der großen Zahlen kommt Wert dem tatsächlichen
Erwartungswert immer näher): E(X) =  (zB Würfel: 16 * 1 + 16 * 2 + 16 * 3 + 16 * 4 + 16 *5 + 16 * 6 = 3,5)

Erwartungswert einer ZG X ist: ) der langfristige Durchschnitt von unabhängigen Realisationen der ZG
) eine Lagemaßzahl für das Zentrum der Wahrscheinlichkeitsverteilung der ZG

Statistische Bestimmung: Ein Schätzer für den Erwartungswert ist μ̂ = x̅


Mathematische Bestimmung: Bei bekannter Wahrscheinlichkeitsverteilung kann Erwartungswert exakt
bestimmt werden

Zufallsschankungen des Mittelwerts ZG X mit Realisationen x1,x2,...,xn


Der Mittelwert x̅ der Realisationen schwankt von Stichprobe zu
Stichprobe zufällig um den Erwartungswert µ.
Der Mittelwert ist daher selbst eine Zufallsgröße. Bezeichnung: 𝐱̅
 In welcher Beziehung stehen µ und x̅?
 In welchem Bereich kann x̅ bei gegebenem µ schwanken?
 Welche Schlüsse kann man von x̅ über µ ziehen?

Standardisierter Mittelwert (annähernd standardnormalverteilt)


(Genauigkeit der Aussage steigt mit Stichprobenumfang n)

b) Prognoseintervall
mit Wahrscheinlichkeit 1 - ∝ gilt für standardisierte Größe approximativ (im Folgenden umgeformt)

1) SD berechnen (! ändert sich als einziges im Vergleich


zu bisher)  Standardabweichung des Mittelwerts

2) c bzw. N berechnen und in Quantiltabelle


nachschauen (gleiche Werte wie immer zB 95% = 1,96)

bzw.
3) Werte in Formel einsetzen, um Grenzen zu
erhalten

S e i t e | 12
PI – Statistik SS 2017

c) Schätzung des Erwartungswerts


Der Erwartungswert ist unbekannt und soll aus Daten geschätzt werden  Mittelwert 𝛍
̂ = 𝐱̅
Wie genau ist die Schätzung μ̂ ?  Konfidenzintervall KI

1) SD Standardfehler berechnen mit Sn – 1 als Schätzer


Schätzung der Varianz mit Stichprobenvarianz (begründet
durch Verschiebungssatz) 𝑛
Sn-1 = s2 * 𝑛−1 s = Standardabweichung
2) Schätzung des Konfidenzintervalls für unbekannten
Erwartungswert E(X) = 
statistische Sicherheit: lt. Überdeckungswahrscheinlichkeit 1 - ∝
Genauigkeit des KI: Länge des Intervalls
2
2
𝑧𝑐 𝑧𝐵 1,96∗√ 𝑠𝑛−1
Stichprobengröße berechnen n ≥ (𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 𝐺𝑒𝑛𝑎𝑢𝑖𝑔𝑘𝑒𝑖𝑡 𝜎 𝑧𝐵 2,5)

d) Testen von Hypothesen – Testtheorie


linksseitiges Testproblem rechtsseitiges Testproblem zweiseitiges Testproblem

HA: Wert wird unterschritten HA: Wert wird überschritten


zu widerlegende Aussage = Null- Hypothese H0
zu beweisende Aussage (lt. Fragestellung) = Alternativ- Hypothese HA
 was wir kontrollieren wollen / 0 was wir angegeben haben

3 Methoden zum Durchführung von Tests


) Prognoseintervalle

) Standardisierter Mittelwert als Testgröße (Ergebnis mit kritischen Wert vergleichen)

) p-Werte

Kritische Werte für Testgrößen für 5% Signifikanzniveau


linksseitig rechtsseitig

zweiseitig

Kritische Werte für wichtige Quantile Prognoseintervall Konfidenzintervall

gegeben: Erwartungswert  gegeben: Mittelwert x̅

S e i t e | 13

Das könnte Ihnen auch gefallen