0) Grundlagen .................................................................................................................................................... 2
a) Binomialverteilung ................................................................................................................................. 2
b) Normalverteilung ................................................................................................................................... 2
c) zentraler Grenzwertsatz ......................................................................................................................... 2
4) Erwartungswert .......................................................................................................................................12
a) Definition des Erwartungswerts ...........................................................................................................12
b) Prognoseintervall .................................................................................................................................12
c) Schätzung des Erwartungswerts ..........................................................................................................13
d) Testen von Hypothesen – Testtheorie .................................................................................................13
Seite |1
PI – Statistik SS 2017
0) Grundlagen
Prozente (Hunderstel), Promille (Tausendstel)
8 8
Gleitkommadarstellung verwenden zB 149.600.000 = 1.496 * 10 bzw. 1.496 e
Geradengleichung: y = ß0 + ß1 * x mit ß0 als additive Konstante d und ß1 als Steigung k
Ungleichungen: ) Multiplikation mit positiver Zahl/ streng monoton wachsend Ungleichung bleibt gleich
) Multiplikation mit negativer Zahl/ streng monoton fallend Ungleichung dreht sich um
< weniger ≤ höchstens > mehr ≥ mindestens
a) Binomialverteilung
Bernoulli- Experiment mit 2 möglichen Ausgängen
b) Normalverteilung
… wird durch Mittelwert (= Lageparameter) und Varianz (= Streuungsmaß) vollständig beschrieben
Varianz = Standardabweichung hoch 2 // Standardabweichung = Wurzel von Varianz Varianz ist höher
Mittelwert = Wert der bei vielen Realisierungen im Durchschnitt zu erwarten ist
Quantile: bei gegebener Wahrscheinlichkeit ablesen ACHTUNG bei größer 1 – Wahrscheinlichkeit nachschauen
Risiko (für großen Gewinn/ Verlust bei Renditen) nimmt mit Größe der Streuung/ Varianz zu
Standardisieren
Mittelwert ist immer 0 X in Formel einsetzen in Tabelle nachschauen (bei Intervall: größer – kleiner)
Varianz muss nicht immer 1 sein ACHTUNG bei > oder „kein Eintritt“ : 1 – Wert aus Tabelle
c) zentraler Grenzwertsatz
Seite |2
PI – Statistik SS 2017
1) Daten, Skalen
Aufgaben der Statistik technische Umsetzung mathematischer Methoden
Erhebung von Daten Microsoft Excel, SPSS/PASW
Auswertung von Daten R (interaktive Computerumgebung für Datenanalyse und Grafik, frei
Ergebnis einer Datenanalyse zB erhältlich unter GPL, leicht erweiterbar durch benutzerdefinierte
Tabellen, Diagramme, Maßzahlen Funktionen und Zusatzpakete, basiert auf der Sprache S)
d) Skalen
… numerische Kodierung eines Merkmals, bei der bestimmte Eigenschaften der Zahlenwerte mit
Eigenschaften des Werts korrespondieren beschreibt die Art, wie ein Wert eines Merkmals erfasst wird
Nominalskala =qualitative oder kategoriale Skala
Modus
Ausprägungen können unterschieden werden, weisen jedoch
Kreuztabelle
Kategoriale keine natürliche Rangfolge auf Ordnung nach Größe unmöglich
2
x - Test
Variable zB Geschlecht, Farbe, PLZ, Familienstand, Telefonvorwahl
(Qualitative Ordinalskala = Rangskala Nominalskala
Variable)
Reihenfolge der Variablen entspricht einer inhaltlich definierten Median
Reihenfolge der Ausprägungen mit sinnvoller Ordnung Quantil
zB Schulnoten, Güteklassen, Kritiken (gut – mittel – schlecht) Rangkorrelation
Ordinalskala
Intervallskala
Mittelwert
Differenzen/Abstände können sinnvoll interpretiert und exakt
Standardabweichung
gemessen werden kein absoluter Nullpunkt
Metrische (Pearson) Korrelation
zB Temperatur, Datumsangabe, Geburtsjahr, IQ T-Test, F-Test
Variable
(Quantitative Quotientenskala
Variable) Differenzen/ Quotienten können sinnvoll interpretiert werden, Intervallskala
Aussagen wie doppelt so viel, um x % mehr sind möglich geometrisches Mittel
absoluter Nullpunkt existiert % Veränderung
zB Größe, Gewicht, Alter, Meter/Liter/… Preis, Zählungen
Merksatz: NOM Nominalskala, Ordinalskala, metrische Skala
Seite |3
PI – Statistik SS 2017
2) Deskriptive Statistik
a) Kategorien und ihre Häufigkeiten
Die Variable X hat bei der Untersuchungseinheit i den Wert a Xi = a
Absolute Häufigkeit h h (X = a) Summe = n Anzahl der Daten
ℎ(𝑋=𝑎)
Relative Häufigkeit f 𝑓(𝑋 = 𝑎) = 𝑛
Summe = 1 Anteil in % an Stichprobenumfang
Darstellung: Häufigkeitstabelle, Balkendiagramm, Tortendiagramm (nur für relative Häufigkeiten)
Darstellung von metrischen Variablen: komplexer als kategoriale Variablen da sie mehr Info enthalten
Darstellung abhängig von Zweck (Verteilungsmaßzahlen): Lage und meistbeobachtete Werte (= Modi),
starke/ schwache Streuung, Symmetrie/ Asymmetrie (= Schiefe), Gewicht in den Rändern, Ausreißer
X- Achse: Anteile bzw. Variablen // Y-Achse: Prozent bzw. Quantile Fn(X) Werte zwischen 0 -1
Werte < kleinster Wert zB 2 = 0 // alle Werte > größter Wert zB 7 = 1 (Berechnung Zwischenwert: großer Wert – kleiner Wert)
Beispiel:
Verdichtung der Datenlisten führt zu einem Informationsverlust,
jedoch auch zu Übersicht
Skalenniveau eines Merkmals wird reduziert d.h. metrisches
Merkmal wird durch kategorielles ersetzt
Seite |4
PI – Statistik SS 2017
Histogramm
Darstellung von Häufigkeiten durch Flächeninhalte (Flächeninhalt = relative Häufigkeit)
Summe aller Balkenflächen = 1 (da Summe relative Häufigkeiten) und Höhe d ist die Datendichte
𝐟 (relative Häufigkeit)
d= abgeleitet von relative Häufigkeit f = Höhe * Breite (Intervallabstand zB oben 11)
Breite des Intervalls
Ränge
Rang(x) = k + 1 Beispiel:
wenn k Beobachtungen kleiner als x sind
Quantil
… teilt Daten in zwei Teile im Verhältnis : 1 - (für jeden Prozentsatz, Gegenwahrscheinlichkeit bei >)
Fünft-Punkt-Zusammenfassung: Q0: Min Q0,25: Unteres Quartil Q0,5: Median Q0,75: Oberes Quartil Q1: Max
grafische Darstellung ist Boxplot (in Box liegen 50 % der Daten)
Seite |5
PI – Statistik SS 2017
Streuungsmaße
Abweichung der Daten vom Zentrum
der Verteilung d.h. Streuungsstärke
(mittlere quadratische Abweichung der
Daten vom Mittelwert)
Beispiel:
Mittelwert als Lagemaß
Varianz
Standardisierung - Standardscore
… Abstände zum Zentrum der Daten, gemessen im „Datenmaßstab“ d.h. in Standardabweichungen
Mittel 𝑧̅ = 0 und Standardabweichung sz = 1 // Mittelwert und Median = 0
keine Infos über Lage und Streuung der Daten d.h. nur Darstellung wie Gestalt, Identifikation
1x Standardabweichung nach links und rechts zwischen -1 und 1 ungefähr 2/3
2x Standardabweichungen nach links und rechts zwischen -2 und -2 ungefähr 95%
3x Standardabweichungen nach links und rechts zwischen -3 und 3 ungefähr 99,5%
Kontrolle ob Boxplot Daten von Normalverteilung mit x̅ und s darstellt: Symmetrie, Mittelwert (= Median), Streuung (ca. 1x s)
Robustheit
robust = statistische Methoden, die wenig auf Ausreißer (weichen sehr stark ab oder fehlerhaft) reagieren
Median (50 % Änderung), Interquartilsabstand (25 % Änderung): robust d.h. trotz Ausreißer gleicher/ ähnlicher Wert
Mittelwert, Varianz, Standardabweichung: nicht robust d.h. sehr sensitiv ggü Ausreißern
Variationskoeffizient Quartilsdispersionskoeffizient
Misst die Relation der Streuung zum Mittelwert
Misst die Relation der Quartilsdistanz zum Median
Wie groß ist Standardabweichung im Vergleich zum Mittelwert?
Seite |6
PI – Statistik SS 2017
Schiefe
Symmetrisch: Mittelwert und Median stimmen überein (Median ist das Symmetriezentrum)
Schief: Mittelwert und Median stimmen nicht überein (Seite wo mehr Platz ist zB rechts – rechtsschief)
Negativer SK: linksschief (Mittelwert links/kleiner Median)
Schiefekoeffizient viele große Werte, wenig kleine
R = Q0,75 – Q0,5 rechter Teil der Box
L = Q0,5 – Q0,25 linker Teil der Box
Positiver SK: rechtsschief (Mittelwert rechts/größer Median)
viele kleine Werte, wenig große
Seite |7
PI – Statistik SS 2017
Modell: dichotomes Merkmal X mit den zwei Ausprägungen a (besitzt Merkmal) und a‘ (besitzt Merkmal nicht)
Standardfehler SD der
(je höher n, desto geringer Standardabweichung und
relativen Häufigkeit fn (X = a)
engeres Konfidenzintervall d.h. präzisere Aussagen)
Standardabweichung
b) Zweiseitige Testprobleme
Der zu untersuchende Effekt ist in beide Richtungen möglich
Hypothese = Annahme, die mit Methoden der math. Statistik auf Basis empirischer Daten geprüft wird
Ziel des statistischen Tests: Verwerfung von H0 und Bestätigung von HA (Abweichung in beide Richtungen möglich)
testen H0 (zB θ = 0,7) gegen Ha (zB θ ≠ 0,7)
Das Verwerfen der Nullhypothese ist ein statistischer Beweis dafür, dass
sie falsch ist!
Seite |8
PI – Statistik SS 2017
Signifikanzniveau
Wahrscheinlichkeit, mit der die beobachteten Daten bei Gültigkeit der
Nullhypothese nicht in das Prognoseintervall fallen
Wahrscheinlichkeit, beim Verwerfen der Nullhypothese einem Irrtum zu
unterliegen
Seite |9
PI – Statistik SS 2017
e) Einseitige Testprobleme
Der zu untersuchende Effekt ist nur in eine Richtung möglich (Testen, ob Anteil geringer/ größer als angegebener Wert ist)
linksseitiges Testproblem rechtsseitiges Testproblem
kritische
Werte
standardisierte Zufallsgröße
(wie bei zweiseitigem Testproblem)
Ergebnis mit kritischem Wert zB 1,96 fn = beobachteter Wert laut Umfrage, etc.
vergleichen für Entscheidung θ0 = relative, unterstellte Häufigkeit (Wert den wir prüfen wollen)
Beispiel:
Teststatistik
f) p-Wert
Kleinstes Signifikanzniveau bei dem die Nullhypothese verworfen wird (beobachtetes Signifikanzniveau der erhobenen Daten)
Berechnung des p-Wertes erspart ein Nachschlagen der kritischen Werte
Verteilungsfunktion: Kleine p-Werte (< 0,05)
Datenmaterial spricht gegen Nullhypothese
verwerfen (If the p is low, the null must go)
Im Allgemeinen gilt, dass HA angenommen wird
wenn der p-Wert sehr klein ist.
Signifikanztest:
p-Wert < α ⇒signifikantes Ergebnis, H0 ablehnen
p-Wert ≥ α ⇒nicht signifikantes Ergebnis, H0 beibehalten
S e i t e | 10
PI – Statistik SS 2017
g) Konfidenzintervalle
Konfidenzintervall… welches Intervall den wahren Parameter mit einer gewissen Wahrscheinlichkeit überdeckt
bzw. gibt an, in welchem Intervall mit vorgegebener Wahrscheinlichkeit der wahre Anteil einer Verteilung
liegt, wenn ein Stichprobenanteil bekannt ist
lediglich ein zufälliges Intervall d.h. keine sichere Auskunft über Lage des Parameters
h) Versuchsplanung
Umfrage durchführen: Wie groß muss Stichprobe n sein, damit Konfidenzintervall für θ hinreichend klein ist?
𝑧𝑐 𝑧𝐵 1,96 2
n≥( )
𝑔𝑒𝑤ü𝑛𝑠𝑐ℎ𝑡𝑒 % 𝑧𝐵 0,01
Konfidenzinterval Länge höchstens ∆θ
l bei robuster
Methode
S e i t e | 11
PI – Statistik SS 2017
4) Erwartungswert
a) Definition des Erwartungswerts
Erwartungswert = Mittelwert bei allen Beobachtungen (durch Gesetz der großen Zahlen kommt Wert dem tatsächlichen
Erwartungswert immer näher): E(X) = (zB Würfel: 16 * 1 + 16 * 2 + 16 * 3 + 16 * 4 + 16 *5 + 16 * 6 = 3,5)
Erwartungswert einer ZG X ist: ) der langfristige Durchschnitt von unabhängigen Realisationen der ZG
) eine Lagemaßzahl für das Zentrum der Wahrscheinlichkeitsverteilung der ZG
b) Prognoseintervall
mit Wahrscheinlichkeit 1 - ∝ gilt für standardisierte Größe approximativ (im Folgenden umgeformt)
bzw.
3) Werte in Formel einsetzen, um Grenzen zu
erhalten
S e i t e | 12
PI – Statistik SS 2017
) p-Werte
zweiseitig
S e i t e | 13