Sie sind auf Seite 1von 13

1.

Univariate Statistik
Quantile
Interquartilsabstand: IQR=Q3 −Q1
Q 1=25 % der Realisationen sind kleiner oder gleich dem erstem Quartilwert
Q 2=50 % der Realisationen sind kleiner oder gleich dem zweitenQuartilwert
Q 3=75 % der Realisationen sind kleiner oder gleich demdrittenQuartilwert
Q 4=100 % der Realisationen sind kleiner oder gleich dem vierten Quartilwert
Quantile bei gruppierten Daten

Kumulierte Prozente: cp k ; Quantilklasse: k ; Obergrenze der Quantilklasse: o k ;


( α −cp k−1)
Summenkurve: Qα =ok−1 + ∗( o k −o k−1 )
pk
Streuungsmaße

x n +x
(2 ) ( n+12 )
Median : bei gerader Fallzahl: ~
x= bei ungerader Fallzahl: ~
x=x
2 ( n+2 1 )
n
1
arithmetisches Mittel: Bei Stichproben: x= ∑ x i Bei der Gesamtpopulation: μ
n i =1
Spannweite / Range: R=xmax −x min

n
Variation: SS x =∑ (x i−x ¿ )² ¿
i=1
SS x
Varianz: s2x =
n
Standardabweichung: s x =√ s 2x =
sx
√ SS x
n
=σ X

Variationskoeffizient: V x=
x
x−x
z-Transformation: z=
sx

Schiefekoeffizient:
n
1

n i=1
( x i−x )3
= y ∴ y >0−≫ rechtssch. ; y=0−≫ symmetrisch ; y< 0−≫ linksschief
S3x
Beachte: linksschief = rechtssteil ; rechtsschief=linkssteil

n
1
Gipfel Steilheit / Wölbung:

n i=1
( x i−x )
4

4
−3= y
Sx
∴ y> 0−≫ steilgipflig . ; y=0−≫normalvert . ; y <0−≫ flachgipflig
k
Devianz: D x =−2 ∑ ln ( pk ) ×n k
k=1
D
Relative Devianz: d x= x
n
Beachte: die Devianz ist ein übliches Streuungsmaß für nominal skalierte Variablen!
2. Schätzen und Schließen auf Basis von Wahrscheinlichkeiten
Aussagenlogik
Negation / komplementär: ¬ Beispiel: A≠¬ A
Konjunktion (AND): A∧B A und B
Adjunktion (OR): A∨B A oder B oder beide
Kontravalenz (XOR): A ∨˙ B Entweder A oder B
Mengenlehre
Vereinigungsmenge: A ∪B ∪C Die Vereinigungsmenge enthält alle Elemente.
Schnittmenge: A ∩ B∩ C Enthält nur die Elemente, die zu allen Mengen gleichermaßen gehören.
Differenzmenge: A¿ ¿ A−( A ∩ B ) Also: Menge A ohne die Menge B
Ereignisraum /Universum: Ω Beispielsweise die Menge aller Ergebnisse eines Zufallsexperiments
Wahrscheinlichkeiten
Wahrscheinlichkeit „P“ von Ereignissen: P ( Ω )=1
Gegebenes Ereignis: P ( D|C ) Wahrscheinlichkeit von D gegeben C
Disjunktion: Zwei Ereignisse sind disjunkt, wenn sie kein gemeinsames Element enthalten.
Leere Menge: {} geschweifte Klammern geben Mengen an. Leere Klammern = leere Menge
Additionstheorem: P ( A ∪ B ) =P ( A )+ P ( B )−P ( A ∩B )
P( B ∩ A)
Bedingte Wahrscheinlichkeit: P ( B| A )=
P ( A)
Multiplikationstheorem: P ( A ∩ B )=P ( B| A ) × P ( A ) =P ( A|B ) × P ( B );Oder unabhängig:
P ( A ∩ B )=P ( A ) × P ( B )
3. Urnenmodelle
Population: N
Ausgewählte Elemente: n
n
N N! ( N− (i −1 ))
Produktformel: = =∏ Das Produkt Π multipliziert, wo die Summe Σ
n ( N −n ) ! ×n ! i=1 i
addieren würde.
Baumdiagramme ohne zurücklegen, mit Berücksichtigung der Reihenfolge
V n =N × ( N −1 ) × ( N −2 ) ×… × ( N −( n−1 ) )
❑ o h ne
Variationen: N
N sind die Elemente, also die Möglichkeiten im ersten Schritt; n gibt die Anzahl der Schritte
an.

Wenn alle Elemente ausgewählt werden, dann ist die Anzahl der Permutationen N V n =P N =N !
1
Wahrscheinlichkeit: P ( Stichprobe ) = ❑
NV n
Baumdiagramme mit zurücklegen, mit Berücksichtigung der Reihenfolge
❑ mit n
Variationen: N V n =N
1 −n
Wahrscheinlichkeit: P ( Stichprobe ) = n
=N
N
Baumdiagramme ohne zurücklegen, ohne Berücksichtigung der Reihenfolge
❑ ohne N N!
Variationen: N Kn = = Die Kombinationen ohne Zurücklegen sind N über n .
n ( N−n ) ! × n !
n
Merke: Dies ist der Binomialkoeffizient für nichtnegative ganze Zahlen mit n ≥ k
k
1
P ( Stichprobe ) =
Wahrscheinlichkeit: N
n
Baumdiagramme mit zurücklegen, ohne Berücksichtigung der Reihenfolge
❑ N +n−1= ( N +n−1 ) !
Variationen: NK mit
n =
n ( N + n−1−n ) ! ×n !
1 1
P ( Stichprobe ) = =
Wahrscheinlichkeit: N +n−1 ( N +n−1 ) !
n ( N +n−1−n ) ! × n !
4. Diskrete Verteilungen
Binomialverteilung (mit zurücklegen, ohne b. d. Reihenfolge)
Diskrete Verteilung: Die Binomialverteilung hat zählbare Ausprägungen und ist deshalb eine diskrete Verteilung.
Zwei Ergebnisse: Binomialverteilung beschreibt Versuche die zwei mögliche Ergebnisse haben, mit zurücklegen.
n k n−k
Binomialformel: bin n , p ( k ) =b ( n ; p ; k )= × p ×(1− p) Erfolgswahrscheinlichkeit p; Erfolge
k
k
1
Beispiel: Wie hoch ist P für (in 3 Würfelwürfen 2-mal vier Augen zu würfeln)? n=3 ; p= ; k=2
6
Hypergeometrische Verteilung (ohne zurücklegen, ohne b. d. Reihenfolge)
Diskrete Verteilung: Hypergeometrische Verteilung hat eine diskrete Zufallsvariable mit zählbaren Ausprägungen.
Gewünschte Eigenschaft: Sie gibt Auskunft mit welcher Wahrscheinlichkeit in der Stichprobe eine bestimmte Anzahl von
Elementen vorkommt, die eine bestimmte gewünschte Eigenschaft aufweisen.
R N −R R N −R
× ×
r n−r X n−X
Hypergeometrische Formel: hyp (r , n , R , N )= P ( X )=hyp( X ,n , R , N )=
N N
n n
Dabei ist: N Die Anzahl der Population (Kugeln),
R ist die Anzahl der gesuchten Eigenschaft in der Population (gelbe Kugeln),
n ist die Anzahl der ausgewählten (gezogenen) Elemente,
r ist die gesuchte Anzahl (genau x gelbe Kugeln).

Designbasierter Ansatz
Wann nutzt man ihn? Für präzise Schätzungen eines Stichprobenmittelwerts orientiert man sich am Urnendesign
bzw. Ziehungsdesign.
Wie nutzt man ihn? Anwendung der Hypergeometrischen Verteilung: Die Schätzer sind maximal exakt, da sie dem
Ziehungsdesign entsprechen. Aber: unhandliche Formel und je nach Größe der
Grundgesamtheit andere Schätzer benötigt. Die Größe der Grundgesamtheit muss exakt sein.
Modellbasierter Ansatz
Wann nutzt man ihn? Für effiziente Schätzungen mit Toleranz für (geringe) Ungenauigkeiten. Bei Stichproben wo
n<20 % von N ist, ist der Unterschied zwischen zurücklegen und nicht-zurücklegen
vernachlässigbar.
Wie nutzt man ihn? Es wird bewusst ein falscher Ansatz verwendet, eine Approximation mit der Binomialverteilung
beispielsweise. Bei kleinen Grundgesamtheiten ist dieser Ansatz jedoch zu ungenau. Die
Approximation der Binomialverteilung, wird über die Normalverteilung berechnet.
5. Stetige Verteilungen
Normalverteilung
Erwartungswert: μ= E ( x )=n× p bei negativem Wert: Realisationen ¿ 0

Standardabweichung: σ =√ Var ( x)=√ n⋅ p ⋅(1− p)=


X −μ x−x
√ SS x
n
Standardnormalverteilung: z= = Bei Standardnormalverteilung μ=0 und σ =1
2
σ sx
q α −μ X
zα=
σX
Kennzeichen v. Normalvert.: Modus = Median = Erwartungswert. 68,26% aller Realisationen sind ± 1 σ entfernt.
P ( μ−2 ⋅ σ ⩽ X ⩽ μ+2 ⋅ σ ) ≈ 0,954 ⇒ 95,44% aller Realisationen sind ± 2 σ entfernt.
P ( μ−3 ⋅ σ ⩽ X ⩽ μ+3 ⋅ σ ) ≈ 0,997 ⇒ 99,72% aller Realisationen sind ± 3 σ entfernt.
6. Einfache Zufallsauswahl und Standardfehler SE
Bei einfachr Zufallsauswahl: b. e. Z.a. ; Alle Elemente und Stichproben haben gleiche Chance ausgewählt zu werden.

Allgemeines: Je größer Stichprobe n , desto kleiner SE ; je kleiner SE, desto genauer die Schätzung

√ √
n
n 1
Populationsstand.abweich.: σ^ x = × s 2x = × ∑ (x −x ¿)² ¿
n−1 n−1 i=1 i


2
σ^
x σ^
Geschätzter Standardfehler: σ^ x = =
n √n
Definitionen: Schätzer = Schätzstatistik sind Variablen.
Eine Schätzung ist eine Ausprägung dieser Variable.
Prüfgröße = Teststatistik sind andere Variablen

Ablehnungsbereich: Teststatistik im kritischen Bereich = Teststatistik signifikant = Nullhypothese abgelehnt.


6.1 Punktschätzung
Allgemeine Notation: Theta θ ist allgemein der gesuchte Parameter, mit einem unbekannten festen Wert. Dieser
^.
soll geschätzt werden mit dem Schätzer Theta Dach θ
Schätzung von Populationsanteilen
Populationsanteil: Tatsächlicher Populationsanteil π x wird oft durch den geschätzten Populationsanteil p x
ersetzt.
Populationsstandardabweichung: σ X ist die (unbekannte) Populationsstandardabweichung
N1
Erwartungstreue: Erwartungswert eines Stichprobenanteils µ( p1)=π 1=
N
Konsistenz: Standardfehler σ der Kennwerteverteilung geht gegen 0 wenn die Stichprobe n größer wird.

Standardfehler (b. e. Za.): mit Zurücklegen: σ ( p ) =


1

π 1 ×(1−π 1 )
n
ohne Zurücklegen:

σ ( p1 ) =
√ π 1 ×(1−π 1 ) N−n
n
×
N −1
Geschätzter Standardfehler: mit Zurücklegen: σ^ ( p1 ) =
√ p1 ×(1−p 1)
n
ohne Zurücklegen:

σ^ ( p1 ) =
√ p1 ×(1−p 1) N −n
n
×
N −1
Schätzung von Populationsmittelwerten


2
σx σx
Standardfehler (b. e. Za.): mit zurücklegen: σ ( x )= = ohne Zurücklegen
n √n

√ √
2
σ x N −n σ x N−n
¿ × = ×
n N −1 √ n N−1
Erwartungstreue: Erwartungswert d. Kennwerteverteilung μ( x ) ist gleich d. Erwartungswert μ x in d.
Population
Schätzung von Populationsvarianzen und -standardabweichungen
n S Sx 1
n
Populationsvarianz: ^ x =s x ×
Erwartungstreuer Schätzer σ
2 2
= = × ∑ (x¿¿ i−x ) ² ¿
n−1 n−1 n−1 i=1

√ √
n
n 1
Populationsstand.abweich.: σ^ x = × s 2x = × ∑ (x −x ¿)² ¿
n−1 n−1 i=1 i
6.2 Intervallschätzung
Konfidenzintervalle für Mittelwerte
Vorraussetzungen für z: Variable X i. d. Population normalverteilt und Standardabweichung i. d. Population bekannt.
σX
Konfidenzintervall z: c .i . ( μ X ) =x ± ×z
√n 1−
α
2
Vorraussetzungen für t: σ x ist unbekannt. Wenn statt Populations-SA die geschätzte SA verwendet wird. df =n−1
σ^ x sx
Konfidenzintervall t: c .i . ( μ X ) =x ± σ^ (x) ×t α =x ± ×t α =x ± ×t  
df ;1−
2 √ n df ;1− 2 √ n−1 df ;1− α2
T-Verteilung
Anwendung: Bei Fallzahlen n<120 muss sie genutzt werden. Sie ersetzt dann die Normalverteilung.

Für jeden Freiheitsgrad df gibt es eine T-Verteilung. lim df ⟹Standardnormalverteilung


df → ∞
Konfidenzintervalle für Anteile
p1 1− p1
Bedingungen: a) n× >9 und b) n× >9 und c) n> 60
1− p1 p1

Konfidenzintervall π 1:

c .i . ( π 1) = p1 ± p1 ×
1−p 1
n
×z α
1−
2

Berechnung der benötigten Fallzahl n für ein gewünschtes Intervall, bei gegegebener Intervall-
Länge: d einer gegebenen Irrtumswahrscheinlichkeit α und einem gegebenen
Populationsanteil π findet sich die optimale Stichprobenfallzahl mit:
π 1 ×1−π 1
Stichprobenumfang: n=4 × z 2 α ×
1−
2 d2

Hypothesentest
Basics:
H 0=Gegen h ypot h ese H 1=Forsc hungs h ypot h ese ; α =Signifikanzniveau
Rechtsseitiger Test(max.): Große Werte sprechen gegen H 0 und für H 1
Linksseitiger Test (min.): Kleine Teststatistik spricht gegen H 0
Hierbei gilt p pro ist der % Anteil in
der Stichprobe und π ist der geteste
Anteil in der Population
Beachten: nur bein über120=Normalverteilung
Sonst T-verteilung
Teststatistik wird aus Tabelle abgelesen.
Schritt 4: Teststatistik ¿ krit. Wert? → H 0 ablehnen sonstH 1ablehnen
Beidseitiger Test: Sehr kleine und sehr große Werte sprechen gegen die H 0 und für die H 1
α
Bei beidseitigem Test beachten, dass mit gerechnet wird und nicht mit α
2
Bivariate Statistik
Mittelwertvergleiche

Varianzgleichheit:

Teststatistik bei ungleichen Varianzen:

Für unabhängige Stichproben

Freiheitsgrade bei ungleichen Varianzen:

Für unabhängige Stichproben

Teststatistik bei gleichen Varianzen:

Für unabhängige Stichproben

Freiheitsgrade bei gleichen Varianzen:

Teststatistik Für abhängige Stichproben:

Freiheitsgrade bei abhängigen Stichprb: df =n−1

Kovarianz

Kovariation

Produkt-Moment Korrelation
Korrelation Hypothersentest exp bedeutet eulersche Zahl e=2,718 hoch das was in der Klammer ist

LINEARE REGRESSION (Kausalität)


Stabdiagramm: Histogramm:

Kern-Dichte-Schätzer: Boxplot:

Das könnte Ihnen auch gefallen