Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
Univariate Statistik
Quantile
Interquartilsabstand: IQR=Q3 −Q1
Q 1=25 % der Realisationen sind kleiner oder gleich dem erstem Quartilwert
Q 2=50 % der Realisationen sind kleiner oder gleich dem zweitenQuartilwert
Q 3=75 % der Realisationen sind kleiner oder gleich demdrittenQuartilwert
Q 4=100 % der Realisationen sind kleiner oder gleich dem vierten Quartilwert
Quantile bei gruppierten Daten
x n +x
(2 ) ( n+12 )
Median : bei gerader Fallzahl: ~
x= bei ungerader Fallzahl: ~
x=x
2 ( n+2 1 )
n
1
arithmetisches Mittel: Bei Stichproben: x= ∑ x i Bei der Gesamtpopulation: μ
n i =1
Spannweite / Range: R=xmax −x min
n
Variation: SS x =∑ (x i−x ¿ )² ¿
i=1
SS x
Varianz: s2x =
n
Standardabweichung: s x =√ s 2x =
sx
√ SS x
n
=σ X
Variationskoeffizient: V x=
x
x−x
z-Transformation: z=
sx
Schiefekoeffizient:
n
1
∑
n i=1
( x i−x )3
= y ∴ y >0−≫ rechtssch. ; y=0−≫ symmetrisch ; y< 0−≫ linksschief
S3x
Beachte: linksschief = rechtssteil ; rechtsschief=linkssteil
n
1
Gipfel Steilheit / Wölbung:
∑
n i=1
( x i−x )
4
4
−3= y
Sx
∴ y> 0−≫ steilgipflig . ; y=0−≫normalvert . ; y <0−≫ flachgipflig
k
Devianz: D x =−2 ∑ ln ( pk ) ×n k
k=1
D
Relative Devianz: d x= x
n
Beachte: die Devianz ist ein übliches Streuungsmaß für nominal skalierte Variablen!
2. Schätzen und Schließen auf Basis von Wahrscheinlichkeiten
Aussagenlogik
Negation / komplementär: ¬ Beispiel: A≠¬ A
Konjunktion (AND): A∧B A und B
Adjunktion (OR): A∨B A oder B oder beide
Kontravalenz (XOR): A ∨˙ B Entweder A oder B
Mengenlehre
Vereinigungsmenge: A ∪B ∪C Die Vereinigungsmenge enthält alle Elemente.
Schnittmenge: A ∩ B∩ C Enthält nur die Elemente, die zu allen Mengen gleichermaßen gehören.
Differenzmenge: A¿ ¿ A−( A ∩ B ) Also: Menge A ohne die Menge B
Ereignisraum /Universum: Ω Beispielsweise die Menge aller Ergebnisse eines Zufallsexperiments
Wahrscheinlichkeiten
Wahrscheinlichkeit „P“ von Ereignissen: P ( Ω )=1
Gegebenes Ereignis: P ( D|C ) Wahrscheinlichkeit von D gegeben C
Disjunktion: Zwei Ereignisse sind disjunkt, wenn sie kein gemeinsames Element enthalten.
Leere Menge: {} geschweifte Klammern geben Mengen an. Leere Klammern = leere Menge
Additionstheorem: P ( A ∪ B ) =P ( A )+ P ( B )−P ( A ∩B )
P( B ∩ A)
Bedingte Wahrscheinlichkeit: P ( B| A )=
P ( A)
Multiplikationstheorem: P ( A ∩ B )=P ( B| A ) × P ( A ) =P ( A|B ) × P ( B );Oder unabhängig:
P ( A ∩ B )=P ( A ) × P ( B )
3. Urnenmodelle
Population: N
Ausgewählte Elemente: n
n
N N! ( N− (i −1 ))
Produktformel: = =∏ Das Produkt Π multipliziert, wo die Summe Σ
n ( N −n ) ! ×n ! i=1 i
addieren würde.
Baumdiagramme ohne zurücklegen, mit Berücksichtigung der Reihenfolge
V n =N × ( N −1 ) × ( N −2 ) ×… × ( N −( n−1 ) )
❑ o h ne
Variationen: N
N sind die Elemente, also die Möglichkeiten im ersten Schritt; n gibt die Anzahl der Schritte
an.
❑
Wenn alle Elemente ausgewählt werden, dann ist die Anzahl der Permutationen N V n =P N =N !
1
Wahrscheinlichkeit: P ( Stichprobe ) = ❑
NV n
Baumdiagramme mit zurücklegen, mit Berücksichtigung der Reihenfolge
❑ mit n
Variationen: N V n =N
1 −n
Wahrscheinlichkeit: P ( Stichprobe ) = n
=N
N
Baumdiagramme ohne zurücklegen, ohne Berücksichtigung der Reihenfolge
❑ ohne N N!
Variationen: N Kn = = Die Kombinationen ohne Zurücklegen sind N über n .
n ( N−n ) ! × n !
n
Merke: Dies ist der Binomialkoeffizient für nichtnegative ganze Zahlen mit n ≥ k
k
1
P ( Stichprobe ) =
Wahrscheinlichkeit: N
n
Baumdiagramme mit zurücklegen, ohne Berücksichtigung der Reihenfolge
❑ N +n−1= ( N +n−1 ) !
Variationen: NK mit
n =
n ( N + n−1−n ) ! ×n !
1 1
P ( Stichprobe ) = =
Wahrscheinlichkeit: N +n−1 ( N +n−1 ) !
n ( N +n−1−n ) ! × n !
4. Diskrete Verteilungen
Binomialverteilung (mit zurücklegen, ohne b. d. Reihenfolge)
Diskrete Verteilung: Die Binomialverteilung hat zählbare Ausprägungen und ist deshalb eine diskrete Verteilung.
Zwei Ergebnisse: Binomialverteilung beschreibt Versuche die zwei mögliche Ergebnisse haben, mit zurücklegen.
n k n−k
Binomialformel: bin n , p ( k ) =b ( n ; p ; k )= × p ×(1− p) Erfolgswahrscheinlichkeit p; Erfolge
k
k
1
Beispiel: Wie hoch ist P für (in 3 Würfelwürfen 2-mal vier Augen zu würfeln)? n=3 ; p= ; k=2
6
Hypergeometrische Verteilung (ohne zurücklegen, ohne b. d. Reihenfolge)
Diskrete Verteilung: Hypergeometrische Verteilung hat eine diskrete Zufallsvariable mit zählbaren Ausprägungen.
Gewünschte Eigenschaft: Sie gibt Auskunft mit welcher Wahrscheinlichkeit in der Stichprobe eine bestimmte Anzahl von
Elementen vorkommt, die eine bestimmte gewünschte Eigenschaft aufweisen.
R N −R R N −R
× ×
r n−r X n−X
Hypergeometrische Formel: hyp (r , n , R , N )= P ( X )=hyp( X ,n , R , N )=
N N
n n
Dabei ist: N Die Anzahl der Population (Kugeln),
R ist die Anzahl der gesuchten Eigenschaft in der Population (gelbe Kugeln),
n ist die Anzahl der ausgewählten (gezogenen) Elemente,
r ist die gesuchte Anzahl (genau x gelbe Kugeln).
Designbasierter Ansatz
Wann nutzt man ihn? Für präzise Schätzungen eines Stichprobenmittelwerts orientiert man sich am Urnendesign
bzw. Ziehungsdesign.
Wie nutzt man ihn? Anwendung der Hypergeometrischen Verteilung: Die Schätzer sind maximal exakt, da sie dem
Ziehungsdesign entsprechen. Aber: unhandliche Formel und je nach Größe der
Grundgesamtheit andere Schätzer benötigt. Die Größe der Grundgesamtheit muss exakt sein.
Modellbasierter Ansatz
Wann nutzt man ihn? Für effiziente Schätzungen mit Toleranz für (geringe) Ungenauigkeiten. Bei Stichproben wo
n<20 % von N ist, ist der Unterschied zwischen zurücklegen und nicht-zurücklegen
vernachlässigbar.
Wie nutzt man ihn? Es wird bewusst ein falscher Ansatz verwendet, eine Approximation mit der Binomialverteilung
beispielsweise. Bei kleinen Grundgesamtheiten ist dieser Ansatz jedoch zu ungenau. Die
Approximation der Binomialverteilung, wird über die Normalverteilung berechnet.
5. Stetige Verteilungen
Normalverteilung
Erwartungswert: μ= E ( x )=n× p bei negativem Wert: Realisationen ¿ 0
Allgemeines: Je größer Stichprobe n , desto kleiner SE ; je kleiner SE, desto genauer die Schätzung
√ √
n
n 1
Populationsstand.abweich.: σ^ x = × s 2x = × ∑ (x −x ¿)² ¿
n−1 n−1 i=1 i
√
2
σ^
x σ^
Geschätzter Standardfehler: σ^ x = =
n √n
Definitionen: Schätzer = Schätzstatistik sind Variablen.
Eine Schätzung ist eine Ausprägung dieser Variable.
Prüfgröße = Teststatistik sind andere Variablen
σ ( p1 ) =
√ π 1 ×(1−π 1 ) N−n
n
×
N −1
Geschätzter Standardfehler: mit Zurücklegen: σ^ ( p1 ) =
√ p1 ×(1−p 1)
n
ohne Zurücklegen:
σ^ ( p1 ) =
√ p1 ×(1−p 1) N −n
n
×
N −1
Schätzung von Populationsmittelwerten
√
2
σx σx
Standardfehler (b. e. Za.): mit zurücklegen: σ ( x )= = ohne Zurücklegen
n √n
√ √
2
σ x N −n σ x N−n
¿ × = ×
n N −1 √ n N−1
Erwartungstreue: Erwartungswert d. Kennwerteverteilung μ( x ) ist gleich d. Erwartungswert μ x in d.
Population
Schätzung von Populationsvarianzen und -standardabweichungen
n S Sx 1
n
Populationsvarianz: ^ x =s x ×
Erwartungstreuer Schätzer σ
2 2
= = × ∑ (x¿¿ i−x ) ² ¿
n−1 n−1 n−1 i=1
√ √
n
n 1
Populationsstand.abweich.: σ^ x = × s 2x = × ∑ (x −x ¿)² ¿
n−1 n−1 i=1 i
6.2 Intervallschätzung
Konfidenzintervalle für Mittelwerte
Vorraussetzungen für z: Variable X i. d. Population normalverteilt und Standardabweichung i. d. Population bekannt.
σX
Konfidenzintervall z: c .i . ( μ X ) =x ± ×z
√n 1−
α
2
Vorraussetzungen für t: σ x ist unbekannt. Wenn statt Populations-SA die geschätzte SA verwendet wird. df =n−1
σ^ x sx
Konfidenzintervall t: c .i . ( μ X ) =x ± σ^ (x) ×t α =x ± ×t α =x ± ×t
df ;1−
2 √ n df ;1− 2 √ n−1 df ;1− α2
T-Verteilung
Anwendung: Bei Fallzahlen n<120 muss sie genutzt werden. Sie ersetzt dann die Normalverteilung.
Konfidenzintervall π 1:
√
c .i . ( π 1) = p1 ± p1 ×
1−p 1
n
×z α
1−
2
Berechnung der benötigten Fallzahl n für ein gewünschtes Intervall, bei gegegebener Intervall-
Länge: d einer gegebenen Irrtumswahrscheinlichkeit α und einem gegebenen
Populationsanteil π findet sich die optimale Stichprobenfallzahl mit:
π 1 ×1−π 1
Stichprobenumfang: n=4 × z 2 α ×
1−
2 d2
Hypothesentest
Basics:
H 0=Gegen h ypot h ese H 1=Forsc hungs h ypot h ese ; α =Signifikanzniveau
Rechtsseitiger Test(max.): Große Werte sprechen gegen H 0 und für H 1
Linksseitiger Test (min.): Kleine Teststatistik spricht gegen H 0
Hierbei gilt p pro ist der % Anteil in
der Stichprobe und π ist der geteste
Anteil in der Population
Beachten: nur bein über120=Normalverteilung
Sonst T-verteilung
Teststatistik wird aus Tabelle abgelesen.
Schritt 4: Teststatistik ¿ krit. Wert? → H 0 ablehnen sonstH 1ablehnen
Beidseitiger Test: Sehr kleine und sehr große Werte sprechen gegen die H 0 und für die H 1
α
Bei beidseitigem Test beachten, dass mit gerechnet wird und nicht mit α
2
Bivariate Statistik
Mittelwertvergleiche
Varianzgleichheit:
Kovarianz
Kovariation
Produkt-Moment Korrelation
Korrelation Hypothersentest exp bedeutet eulersche Zahl e=2,718 hoch das was in der Klammer ist
Kern-Dichte-Schätzer: Boxplot: