Beruflich Dokumente
Kultur Dokumente
Einzeldaten: ∑ ̅ ̅ = ∑ ̅ ̅
Exponentialverteilung
̂ ̂ ̂ ̂
beide für x ≥ 0 Klassierte Daten: ∑ ∑ ( ̅) ̅ * fij
[ ] [ ]
KorrelationskoeffizientMm: ZV:
Bsp. , da Punktwahrscheinlichkeit
Unabhängigkeitseigenschaft: 0 keine / 0 – 0,5 schwache / 0,5 – 0,8 mittlere/ 0,8 – 1 starke/ 1 perfekte
zukünftige Wartezeit unabhängig von bereits vergangener Wartezeit =∑ ̅(yj) - ̅ j) / =1- ∑ (yj) j) /
für ZV: =E[VAR[X|Y]]/VAR[X]=1- VAR[E[X|Y]]/VAR[X]
Normalverteilung Definiert durch den Anteil der Variany auf der Regressionslinie an der Gesamtvarianz
Erwartungswert/Varianz des Stichprobenmittels bei einer einfachen Stichprobe 6) Mittelwertdifferenz - unverbundene Stichproben - unbekannten Varianzen:
̅ ̅
Erwartungswert: [̅ ] * ∑ + ∑ [ ] ∑ ̅ ̅
√̅
Erwartungswert d. Stichprobenmittels = Mittelwert d. Grundgesamtheit
Varianz: [̅ ] ∑ [ ] ∑ [̅ ̅ √̅ ( ) ̅ ̅ √̅ ( )]
Varianz d. Stichprobenmittels = Varianz der Grundgesamtheit/n
Annahme 1: X und Y stochastisch unabhängig (gilt auch für 5 & 8)
Chebyshev-Gesetz der großen Zahlen 2: Varianzen von X und Y sind identisch
für alle gilt: ̅
wenn der Stichprobenumfang n ausreichend groß ist, dann liegt das 7) Mittelwertdifferenz - verbundene Stichproben - unbekannten Varianzen:
Stichprobenmittel nahe beim Mittelwert der Grundgesamtheit ̅ ̅
√
Chebyshevsche Ungleichung: ̅
Zentraler Grenzwertsatz [̅ ̅ ̅ ̅ ]
√ √
Sind (1) stochastisch unabhängige, in der Grundgesamtheit mit wobei ∑ ̅ ̅ ∑ ̅
Mittelwert und Varianz (2) identisch verteilte ZV, dann ist das
Stichprobenmittel unabhängig von der Verteilung der Grundgesamtheit für
einen (3) großen Stichprobenumfang n approximativ normalverteilt mit 8) Varianzenquotienten - unbekannte Mittelwerte - unbekannte Varianzen
2
̅ H0: δX ≥ δY | krit.B.: | analog
[̅ ] und [̅ ] :̅ ⁄√
8. Punktschätzung
Methode der Moment (MM)
Stichprobenmoment wird seinem Erwartungswert gleichgesetzt
̅ = E[̅ ]= x = ̂ x
Maximum-Likelihood-Schätzer
1) Likelihoodfunktion: ∏
ist der zu schätzende Parameter
2 )Logarithmieren: ∏ ∑
3) Maximieren: ̂ …
Asymptotische Erwartungstreue: Erwartungswert des Schätzers konvergiert mit
zunehmendem Stichprobenumfang n gegen den wahren Parameter.
Rechenregeln für ML-Schätzer Rechenregeln des Logarithmus
1) ∏ ∑ 1)
2) ̂ ∑ ∑ ̅
2) 1-seitiger Test: 2-seitiger Test:
Vorgehensweise: 1. H0 (und H1) 2.Testgröße(Pivotgröße) 3.Kritischer Bereich
3) ∏ ∑ 3) ( ) 4.Teststatistik berechnen 5. Testenscheidung
4) ∑ ∑ ∑ p-Wert: gibt an, wie groß das Testniveau gewählt werden müsste, damit H0
gerade noch akzeptiert würde.
p-Wert > Niveau α heißt H0 kann nicht verworfen werden.
9. Intervallschätzung (Vertrauenswürdigkeit) Gütefunktion (wird größer: je weiter H0 von H1 weg; je größer n oder α
Eine Pivotgröße ist eine ZV, die den unbekannten Parameter θ beinhaltet,
G( ) = P(H0 abzulehnen| )=1-β( ); z.b. G( )=1- β( )=1- ( )
deren Verteilung jedoch unabhängig von θ ist.
1) Mittelwert bei bekannter Varianz:
̅
√ *̅ ̅ +
√ √
2) Mittelwert bei unbekannter Varianz: 11. Analyse qualitativer Merkmale und ZV
̅
√ *̅ ̅ + Entropie HA = -1,443∑ normiert: mit D = [0;1]
√ √
Erwartete Länge: E(L) = 2 * √ ⁄√ - wächst nicht linear mit der Streuung
- ermöglicht Vergleich d. Streuung 2er Merkmale (H* A ̅
3) Varianz bei bekanntem Mittelwert:
∑ = 1 » Gleichverteilung) B
[∑ ⁄ ∑ ⁄ ]
̅
4) Varianz bei unbekanntem Mittelwert:
∑ ̅
mittlere quadratische Kontingenz 1
χ² ;[ ⁄ ⁄ ]
( )
Ein Konfindenzintervall ist ein Bereich, dessen obere und untere Grenze ∑ ∑ ∑ ∑ mit 0 ≤ ≤ min,k-1, l-1}
Stichprobenfunktionen sind; mit einer vorgegebenen Wahrscheinlichkeit
bei Unabhängigkeit, max bei Abhängigkeit; K-Tabelle, I-Tabelle
schließt dieser Bereich den unbekannten Parameter der Grundgesamtheit ein.
Unverbundene und verbundene Stichproben = /n, = bei Vierfeldertafel
an 2 Objekten wird eine ZV beobachtet
unverbunden
X,Y unabhängig Cramérs V: √ { }
, 0≤V≤1, damit Werte [0;1], normierte
an einem Objekt werden 2 ZV beobachtet
verbunden
X,Y paarweise unabhängig
stem(bsp[zeile,spalte])
Anpassungstests: 1. einfache H0 2. zusammengesetzte H0 Box-Plot:Vertikal: boxplot(streik) , Horizontal: boxplot(streik, horizontal=TRUE)
Eingebaute Varianz > var(stat[,1])
1. Verteilung der GG ist durch H0 vollständig spezifiert.z.b. H0: X N( Berichtigung > var(stat[,1])*(length(stat[,1])-1/length(stat[,1])
H0: „X folgt der parametrischen Verteilung FX(x; θ)“ z.B. H0: X Poi( = 1,5) Binomialverteilung
∑
( ̂ ) Eingabe der x-Werte > x=seq(k,n,,Anzahl der Werte)
̂ oder >x=seq(k,n,length=Anzahl der Werte)
Approximation ist „gut“, wenn für k ≤ 8; für k > 8 oder >x=seq(k,n,Abstand der Werte)
Wenn zu klein ist, mit der nächst-höherer Klasse kombinieren! Sortieren der x-Werte >x=sort(x) ; Graph von fX > plot(x,dbinom)
Bsp.: = P(X = 0| = 1,5) = 0,2231 E[N1] = = 26,772 (n = 120) d=WS-(massen)fkt p=Verteilungsfkt q=Quantil , r=Zufallszahlen
binom(x,n,p) exp(x,λ) pois(x,λ) geom(x,p) hyper(x,M,N-M,n)
2.Verteilung der GG ist bis auf einige unbekannte Parameter vollst. spezifiert unif(x,a,b) t(x,df) chisq(x,df) f(x,df1,df2)
H0: „X folgt der parametrischen Verteilung FX(x; ̂ )“ z.B. H0: X N( )
( ̂ ) dnorm(x,μ,σ), dnorm(x,mean(x)),sqrt(Varianz)) , dnorm(x,mean(x),sd(x))
∑ ̂
r = Anzahl d. geschätzt. Param.
dnorm(x,mean(x),sqrt(var(x))
Bsp.: ̂ ̅ und ̂ (2 Parameter geschätzt ) α-Quantile >qnorm(α,μ,σ)
̂ P(X ≤ 160| ̂ ̅ ̂ ) Erzeugung von Zufallszahlen >rnorm(Anzahl Zufallszahlen n , μ=mu , σ=sigma)
Prüfgröße: ∑
( ̂ ) ( ̂ )
; X2-Verteilung
̂ ̂ X20,25,10 bzw. 25%-Quantil mit 10 Freiheitsgraden > qchisq(0.25,10)
Arbeiten mit R Dichte-/Verteilungsfunktion und Zufallszahlen: >d/p/rchisq(x,Freiheitsgrade)
Dateneingabe von Zahlen und Bezeichnungen
a=c("m","m") Vektor : x=c(2.2,2.0,1.8) ; n = Anzahl Werte in x: n=length(x) Likelihoodfunktion
x = seq(Anf., Ende, Abstand); x = seq(A, E, , Anzahl);x = seq(A, E, length=Anzahl); z.B. Likelihood=p^g*(1-p)^4 ; Log-Likelihood=log(Likelihood)
Aufruf: x[stelle] , x[von:bis]
Werte aufsummieren: sum(x), sortieren: x = c(4,6,76,2,6,1.3) und sort(x) sum(log(dpois(x,lambda))) = ∑ an der stelle lambda
Erzeugen vieler gleicher Werte: x = rep(0:2,c(4(0 vier mal!),2,7))
exp: e ; : log(10/3, base=10) ; : log(4^2, base=exp(1)) Grenzen eines Konfidenzintervalls des Mittelwerts bei unbekannter Varianz
plot(x,y,main="f(x)=x^2", type="l") >lower=mean(x)-qt(1-α/2)*sqrt(var(x)/length(x))
>upper= mean(x)+qt(1-α/2)*sqrt(var(x)/length(x))
Graphen Zeichnen
plot(x-Achse,y-Achse,type=“l / p / b / s=stufen“,main=“Titel“) Mittelwerttest
hist(bsp[zeile,spalte]) , hist(x,grenzen) t.test(x,alternative=“less“/“two sided“/“greater“,mu=2,43,conf.level=0,95)
senkrechte / waagrechte linie : abline(v=0) / abline(h=0) t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired
Integral: integrate(variable, lower=0, upper=1) = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
Diagramme: p-Wert: Kl. Testniveau, auf dem die Stichpr. gerade noch signifikant ist.
Säulendiagramm: barplot(x, names=y, col=z) Kreis: pie(x, y) kleiner als Irrtumswhrs, dann Nullhypothese abgelehnt!
alternative = "greater" is the alternative that x has a larger mean than y.
Datenmatrix mu: wahrer Mittelwert (oder wahre Mittelwertdifferenz)
Allgemein > matrix(c(Werte),Zeilenzahl,Spaltenzahl) paired=gepaart, x und y nötig, gleiche Länge
Bsp. Eingabe > daten.matrix=matrix(c(a,b,x,y),length(a)) var.equal: True schätzen mit ̅ (gepoolte S.)/False approx. mit df (Welch)
Abfrage > daten.matrix statistic : value / parameter: df / conf.int: KI für MW / estimate: mittelwert(diff)
/ null.value: vermuteter MW(diff)-wert / alternative: Ha / method: typ
Wert der Indifferenztabelle chisq.test(x, y = NULL, correct = TRUE,p = rep(1/length(x), length(x)), rescale.p
…an der Stelle 3,5 > sum(xy*3,+)/n*sum(xy*,5+)/n = FALSE, simulate.p.value = FALSE, B = 2000)
Randhäufigkeiten
Zeilen > margin.table(gem,1) ; Spalten > margin.table(gem,2) Weitere Funktionen
Bedingte relative Häufigkeit hist(x) Histogramm hist(x, prob=T) Histogramm mit rel. Hfk.
lines(density(x)) zeichnet Dichtefunktion
> matrix[Zeile,Spalte]/Datensatz[Datenstelle]
Einlesen von Daten aus externen Dateien Sonstiges:
> stat=read.table("d:/stat.txt",header=TRUE,dec=".") Werte
Funktionsfenster öffnen: my.function=fix(my.function) Absolutbetrag: abs(x) // var klssiert:1/(length(b)-1)*sum((b-mean(b))^2)
Maßzahlen
Modus von Merkmal Z : Z[which (n==max(n)] Beispiele:
Mittelwert von Z: sum(Z*n)/sum(n) Chebyshev: Funktion, die die MindestWS für das k-fache Sl nach Chebyshev
Maximum: max(x) Minimum: min(x) Ungleichung wiedergibt: chebyshev=function(k){1-1/k^2}
Median > median(stat[,8]) Quantile: quantile(x,0.75) oder chebyshev=fix(chebyshev) + function(k){1-1/k^2}
Arithmetisches Mittel: mean(x) oder sum(x)/length(x)
Harmonisches Mittel für Vektor V: vmean=sum(s)/sum(s/v) Funktion SI in R, die die Wahrscheinlichkeit angibt, dass eine normalverteilte
Geometrisches Mittel: Kurswerte > Kurs_1=Kurs[2:n]/Kurs[1:n-1] Zufallsvariable im k-fachen Schwankungsintervall liegt:
-Wachstumsrate > prod(Kurs_1)^(1/(n-1))-1*100 (= Exponent) SI=fix(SI) ; > function (k){ SI=2*pnorm(k)-1 return(SI) } oder function (k, mu,
Varianz > varianz=sum((x-mean(x))^2)/(length(x)) sd){ SI=pnorm(mu+k*sd,mu,sd)-pnorm(mu-k*sd,mu,sd) return(SI) }
Standardabweichung > sqrt(varianz)
Variationskoeffizient > standardabweichung/mean(stat[,1])
Stem-and-Leaf-Diagramm