Sie sind auf Seite 1von 4

2.

Grundlagen der Häufigkeits- und Wahrscheinlichkeitsrechnung P


A und B sind disjunkt, wenn ={} ( ) ( ) ( ) ( )
: alle Elemente von A, die nicht Element von B sind ( ) ( ) ( )
Merkmal: ordnet den Untersuchungseinheiten Zahlen zu; Merkmal X;
Merkmalsausprägungen; Häufigkeit f
Häufig-/Wahrscheinlichkeitsfunktion diskreter Merkmale/Zufallsvariablen
Zufallsvariable: ordnet den Elementarereignissen Zahlen zu; Zufallsvariable X;
Punkthäufigkeiten bzw. Wahrscheinlichkeiten: ( ̂ )
Realisationen (Bsp. Münzwurf); Wahrscheinlichkeit P
fx(x) = { f(X = x) diskretes Merkmal X ; P(X = x) diskr ZV X
Wahrscheinlichkeiten nach Kolmogorov
Träger D(X) = { }
1: P(A) ≥ 0 2: Sicheres Ergebnis P(Ω) = 1 3:Wenn A disjunkt B, dann P(A) + P(B) = P( )
Laplace-Wahrscheinlichkeiten
Häufig- und Wahrscheinlichkeitsdichte stetiger Mm/ZV klassierte Daten
Gleichwahrscheinlichkeitsmodell, d.h. P({ωi}) = P(A) = ̃ ̃ Merkmalswert von liegt in der i-ten Merkmalsklasse
Rechtfertigung: Prinzip des mangelnden Grundes für unterschiedliche
Wahrscheinlichkeiten, d.h. Zustand größtmöglicher Unordnung herrscht Hilfstabelle: ]̃ ̃] ni fi Fi Δxi xi
Empirische Wahrscheinlichkeit
n-malige Wiederholung eines Zufallsexperiments Ø-Wert: ̅ ∑
P(A) wird durch „relative Häufigkeit“ des Ereignisses A geschätzt: P(A) ≈ Varianz: ∑ ̅
Subjektive Wahrscheinlichkeit (Wette)
Modus: modale Klasse = Klasse mit größter Häufigkeitsdichte
Annahme: rationales Handeln, d.h. Wette wird angenommen, wenn erwarteter
Gewinn aP(A) Wetteinsatz e übersteigt //Maximaler Wetteinsatz emax = aP(A) p-Quantile (z.B. p=0,5 ist Median)
Wenn jemand emax zahlt, dann entspricht seine subjektive Wahrscheinlichkeit F*(x(p)) = ̃ ( ̃ )
den max. Wettquoten: P(A) = ̃
Relatives Häufigkeitsmaß f(A) = n(A)/n erfüllt Axiome von Kolmogorov ( ̂ ) x(p) = ̃ für ̃ ̃
Wahrscheinlichkeit (P), relative ( ̂ ) und absolute Häufigkeit
Approximierende Verteilungsfunktion: F*(x) = ∫ *(x) dx
1) 0 ≤ P(A) ≤ 1, 0 ≤ f(A) ≤ 1, 0 ≤ n(A) ≤ n ; P( ̅ ) = 1 – P(A); f/n
̃
2) Monotonie: wenn , dann gilt P(A) ≤ P(B), f(A) ≤ f(B), n(A) ≤ n(B)
F*(x) = { ̃ ̃ ̃ ̃
3) Allgemeiner Additionssatz: P( ) = P(A) + P(B) – P( ); f/n ̃
4) Annahme: Gleichverteilung innerhalb der Klassen
5) : wenn Ai Ω eine Partition von B Ω, dann gilt Häufigkeitsdichtefunktion / Histogramm
∑ ; analog für f und n F*(x) = ∫ *(x)dx ;
6) relative Häufigkeit: Verteilungsfunktion: FX(x) = ∫ X(s) dx + c
Kontingenztabelle: gem. absolute Häufigkeiten; nij ̃
FX(x) = { ̃ ∫̃ ̃ ̃
Indifferenztabelle: gemeinsame rel. Häufigkeiten bei stochast. Unabhängigkeit
̃
nennt alle hypothetischen gemeinsamen absoluten oder ralativen
Punkthäufigkeiten/-wahrscheinlichkeiten
Häufigkeiten, die sich bei statistischer Unabhängigkeit ergäben
Bedingte relative Häufig- und Wahrscheinlichkeiten ( ̂ )
für stetige Zufallsvariablen gilt: P(X = x) = 0
Verteilungsfunktion ZV: FX(x) = ∫ X(s) ds
Bedingte Wahrscheinl.: P(B|A) = für P(A) > 0
Wahscheinlichkeits- Dichtefunktion: fx(x) = F’x (x)
Bedingte relative Häufigkeit: für n(A) > 0 1. fx (x) ≥ 0 2. ∫ (x) dx = 1
f(x) kann auch > 1 sein
Multiplikationssatz: Wahrscheinlichkeit, dass X im Intervall ]a;b] liegt:
Formel der totalen Häufigkeit bzw. Wahrscheinlichkeit:
Bi eine Partition von Ω: ∑ ∑ ∫ ∫ ∫
Bsp. P( Teil A qualitätsgerecht): P(Q|A);Erwerbstätige unter Männern: P(E|M) Bsp. ∫ * + Zeichnung: y = 0,5; Steigung
Bsp. bei 2 ZV/Merkmalen ̅ ̅
= -0,125; x = 4;
Bayes-Formel ( ̂ )

Es sei Bi eine Partition von Ω: ∑ 4. Maßzahlen f. eindimensionale Verteilung quantitat. Merkmale/ZV
Modus = diejenige Ausprägung, die am Häufigsten vorkommt
Bsp: Ziegenproblem (Lösung: Totale Wahrscheinlichkeit von P(T2) berechnen bei klassierten Daten: modale Klasse = Klasse mit größter Häufigkeitsdichte
und dann P(A3|T2) mit der Bayes-Formel berechnen)
Median und p-Quantile: { }
Statistische (f) / stoch. (P) Unabhängigkeit für Ereignisse A und B (f ̂ )
für stetige ZV: FX (x(p)) = p x(p) =
, da 
Arithmetisches Mittel
Vollständige stochastisch Unabhängigigkeit, wenn A,B,C:
diskrete Merkmale: ̅ ∑ ∑
1) Sie paarweise stochastisch unabhängig sind und
diskrete ZV: [ ] ∑ ∑
2)
Unabhängig  unkorreliert, ABER unkorreliert heißt nicht unabhängig stetige Merkmale: ̅ ∑ , wobei xi = Klassenmitte
stetige ZV: [ ] ∫
3. Merkmale und Zufallsvariablen und ihre Verteilung Nulleigenschaft: artihmetisches Mittel der Abweichungen ist null
Nominalskala (Qualitative Merkmale) gleich / ungleich Affin lineare Transformationen übertragen Mittelwerte
Ordinalskala (Komparative Merkmale) gleich / ungleich + Rangordnung ̅ beschreibt Schwerpunkt von Daten, E[X] Verhalten einer ZV (pot. Ergebnis)
Kardinalskalen (Quantitative Merkmale) Anwendung, wenn Nenner bekannt (Preis/Aktie und Anzahl Aktien bekannt)
Typ Dimensions- Fester Abstände Verhältnisse Beispiel  wenn y = ax, dann ̅ ̅
(...skala) einheit(fest) Nullpunkt messbar messbar
Intervall Nein Nein Ja Nein Temp. Harmonisches Mittel
Verhältnis Nein(versch.E.) Ja Ja Ja Zeit/€
Absolut Ja Ja Ja Ja Semester diskrete Merkmale/ZV:̅̅̅ ̅ ( ) ( )
Diskrete und stetige Merkmale
Anwendung bei Verhältniszahlen, wenn Nenner unbekannt (km/h und h=?)
diskret: endlich o. abzählbar viele Merkmalsausprägungen (z.B. Semesterzahl)
Für ZV: Kehrwert des Erwartungswertes von 1/X: ̅̅̅ = 1 / E[1/X]
stetig: überabzählbar viele Merkmalsausprägungen(z.B. reelle Zahlen)
Geometrisches Mittel
Verteilungsfunktion diskreter Merkmale/Zufallsvariablen Einzeldaten: ̅ √∏ | ̅ =exp(∑ x1f(x1) x2f(x2) ...xnf(xn)
Nichtüberschreitungshäufigkeit bzw. -wahrscheinlichkeit: Anwendung bei Wachstumsraten: ̅ | (1 + rG) wobei rG=Wachstumsrate
Quartilsabstand und Spannweite
{ Quartilsabstand: ̅
Grafische Darstellung: Treppenfunktion Spannweite: Differenz zwischen größten u.
Eigenschaften: 1. Monotonie 2. Rechtsstetigkeit 3. Grenzwerte 0 und 1 kleinstem Wert (nicht bei Häufigkeitsverteilungen mit Mermalsauspr, da
Häufigkeit 0 möglich)
Intervallwahrscheinlichkeit: -> Häufigkeitsvert. : R0 = x[n]-x[1] = größter – kleinster Merkmalswert
Reproduktivitätseigenschaft: wenn X1 und X2 stochastisch unabhängig
Varianz = Streuungsmaß  dann: )
= mittlere quadratische Abweichung d. Werte v. arithmetischen Mittel
diskrete Merkmale: ̅ f(xi) ̅ ̅̅̅ ̅ Standardnormalverteilung

stetige Merkmale: ̅̅̅ ̅ , wobei x = Klassenmitte xi * f(xi) - ̅ 2 Wendepunkt


;
diskrete ZV: [ ] [ ]
α-Quantile:λa, ( )
stetige ZV: =∫
 wenn y = ax, dann λa = - λ1-a =

Rechnen mit Erwartungswert/Varianz


Variationskoeffizient:
̅
Standardabweichung: √ ∑
[ ] [ ] [ ] [ ] [∑
] ∑ [ ]
Schwankungsintervalle ∑ ∑
bei stochastischer Unabhängigkeit
Wahrscheinlichkeit des k-fachen SW: [ ] [ ] [ ]
Chebyshevsche Ungleichung: [ ] [ ] [ ]
Approximationen
Bsp NV: 2 0,99
Hypergeom ~ Binomial n/N ≤ 0,05 p= M/N
Bsp. Zentrales Schwankungsintervall mit Irrtumswahrscheinlichkeit α = 0,01 Binomial ~ Poisson p ≤ 0,1 und n ≥ 30 = np
  ( ) Binomial ~ Normal np ( 1 – p ) > 9 X + 0,5
Poisson ~ Normal 10 X + 0,5

Stetigkeitskorrektur bei Appr. einer diskreten durch eine stetige Verteilung
5. Eindimensionale parametrische Verteilungsfamilien
1)
Anzahl des Auftretens von Eigenschaften in Stichprobe mit √
Zurücklegen  DISKRET 2)

… in Stichprobe ohne Zurücklegen  DISKRET
Anzahl der Misserfolge bis zum ersten Erfolg  DISKRET
Anzahl des Auftretens eines Ereignisses in bestimmten 6. Mehrdimensionale Verteilungen quantitativer Merkmale/ZV
Intervall  DISKRET a) Zufallsexperiment wird n-mal wiederholt
Wartezeit zwischen 2 Poisson-Ereignissen  STETIG b) n Zufallsvariablen in einem Zufallsexperiment
insbesondere eine Fehlerverteilung  STETIG c) n Zufallsvariablen in einem Zufallsexperiment, das m-mal wiederholt wird

Diskrete Gleichverteilung gemeinsame Verteilungsfunktion von X und Y: {


fGl = (x ; N) = 1 / N für x = 1,..N E[X]= N+1 / 2 Var[X]=N²-1 / 12

Binomialverteilung („mit Zurücklegen“) „Two increasing“-Eigenschaft: wenn dann


( ) [ ] [ ] 
FBinom(x; n; p) = 1 - FBinom(n - x - 1; n; 1 - p)
( )
Häufig-/Wahrscheinlichkeitsfunktion: ,
Hypergeometrische Verteilung („ohne Zurücklegen“) ( )
x = gezogene schwarze K. n = Stichprobe; N = Kugeln, M = schwarze Kugeln Graph = dreidimensionales Stabdiagramm
( )( )
( )
E[X]=np V [ ]
WS-massenfkt (=RandWS fx) fx(x) = ∑ X,Y(x,yi) Bsp. P (X=xi, Y=1)=P(Y=1)

Geometrische Verteilung („mit Zurücklegen“) ⁄


Bedingte Verteilungsfunktion: {
p = Erfolgswahrscheinlichkeit = ; x = Anzahl der Misserfolge ⁄
[ ] [ ]
klassierte Daten:
für I ≤ x ≤ i +1 + Unabhängigkeitseig. ⁄
Bedingte Häufigkeitsdichte: ⁄
Poisson-Verteilung
Eigenschaften eines Poisson-Prozesses: Mehrdimensionale Verteilungsfunktion stetiger Merkmale/ZV
1. WS des Eintretens eines Ereignisse proportional zur Länge des betrachteten Dichtefunktion: ∫ ∫ (Graph = Stereogramm)
Zeitraums, also nur abhangig von der Länge, nicht Lage eines Intervalls
2. keine zwei Ereignisse treten gleichzeitig ein
3. einzelne Ereignisse stochastisch unabhangig Bedingter Median: z.B. ( ) { | ( | ) }
P(X > a+b|X > a) = P(X > a+b) / P(X>a) = = = P(X>B) Bedingter Mittelwert: ̅( ) ∑ ( | )
λ = Anzahl der durchschnittlichen Ereignisse in einem Intervall (λ>0 ) ̂ ̂
> für klassierte Daten: ̅(yj) = ∑
x=0,1,2,... [ ] [ ]
Bedingte Varianz: ̅( ) f( | )
Unabhängigkeit: ; ,(für )
Rechteckverteilung, Stetige Gleichverteilung
⁄ beide für x ≥ 0 ∑
Erwartungswert:
{ Var[X]=(b-a)² / 12 E[X]=(a+b)/2 Kovarianz:  Cov(XY) ≠ 0, d.h. Abhängigkeit

Einzeldaten: ∑ ̅ ̅ = ∑ ̅ ̅
Exponentialverteilung
̂ ̂ ̂ ̂
beide für x ≥ 0 Klassierte Daten: ∑ ∑ ( ̅) ̅ * fij
[ ] [ ]
KorrelationskoeffizientMm: ZV:
Bsp. , da Punktwahrscheinlichkeit
Unabhängigkeitseigenschaft: 0 keine / 0 – 0,5 schwache / 0,5 – 0,8 mittlere/ 0,8 – 1 starke/ 1 perfekte
zukünftige Wartezeit unabhängig von bereits vergangener Wartezeit =∑ ̅(yj) - ̅ j) / =1- ∑ (yj) j) /
für ZV: =E[VAR[X|Y]]/VAR[X]=1- VAR[E[X|Y]]/VAR[X]
Normalverteilung Definiert durch den Anteil der Variany auf der Regressionslinie an der Gesamtvarianz

√ 7. Stichproben und Stichprobenfunktionen


Unabhängige und einfache Stichproben
∫√ [ ] [ ] (1) Unabhängige Stichprobe: ∏
(2) Identisch verteilte Stichprobe:
(1)+(2) Einfache Stichprobe:
Invarianz: a + bX ~ N( a + bμx ; b2 * σ2x )
Symmetrie:
Stichprobenmomente
Stichprobenmittel: ∑ ̅ 5) Mittelwertdifferenz - unverbundene Stichproben - bekannten Varianzen:
̅ ̅
Stichprobenvarianz: ∑ ̅ ∑ ̅̅̅ ̅ *̅ ̅ √ ̅ ̅ √ +
√ ⁄ ⁄
Stichprobekonvarianz: ∑ ̅ ̅

Erwartungswert/Varianz des Stichprobenmittels bei einer einfachen Stichprobe 6) Mittelwertdifferenz - unverbundene Stichproben - unbekannten Varianzen:
̅ ̅
Erwartungswert: [̅ ] * ∑ + ∑ [ ] ∑ ̅ ̅
√̅
 Erwartungswert d. Stichprobenmittels = Mittelwert d. Grundgesamtheit
Varianz: [̅ ] ∑ [ ] ∑ [̅ ̅ √̅ ( ) ̅ ̅ √̅ ( )]
 Varianz d. Stichprobenmittels = Varianz der Grundgesamtheit/n
Annahme 1: X und Y stochastisch unabhängig (gilt auch für 5 & 8)
Chebyshev-Gesetz der großen Zahlen 2: Varianzen von X und Y sind identisch
für alle gilt: ̅
 wenn der Stichprobenumfang n ausreichend groß ist, dann liegt das 7) Mittelwertdifferenz - verbundene Stichproben - unbekannten Varianzen:
Stichprobenmittel nahe beim Mittelwert der Grundgesamtheit ̅ ̅

Chebyshevsche Ungleichung: ̅
Zentraler Grenzwertsatz [̅ ̅ ̅ ̅ ]
√ √
Sind (1) stochastisch unabhängige, in der Grundgesamtheit mit wobei ∑ ̅ ̅ ∑ ̅
Mittelwert und Varianz (2) identisch verteilte ZV, dann ist das
Stichprobenmittel unabhängig von der Verteilung der Grundgesamtheit für
einen (3) großen Stichprobenumfang n approximativ normalverteilt mit 8) Varianzenquotienten - unbekannte Mittelwerte - unbekannte Varianzen
2
̅ H0: δX ≥ δY | krit.B.: | analog
[̅ ] und [̅ ] :̅  ⁄√

Stichproben aus normalverteilten Grundgesamtheiten 9) Approximative Konfidenzintervalle siehe 1)


̅
Stichprobenmittel: ̅ ( ) (√ ) bei exponentialverteilter GG: n > 100, Pivotgröße normalverteilt
̅ √ √
√ * ̅ ̅
+

t-Verteilung mit k = n – 1 „Freiheitsgraden“
̅ ̅ 30<n<100, Pivogröße
Approximationsregeln: np0 (1-p0) > 9 ; ;
Varianz σ2 unbekannt: √ Bsp:P √
bei Erfolgswahrscheinlichkeiten:Näherung von p(1-p) durch ̅ ̅

χ²-Verteilung mit n – 1 „Freiheitsgraden“


Stichprobenvarianz ist unabhängig vom Stichprobenmittel χ²-verteilt;
10. Statistische Hypothesentests
χ²
H0 ist Gegenteil der Vermutung und enthält ≤, ≥, =
( ) ( ) Fehler 1. Art ( α – Fehler) Eine wahre Hypothese wird abgelehnt
Fehler 2. Art (β – Fehler) Eine falsche Hypothese wird angenommen

8. Punktschätzung
Methode der Moment (MM)
Stichprobenmoment wird seinem Erwartungswert gleichgesetzt
̅ = E[̅ ]= x = ̂ x
Maximum-Likelihood-Schätzer
1) Likelihoodfunktion: ∏
 ist der zu schätzende Parameter
2 )Logarithmieren: ∏ ∑
3) Maximieren: ̂ …
Asymptotische Erwartungstreue: Erwartungswert des Schätzers konvergiert mit
zunehmendem Stichprobenumfang n gegen den wahren Parameter.
Rechenregeln für ML-Schätzer Rechenregeln des Logarithmus
1) ∏ ∑ 1)
2) ̂ ∑ ∑ ̅
2) 1-seitiger Test: 2-seitiger Test:
Vorgehensweise: 1. H0 (und H1) 2.Testgröße(Pivotgröße) 3.Kritischer Bereich
3) ∏ ∑ 3) ( ) 4.Teststatistik berechnen 5. Testenscheidung
4) ∑ ∑ ∑ p-Wert: gibt an, wie groß das Testniveau gewählt werden müsste, damit H0
gerade noch akzeptiert würde.
p-Wert > Niveau α heißt H0 kann nicht verworfen werden.
9. Intervallschätzung (Vertrauenswürdigkeit) Gütefunktion (wird größer: je weiter H0 von H1 weg; je größer n oder α
Eine Pivotgröße ist eine ZV, die den unbekannten Parameter θ beinhaltet,
G( ) = P(H0 abzulehnen| )=1-β( ); z.b. G( )=1- β( )=1- ( )
deren Verteilung jedoch unabhängig von θ ist.
1) Mittelwert bei bekannter Varianz:
̅
√ *̅ ̅ +
√ √
2) Mittelwert bei unbekannter Varianz: 11. Analyse qualitativer Merkmale und ZV
̅
√ *̅ ̅ + Entropie HA = -1,443∑ normiert: mit D = [0;1]
√ √
Erwartete Länge: E(L) = 2 * √ ⁄√ - wächst nicht linear mit der Streuung
- ermöglicht Vergleich d. Streuung 2er Merkmale (H* A ̅
3) Varianz bei bekanntem Mittelwert:
∑ = 1 » Gleichverteilung) B
[∑ ⁄ ∑ ⁄ ]
̅
4) Varianz bei unbekanntem Mittelwert:
∑ ̅
mittlere quadratische Kontingenz 1
χ² ;[ ⁄ ⁄ ]
( )
Ein Konfindenzintervall ist ein Bereich, dessen obere und untere Grenze ∑ ∑ ∑ ∑ mit 0 ≤ ≤ min,k-1, l-1}
Stichprobenfunktionen sind; mit einer vorgegebenen Wahrscheinlichkeit
bei Unabhängigkeit, max bei Abhängigkeit; K-Tabelle, I-Tabelle
schließt dieser Bereich den unbekannten Parameter der Grundgesamtheit ein.
Unverbundene und verbundene Stichproben = /n, = bei Vierfeldertafel
an 2 Objekten wird eine ZV beobachtet
unverbunden
X,Y unabhängig Cramérs V: √ { }
, 0≤V≤1, damit Werte [0;1], normierte
an einem Objekt werden 2 ZV beobachtet
verbunden
X,Y paarweise unabhängig
stem(bsp[zeile,spalte])
Anpassungstests: 1. einfache H0 2. zusammengesetzte H0 Box-Plot:Vertikal: boxplot(streik) , Horizontal: boxplot(streik, horizontal=TRUE)
Eingebaute Varianz > var(stat[,1])
1. Verteilung der GG ist durch H0 vollständig spezifiert.z.b. H0: X N( Berichtigung > var(stat[,1])*(length(stat[,1])-1/length(stat[,1])
H0: „X folgt der parametrischen Verteilung FX(x; θ)“ z.B. H0: X Poi( = 1,5) Binomialverteilung

( ̂ ) Eingabe der x-Werte > x=seq(k,n,,Anzahl der Werte)
̂ oder >x=seq(k,n,length=Anzahl der Werte)
Approximation ist „gut“, wenn für k ≤ 8; für k > 8 oder >x=seq(k,n,Abstand der Werte)
Wenn zu klein ist, mit der nächst-höherer Klasse kombinieren! Sortieren der x-Werte >x=sort(x) ; Graph von fX > plot(x,dbinom)
Bsp.: = P(X = 0| = 1,5) = 0,2231  E[N1] = = 26,772 (n = 120) d=WS-(massen)fkt p=Verteilungsfkt q=Quantil , r=Zufallszahlen
binom(x,n,p) exp(x,λ) pois(x,λ) geom(x,p) hyper(x,M,N-M,n)
2.Verteilung der GG ist bis auf einige unbekannte Parameter vollst. spezifiert unif(x,a,b) t(x,df) chisq(x,df) f(x,df1,df2)
H0: „X folgt der parametrischen Verteilung FX(x; ̂ )“ z.B. H0: X N( )
( ̂ ) dnorm(x,μ,σ), dnorm(x,mean(x)),sqrt(Varianz)) , dnorm(x,mean(x),sd(x))
∑ ̂
r = Anzahl d. geschätzt. Param.
dnorm(x,mean(x),sqrt(var(x))
Bsp.: ̂ ̅ und ̂ (2 Parameter geschätzt ) α-Quantile >qnorm(α,μ,σ)
̂ P(X ≤ 160| ̂ ̅ ̂ ) Erzeugung von Zufallszahlen >rnorm(Anzahl Zufallszahlen n , μ=mu , σ=sigma)

empirischer Wert > kritischer Wert, dann H0 ablehnen! Mehrdimensionale Zufallsvariablen


Ni = beobachtete Häuf. = theoretische WS n = theoretischen Häuf. Var[X]: 1) var.x = sum(x*y) / n-mean(x)^2
Tabelle: | i | Xi | ni | ni - ̂ | (ni - ̂ )² / ̂ | 2) var = var ( datei[r,s] ) * ( length(datei[r,s]) - 1) / length(datei[r,s])
x = 0,.. WS ausrechnen, bei x ≥ 5 Verteilungsfunktion! Regel Kovarianzmatrix: z.b. (x,ncol=2) ; var(x) ; (n-1) / n*var(x)
Cov (XY): cov.xy = sum (x * y) / n – mean (x)*mean(y)
Unabhängigkeitstest; Ausgang: ZV X und V, Träger zerlegt in k bzw l Klassen Korrelationskoeffizient XY: ( r.xy = ) cox.xy / sqrt(var.x * var.y)
unter H0: „Die ZV X und Y sind unabhängig voneinanger verteilt‘‘: Korrelationsmatrix: cor(x,y)
X und V verbunden, H0 zusammengesetzt, insg. k-1 RandWs , l-1 RandWs
Schätzung der RandWS mittels relativer Häufigkeiten: Stichprobenvarianz: var(x)
̂ = ,̂ = => ̂ = ; Approximationsregel: ≥ 10 und /n≥5
t-Verteilung
( ( )⁄ )
Prüfmaß: ∑ ∑ ~ ; Dichtefunktion >dt(x,Freiheitsgrade) Verteilungsfunktion >pt(x,Freiheitsgrade)
( )⁄
t0,9; 15 >qt(0.9,15) ; P(X ≥ 2), 19 Freiheitsgrade >1-pt(2,19)
Homogenitätstest ; Ausgang: ZV X und V, Träger identisch, k Klassen Zufallszahlen >rt(x,Freiheitsgrade)
H0: p(1)i = p(2)i = ; ̂ = ( )/ )

Prüfgröße: ∑
( ̂ ) ( ̂ )
; X2-Verteilung
̂ ̂ X20,25,10 bzw. 25%-Quantil mit 10 Freiheitsgraden > qchisq(0.25,10)
Arbeiten mit R Dichte-/Verteilungsfunktion und Zufallszahlen: >d/p/rchisq(x,Freiheitsgrade)
Dateneingabe von Zahlen und Bezeichnungen
a=c("m","m") Vektor : x=c(2.2,2.0,1.8) ; n = Anzahl Werte in x: n=length(x) Likelihoodfunktion
x = seq(Anf., Ende, Abstand); x = seq(A, E, , Anzahl);x = seq(A, E, length=Anzahl); z.B. Likelihood=p^g*(1-p)^4 ; Log-Likelihood=log(Likelihood)
Aufruf: x[stelle] , x[von:bis]
Werte aufsummieren: sum(x), sortieren: x = c(4,6,76,2,6,1.3) und sort(x) sum(log(dpois(x,lambda))) = ∑ an der stelle lambda
Erzeugen vieler gleicher Werte: x = rep(0:2,c(4(0 vier mal!),2,7))
exp: e ; : log(10/3, base=10) ; : log(4^2, base=exp(1)) Grenzen eines Konfidenzintervalls des Mittelwerts bei unbekannter Varianz
plot(x,y,main="f(x)=x^2", type="l") >lower=mean(x)-qt(1-α/2)*sqrt(var(x)/length(x))
>upper= mean(x)+qt(1-α/2)*sqrt(var(x)/length(x))
Graphen Zeichnen
plot(x-Achse,y-Achse,type=“l / p / b / s=stufen“,main=“Titel“) Mittelwerttest
hist(bsp[zeile,spalte]) , hist(x,grenzen) t.test(x,alternative=“less“/“two sided“/“greater“,mu=2,43,conf.level=0,95)
senkrechte / waagrechte linie : abline(v=0) / abline(h=0) t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired
Integral: integrate(variable, lower=0, upper=1) = FALSE, var.equal = FALSE, conf.level = 0.95, ...)
Diagramme: p-Wert: Kl. Testniveau, auf dem die Stichpr. gerade noch signifikant ist.
Säulendiagramm: barplot(x, names=y, col=z) Kreis: pie(x, y) kleiner als Irrtumswhrs, dann Nullhypothese abgelehnt!
alternative = "greater" is the alternative that x has a larger mean than y.
Datenmatrix mu: wahrer Mittelwert (oder wahre Mittelwertdifferenz)
Allgemein > matrix(c(Werte),Zeilenzahl,Spaltenzahl) paired=gepaart, x und y nötig, gleiche Länge
Bsp. Eingabe > daten.matrix=matrix(c(a,b,x,y),length(a)) var.equal: True schätzen mit ̅ (gepoolte S.)/False approx. mit df (Welch)
Abfrage > daten.matrix statistic : value / parameter: df / conf.int: KI für MW / estimate: mittelwert(diff)
/ null.value: vermuteter MW(diff)-wert / alternative: Ha / method: typ

Wert der Indifferenztabelle chisq.test(x, y = NULL, correct = TRUE,p = rep(1/length(x), length(x)), rescale.p
…an der Stelle 3,5 > sum(xy*3,+)/n*sum(xy*,5+)/n = FALSE, simulate.p.value = FALSE, B = 2000)
Randhäufigkeiten
Zeilen > margin.table(gem,1) ; Spalten > margin.table(gem,2) Weitere Funktionen
Bedingte relative Häufigkeit hist(x) Histogramm hist(x, prob=T) Histogramm mit rel. Hfk.
lines(density(x)) zeichnet Dichtefunktion
> matrix[Zeile,Spalte]/Datensatz[Datenstelle]
Einlesen von Daten aus externen Dateien Sonstiges:
> stat=read.table("d:/stat.txt",header=TRUE,dec=".") Werte
Funktionsfenster öffnen: my.function=fix(my.function) Absolutbetrag: abs(x) // var klssiert:1/(length(b)-1)*sum((b-mean(b))^2)
Maßzahlen
Modus von Merkmal Z : Z[which (n==max(n)] Beispiele:
Mittelwert von Z: sum(Z*n)/sum(n) Chebyshev: Funktion, die die MindestWS für das k-fache Sl nach Chebyshev
Maximum: max(x) Minimum: min(x) Ungleichung wiedergibt: chebyshev=function(k){1-1/k^2}
Median > median(stat[,8]) Quantile: quantile(x,0.75) oder chebyshev=fix(chebyshev) + function(k){1-1/k^2}
Arithmetisches Mittel: mean(x) oder sum(x)/length(x)
Harmonisches Mittel für Vektor V: vmean=sum(s)/sum(s/v) Funktion SI in R, die die Wahrscheinlichkeit angibt, dass eine normalverteilte
Geometrisches Mittel: Kurswerte > Kurs_1=Kurs[2:n]/Kurs[1:n-1] Zufallsvariable im k-fachen Schwankungsintervall liegt:
-Wachstumsrate > prod(Kurs_1)^(1/(n-1))-1*100 (= Exponent) SI=fix(SI) ; > function (k){ SI=2*pnorm(k)-1 return(SI) } oder function (k, mu,
Varianz > varianz=sum((x-mean(x))^2)/(length(x)) sd){ SI=pnorm(mu+k*sd,mu,sd)-pnorm(mu-k*sd,mu,sd) return(SI) }
Standardabweichung > sqrt(varianz)
Variationskoeffizient > standardabweichung/mean(stat[,1])
Stem-and-Leaf-Diagramm

Das könnte Ihnen auch gefallen