Sie sind auf Seite 1von 4

2. Grundlagen der Häufigkeits- und Wahrscheinlichkeitsrechnung

A und B sind disjunkt, wenn

: alle Elemente von A, die nicht Element von B sind Merkmal: ordnet den Untersuchungseinheiten Zahlen zu; Merkmal X; Merkmalsausprägungen; Häufigkeit f Zufallsvariable: ordnet den Elementarereignissen Zahlen zu; Zufallsvariable X;

Realisationen (Bsp. Münzwurf); Wahrscheinlichkeit P Wahrscheinlichkeiten nach Kolmogorov

1: P(A) ≥ 0 2: Sicheres Ergebnis P(Ω) = 1 3:Wenn A disjunkt B, dann P(A) + P(B) = P(

Laplace-Wahrscheinlichkeiten Gleichwahrscheinlichkeitsmodell, d.h. P({ω i }) = P(A) =

Rechtfertigung: Prinzip des mangelnden Grundes für unterschiedliche Wahrscheinlichkeiten, d.h. Zustand größtmöglicher Unordnung herrscht Empirische Wahrscheinlichkeit n-malige Wiederholung eines Zufallsexperiments P(A) wird durch „relative Häufigkeit“ des Ereignisses A geschätzt: P(A) ≈ Subjektive Wahrscheinlichkeit (Wette) Annahme: rationales Handeln, d.h. Wette wird angenommen, wenn erwarteter Gewinn aP(A) Wetteinsatz e übersteigt //Maximaler Wetteinsatz e max = aP(A) Wenn jemand e max zahlt, dann entspricht seine subjektive Wahrscheinlichkeit den max. Wettquoten: P(A) = Relatives Häufigkeitsmaß f(A) = n(A)/n erfüllt Axiome von Kolmogorov ( ̂

Wahrscheinlichkeit (P), relative (

= { }

)

̂

)

) und absolute Häufigkeit

1)

2)

0 ≤ P(A) ≤ 1, 0 ≤ f(A) ≤ 1, 0 ≤ n(A) ≤ n ;

Monotonie: wenn

P( ̅ ) = 1 P(A); f/n

, dann gilt P(A) ≤ P(B), f(A) ≤ f(B), n(A) ≤ n(B)

3)

Allgemeiner Additionssatz: P(

) = P(A) + P(B) P(

); f/n

4)

5)

: wenn A i

Ω eine Partition von B

Ω, dann gilt

; analog für f und n

6)

relative Häufigkeit:

Kontingenztabelle: gem. absolute Häufigkeiten;

Indifferenztabelle: gemeinsame rel. Häufigkeiten bei stochast. Unabhängigkeit nennt alle hypothetischen gemeinsamen absoluten oder ralativen Häufigkeiten, die sich bei statistischer Unabhängigkeit ergäben ̂

Bedingte relative Häufig- und Wahrscheinlichkeiten (

n ij

)

Bedingte Wahrscheinl.:

P(B|A) =

für P(A) > 0

Bedingte relative Häufigkeit:

für n(A) > 0

Multiplikationssatz:

Formel der totalen Häufigkeit bzw. Wahrscheinlichkeit:

 

B i eine Partition von Ω:

Bsp. P( Teil A qualitätsgerecht): P(Q|A);Erwerbstätige unter Männern: P(E|M) ̅

Bsp. bei 2 ZV/Merkmalen ̂

Bayes-Formel (

Es sei B i eine Partition von Ω:

̅

)

Bsp: Ziegenproblem (Lösung: Totale Wahrscheinlichkeit von P(T 2 ) berechnen und dann P(A 3 |T 2 ) mit der Bayes-Formel berechnen) Statistische (f) / stoch. (P) Unabhängigkeit für Ereignisse A und B (f ̂

)

, da

Vollständige stochastisch Unabhängigigkeit, wenn A,B,C:

1)

2)

Sie paarweise stochastisch unabhängig sind und

Unabhängig unkorreliert, ABER unkorreliert heißt nicht unabhängig

3. Merkmale und Zufallsvariablen und ihre Verteilung

Nominalskala (Qualitative Merkmale) gleich / ungleich

Ordinalskala (Komparative Merkmale) gleich / ungleich + Rangordnung Kardinalskalen (Quantitative Merkmale)

Typ

Dimensions-

Fester

Abstände

Verhältnisse

Beispiel

(

skala)

einheit(fest)

Nullpunkt

messbar

messbar

Intervall

Nein

Nein

Ja

Nein

Temp.

Verhältnis

Nein(versch.E.)

Ja

Ja

Ja

Zeit/€

Absolut

Ja

Ja

Ja

Ja

Semester

Diskrete und stetige Merkmale diskret: endlich o. abzählbar viele Merkmalsausprägungen (z.B. Semesterzahl) stetig: überabzählbar viele Merkmalsausprägungen(z.B. reelle Zahlen)

Verteilungsfunktion diskreter Merkmale/Zufallsvariablen Nichtüberschreitungshäufigkeit bzw. -wahrscheinlichkeit:

{

Grafische Darstellung: Treppenfunktion Eigenschaften: 1. Monotonie 2. Rechtsstetigkeit 3. Grenzwerte 0 und 1

1. Monotonie 2. Rechtsstetigkeit 3. Grenzwerte 0 und 1 Intervallwahrscheinlichkeit: P   ( ) ( )

Intervallwahrscheinlichkeit:

P

 

(

)

(

)

(

)

(

)

(

)

(

)

 

(

)

Häufig-/Wahrscheinlichkeitsfunktion diskreter Merkmale/Zufallsvariablen ̂

Punkthäufigkeiten bzw. Wahrscheinlichkeiten: (

f x (x) = { f(X = x) diskretes Merkmal X ; P(X = x) diskr ZV X

Träger D(X) = {

)

Merkmal X ; P(X = x) diskr ZV X Träger D(X) = { ) } Häufig-

}

Häufig- und Wahrscheinlichkeitsdichte stetiger Mm/ZV klassierte Daten

̃

̃ Merkmalswert von

liegt in der i-ten Merkmalsklasse

 

Hilfstabelle:

̃ ]

n

i

f

i

F

i

Δx i

 

x

i

Ø-Wert:

̅

Ø-Wert: ̅ ∑

Varianz:

̅

Modus:

modale Klasse = Klasse mit größter Häufigkeitsdichte

p-Quantile (z.B. p=0,5 ist Median)

F*(x (p) ) =

̃

(

̃

)

 

̃

x (p) = ̃

für

̃

̃

Approximierende Verteilungsfunktion:

F*(x) =

*(x) dx

F*(x) = {

̃

̃

̃

̃

Annahme: Gleichverteilung innerhalb der Klassen

Häufigkeitsdichtefunktion / Histogramm

F*(x) =

Verteilungsfunktion: F X (x) =

*(x)dx ;

X (s) dx + c

F X (x) =

{

̃

̃

̃

̃

̃

̃

; X (s) dx + c F X (x) = { ̃ ∫ ̃ ̃ ̃

̃

̃

Punkthäufigkeiten/-wahrscheinlichkeiten

für stetige Zufallsvariablen gilt: P(X = x) = 0

für stetige Zufallsvariablen gilt: P(X = x) = 0 Verteilungsfunktion ZV: F X (x) = ∫

Verteilungsfunktion ZV: F X (x) =

Wahscheinlichkeits- Dichtefunktion: f x (x) = F’ x (x)

1. f x (x) ≥ 0

f(x) kann auch > 1 sein Wahrscheinlichkeit, dass X im Intervall ]a;b] liegt:

X (s) ds

2.

(x) dx = 1

Bsp.

= -0,125; x = 4;

*

+

Zeichnung: y = 0,5; Steigung

4. Maßzahlen f. eindimensionale Verteilung quantitat. Merkmale/ZV

Modus = diejenige Ausprägung, die am Häufigsten vorkommt

bei klassierten Daten: modale Klasse = Klasse mit größter Häufigkeitsdichte

Median und p-Quantile:

für stetige ZV:

Arithmetisches Mittel

diskrete Merkmale:

diskrete ZV:

stetige Merkmale:

stetige ZV:

Nulleigenschaft: artihmetisches Mittel der Abweichungen ist null Affin lineare Transformationen übertragen Mittelwerte ̅ beschreibt Schwerpunkt von Daten, E[X] Verhalten einer ZV (pot. Ergebnis) Anwendung, wenn Nenner bekannt (Preis/Aktie und Anzahl Aktien bekannt) ̅

wenn y = ax, dann ̅

 

{

F X (x (p) ) = p

̅

 

[

]

̅

 

[

]

}

x (p) =

, wobei x i = Klassenmitte

Harmonisches Mittel

(

)

diskrete Merkmale/ZV: ̅̅̅

Anwendung bei Verhältniszahlen, wenn Nenner unbekannt (km/h und h=?) Für ZV: Kehrwert des Erwartungswertes von 1/X: ̅̅̅ = 1 / E[1/X] Geometrisches Mittel

Einzeldaten: ̅ | ̅ =exp(Anwendung bei Wachstumsraten: ̅

Quartilsabstand und Spannweite Quartilsabstand: ̅ Spannweite: Differenz zwischen größten u. kleinstem Wert (nicht bei Häufigkeitsverteilungen mit Mermalsauspr, da Häufigkeit 0 möglich) -> Häufigkeitsvert. : R 0 = x [n] -x [1] = größter kleinster Merkmalswert

̅

(

)

x 1 f(x1) x 2 f(x2)

x

n

f(xn)

| (1 + r G ) wobei r G =Wachstumsrate

̅ ( ) x 1 f ( x 1 ) x 2 f ( x 2

Varianz = Streuungsmaß

= mittlere quadratische Abweichung d. Werte v. arithmetischen Mittel ̅̅̅

diskrete Merkmale:

 

̅

f(x i )

̅

̅

stetige Merkmale:

 

̅̅̅

̅ , wobei x = Klassenmitte [

]

x i 2 * f(x i ) - ̅

diskrete ZV:

[

]

stetige ZV:

=

wenn y = ax, dann

Variationskoeffizient:

̅

Standardabweichung:

Schwankungsintervalle Wahrscheinlichkeit des k-fachen SW:

Chebyshevsche Ungleichung:

Bsp NV: 2

Bsp. Zentrales Schwankungsintervall mit Irrtumswahrscheinlichkeit α = 0,01

0,99

(

)

5. Eindimensionale parametrische Verteilungsfamilien

Anzahl des Auftretens von Eigenschaften in Stichprobe mit Zurücklegen DISKRET

… in Stichprobe ohne Zurücklegen DISKRET

Anzahl der Misserfolge bis zum ersten Erfolg DISKRET

Anzahl des Auftretens eines Ereignisses in bestimmten Intervall DISKRET

Wartezeit zwischen 2 Poisson-Ereignissen STETIG

insbesondere eine Fehlerverteilung STETIG

Diskrete Gleichverteilung

f Gl = (x ; N) = 1 / N

für

x = 1,

N

E[X]= N+1 / 2

Var[X]=N²-1 / 12

Binomialverteilung („mit Zurücklegen“) )

F Binom (x; n; p) = 1 - F Binom (n - x - 1; n; 1 - p)

(

[

]

[

]

Hypergeometrische Verteilung („ohne Zurücklegen“)

x = gezogene schwarze K.

n = Stichprobe; N = Kugeln, M = schwarze Kugeln

 

(

)(

)

E[X]=np

V

 

[

]

 
 

(

)

Geometrische Verteilung („mit Zurücklegen“)

 

p

= Erfolgswahrscheinlichkeit =

;

x = Anzahl der Misserfolge

 
 

[

]

[

]

für I ≤

x

i +1

+ Unabhängigkeitseig.

Poisson-Verteilung

Eigenschaften eines Poisson-Prozesses:

1. WS des Eintretens eines Ereignisse proportional zur Länge des betrachteten

Zeitraums, also nur abhangig von der Länge, nicht Lage eines Intervalls

2. keine zwei Ereignisse treten gleichzeitig ein

3. einzelne Ereignisse stochastisch unabhangig

P(X > a+b|X > a) = P(X > a+b) / P(X>a) =

λ = Anzahl der durchschnittlichen Ereignisse in einem Intervall (λ>0 )

=

= P(X>B)

x=0,1,2,

[

]

[

]

Rechteckverteilung, Stetige Gleichverteilung

beide für x ≥ 0

{ Var[X]=(b-a)² / 12

E[X]=(a+b)/2

Exponentialverteilung

Bsp.

beide für x ≥ 0 [ , da Punktwahrscheinlichkeit

]

[

]

Unabhängigkeitseigenschaft:

zukünftige Wartezeit unabhängig von bereits vergangener Wartezeit

Normalverteilung √
Normalverteilung
∫ √ Invarianz: a + bX ~ N( a + bμ x ; b 2
∫ √
Invarianz:
a + bX ~ N( a + bμ x ;
b 2 * σ 2 x )
Symmetrie:
a + bX ~ N( a + bμ x ; b 2 * σ 2 x

[

]

[

]

Reproduktivitätseigenschaft: wenn X 1 und X 2 stochastisch unabhängig

 dann: ) Standardnormalverteilung Wendepunkt ; α-Quantile:λ a , ( ) = λ a =
 dann:
)
Standardnormalverteilung
Wendepunkt
;
α-Quantile:λ a ,
(
)
=
λ a = - λ 1-a
Rechnen mit Erwartungswert/Varianz
[
]
[
]
[
]
[
]
[∑
]
[
]
bei stochastischer Unabhängigkeit
[
]
[
]
[
]
[
]
[
]
[
]
Approximationen
Hypergeom ~ Binomial
Binomial ~ Poisson
Binomial ~ Normal
Poisson ~ Normal
n/N ≤ 0,05
und
p
= M / N
p ≤ 0,1
n ≥ 30
= np
np ( 1 – p ) > 9
X
+ 0,5
10
X
+ 0,5

Stetigkeitskorrektur bei Appr. einer diskreten durch eine stetige Verteilung

1)

2)

6. Mehrdimensionale Verteilungen quantitativer Merkmale/ZV

a) Zufallsexperiment wird n-mal wiederholt

b) n Zufallsvariablen in einem Zufallsexperiment

c) n Zufallsvariablen in einem Zufallsexperiment, das m-mal wiederholt wird

gemeinsame Verteilungsfunktion von X und Y:

„Two increasing“-Eigenschaft: wenn

{

dann

Häufig-/Wahrscheinlichkeitsfunktion:

Graph = dreidimensionales Stabdiagramm

WS-massenfkt (=RandWS f x ) f x (x) =

Bedingte Verteilungsfunktion:

klassierte Daten:

Bedingte Häufigkeitsdichte:

,

(

(

)

)

X,Y (x,y i )

{

Bsp. P (X=x i , Y=1)=P(Y=1)

Mehrdimensionale Verteilungsfunktion stetiger Merkmale/ZV

Dichtefunktion:

 

(Graph = Stereogramm)

 

Bedingter Median: z.B. Bedingter Mittelwert:

 

(

)

{

|

(

|

)

}

 

̅(

)

(

|

)

 

̂

̂

>

für klassierte Daten:

̅(yj) =

 
 

Bedingte Varianz:

 

̅(

)

f(

 

|

)

Unabhängigkeit:

;

,(für

)

Erwartungswert:

 

Kovarianz:

Cov(XY) ≠ 0, d.h. Abhängigkeit

 

Einzeldaten:

̅

̅

=

̅

̅

Klassierte Daten:

( ̂

̂

̅)

̂

̂

̅

* f ij

KorrelationskoeffizientMm:

 

ZV:

0 keine / 0 0,5 schwache / 0,5 0,8 mittlere/ 0,8 1 starke/ 1 perfekte

=

für ZV:

̅ (yj) - ̅

j) /

= 1 -

(yj)

j)

/

=E[VAR[X|Y]]/VAR[X]=1- VAR[E[X|Y]]/VAR[X]

Definiert durch den Anteil der Variany auf der Regressionslinie an der Gesamtvarianz

7. Stichproben und Stichprobenfunktionen

Unabhängige und einfache Stichproben (1) Unabhängige Stichprobe:

(2) Identisch verteilte Stichprobe:

(1)+(2) Einfache Stichprobe:

Stichprobenmomente

 

̅

Stichprobenmittel:

 

̅

Stichprobenvarianz:

 

̅

̅

Stichprobekonvarianz:

̅̅̅

̅

Erwartungswert/Varianz des Stichprobenmittels bei einer einfachen Stichprobe ̅

Erwartungswert d. Stichprobenmittels = Mittelwert d. Grundgesamtheit

Erwartungswert:

[ ̅

]

*

+

[

]

Varianz:

Varianz d. Stichprobenmittels = Varianz der Grundgesamtheit/n

[ ̅

]

[

]

Chebyshev-Gesetz der großen Zahlen

 

̅

für alle

gilt:

wenn

der

Stichprobenumfang

n

ausreichend

groß

ist,

dann

liegt

das

Stichprobenmittel nahe beim Mittelwert der Grundgesamtheit

Chebyshevsche Ungleichung:

̅

Zentraler Grenzwertsatz Sind (1) stochastisch unabhängige, in der Grundgesamtheit mit Stichprobenmittel unabhängig
Zentraler Grenzwertsatz
Sind
(1) stochastisch unabhängige, in der Grundgesamtheit mit
Stichprobenmittel unabhängig von der Verteilung der Grundgesamtheit für
einen (3) großen Stichprobenumfang n approximativ normalverteilt mit
̅
[ ̅
]
und
[ ̅
]
: ̅
⁄√

Mittelwert

und

Varianz

(2)

identisch

verteilte

ZV,

dann

ist

das

Stichproben aus normalverteilten Grundgesamtheiten ̅

Stichprobenmittel:

(

)

̅
̅

(√

)

t-Verteilung mit k = n – 1 „Freiheitsgraden“

Varianz σ 2 unbekannt:

̅
̅

̅

Bsp:P

χ²-Verteilung mit n – 1 „Freiheitsgraden“ Stichprobenvarianz ist unabhängig vom Stichprobenmittel χ²-verteilt;

χ²

(

)

(

)

vom Stichprobenmittel χ ² -verteilt; χ² ( ) ( ) Punktschätzung 8. Methode der Moment (MM)

Punktschätzung

8.

Methode der Moment (MM)

Stichprobenmoment wird seinem Erwartungswert gleichgesetzt

̅

Maximum-Likelihood-Schätzer

1) Likelihoodfunktion:

ist der zu schätzende Parameter

= E[ ̅

]=

x = ̂ x

2 )Logarithmieren:

3) Maximieren:

̂

Asymptotische Erwartungstreue: Erwartungswert des Schätzers konvergiert mit zunehmendem Stichprobenumfang n gegen den wahren Parameter.

Rechenregeln für ML-Schätzer

1)

2) ̂

Rechenregeln des Logarithmus

1)

2)

̅

3)

4)

3)

(

)

9. Intervallschätzung (Vertrauenswürdigkeit)

Eine Pivotgröße ist eine ZV, die den unbekannten Parameter θ beinhaltet, deren Verteilung jedoch unabhängig von θ ist. 1) Mittelwert bei bekannter Varianz:

̅ √ * ̅
̅
* ̅

̅

+

2) Mittelwert bei unbekannter Varianz:

̅ √ Erwartete Länge: E(L) = 2
̅
Erwartete Länge: E(L) = 2
√
√

* ̅

*

⁄√

̅

+

3) Varianz bei bekanntem Mittelwert:

[∑

4) Varianz bei unbekanntem Mittelwert:

̅

χ²

;

[

]

]

Ein Konfindenzintervall ist ein Bereich, dessen obere und untere Grenze Stichprobenfunktionen sind; mit einer vorgegebenen Wahrscheinlichkeit schließt dieser Bereich den unbekannten Parameter der Grundgesamtheit ein. Unverbundene und verbundene Stichproben

unverbunden

an 2 Objekten wird eine ZV beobachtet X,Y unabhängig

verbunden

an einem Objekt werden 2 ZV beobachtet X,Y paarweise unabhängig

5) Mittelwertdifferenz - unverbundene Stichproben - bekannten Varianzen:

̅

̅

* ̅

̅

̅

̅

+

6) Mittelwertdifferenz - unverbundene Stichproben - unbekannten Varianzen:

̅ ̅ √ ̅
̅ ̅
√ ̅

̅

[ ̅

̅

√ ̅

√ ̅

(

)

̅

̅

√ ̅

√ ̅

(

)]

Annahme 1: X und Y stochastisch unabhängig (gilt auch für 5 & 8) 2: Varianzen von X und Y sind identisch

7) Mittelwertdifferenz - verbundene Stichproben - unbekannten Varianzen:

̅

̅

 

[ ̅

̅

̅

̅

 

̅

̅

wobei

]

̅

8) Varianzenquotienten - unbekannte Mittelwerte - unbekannte Varianzen

H 0 : δ X ≥ δ Y

9) Approximative Konfidenzintervalle

| krit.B.:

siehe 1)

| analog

2

bei exponentialverteilter GG: n > 100, Pivotgröße normalverteilt

̅ √ √
̅

*

√ √ ̅ ̅
̅ ̅

+

Approximationsregeln: np 0 (1-p 0 ) > 9 ;

30<n<100, Pivogröße

;

bei Erfolgswahrscheinlichkeiten:Näherung von p(1-p) durch ̅

 

̅

10. Statistische Hypothesentests

H 0 ist Gegenteil der Vermutung und enthält ≤, ≥, = Fehler 1. Art ( α – Fehler) Eine wahre Hypothese wird abgelehnt Fehler 2. Art (β – Fehler) Eine falsche Hypothese wird angenommen

Art (β – Fehler) Eine falsche Hypothese wird angenommen 1-seitiger Test: 2-seitiger Test: Vorgehensweise: 1. H

1-seitiger Test: 2-seitiger Test:

Vorgehensweise: 1. H 0 (und H 1 ) 2.Testgröße(Pivotgröße) 3.Kritischer Bereich

4.Teststatistik berechnen 5. Testenscheidung p-Wert: gibt an, wie groß das Testniveau gewählt werden müsste, damit H 0 gerade noch akzeptiert würde. p-Wert > Niveau α heißt H 0 kann nicht verworfen werden. Gütefunktion (wird größer: je weiter H 0 von H 1 weg; je größer n oder α

G( ) = P(H 0 abzulehnen|

)=1-β( ); z.b. G(

)=1- β(

)=1-

(

)

11. Analyse qualitativer Merkmale und ZV

Entropie H A = -1,443∑ normiert: mit D = [0;1] - wächst nicht linear mit
Entropie H A = -1,443∑
normiert:
mit D = [0;1]
- wächst nicht linear mit der Streuung
- ermöglicht Vergleich d. Streuung 2er Merkmale (H*
= 1 » Gleichverteilung)
A
̅
B
̅
1
mittlere quadratische Kontingenz
(
)
mit 0 ≤
≤ min,k-1, l-1}
bei Unabhängigkeit, max bei Abhängigkeit;
K-Tabelle,
I-Tabelle

=

/ n ,

Cramérs V:

=

bei Vierfeldertafel

{

} , 0≤V≤1, damit Werte [0;1], normierte

Anpassungstests: 1. einfache H 0 2. zusammengesetzte H 0

1. Verteilung der GG ist durch H 0 vollständig spezifiert.z.b. H 0 : X

H 0 : „X folgt der parametrischen Verteilung F X (x; θ)“

(

̂

)

̂

z.B. H 0 : X

N(

Poi(

Approximation ist „gut“, wenn

für k ≤ 8;

für k > 8

= 1,5)

Wenn

zu klein ist, mit der nächst-höherer Klasse kombinieren!

 

Bsp.:

= P(X = 0|

= 1,5) = 0,2231 E[N 1 ] =

= 26,772

(n = 120)

2.Verteilung der GG ist bis auf einige unbekannte Parameter vollst. spezifiert

H 0 : „X folgt der parametrischen Verteilung F X (x; ̂ )“

z.B. H 0 : X

N(

)

(

̂

)

 

̂

Bsp.:

̂

̅

und

̂

̂

P(X ≤ 160|

̂

̅

r = Anzahl d. geschätzt. Param.

(2 Parameter geschätzt

̂

)

)

empirischer Wert > kritischer Wert, dann H 0 ablehnen!

N

i = beobachtete Häuf.

= theoretische WS

n

= theoretischen Häuf.

Tabelle: | i |

X i

|

n i

|

n i -

̂

|

(n i -

̂

)² /

̂

|

x = 0,

WS ausrechnen, bei x ≥ 5 Verteilungsfunktion!

Unabhängigkeitstest; Ausgang: ZV X und V, Träger zerlegt in k bzw l Klassen

unter H 0 : „Die ZV X und Y sind unabhängig voneinanger verteilt‘‘:

X und V verbunden, H 0 zusammengesetzt, insg. k-1 RandWs Schätzung der RandWS mittels relativer Häufigkeiten:

̂

Prüfmaß:

, l-1 RandWs

;

/ n ≥ 5

=

, ̂

=

=>

̂

=

; Approximationsregel:

(

(

)

)

~

(

)⁄

≥ 10 und

Homogenitätstest ; Ausgang: ZV X und V, Träger identisch, k Klassen

H 0 : p (1)i = p (2)i

=

; ̂

= (

) /

)

Prüfgröße:

Arbeiten mit R

Dateneingabe von Zahlen und Bezeichnungen

(

̂

)

(

̂

)

̂

̂

;

a=c("m","m") Vektor : x=c(2.2,2.0,1.8)

;

n = Anzahl Werte in x: n=length(x)

x = seq(Anf., Ende, Abstand); x = seq(A, E, , Anzahl);x = seq(A, E, length=Anzahl); Aufruf: x[stelle] , x[von:bis]

Werte aufsummieren: sum(x), Erzeugen vieler gleicher Werte:

exp: e ;

plot(x,y,main="f(x)=x^2", type="l")

sortieren: x = c(4,6,76,2,6,1.3) und x = rep(0:2,c(4(0 vier mal!),2,7))

;

sort(x)

: log(10/3, base=10)

: log(4^2, base=exp(1))

Graphen Zeichnen plot(x-Achse,y-Achse,type=“l / p / b / s=stufen“,main=“Titel“) hist(bsp[zeile,spalte]) , hist(x,grenzen)

abline(v=0) / abline(h=0)

Integral: integrate(variable, lower=0, upper=1)

Diagramme:

Säulendiagramm: barplot(x, names=y, col=z) Kreis: pie(x, y)

senkrechte / waagrechte linie :

Datenmatrix

Allgemein > matrix(c(Werte),Zeilenzahl,Spaltenzahl)

Bsp.

Eingabe > daten.matrix=matrix(c(a,b,x,y),length(a))

Abfrage > daten.matrix

Wert der Indifferenztabelle …an der Stelle 3,5 > sum(xy*3,+)/n*sum(xy*,5+)/n

Randhäufigkeiten

Zeilen > margin.table(gem,1) ; Spalten > margin.table(gem,2)

Bedingte relative Häufigkeit

> matrix[Zeile,Spalte]/Datensatz[Datenstelle]

Einlesen von Daten aus externen Dateien

> stat=read.table("d:/stat.txt",header=TRUE,dec=".")

Funktionsfenster öffnen: my.function=fix(my.function)

Maßzahlen

Modus von Merkmal Z : Z[which (n==max(n)]

Mittelwert von Z:

Maximum: max(x) Minimum: min(x) Median > median(stat[,8])

Quantile:

sum(Z*n)/sum(n)

quantile(x,0.75)

Arithmetisches Mittel:

mean(x)

oder sum(x)/length(x)

Harmonisches Mittel für Vektor V:

vmean=sum(s)/sum(s/v)

Geometrisches Mittel: Kurswerte > Kurs_1=Kurs[2:n]/Kurs[1:n-1]

-Wachstumsrate > prod(Kurs_1)^(1/(n-1))-1*100 (= Exponent) Varianz > varianz=sum((x-mean(x))^2)/(length(x)) Standardabweichung > sqrt(varianz) Variationskoeffizient > standardabweichung/mean(stat[,1])

Stem-and-Leaf-Diagramm

stem(bsp[zeile,spalte]) Box-Plot:Vertikal: boxplot(streik) , Horizontal: boxplot(streik, horizontal=TRUE) Eingebaute Varianz > var(stat[,1]) Berichtigung > var(stat[,1])*(length(stat[,1])-1/length(stat[,1])

Binomialverteilung

Eingabe der x-Werte > x=seq(k,n,,Anzahl der Werte) oder >x=seq(k,n,length=Anzahl der Werte) oder >x=seq(k,n,Abstand der Werte) Sortieren der x-Werte >x=sort(x) ; Graph von f X > plot(x,dbinom)

d=WS-(massen)fkt p=Verteilungsfkt q=Quantil , r=Zufallszahlen

binom(x,n,p)

exp(x,λ)

pois(x,λ)

geom(x,p)

hyper(x,M,N-M,n)

unif(x,a,b)

t(x,df)

chisq(x,df)

f(x,df1,df2)

 

dnorm(x,μ,σ),

dnorm(x,mean(x)),sqrt(Varianz)) , dnorm(x,mean(x),sd(x))

dnorm(x,mean(x),sqrt(var(x)) α-Quantile >qnorm(α,μ,σ) Erzeugung von Zufallszahlen >rnorm(Anzahl Zufallszahlen n , μ=mu , σ=sigma)

Mehrdimensionale Zufallsvariablen

Var[X]: 1) var.x

2) var = var ( datei[r,s] ) * ( length(datei[r,s]) - 1) / length(datei[r,s]) Regel Kovarianzmatrix: z.b. (x,ncol=2) ; var(x) ; (n-1) / n*var(x)

Cov (XY):

Korrelationskoeffizient XY:

Korrelationsmatrix: cor(x,y)

= sum(x*y) / n-mean(x)^2

cov.xy = sum (x * y) / n mean (x)*mean(y)

( r.xy = ) cox.xy / sqrt(var.x * var.y)

Stichprobenvarianz: var(x)

t-Verteilung

Dichtefunktion >dt(x,Freiheitsgrade) Verteilungsfunktion >pt(x,Freiheitsgrade)

t 0,9; 15 >qt(0.9,15)

Zufallszahlen >rt(x,Freiheitsgrade)

;

P(X ≥ 2), 19 Freiheitsgrade >1-pt(2,19)

X

2 -Verteilung

X

2 0,25,10 bzw. 25%-Quantil mit 10 Freiheitsgraden > qchisq(0.25,10)

Dichte-/Verteilungsfunktion und Zufallszahlen: >d/p/rchisq(x,Freiheitsgrade)

Likelihoodfunktion

z.B. Likelihood=p^g*(1-p)^4 ; Log-Likelihood=log(Likelihood)

sum(log(dpois(x,lambda))) =

an der stelle lambda

Grenzen eines Konfidenzintervalls des Mittelwerts bei unbekannter Varianz

>lower=mean(x)-qt(1-α/2)*sqrt(var(x)/length(x))

>upper= mean(x)+qt(1-α/2)*sqrt(var(x)/length(x))

Mittelwerttest

t.test(x,alternative=“less“/“two sided“/“greater“,mu=2,43,conf.level=0,95) t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired

= FALSE, var.equal = FALSE, conf.level = 0.95,

p-Wert: Kl. Testniveau, auf dem die Stichpr. gerade noch signifikant ist. kleiner als Irrtumswhrs, dann Nullhypothese abgelehnt! alternative = "greater" is the alternative that x has a larger mean than y. mu: wahrer Mittelwert (oder wahre Mittelwertdifferenz) paired=gepaart, x und y nötig, gleiche Länge

var.equal: True schätzen mit ̅ (gepoolte S.)/False approx. mit df (Welch) statistic : value / parameter: df / conf.int: KI für MW / estimate: mittelwert(diff)

/ null.value: vermuteter MW(diff)-wert / alternative: Ha / method: typ

)

chisq.test(x, y = NULL, correct = TRUE,p = rep(1/length(x), length(x)), rescale.p

= FALSE, simulate.p.value = FALSE, B = 2000)

Weitere Funktionen

hist(x) Histogramm

hist(x, prob=T) Histogramm mit rel. Hfk.

lines(density(x))

zeichnet Dichtefunktion

Sonstiges:

Werte

Absolutbetrag: abs(x) // var klssiert:1/(length(b)-1)*sum((b-mean(b))^2)

Beispiele:

Chebyshev: Funktion, die die MindestWS für das k-fache Sl nach Chebyshev Ungleichung wiedergibt: chebyshev=function(k){1-1/k^2}

oder chebyshev=fix(chebyshev) + function(k){1-1/k^2}

Funktion SI in R, die die Wahrscheinlichkeit angibt, dass eine normalverteilte Zufallsvariable im k-fachen Schwankungsintervall liegt:

SI=fix(SI) ; > function (k){ SI=2*pnorm(k)-1 return(SI) } oder function (k, mu, sd){ SI=pnorm(mu+k*sd,mu,sd)-pnorm(mu-k*sd,mu,sd) return(SI) }