Formelsammlung Statistik CK Final

x i= Merkmal ∆ x i= Klassenbreite = x oi - x ui Grafiken
o u Merkmal: x
xi + x i
hi = Abs. Häufigkeit '
x i= Klassenmitte= Merkmalausprägung= xi
2 Stat. Einheit= ein Mensch z.B.
Stat. Masse= alle Menschen in Zeit und Ort
H i= Kumulierte Abs. Summenhäufigkeit Merkmalsarten: z.B.
h
f i= relative Häufigkeit= i qualitativ: Ausprägungen untersch. Sich durch ihre Art
n
F i= kumulierte rel. Summenhäufigkeit z.B.: Geschlecht, Familienstand oder Beruf
f
f ¿i = Häufigkeitsdichte = i quantitative: nehmen in reellen Zahlen bestimmte Auspräg.
∆ xi
an z.B.: Temperaturen Celsius, Kelvin, Aktienkurs
Diskrete Merkmale: können nur einzelne, klar voneinander getrennte Ausprägungen annehmen
z.B.: Geschlecht, Reisepartner, Art der Urlaubsreise
Stetige Merkmale: kann in einem bestimmten Bereich alle reellen Zahlen annehmen
z.B. Körpergröße, Körpergewicht, Alter, Temperatur fi Verteilungsfkt./Summenhäufigkeit
Quasi-stetig: zahlreiche mögliche Ausprägungen in einem Begrenzten Intervall Fi
z.B.: Geldgrößen, Arbeitslosenzahlen, Lagerbestände Gruppier Stab, Treppe
Datenverdichtung: t Balkendiagramm
Gruppiert: gleiche Merkmalswerte unter Berücksichtigung der Anzahl ihres Auftretens Klassiert Histogramm Summenpolygon
Zusammengefasst z.B. Staatsangehörigkeit, Klausurnoten
klassiert: benachbarte Merkmalswerte zu einer größeren Einheit zusammengefasst.
Z.B. Aktienkurs, Temperatur in Celsius & Kelvin, Alter
Skalenniveau
Nominal = die Ausprägung lässt keine Logische Reihenfolge zu. z.B. Beruf, Geschlecht, Familienstand, Telefonnummer, Farben, Religionen
Ordinal = besitzt eine logische Reihenfolge, jedoch können keine Abstände logisch gemessen werden -> Schulnoten, Platzierungen, Güteklassen
Metrisch Intervall = Rangfolge & Abstände können gemessen werden – jedoch sind keine Verhältnisse Möglich. Es gibt nur eine künstlichen „0 Punkt“ z.B.:
Temperaturen in Celsius & Kelvin, Kalenderjahre, Uhrzeit
Metrisch Verhältnis = Natürlicher Nullpunkt & geht nicht ins Minus-> Größe, Gewicht, Alter, Einkommen, Lebensdauer Kfz Reifen, Abfüllmenge Flaschen
Absolutskala: natürliche Einheit z.B. Einwohnerzahl, Lagerbestand, Reisende
Erhebungsarten: Primärerhebung, Sekundärerhebung, Tetiärerhebung
Lageparameter: −1 f
i u
Modalwert (Modus): (häufigster Wert Bzw. häufigste Klasse) F(x)= i F + ∗( x−x ) i =Verteilungsfunktion
Mindestens: Nominalskala ∆x i
Gruppierte Daten: x D =Der x imit dem größten f i 30% der Beamer gehen innerhalb von 320 Betriebsstunden kaputt
U
xi + X i
o
¿ hi
Klassierte Daten: Der x D = =x i mit f i ->Max!
'
H(x)= H−1
i + ∗( x−x ui )=Häufigkeitsfunktion
2 ∆ xi
 Die meisten Personen sind x i
Streuungsparameter
Median (Zentralwert):Median ist die in der Mitte liegende Merkmalausprägungeines geordneten Spannweite: Mindestens metrisch, geringer Datenaufwand, grobe
Datensatzes. Mindestens Ordinal skaliert! Gut bei Ausreißern!!! Maßzahl
Gruppierte Daten: x z = x igenau in der Mitte, wenn Anzahl x iungerade ist! 0,5*N Gruppierte Daten: R = x max - x min
Wenn Anzahl x i gerade ist, dann beide x i in der Mitte addieren und durch 2 teilen o u
Klassierte Daten: R = x Größte Klasse - x Kleinste Klasse
N 1
u 0,5−F i−1 Quartilsabstand: Q 0,75−Q 0,25 Mindestens metrisch, gut bei
Klassierte Daten: Wo F i ≥ 0,5 ist -> x + *∆x
i
fi
Arithmetisches Mittel (Mittelwert): Summe aller Merkmalausprägungen einer
Stat. Masse dividiert durch den Umfang N. Mindestens Metrisch skaliert
N
Gruppierte Daten: = x ∑ x ∗f
i =1 i i
Im Durchschnitt sind / ist…
x f
N '
Klassierte Daten: = x ∑ i =1 i i
* Geometrisches Mittel: multiplikativ verknüpft (Wachstumsprozesse)
Wachstumsfaktor = 25% -> 1+25% = 1,25
Gesamtfaktor = Gesamtrendite -> 1,127 = 12,7 %
x G=√n x 1∗x 2∗x n = w r

WR=( WF−1 )∗100
WF= (
√
x Endwert
Ausgangswert
)
Quantil: Mindestens Ordinal skaliert, Wertetabellen sortieren

gibt die Höhe eines Merkmalwertes x an, der von dem Anteil p aller
Merkmalsträger erreicht wird
KLASSIERT:
0,25−F i−1
Q0,25 = Wo F i ≥0,25 ist x ui + *∆ x
fi
0,5−F i−1
Q0,5= Wo F i ≥0,5 ist u
xi + *∆ x
fi
u
0,75−F i−1
Q0,75 = Wo F i ≥0,75 ist xi + *∆ x
fi
Bei Gruppiert: i x wo F ≥ 0,25 ; 0,5 ; 0,75
i
Streuungsparameter
2
Varianz
xS: mindestens metrisch, hohes Informationsniveau, mit der Standartabweichung am häufigsten verwendete Streuungsparameter
 Absolute Streuung
Gruppierte Daten:
2
x S 2
= (∑ * i) - 2
i x f x x
bei gruppierten Daten= ∑( i x ∗f ¿
i bei einem Merkmal, 2 Merkmale ( ∑ (xi∗hi)/∑ hi
2 '2 '
Klassierte Daten:
x S
=∑
i i(x ∗f )−x ² x
bei klassierten Daten =
i ∑( x¿¿ i ∗f ) ¿
 Die Anzahl der Personen weicht im Durchschnitt
um x Einheiten vom arithmetischen Mittelwert mit y Einheiten ab.
Standardabweichung S x: S x =√ S 2x oder S x= (
√ 1
N
∗∑ x 2i −¿ x 2)¿
Variationskoeffizient V: Mindestens Metrisch Verhältnis (bei metrisch intervall nur wenn keine neg. Werte; Begründen + Berechnung)
 Relative Streuung
Sx
 V= 0-0,2 gering, 0,2-0,5 mittel, 0,5-1 stark
x
W= (100+1) * 0,75 = 75,75
X0,75= 0,25* (x75) + 0,75* ( x76) = 125
W= (102+1) * 0,75 = 77,25
X0,75= 0,75* (x77) +0,25 * (x78)
x = ((225*100)/102)+(50/102)+(300+102)= 224,019
100=√ x−225² ∑ xi 2∗fi=2252 +10.000=60.625
(60625*100)/102=59436,27
59436,27 + 50² * (1/102)+300²*(1/102)= 60343,137
Sx=
√ 60343,137−(224,0196 ) 2
= 100,788
Multiple-Choice
Kennzahl resistent gegen Ausreißer. 4.Median und Quartilsabstand
Zwischen den Wertepaaren einer Datenreihe wird ein Korrelationskoeffizient von 0,98 ausgerechnet. Dies Bedeutet, dass: 3. Die beiden Merkmale stark positiv korreliert sind
Bei einer schiefen Verteilung (links- oder rechtsschief) 1. Sind Median und arithmetisches Mittel etwa gleich groß 2. Sind Median und Modalwert etwa gleich groß 3. Sind Modalwert und arith. Mittel etwa gleich groß
4. Lässt sich kein sinnvoller Lageparameter berechnen, da diese dann durch Ausreißer negativ beeinflusst werden. 5. Keine Antwort ist richtig. Der Mengenindex nach Laspeyres 1. Berücksichtigt bei der Berechnung der
Durchschnittspreise die Verbrauchsmenge des Basisjahres 2. Berücksichtigt bei der Berechnung der Durchschnittsmenge die Preise des Berichtsjahres. 3. Berechnet die reale Umsatzentwicklung eines Unternehmen
4. Liegt der Berechnung der Inflationsrate durch das statistische Bundesamt zugrunde.Wenn das Nominale BIP von 2000 auf 2400 Mrd. € steigt und IP(P) im gleichen Zeitraum von 100 % auf 120% steigt, dann
1. Beträgt die Veränderung des realen BIP 0%2. Beträgt der IM(P) 100 % 3. Steigt der IM(L) um 100%4. Steigt der IM(L) ebenfalls auf 120% 5. beträgt der IP(L) ebenfalls 120%
Die Schätzqualität einer linearen Trendfunktion1. lässt sich über die Höhe der Steigungskoeffizienten quantifizieren2. lässt sich über die Höhe des Niveauparameters quantifizieren3. wird über den horizontalen Abstand der
Wertepaare von der Trendgeraden gemessen4. lässt sich analog zur Regressionsfunktion über die Kovarianz der Merkmale messen5. Keine Antwort richtig
Die Gleichung y t +1= 0,6* y t + 0,4∗^y t 1.Entspricht dem Grundmodell der exponentiellen GlättungZwischen den Wertepaaren einer Datenreihe wird ein Rangkorrelationskoeffizient von -0,90 berechnet. Das
bedeutet, dass
1. die Ausprägungen stark negativ korreliert sind 2. zwischen den beiden Merkmalen ein sehr starker negativer linearer Zusammenhang besteht 3. die beiden Merkmale stark positiv korreliert sind4. zwischen den beiden Merkmalen ein
sehr starker negativer monotoner Zusammenhang besteht5. zwischen den Rangzahlen der beiden Merkmale ein sehr starker negativer monotoner Zusammenhang besteht
Die Verteilungsfunktion zeigt die jährlichen Urlaubsausgaben von 20 Angestellten eines Unternehmens. Welche Aussage ist richtig?
1. das erste Quartil liegt ungefähr bei 0,25 %

2. das erste Quartil liegt ungefähr bei 25%
3. das Quartil beträgt rund 250€
4. das erste Quartil hat ungefähr einen Wert von 0,1
5. das erste Quartil liegt ungefähr bei 380 €
6. Das Median liegt bei 50%
7. ungefähr 10% der Angestellten geben maximal 250 € für ihren Urlaub aus
8. ungefähr 10% der Angestellten geben mindestens 250 € für ihren Urlaub aus
400 Haushalte, deren verfügbares Jahreseinkommen zwischen 30000€ und 50000€ liegt, wurden nach ihrer Jahresersparnis befragt. Der Zusammenhang zwischen dem Verfügbaren Jahreseinkommen (x) und der
Jahresersparnis (y) lässt sich über die beiden Regressionsgeraden Y=400+0,14*x und X=1000+6,5*y darstellen. Welche der folgenden Aussagen ist richtig?
1.Der Korrelationskoeffizient zwischen X und Y liegt über 0,9 2. Der Korrelationskoeffizient zwischen x und y liegt in der Nähe von 03. Der Steigungskoeffizient von 6,5 entspricht der marginalen Sparquote der Haushalte
4. Der Steigungskoeffizient von 0,14 entspricht dem Einkommenszuwachs der Haushalte pro Jahr
Der Zusammenhang zwischen Geschlecht und Cola-Light-Interesse ist in der nachfolgenden Tabelle erfasst. Welche Aussage ist richtig?
Geschlecht Interesse an Cola-Light Kein Interesse an Cola- Light
männlich 5 15
weiblich 20 60
1.Die Tabelle erfasst den Zusammenhang zwischen Geschlecht und Cola-Light-Interesse bezeichnet und wird als Korrelationstabelle bezeichnet.2. Es besteht ein eindeutiger Zusammenhang zwischen Cola-Light-Interesse und
Geschlecht3. Das Maß von Cramér nimmt in diesem Fall einen Wert von ungefähr 0,5 an
4. Das Maß von Cramér ist in diesem Fall exakt 0Für ein additives Trendmodel wurden mit Hilfe des Phasendurchschnittsverfahrens die 3 folgenden Saisonindizies berechnet.
I1= 20,5 I2= -40,5 I3= 40,5 Welche Aussage ist richtig?1. Die Berechnung der 3 Saisonindizies muss falsch sein
Welche Aussagen zu den Skalenniveau sind korrekt?Intervallskalen haben interpretierbare Abstände Welche der folgenden Aussagen zu Grafiken sind richtig? Man benötigt wenigstens zwei metrische Variablen, um ein
Streudiagramm zu erstellen und be einem Boxplot bilden die Mittlere Linie in der Box den median ab, Anfang und Ende der Box die Grenzen von erstem und drittem Quartil. Extremwerte und Ausreißer gut darstellen
Welche Aussage zu Lageparameter sind richtig? Mittelwerte kennzeichnen die zentrale Lage einer verteilung // Modus, Median und geometrisches Mittel lassen sich für metrischskalierte Daten berechnen
Welche Aussagen zu Streuungsparametern sind richtig? Für die berechnung von Spannweite und Quartilsabstand benötigt man nur je zwei Werte// Variation, Varianz und Standartabweichung beziehen die verteilung
alles beobachteten Werte um das arithmetische Mittel ein/// Die Standartabweichung ist die Wurzel der Varianz.Welche Aussagen zu Zusammenhangsmaßen für ordinalskalierte Variablen sind richtig Cramer´s V kann
auch genutzt werden um den Zusammenhang zwischen ordinalskalierten Variablen zu bestimmen. Dann geht die aber mit einem Informationsverlust einher Welche der folgenden aussagen zu Korrelationen sind korrekt?
Spearman´s r und Pearson´s r können werte von -1 bis +1 annehmen// Spearman´s basiert auf einem Rangvergleich
Welche nachfolgende Aussage ist falsch? Nominal skalierte Merkmale können originär nicht in Zahlen ausgedrückt werden. Welche Aussage zu Lageparameter sind falsch? Bei einer schiefen Verteilung liegt der Median
im Boxplot außerhalb des Rechtecks (Box). Der Datensatz 0,9 / 1,2 / 1,2 / 1,9 / 2,7/ 3,0 beschreibt die Umsatzrenditen (in %) von sieben ausgewählten Unternehmen. Welche der folgenden Aussage hierzu ist richtig? Wenn
sich der letzte Wert des Datensatzes um 0,7 erhöht, erhöht sich der Mittelwert um 0,1.
Nice2Know
70 80
Frage nach einer Häufigkeit zwischen 2 Klassen -> neue Klasse bilden [80,120]= ∗2+ ∗2
3 5
Frage nach absoluter Schwankung -> Varianz und nach relativer Schwankung -> Variationskoeffizient
Quartile ablesen auf y-Achse Fi

fi
∗(38−xui )
Wie viele Beschäftige sind höchsten 38 Jahre alt? Klassen wo 38 enthalten ist -> F ( x=38 )=Fi−1 +
∆ xi
Wie viele sind mindestens 38? f ( x ≥38 ) =F ( 1 ) −F ( 38 ) =1−0,508=49,2%
Konstante Merkmalsentwicklung = Variationskoeffizient oder Varianz / Standardabweichung

Merkmal Y Nominal Ordinal metrisch
Merkmal X cov ( Rx , Ry) 1
s ² ( rx )= ∗∑ x ²−x
2
R=
Nominal Cramér R biserial Varianzanalyse
(rpb)
s ( rx )∗s (ry) N
evtl. Cramèr
evtl. Cramèr 1
Ordinal R biserial Rangkorre Rangkorre cov (x,y) = * ∑( x i∗y i ) - ( x∗y ) R( x )=R( y ) =
evtl. Cramèr
n
Metrisch Varianzanalyse Rangkorre rxy N +1
rpb
evtl. Cramèr
Korrelationskoeffizienz
2
Zusammenhang von nominalen Merkmalen: rxy = R
Randhäufigkeiten: Beispiel Reisepartner und Urlaubsart
Merkmal X Merkmal Y
Yk=1
Yk=2 Yk=3 Zeilensumme
Xi=1 H11 H12 H13 H1
Xi=2 H21 H22 H23 H2
Xi=3 H31 H32 H33 H3
Spaltensumme H1 H2 H3 N
h 1∗h 2 h 2∗h 2
z.B: H13= oder H22= von den 98 allein Reisenden würden also bei stat. Unabhängigkeit der Merkmale 52 Personen auf einen Erholungsurlaub
N N
setzen, was einen Anteil von 53,6 entspricht
Maß von Cramér: Ein Merkmal muss nominal skaliert sein ( Nur wenn über 0 oder 5, bei zwei )
x
2= n*

[( ∑
h ik ²
hi +h k)−1
] f(
Unterscheiden sich stark -> Abhängig

y 1 /∑spalte 1¿=¿ a; f( y 1 /∑Spalte 2 ¿=¿ b
 Gleich = Vollständige Unabhängigkeit
√
1 2
∗x 3 3−¿0,6 ) Mittlere Abhängigkeit, 6−1 ¿Starke Abhängigkeit
C=
n (0 – 0, ) Schwach Abhängig,(0, (0,
¿
min¿ ¿
Zusammenhang von metrischen Merkmalen:
Kovarianz und Korrelationskoeffizient (Bravais-Pearson)
Kovarianz cov (X,Y): ist die cov=0, folgt nicht zwingend, das kein Zusammenh. zwischen den Merkmalen X & Y besteht. Lediglich kein lin. Zusammenh.!
Nur Interpretation der Richtung, aber nicht der Stärke des linearen Zusammenhangs.
-cov wird umso größer, je häufiger zu einer Beobachtung, die Dif. der beiden Mekmalausp. X & Y von ihrem Mittelw. Das gleiche Vorzeichen haben
1
Beispiel: Cov(X,Y)= ∗( 18∗1000+ …+50∗2400 )−46,5∗2470=6745 [ Jahre∗EUR ]
10
Korrelationskoeffizient r xy : ist ein Maß für die Höhe des linearen Zusammenhanges von X & Y, er bewegt sich im Intervall von -1 & 1
-1 ≤ r ≤ 1 Zeigt die Richtung des linearen Zusammenhangs an oder Stärke des Zusammenhangs.
Bestimmtheitsmaß B² : Bewertung der Schätzqualität der linearen Regressionsfkt. (kann für lineare & für lichtlineare Fkt. verwendet werden)
Gibt den Erklärungswert der Regressionsfkt. Im Intervall von 0 bis 1 an, er bringt zum Ausdruck, wie gut die Variable Y durch die Regressionsfkt beschr. wird. Liegen alle
Beobachtungen auf der Regressionsfkt, so gilt B²=1. Z.B.: 0,2 =20% nur 20% können über das Merkmal x erklärt werden.
Regressionsfunktionen: Gegeben sind Datenpaare ( i, x y i)
Lineare Regression: Die Koeffizienten einer linearen Regressionsfunktion ^y x y 2 x*y
x
a a x
= 0+ 1 ergeben sich zu
a 0=
∑ y i ∑ x 2i −∑ x i y i ∑ x i = y−a1 x und
x
∑ i ∑ yi ∑
2
xi x yi
∑ i
n ∑ x2i −¿ ¿ ¿
n ∑ x i y i−∑ x i ∑ yi
a 1=
n ∑ x 2i −¿ ¿ ¿
a1
Hyperbelfunktion: ^y =a 0+ Die Koeffizienten der lineraren Regressionsfkt. ^
y= x y
1
x x ¿= (
¿
x ¿²
¿
x ∗y
¿ x
a 0+ a1 x ergeben sich zu
a 0= ∑
y i ∑ ( xi ) −∑ x i y i ∑ xi
¿ 2 ¿ ¿ ∑
yi
und xi
∑
∑ x ¿i ∑ ( x ¿i )² ∑ x ¿i y i
n∑¿¿
n ∑ x i y i−∑ xi ∑ y i
¿ ¿
a 1= ¿ x y x²
x
x³ 4 xy x² y
n ∑( x i )²−¿ ¿ ¿
Quadratische Funktion: ^ y = a 0 + a 1∗x + a 2∗x ²
∑ yi = a 0∗N + a 1∗∑ x i + a ∗∑ x
2
2
i
∑ x i ∑ yi ∑ x 2i ∑ x 3i ∑ x 4i ∑ x i y i ∑ x 2i y i
∑ x i∗y i = a ∗∑ x +a ∗∑ x +a ∗∑ x
2 3
0 i 1 i 2 i
∑ x i ²∗y i = a 0* ∑ x ² +a ∗∑ x ³+ a ∗∑ x
4
i 1 i 2 i
Multiple Lineare Regression: Geg. sind Datenpaare ( x i , y i ¿
y =a 0+ a1 x 1 +a 2 x 2 ergeben sich als Lösung des LGS

Die Koeffizienten einer multiplen linearen Reg. Fkt. ^
∑ yi = a 0∗N + a ∗∑ x + a ∑ x
1 1i 2 2i x1 x2 y x 21 x 22 x1 y x2 y x1 x2
∑ x 1 i∗y i=
2
a 0∗∑ x 1 i+ a1∗∑ x 1 i+ a2∗∑ x 1 i x 2 i ∑ x 1 i ∑ x 2 i ∑ yi ∑ x 21 i ∑ x 22 i ∑ x 1 i y∑ i x 2 i x∑
i x1 i x2 i
∑ x 2 i∗y i = a 0* ∑
x 2 i+ a1∗∑ x 1 i x 2 i +a2∗∑ x2 i
2
Lineare Regressionsfunktion nichtlineare Regressionsfunktion

Zusammenhang von ordinalen Merkmalen:
Rangkorrelationskoeffizient(R) nach Spearman:
6∗∑ d ²
Schüler a b c d e f ∑
i
R=1− 2
mit -1 ≤ R≤ 1 d =R ( x ) −R ( y )
i i i
Note (x) 2 5 3 2 2 3
n∗(n −1) Sympa(y) 1 4 5 1 3 2
6∗10 Rang(x) 5 1 2,5 5 5 2,5 21
R=1- =0,714
6∗35 Rang(y) 5,5 2 1 5,5 3 4 21
d -0,5 -1 1,5 -0,5 2 -1,5 0

R= + -> Gleichläufiger positiver Zusammenhang von x & y 10
R= - -> Gleichläufiger negativer Zusammenhang von x & y d² 0,25 1 2,25 0,25 4 2,25
R= 1 -> Extrem starker Zusammenhang
R= -1 -> Extrem schwacher Zusammenhang
R= 0 -> Kein Zusammenhang
Lineare Trendfunktion:
x1 y x² y² xy t ty
Bei t = 0 dann:
∑ x 1 i ∑ yi ∑ x 2 ∑ y ² ∑ x 1 i y i∑ t ∑ ty
(ungerade: Mittelwerte = 0), (gerade: Mittelwerte= -0,5 und 0,5)
Methoden zur Trendermittlung:
Methode der gleitender Durchschnitte
1 Wahl der Ordnung nach Datenmaterial wählen: für Quartalswerte eignen sich gleitende Durschschn. Vierter
Ungerade Ordnung -> ∗( y h + y i+ y j ) Ordnung. Je größer die Ordnung, umso stärker wird geglättet (langf. Trends erkennen!). Jedoch verbleiben
k auch weniger Durschnittswerte, die Ränder wachsen mit zunehmender Ordnung.
1 y h−1
Gerade Ordnung -> ∗
k 2 (
+ y h + y i+ y j +
y j +1
2 )
D(K) -> K= Anzahl der Zusammengefassten Werte
Methode der kleinsten Quadrate:
Zeitpunkt
Auf.dauer
y
Cod. t1 Cod. t2 t 2∗t 2 t 2∗y t =1 ,2 , 3 , … n
Codierung 1
Nov 05 2,7 1 -1,5 2,25 -4,05 Codierung t 2 =¿ (ungerade: Mittelwerte = 0), (gerade: Mittelwerte= -0,5 und 0,5)
Feb 05 3,2 2 -0,5 0,25 -1,6
^y (t )=a0 +a1∗t
Mai 05 2,6 3 0,5 0,25 1,3
Aug 05 2,4 4 1,5 2,25 3,6 n∑ ( y∗t 2 )−∑ y∗∑t 2 ∑ t2∗ y
∑ N=4 10,9 10 0 5 -0,75 a 1=
n ∑ t 22−( ∑t 2 )
2 wenn ∑ t 2=0 dann a 1=
∑ t2
2
Methoden zur Ermittlung der Saisonkomponente
Phasendurchschnittsverfahren: additives Modell
y ik Phasen y ik =¿ Beobachtungswert der k-ten Phase in der i-ten Periode
Periode Feb (k=1) Mai (k=2) Aug (k=3) Nov (k=4) i = Ordnungsnummer der Periode mit i= 1,2,…,m
k = Ordnungsnummer der Phase mit k= 1, 2, …, n
2005 (i=1) 2,7
2006 (i=2) 3,2 2,6 2,4 2,8

y . k =¿ arithmetisches Mittel aus den k-ten Phasen aller m Perioden (k-ten Spal.
2007 (i=3) 3,3 2,6 2,5 3,2
y = arithmetisches Mittel aus allen n Phasendurchschnitten (gesamtdurchs.)
T
2008 (i=4) 3,5 2,7 2,6 3,2 y ik =¿ Trendwert für die k-te Phase in der i-ten Periode
2009 (i=5) 3,6 2,8 2,7 T
T
y ik Phasen
Schritt 1. Berechnung der Trendwerte y ik Periode Feb (k=1) Mai (k=2) Aug (k=3) Nov (k=4)
Variante B: lineare Trendfunktion:
2005 (i=1) 2,768
^y (Nov 05)= ^y ( t 2=−7,5 )=2,9+0,0176∗(−7,5 )=2,768 2006 (i=2) 2,786 2,803 2,821 2,838
Variante A: Gleitende Durchschnitte der Ordnung k=n=Anzahl der PhasenSchritt
¿ T
y =y −y
2.Berechnung der Trend bereinigten Werte:
ik ik ik
¿
Beispiel= y =2,7−2,768=−0,068
14
Schritt 3. Berechnung durchschnittl. Trend bereinigter Werte
Bespiel: y ¿ik Phasen
−0,068−0,038+ 0,291+ 0,221 Periode Feb (k=1) Mai (k=2) Aug (k=3) Nov (k=4)
y ¿4 = =0,102
4 2005 (i=1) -0,068
n 2006 (i=2) 0,414 -0,203 -0,421 -0,038

1
y ¿=
N
∑ y ¿. k 2007 (i=3) 0,444 -0,274 -0,391 0,291
k=1 2008 (i=4) 0,574 -0,244 -0,362 0,221
Schritt 4. Berechnung des Saisonindizes I k durch die Normierung der 2009 (i=5) 0,603 -0,214 -0,332
Phasenmittelwerte ¿
y 0,509 -0,234 -0,377 0,102 y ¿=0
¿
I =y − y
k .k
¿
mit ∑ I k=0 .k
Ik 0,509 -0,234 -0,377 0,102 ∑ I k =0

Exponentielle Glättung:
Grundmodell Trendmodell
^y t +1= α∗y t + ( 1−α )∗^
y t 0≤ α ≤ 1 ^y t +i=at +b t∗i
^y t =α∗y t −1+ (1−α )∗^y t −1 a t=α∗y t + ( 1−α )∗(a t−1 +bt −1)
Vorgabe: ^y 1= y 1 b t=β∗(a ¿ ¿ t−at −1 )+(1−β)∗bt −1 ¿
Vorgabe: a t = y t „nur“ am Anfang
b t=¿ 0
Saisonmodell & Trendmodell
^y t +i=¿ ¿+b t∗i )* St +i− L L= Anzahl ZE je Saisonzyklus
α∗y t
a t= + ( 1−α )∗(at −1+ bt −1)
St −L
b t=β∗(a ¿ ¿ t−at −1 )+(1−β)∗bt −1 ¿
γ∗y t
St +i− L= + ( 1−γ )∗St −L
at
Nullhypothese:
T, nur bei metrischen Merkmalen
r(x , y)
√1−r ( x , y )² √
T= * N−2
KBα=(-∞;t df; 1-α/2)+(t df; 1-α/2 +∞)

T~df =N-2
T bei nominalen Merkmalen

T=χ²
Df=(m-1)*(n-1) -> T~x²2 m= Zeilenanzahl; n= Spaltenanzahl der Häufigkeitstabelle
KB0,05=[( x²2 ;0,95;+∞] -> ist [Wert aus der Tabelle;+∞]
T bei ordinalen Merkmalen

r(x , y)
T= *√ N−2
√1−r ( x , y )²
KBα=(-∞;t df; 1-α/2)+(t df; 1-α/2 +∞)
T bei Regressionsfunktionen
Df1 =p (Anzahl der Variablen) Df2=n-p-1 (Anzahl der Werte)

Formelsammlung Statistik CK Final

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Formelsammlung Statistik CK Final

Hochgeladen von

Copyright:

Verfügbare Formate

x i= Merkmal ∆ x i= Klassenbreite = x oi - x ui Grafiken

x G=√n x 1∗x 2∗x n = w r

Quantil: Mindestens Ordinal skaliert, Wertetabellen sortieren

1. das erste Quartil liegt ungefähr bei 0,25 %

Quartile ablesen auf y-Achse Fi

Konstante Merkmalsentwicklung = Variationskoeffizient oder Varianz / Standardabweichung

Unterscheiden sich stark -> Abhängig

 Gleich = Vollständige Unabhängigkeit

y =a 0+ a1 x 1 +a 2 x 2 ergeben sich als Lösung des LGS

Lineare Regressionsfunktion nichtlineare Regressionsfunktion

d -0,5 -1 1,5 -0,5 2 -1,5 0

2006 (i=2) 3,2 2,6 2,4 2,8

n 2006 (i=2) 0,414 -0,203 -0,421 -0,038

Ik 0,509 -0,234 -0,377 0,102 ∑ I k =0

KBα=(-∞;t df; 1-α/2)+(t df; 1-α/2 +∞)

T bei nominalen Merkmalen

KB0,05=[( x²2 ;0,95;+∞] -> ist [Wert aus der Tabelle;+∞]

T bei ordinalen Merkmalen

Df1 =p (Anzahl der Variablen) Df2=n-p-1 (Anzahl der Werte)

Das könnte Ihnen auch gefallen