Beruflich Dokumente
Kultur Dokumente
o u Merkmal: x
xi + x i
hi = Abs. Häufigkeit '
x i= Klassenmitte= Merkmalausprägung= xi
2 Stat. Einheit= ein Mensch z.B.
Stat. Masse= alle Menschen in Zeit und Ort
H i= Kumulierte Abs. Summenhäufigkeit Merkmalsarten: z.B.
h
f i= relative Häufigkeit= i qualitativ: Ausprägungen untersch. Sich durch ihre Art
n
F i= kumulierte rel. Summenhäufigkeit z.B.: Geschlecht, Familienstand oder Beruf
f
f ¿i = Häufigkeitsdichte = i quantitative: nehmen in reellen Zahlen bestimmte Auspräg.
∆ xi
an z.B.: Temperaturen Celsius, Kelvin, Aktienkurs
Diskrete Merkmale: können nur einzelne, klar voneinander getrennte Ausprägungen annehmen
z.B.: Geschlecht, Reisepartner, Art der Urlaubsreise
Stetige Merkmale: kann in einem bestimmten Bereich alle reellen Zahlen annehmen
z.B. Körpergröße, Körpergewicht, Alter, Temperatur fi Verteilungsfkt./Summenhäufigkeit
Quasi-stetig: zahlreiche mögliche Ausprägungen in einem Begrenzten Intervall Fi
z.B.: Geldgrößen, Arbeitslosenzahlen, Lagerbestände Gruppier Stab, Treppe
Datenverdichtung: t Balkendiagramm
Gruppiert: gleiche Merkmalswerte unter Berücksichtigung der Anzahl ihres Auftretens Klassiert Histogramm Summenpolygon
Zusammengefasst z.B. Staatsangehörigkeit, Klausurnoten
klassiert: benachbarte Merkmalswerte zu einer größeren Einheit zusammengefasst.
Z.B. Aktienkurs, Temperatur in Celsius & Kelvin, Alter
Skalenniveau
Nominal = die Ausprägung lässt keine Logische Reihenfolge zu. z.B. Beruf, Geschlecht, Familienstand, Telefonnummer, Farben, Religionen
Ordinal = besitzt eine logische Reihenfolge, jedoch können keine Abstände logisch gemessen werden -> Schulnoten, Platzierungen, Güteklassen
Metrisch Intervall = Rangfolge & Abstände können gemessen werden – jedoch sind keine Verhältnisse Möglich. Es gibt nur eine künstlichen „0 Punkt“ z.B.:
Temperaturen in Celsius & Kelvin, Kalenderjahre, Uhrzeit
Metrisch Verhältnis = Natürlicher Nullpunkt & geht nicht ins Minus-> Größe, Gewicht, Alter, Einkommen, Lebensdauer Kfz Reifen, Abfüllmenge Flaschen
Absolutskala: natürliche Einheit z.B. Einwohnerzahl, Lagerbestand, Reisende
Erhebungsarten: Primärerhebung, Sekundärerhebung, Tetiärerhebung
Lageparameter: −1 f
i u
Modalwert (Modus): (häufigster Wert Bzw. häufigste Klasse) F(x)= i F + ∗( x−x ) i =Verteilungsfunktion
Mindestens: Nominalskala ∆x i
Gruppierte Daten: x D =Der x imit dem größten f i 30% der Beamer gehen innerhalb von 320 Betriebsstunden kaputt
U
xi + X i
o
¿ hi
Klassierte Daten: Der x D = =x i mit f i ->Max!
'
H(x)= H−1
i + ∗( x−x ui )=Häufigkeitsfunktion
2 ∆ xi
Die meisten Personen sind x i
Streuungsparameter
Median (Zentralwert):Median ist die in der Mitte liegende Merkmalausprägungeines geordneten Spannweite: Mindestens metrisch, geringer Datenaufwand, grobe
Datensatzes. Mindestens Ordinal skaliert! Gut bei Ausreißern!!! Maßzahl
Gruppierte Daten: x z = x igenau in der Mitte, wenn Anzahl x iungerade ist! 0,5*N Gruppierte Daten: R = x max - x min
Wenn Anzahl x i gerade ist, dann beide x i in der Mitte addieren und durch 2 teilen o u
Klassierte Daten: R = x Größte Klasse - x Kleinste Klasse
N 1
u 0,5−F i−1 Quartilsabstand: Q 0,75−Q 0,25 Mindestens metrisch, gut bei
Klassierte Daten: Wo F i ≥ 0,5 ist -> x + *∆x
i
fi
Arithmetisches Mittel (Mittelwert): Summe aller Merkmalausprägungen einer
Stat. Masse dividiert durch den Umfang N. Mindestens Metrisch skaliert
N
Gruppierte Daten: = x ∑ x ∗f
i =1 i i
Im Durchschnitt sind / ist…
x f
N '
Klassierte Daten: = x ∑ i =1 i i
* Geometrisches Mittel: multiplikativ verknüpft (Wachstumsprozesse)
Wachstumsfaktor = 25% -> 1+25% = 1,25
Gesamtfaktor = Gesamtrendite -> 1,127 = 12,7 %
Standardabweichung S x: S x =√ S 2x oder S x= (
√ 1
N
∗∑ x 2i −¿ x 2)¿
Variationskoeffizient V: Mindestens Metrisch Verhältnis (bei metrisch intervall nur wenn keine neg. Werte; Begründen + Berechnung)
Relative Streuung
Sx
V= 0-0,2 gering, 0,2-0,5 mittel, 0,5-1 stark
x
W= (100+1) * 0,75 = 75,75
X0,75= 0,25* (x75) + 0,75* ( x76) = 125
W= (102+1) * 0,75 = 77,25
X0,75= 0,75* (x77) +0,25 * (x78)
x = ((225*100)/102)+(50/102)+(300+102)= 224,019
100=√ x−225² ∑ xi 2∗fi=2252 +10.000=60.625
(60625*100)/102=59436,27
59436,27 + 50² * (1/102)+300²*(1/102)= 60343,137
Sx=
√ 60343,137−(224,0196 ) 2
= 100,788
Multiple-Choice
Kennzahl resistent gegen Ausreißer. 4.Median und Quartilsabstand
Zwischen den Wertepaaren einer Datenreihe wird ein Korrelationskoeffizient von 0,98 ausgerechnet. Dies Bedeutet, dass: 3. Die beiden Merkmale stark positiv korreliert sind
Bei einer schiefen Verteilung (links- oder rechtsschief) 1. Sind Median und arithmetisches Mittel etwa gleich groß 2. Sind Median und Modalwert etwa gleich groß 3. Sind Modalwert und arith. Mittel etwa gleich groß
4. Lässt sich kein sinnvoller Lageparameter berechnen, da diese dann durch Ausreißer negativ beeinflusst werden. 5. Keine Antwort ist richtig. Der Mengenindex nach Laspeyres 1. Berücksichtigt bei der Berechnung der
Durchschnittspreise die Verbrauchsmenge des Basisjahres 2. Berücksichtigt bei der Berechnung der Durchschnittsmenge die Preise des Berichtsjahres. 3. Berechnet die reale Umsatzentwicklung eines Unternehmen
4. Liegt der Berechnung der Inflationsrate durch das statistische Bundesamt zugrunde.Wenn das Nominale BIP von 2000 auf 2400 Mrd. € steigt und IP(P) im gleichen Zeitraum von 100 % auf 120% steigt, dann
1. Beträgt die Veränderung des realen BIP 0%2. Beträgt der IM(P) 100 % 3. Steigt der IM(L) um 100%4. Steigt der IM(L) ebenfalls auf 120% 5. beträgt der IP(L) ebenfalls 120%
Die Schätzqualität einer linearen Trendfunktion1. lässt sich über die Höhe der Steigungskoeffizienten quantifizieren2. lässt sich über die Höhe des Niveauparameters quantifizieren3. wird über den horizontalen Abstand der
Wertepaare von der Trendgeraden gemessen4. lässt sich analog zur Regressionsfunktion über die Kovarianz der Merkmale messen5. Keine Antwort richtig
Die Gleichung y t +1= 0,6* y t + 0,4∗^y t 1.Entspricht dem Grundmodell der exponentiellen GlättungZwischen den Wertepaaren einer Datenreihe wird ein Rangkorrelationskoeffizient von -0,90 berechnet. Das
bedeutet, dass
1. die Ausprägungen stark negativ korreliert sind 2. zwischen den beiden Merkmalen ein sehr starker negativer linearer Zusammenhang besteht 3. die beiden Merkmale stark positiv korreliert sind4. zwischen den beiden Merkmalen ein
sehr starker negativer monotoner Zusammenhang besteht5. zwischen den Rangzahlen der beiden Merkmale ein sehr starker negativer monotoner Zusammenhang besteht
Die Verteilungsfunktion zeigt die jährlichen Urlaubsausgaben von 20 Angestellten eines Unternehmens. Welche Aussage ist richtig?
400 Haushalte, deren verfügbares Jahreseinkommen zwischen 30000€ und 50000€ liegt, wurden nach ihrer Jahresersparnis befragt. Der Zusammenhang zwischen dem Verfügbaren Jahreseinkommen (x) und der
Jahresersparnis (y) lässt sich über die beiden Regressionsgeraden Y=400+0,14*x und X=1000+6,5*y darstellen. Welche der folgenden Aussagen ist richtig?
1.Der Korrelationskoeffizient zwischen X und Y liegt über 0,9 2. Der Korrelationskoeffizient zwischen x und y liegt in der Nähe von 03. Der Steigungskoeffizient von 6,5 entspricht der marginalen Sparquote der Haushalte
4. Der Steigungskoeffizient von 0,14 entspricht dem Einkommenszuwachs der Haushalte pro Jahr
Der Zusammenhang zwischen Geschlecht und Cola-Light-Interesse ist in der nachfolgenden Tabelle erfasst. Welche Aussage ist richtig?
Geschlecht Interesse an Cola-Light Kein Interesse an Cola- Light
männlich 5 15
weiblich 20 60
1.Die Tabelle erfasst den Zusammenhang zwischen Geschlecht und Cola-Light-Interesse bezeichnet und wird als Korrelationstabelle bezeichnet.2. Es besteht ein eindeutiger Zusammenhang zwischen Cola-Light-Interesse und
Geschlecht3. Das Maß von Cramér nimmt in diesem Fall einen Wert von ungefähr 0,5 an
4. Das Maß von Cramér ist in diesem Fall exakt 0Für ein additives Trendmodel wurden mit Hilfe des Phasendurchschnittsverfahrens die 3 folgenden Saisonindizies berechnet.
I1= 20,5 I2= -40,5 I3= 40,5 Welche Aussage ist richtig?1. Die Berechnung der 3 Saisonindizies muss falsch sein
Welche Aussagen zu den Skalenniveau sind korrekt?Intervallskalen haben interpretierbare Abstände Welche der folgenden Aussagen zu Grafiken sind richtig? Man benötigt wenigstens zwei metrische Variablen, um ein
Streudiagramm zu erstellen und be einem Boxplot bilden die Mittlere Linie in der Box den median ab, Anfang und Ende der Box die Grenzen von erstem und drittem Quartil. Extremwerte und Ausreißer gut darstellen
Welche Aussage zu Lageparameter sind richtig? Mittelwerte kennzeichnen die zentrale Lage einer verteilung // Modus, Median und geometrisches Mittel lassen sich für metrischskalierte Daten berechnen
Welche Aussagen zu Streuungsparametern sind richtig? Für die berechnung von Spannweite und Quartilsabstand benötigt man nur je zwei Werte// Variation, Varianz und Standartabweichung beziehen die verteilung
alles beobachteten Werte um das arithmetische Mittel ein/// Die Standartabweichung ist die Wurzel der Varianz.Welche Aussagen zu Zusammenhangsmaßen für ordinalskalierte Variablen sind richtig Cramer´s V kann
auch genutzt werden um den Zusammenhang zwischen ordinalskalierten Variablen zu bestimmen. Dann geht die aber mit einem Informationsverlust einher Welche der folgenden aussagen zu Korrelationen sind korrekt?
Spearman´s r und Pearson´s r können werte von -1 bis +1 annehmen// Spearman´s basiert auf einem Rangvergleich
Welche nachfolgende Aussage ist falsch? Nominal skalierte Merkmale können originär nicht in Zahlen ausgedrückt werden. Welche Aussage zu Lageparameter sind falsch? Bei einer schiefen Verteilung liegt der Median
im Boxplot außerhalb des Rechtecks (Box). Der Datensatz 0,9 / 1,2 / 1,2 / 1,9 / 2,7/ 3,0 beschreibt die Umsatzrenditen (in %) von sieben ausgewählten Unternehmen. Welche der folgenden Aussage hierzu ist richtig? Wenn
sich der letzte Wert des Datensatzes um 0,7 erhöht, erhöht sich der Mittelwert um 0,1.
Nice2Know
70 80
Frage nach einer Häufigkeit zwischen 2 Klassen -> neue Klasse bilden [80,120]= ∗2+ ∗2
3 5
Frage nach absoluter Schwankung -> Varianz und nach relativer Schwankung -> Variationskoeffizient
x
2= n*
[( ∑
h ik ²
hi +h k)−1
] f(
√
1 2
∗x 3 3−¿0,6 ) Mittlere Abhängigkeit, 6−1 ¿Starke Abhängigkeit
C=
n (0 – 0, ) Schwach Abhängig,(0, (0,
¿
min¿ ¿
Zusammenhang von metrischen Merkmalen:
Kovarianz und Korrelationskoeffizient (Bravais-Pearson)
Kovarianz cov (X,Y): ist die cov=0, folgt nicht zwingend, das kein Zusammenh. zwischen den Merkmalen X & Y besteht. Lediglich kein lin. Zusammenh.!
Nur Interpretation der Richtung, aber nicht der Stärke des linearen Zusammenhangs.
-cov wird umso größer, je häufiger zu einer Beobachtung, die Dif. der beiden Mekmalausp. X & Y von ihrem Mittelw. Das gleiche Vorzeichen haben
1
Beispiel: Cov(X,Y)= ∗( 18∗1000+ …+50∗2400 )−46,5∗2470=6745 [ Jahre∗EUR ]
10
Korrelationskoeffizient r xy : ist ein Maß für die Höhe des linearen Zusammenhanges von X & Y, er bewegt sich im Intervall von -1 & 1
-1 ≤ r ≤ 1 Zeigt die Richtung des linearen Zusammenhangs an oder Stärke des Zusammenhangs.
Bestimmtheitsmaß B² : Bewertung der Schätzqualität der linearen Regressionsfkt. (kann für lineare & für lichtlineare Fkt. verwendet werden)
Gibt den Erklärungswert der Regressionsfkt. Im Intervall von 0 bis 1 an, er bringt zum Ausdruck, wie gut die Variable Y durch die Regressionsfkt beschr. wird. Liegen alle
Beobachtungen auf der Regressionsfkt, so gilt B²=1. Z.B.: 0,2 =20% nur 20% können über das Merkmal x erklärt werden.
Regressionsfunktionen: Gegeben sind Datenpaare ( i, x y i)
Lineare Regression: Die Koeffizienten einer linearen Regressionsfunktion ^y x y 2 x*y
x
a a x
= 0+ 1 ergeben sich zu
a 0=
∑ y i ∑ x 2i −∑ x i y i ∑ x i = y−a1 x und
x
∑ i ∑ yi ∑
2
xi x yi
∑ i
n ∑ x2i −¿ ¿ ¿
n ∑ x i y i−∑ x i ∑ yi
a 1=
n ∑ x 2i −¿ ¿ ¿
a1
Hyperbelfunktion: ^y =a 0+ Die Koeffizienten der lineraren Regressionsfkt. ^
y= x y
1
x x ¿= (
¿
x ¿²
¿
x ∗y
¿ x
a 0+ a1 x ergeben sich zu
a 0= ∑
y i ∑ ( xi ) −∑ x i y i ∑ xi
¿ 2 ¿ ¿ ∑
yi
und xi
∑
∑ x ¿i ∑ ( x ¿i )² ∑ x ¿i y i
n∑¿¿
n ∑ x i y i−∑ xi ∑ y i
¿ ¿
a 1= ¿ x y x²
x
x³ 4 xy x² y
n ∑( x i )²−¿ ¿ ¿
Quadratische Funktion: ^ y = a 0 + a 1∗x + a 2∗x ²
∑ yi = a 0∗N + a 1∗∑ x i + a ∗∑ x
2
2
i
∑ x i ∑ yi ∑ x 2i ∑ x 3i ∑ x 4i ∑ x i y i ∑ x 2i y i
∑ x i∗y i = a ∗∑ x +a ∗∑ x +a ∗∑ x
2 3
0 i 1 i 2 i
∑ x i ²∗y i = a 0* ∑ x ² +a ∗∑ x ³+ a ∗∑ x
4
i 1 i 2 i
Multiple Lineare Regression: Geg. sind Datenpaare ( x i , y i ¿
∑ yi = a 0∗N + a ∗∑ x + a ∑ x
1 1i 2 2i x1 x2 y x 21 x 22 x1 y x2 y x1 x2
∑ x 1 i∗y i=
2
a 0∗∑ x 1 i+ a1∗∑ x 1 i+ a2∗∑ x 1 i x 2 i ∑ x 1 i ∑ x 2 i ∑ yi ∑ x 21 i ∑ x 22 i ∑ x 1 i y∑ i x 2 i x∑
i x1 i x2 i
∑ x 2 i∗y i = a 0* ∑
x 2 i+ a1∗∑ x 1 i x 2 i +a2∗∑ x2 i
2
Lineare Trendfunktion:
x1 y x² y² xy t ty
Bei t = 0 dann:
∑ x 1 i ∑ yi ∑ x 2 ∑ y ² ∑ x 1 i y i∑ t ∑ ty
(ungerade: Mittelwerte = 0), (gerade: Mittelwerte= -0,5 und 0,5)
Methoden zur Trendermittlung:
Methode der gleitender Durchschnitte
1 Wahl der Ordnung nach Datenmaterial wählen: für Quartalswerte eignen sich gleitende Durschschn. Vierter
Ungerade Ordnung -> ∗( y h + y i+ y j ) Ordnung. Je größer die Ordnung, umso stärker wird geglättet (langf. Trends erkennen!). Jedoch verbleiben
k auch weniger Durschnittswerte, die Ränder wachsen mit zunehmender Ordnung.
1 y h−1
Gerade Ordnung -> ∗
k 2 (
+ y h + y i+ y j +
y j +1
2 )
D(K) -> K= Anzahl der Zusammengefassten Werte
Methode der kleinsten Quadrate:
Zeitpunkt
Auf.dauer
y
Cod. t1 Cod. t2 t 2∗t 2 t 2∗y t =1 ,2 , 3 , … n
Codierung 1
Nov 05 2,7 1 -1,5 2,25 -4,05 Codierung t 2 =¿ (ungerade: Mittelwerte = 0), (gerade: Mittelwerte= -0,5 und 0,5)
Feb 05 3,2 2 -0,5 0,25 -1,6
^y (t )=a0 +a1∗t
Mai 05 2,6 3 0,5 0,25 1,3
Aug 05 2,4 4 1,5 2,25 3,6 n∑ ( y∗t 2 )−∑ y∗∑t 2 ∑ t2∗ y
∑ N=4 10,9 10 0 5 -0,75 a 1=
n ∑ t 22−( ∑t 2 )
2 wenn ∑ t 2=0 dann a 1=
∑ t2
2
Methoden zur Ermittlung der Saisonkomponente
Phasendurchschnittsverfahren: additives Modell
y ik Phasen y ik =¿ Beobachtungswert der k-ten Phase in der i-ten Periode
Periode Feb (k=1) Mai (k=2) Aug (k=3) Nov (k=4) i = Ordnungsnummer der Periode mit i= 1,2,…,m
k = Ordnungsnummer der Phase mit k= 1, 2, …, n
2005 (i=1) 2,7
−0,068−0,038+ 0,291+ 0,221 Periode Feb (k=1) Mai (k=2) Aug (k=3) Nov (k=4)
y ¿4 = =0,102
4 2005 (i=1) -0,068
b t=¿ 0
Saisonmodell & Trendmodell
^y t +i=¿ ¿+b t∗i )* St +i− L L= Anzahl ZE je Saisonzyklus
α∗y t
a t= + ( 1−α )∗(at −1+ bt −1)
St −L
b t=β∗(a ¿ ¿ t−at −1 )+(1−β)∗bt −1 ¿
γ∗y t
St +i− L= + ( 1−γ )∗St −L
at
Nullhypothese:
T, nur bei metrischen Merkmalen
r(x , y)
√1−r ( x , y )² √
T= * N−2
T bei Regressionsfunktionen