Sie sind auf Seite 1von 26

Statistische Datenanalyse

Wozu Statistik?
Definition von Statistik

Statistik ist die Wissenschaft von der Erhebung, Analy-


se, Präsentation und Interpretation von Daten mit dem
Ziel, geeignete Schlussfolgerungen und Entscheidungen
zu treffen.

© Statistische Datenanalyse – 1 – Wozu Statistik? 1/25


Analyse von Merkmalen
Jahresrendite deutscher Aktien (DAX) Rendite deutscher Anleihen (REX)

60

60
40

40
20

20
Rendite [%]

Rendite [%]
0

0
−20

−20
−40

−40
1970 1980 1990 2000 2010 2017 1970 1980 1990 2000 2010 2017

Jahr Jahr

Abbildung: Rendite deutscher Aktien 1 und Anleihen 2 im Vergleich.


1
boerse.de, Zugriff am 28.05.2018, Verfügbar unter
https://www.boerse.de/historische-kurse/Dax/DE0008469008
2
Deutsche Börse AG, Zugriff am 6.05.2018, Verfügbar unter
https://www.bundesbank.de/dynamic/action/de/statistiken/zeitreihen-datenbanken/zeitreihen-
datenbank/723452/723452?tsId=BBK01.WU046A

© Statistische Datenanalyse – 1 – Wozu Statistik? 2/25


Präsentation von Daten

Histogramm: Haushaltsnettoeinkommen 2013

.0003
.0002
.0001
0

0 2000 4000 6000 8000 10000 12000 14000 16000 18000


monatliches Nettoeinkommen in Euro

Abbildung: Histogramm des monatlichen


Haushaltsnettoeinkommens3 im Jahr 2013 in Deutschland

3
Statistisches Bundesamt, Fachserie 15, Heft 1, Einkommens- und Verbrauchsstichprobe (EVS) 2013, S.11.

© Statistische Datenanalyse – 1 – Wozu Statistik? 3/25


Aufzeigen von Zusammenhängen

4 Z−score der Kinder Z−score der Kinder nach Bildungsgrad der Mutter

4
z−Score (Index fuer Unterernaehrung)

z−Score (Index fuer Unterernaehrung)


2

2
0

0
−2

−2
−4

−4
−6

−6
keine primaer sekundaer hoehere

Ausbildungsgrad der Mutter

Abbildung: Datensatz bangladesh_barisal.rda

© Statistische Datenanalyse – 1 – Wozu Statistik? 4/25


Zusammenhang zwischen PS- und
GP-Note?

1.0
1

0.8
0.6
GP

0.4
3

0.2
4
5

0.0
1 2 3 4

PS

© Statistische Datenanalyse – 1 – Wozu Statistik? 5/25


Rückschlüsse auf die Grundgesamtheit

© Statistische Datenanalyse – 1 – Wozu Statistik? 6/25


Wozu Statistik?

Statistiksoftware

© Statistische Datenanalyse – 1 – Wozu Statistik? 7/25


Statistiksoftware R

• R ist eine freie Statistiksoftware


• Installationsprogramme für R gibt es auf
http://CRAN.R-project.org/
Das entsprechende Betriebssystem auswählen und dann
das Basissystem von R installieren.

• Eine Entwicklungsumgebung, in der man R laufen lassen


kann ist RStudio. Von
http://www.RStudio.com/ide/
herunterladen (“Desktop” Version).

• Um sich darüber hinausgehend über R zu informieren


stehen Manuals auf http:/www.R-project.org/ zur
Verfügung.

© Statistische Datenanalyse – 1 – Wozu Statistik? 8/25


Wozu Statistik?

Deskriptive Statistik

© Statistische Datenanalyse – 1 – Wozu Statistik? 9/25


Beschreibung von Merkmalen bzw.
(Zufalls)Variablen
Beschreibung (der Verteilung) der Variablen in einem
Datensatz hinsichtlich zum Beispiel folgender Fragen:
• Auf welcher Messskala wird eine Variable
erhoben/gemessen?
• In welchem Bereich bewegen sich die Werte einer
Variablen? Anders ausgedrückt welchen Wert hat die
kleinste bzw. größte Beobachtung?
• Welchen Wert nimmt eine Variable im Durchschnitt an?
• Wie stark ist die Streuung um den Durchschnittswert?
• Wie kann die Verteilung grafisch dargestellt werden?
• Gibt es Fehler in den Daten (unplausible Werte, fehlende
Beobachtungen, etc.)?

© Statistische Datenanalyse – 1 – Wozu Statistik? 10/25


Typen von Variablen
• Diskret versus stetig
• diskrete Variable: nur endlich viele Werte oder beliebig
viele Werte, aber abzählbar (Bewertungsskala,
Schulausbildung, ...)
• stetige Variable: jeder beliebige Wert innerhalb eines
Intervalls als Ausprägung möglich (Körpergröße,
Einkommen, Mietpreise, ...)
• Dummy-Variable, binäre Variable

• Skalenniveau
• Nominalskala (Farbe (rot, grün, blau), Religion
(katholisch, evangelisch, konfessionslos, andere))
• Ordinalskala (Schulnoten, Likertskala)
• Kardinalskala bzw. metrisches Merkmal
• Intervallskala (Temperatur in Grad Celsius, IQ)
• Verhältnisskala (Einkommen, Alter, Körpergröße)

© Statistische Datenanalyse – 1 – Wozu Statistik? 11/25


Datensatz: Mietspiegel I

Ein Mietspiegel soll Mieter:innen und Vermieter:innen


gleichermaßen einen Überblick über den Markt für Wohnraum
geben. Zu diesem Zweck sind im Datensatz mietspiegel.rda
für 3082 Wohnungen, die im Jahr 1999 in München vermietet
worden sind, acht verschiedene Merkmale erhoben worden.

© Statistische Datenanalyse – 1 – Wozu Statistik? 12/25


Datensatz: Mietspiegel II
• Miete in Euro pro Monat (miete) bzw. Miete in Euro pro
Monat und Quadratmeter (mieteqm)
• Wohnfläche (flaeche)
• Baujahr (bjahr)
• Ausstattung des Bades (bad; 1 = gehoben, 0 = normal)
• Ausstattung der Küche (kueche; 1 = gehoben, 0 =
normal)
• Bezirksviertel in München (bezv)
• Lagekategorie gemäß der Einschätzung von Gutachtern
(lage; 1 = normale Lage, 2 = gute Lage, 3 = beste Lage)
• Zentralheizung (zh; 1 = mit, 0 = ohne)
Ziel ist die Schätzung des Zusammenhanges zwischen
der Miete und den anderen Variablen.

© Statistische Datenanalyse – 1 – Wozu Statistik? 13/25


Datensatz im R und Typen von Variablen
R> load("./daten/mietspiegel.rda")
R> head(mietspiegel)
miete mieteqm flaeche bjahr bad
1 120.6 3.446 35 1939 normal
2 435.7 4.189 104 1939 gehoben
3 354.7 12.230 29 1971 normal
4 282.1 7.233 39 1972 normal
5 804.8 8.297 97 1985 normal
6 481.4 7.764 62 1962 normal
kueche bezv lage zh
1 normal 1112 normale Lage ohne
2 normal 1112 normale Lage mit
3 normal 2114 gute Lage mit
4 normal 2148 gute Lage mit
5 normal 2222 normale Lage mit
6 normal 2222 normale Lage mit

© Statistische Datenanalyse – 1 – Wozu Statistik? 14/25


Statistische Kennwerte stetiger Variablen
Bemerkung: Behandle diskrete metrische Merkmale mit sehr
vielen Merkmalsausprägungen wie stetige Variablen.

• Lagemaße
• Arithmetisches Mittel: Schwerpunkteigenschaft,
ausreißerempfindlich
• Median: Robust gegenüber Ausreißern
• Quartile, Perzentile, Quantile

• Streuungsmaße
• Spannweite
• Empirische Standardabweichung: Ausreißersensitiv
• Interquartilsabstand: Robust gegenüber Ausreißern

© Statistische Datenanalyse – 1 – Wozu Statistik? 15/25


Statistische Beschreibung mit R
R> summary(mietspiegel)
miete mieteqm flaeche bjahr
Min. : 40.4 Min. : 0.415 Min. : 20.0 Min. :1918
1st Qu.: 321.1 1st Qu.: 5.245 1st Qu.: 51.0 1st Qu.:1939
Median : 425.7 Median : 6.959 Median : 65.0 Median :1959
Mean : 458.1 Mean : 7.090 Mean : 67.4 Mean :1956
3rd Qu.: 557.7 3rd Qu.: 8.814 3rd Qu.: 81.0 3rd Qu.:1972
Max. :1837.9 Max. :17.669 Max. :160.0 Max. :1997
bad kueche bezv lage
normal :2891 normal :2951 Min. : 113 normale Lage:1794
gehoben: 191 gehoben: 131 1st Qu.: 561 gute Lage :1210
Median :1025 beste Lage : 78
Mean :1170
3rd Qu.:1714
Max. :2529
zh
ohne: 321
mit :2761

© Statistische Datenanalyse – 1 – Wozu Statistik? 16/25


Statistische Beschreibung mit R
R> summary(mietspiegel$mieteqm)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.415 5.245 6.959 7.090 8.814 17.669
R> quantile(mietspiegel$mieteqm, probs = c(0.25,0.75))
25% 75%
5.245 8.814
R> max(mietspiegel$mieteqm)-min(mietspiegel$mieteqm)
[1] 17.25
R> var(mietspiegel$mieteqm)
[1] 5.899
R> sd(mietspiegel$mieteqm)
[1] 2.429

© Statistische Datenanalyse – 1 – Wozu Statistik? 17/25


Grafische Darstellungsmöglichkeiten

• Histogramm: Gut geeignet zur grafischen Beschreibung


von Verteilungen, Beurteilung der Schiefe/Symmetrie,
Bestimmung des Modus/der Modalklasse.
Weniger gut geeignet zur Zusammenhangsanalyse.
Gestalt zum Teil abhängig von der Klasseneinteilung.

• Boxplot: Grafische Darstellung ausreißerrobuster


Kennzahlen. Gut geeignet zum Vergleich von
Verteilungen, Beurteilung der Schiefe/Symmetrie und
zum Auffinden von Ausreißern.

© Statistische Datenanalyse – 1 – Wozu Statistik? 18/25


Histogramm
R> par(mfrow=c(1,2))
R> hist(mietspiegel$miete, xlab="Miete", ylab="Haeufigkeit",
+ main="Miete")
R> hist(mietspiegel$mieteqm, xlab="Miete pro qm", ylab="Haeufigkeit",
+ main="Miete pro qm")

Miete Miete pro qm

400
600

300
Haeufigkeit

Haeufigkeit
400

200
200

100
0

0 500 1000 1500 0 5 10 15

Miete Miete pro qm

© Statistische Datenanalyse – 1 – Wozu Statistik? 19/25


Boxplot

R> par(mfrow=c(1,2))
R> boxplot(mietspiegel$mieteqm, main="Miete pro qm")
R> plot(mieteqm ~ lage, data = mietspiegel,
+ main="Miete pro qm")

Miete pro qm Miete pro qm


15

15
mieteqm
10

10
5

5
0

0
normale Lage gute Lage beste Lage

lage

Interpretation siehe auch Skript Deskriptive Statistik

© Statistische Datenanalyse – 1 – Wozu Statistik? 20/25


Statistische Beschreibung diskreter
Variablen
• Häufigkeitstabellen: Bei nominal skalierten Merkmalen
absolute und relative Häufigkeiten, bei mindestens
ordinalskalierten Merkmalen zusätzlich kumulierte
Häufigkeiten möglich.
R> table(mietspiegel$lage)
normale Lage gute Lage beste Lage
1794 1210 78
R> prop.table(table(mietspiegel$lage))
normale Lage gute Lage beste Lage
0.58209 0.39260 0.02531
R> round(prop.table(table(mietspiegel$lage)), 4)
normale Lage gute Lage beste Lage
0.5821 0.3926 0.0253

© Statistische Datenanalyse – 1 – Wozu Statistik? 21/25


Statistische Beschreibung diskreter
Variablen
• Säulendiagramme
R> plot(mietspiegel$lage, main="Lage der Wohnung")

Lage der Wohnung


1500
1000
500
0

normale Lage gute Lage beste Lage

© Statistische Datenanalyse – 1 – Wozu Statistik? 22/25


Statistische Beschreibung diskreter
Variablen
• Kreisdiagramme
R> pie(table(mietspiegel$lage), main="Lage der Wohnung",
+ col=gray.colors(3, start = 0.3, end = 0.9,
+ gamma = 2.2, alpha = NULL))

Lage der Wohnung

normale Lage

beste Lage

gute Lage

© Statistische Datenanalyse – 1 – Wozu Statistik? 23/25


Zusammenfassung
Stetige Variablen
• Wertebereich, d.h. kleinster und größter Wert
• Mittelwert (arithmetisches Mittel, evtl. Median, Quantile)
• Streuung der Daten (Spannweite, empirische
Standardabweichung, evtl. Interquartilsabstand)
• Extreme Werte bzw. Ausreißer bzw. unübliche Werte
• Symmetrie und Schiefe anhand Histogramm/Boxplot
• Zahl der Modi bzw. Modalklassen (Unimodal, Bimodal und
Multimodal) anhand Histogramm
• Unplausible Werte, Datenfehler
• Fehlende Werte

© Statistische Datenanalyse – 1 – Wozu Statistik? 24/25


Zusammenfassung
Diskrete Variablen
• Absolute und relative bzw. prozentuale Häufigkeiten
• Modus, d.h. häufigster Wert
• Schwach besetzte Kategorien
• Fehlende Werte, Datenfehler

© Statistische Datenanalyse – 1 – Wozu Statistik? 25/25

Das könnte Ihnen auch gefallen