Sie sind auf Seite 1von 27

Kapitel 1

Daten, Skalen

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 0 / 26
Inhalt

Übersicht:
Wortbedeutung, Methoden und Bereiche der Statistik

Grundlagen:
Untersuchungseinheit, Merkmal, Datenmatrix

Skalen

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 1 / 26
[ Daten, Skalen ]

Übersicht

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 2 / 26
Wortbedeutung Statistik

Der Begriff Statistik findet Verwendung für:


Erhebung von Daten,
z.B. statistische Ämter
Auswerten von Daten
−→ Wissenschaftliche Disziplin, siehe z.B. Wikipedia
http://en.wikipedia.org/wiki/Statistics,
http://de.wikipedia.org/wiki/Statistik

Ergebnis einer Datenanalyse


z.B. Tabellen, Diagramme, Maßzahlen

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 3 / 26
Anwendungsgebiete der Statistik

Marketing: Marktsegmentierung (Clusterung), Präferenzanalysen von


Angebotsbündeln
Finance: Modellierung von Aktienkursen
Business Intelligence/Data Mining: Prädiktion von Käufern, Warenkorbanalysen
Web Mining: Analyse des Surfverhaltens, Algorithmen für Suchmaschinen
Bioinformatik: Analyse von Genexpressionen
Medizin: Wirksamkeitsforschung von Medikamenten und Therapien
Psychologie: Konstruktion von Testbatterien
...

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 4 / 26
Google

Google verwendet einen statistischen Algorithmus (PageRank-Verfahren) zum Ermitteln der


relevanten Seiten!

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 5 / 26
Amazon

Amazon verwendet statistische Methoden (im wesentlichen Assoziationsregeln) zur


Produktempfehlung!

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 6 / 26
Methoden

Die Statistik verwendet mathematische Methoden.


Die technische Umsetzung dieser Methoden erfolgt durch Computerprogramme.

Microsoft Excel

SPSS/PASW (http://www.SPSS.com/)

R (http://www.R-project.org/)

...

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 7 / 26
Microsoft Excel

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 8 / 26
SPSS/PASW

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 9 / 26
R

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 10 / 26
R

R ist eine interaktive Computerumgebung für Datenanalyse und Grafik.


R wird von einem internationalen Team (u.a. an der WU Wien) für Unix/Linux, Windows
and Macintosh Betriebssysteme entwickelt.
Ähnlich dem Open-Source Betriebssystem Linux ist R frei erhältlich unter der GPL
(General Public License).
R ist durch benutzerdefinierte Funktionen und Zusatzpakete leicht erweiterbar.
R basiert auf der Sprache S, die den ACM Award gewonnen hat (wie bspw. auch Java,
WWW, oder Apache).
In dieser Statistik-LV wird die Interpretation von Computeroutput anhand von R-Output
unterrichtet. Weiters werden die Beispiele der Aufgabensammlung und die Prüfungen mit R
generiert.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 11 / 26
Bereiche der Statistik nach Erkenntniszielen

Deskriptive Statistik
Beschreibung von empirischen Daten z.B. durch Maßzahlen, Tabellen, Grafiken

Induktive Statistik (Schließende Statistik)


Theorien über das Zustandekommen der empirischen Daten
Erklärungsmodelle für empirische Daten
Wahrscheinlichkeitsrechnung

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 12 / 26
[ Daten, Skalen ]

Grundlagen

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 13 / 26
Untersuchungseinheiten und Merkmale

Die Grundbegriffe der Statistik sind Untersuchungseinheit (unit) und Merkmal (variable).

An den Untersuchungseinheiten werden die Werte (Ausprägungen, Realisierungen) der


Merkmale festgestellt (gemessen, erhoben). Das Ergebnis sind dann Daten
(Beobachtungen, observations).

Statistische Daten haben daher meist die Struktur einer rechteckigen Datenmatrix (data
frame), in der die Zeilen den Untersuchungseinheiten und die Spalten den Variablen
entsprechen.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 14 / 26
Datenmatrix: Touristen in Kärnten

Ausschnitt aus der Gästebefragung Österreich, Datenmatrix mit 10 Personen


(Untersuchungseinheiten) und den 4 Merkmalen: durchschnittliche Ausgaben pro Woche in
EUR, Alter, Geschlecht und Beruf

Ausgaben Alter Gender Beruf


1 925 74 male Pensionist
2 955 73 male Pensionist
3 1550 55 female Leit.Angest.
4 980 66 male Pensionist
5 568 52 male Angestellt
6 778 68 male Pensionist
7 571 65 male Angestellt
8 349 51 male Angestellt
9 264 42 male Angestellt
10 339 48 male Angestellt

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 15 / 26
Untersuchungseinheiten und Merkmale

Es stellen sich zwei Fragen:

Woher kommen die Untersuchungseinheiten?

Was für Arten von Variablen kann es geben?

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 16 / 26
Woher kommen die Untersuchungseinheiten?

Statistische Untersuchungseinheiten kommen aus:

Datenerhebungen (observational studies), und zwar aus


Totalerhebung (population studies),
Volkszählung
Inventur (Geschäft, ...)
Wahlergebnis Nationalratswahl

Stichprobenerhebungen (samples)
Meinungsumfrage
Marktforschung
Hochrechnung
Wirtschaftsprüfung (Audit)
Wahltagsbefragung (exit polls)

Experimenten (experimental studies)

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 17 / 26
Experimente

Beispiele für Experimente:


Untersuchung der Wirksamkeit von medizinischen Behandlungsmethoden:
Beispiel: Einer Gruppe von Patienten wird ein neues, einer weiteren Gruppe ein
Standardmedikament und einer dritten Gruppe ein Placebo verabreicht. Gibt es
Unterschiede in der Wirksamkeit?
Geplante Untersuchungen im Marketing:
Beispiel: Eine Bank möchte die Wichtigkeit von drei Attributen von Kreditkarten in einer
Konsumentenbefragung feststellen. Sie gibt den Befragen Karten zur Bewertung, die
sich in der Höhe der jährlichen Grundgebühr, im Zinssatz und im Kreditlimit
unterscheiden.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 18 / 26
[ Daten, Skalen ]

Skalen

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 19 / 26
Skalen

Unter einer numerischen Kodierung eines Merkmals versteht man eine Belegung der
Ausprägungen des Merkmals durch Zahlen.

Eine Skala ist eine numerische Kodierung eines Merkmals, bei der bestimmte
Eigenschaften der Zahlenwerte mit Eigenschaften der Ausprägungen korrespondieren.
Das Skalenniveau, oder verkürzt, die Skala der Daten / Variablen bestimmt, welche
Methoden / Rechenoperation auf den Daten zulässig sind.
Variablen eines höheren Skalenniveaus können immer in ein niedrigeres transformiert
werden.

Kategoriale Variable (Qualitative Variable)


Nominalskala
Ordinalskala
Metrische Variable (Quantitative Variable)
Intervallskala
Quotientenskala

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 20 / 26
Kategoriale Skalen

Nominalskala
Die Ausprägungen können auf Gleichheit und Ungleichheit überprüft werden, eine
Ordnung nach Größe ist nicht möglich.
Beispiele:
Richtig: Geschlechter, Farben, ...
Falsch: Schulnoten, Schuhgrößen, ...
Zulässige Methoden:
Modus, Kreuztabelle, χ2 -Test
Ordinalskala
Die Reihenfolge der Variablen entspricht einer inhaltlich definierten Reihenfolge der
Ausprägungen.
Beispiel:
Richtig: Schulnoten, Güteklassen, ...
Falsch: Autonummern, Postleitzahlen
Zulässige Methoden:
jene der Nominalskala, Median, Quantil, Rangkorrelation

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 21 / 26
Metrische Skalen
Intervallskala
Die Abstände der Variablen entsprechen, den inhaltlich definierten Unterschieden der
Ausprägungen.
Beispiele:
Richtig: Temperaturen in Celsius, Datumsangaben, ...
Falsch: Geschlecht, Angaben in Meter (Liter, ...), ...
Zulässige Methoden:
jene der Ordinalskala, Mittelwert, Standardabweichung, (Pearson) Korrelation, T -Test,
F -Test
Quotientenskala
Numerische Kodierung eines quantitativen Merkmals, bei der die relativen (prozentuellen)
Unterschiede der Zahlen (bzw. die Quotienten) den inhaltlich definierten Unterschieden
der Ausprägungen entsprechen.
Beispiele:
Richtig: Angaben in Meter (Liter, ...), Zählungen, ...
Falsch: Temperaturen in Celsius, Farben, ...
Zulässige Methoden:
jene der Intervallskala, geometrisches Mittel, prozentuelle Veränderung

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 22 / 26
Skalen Übersicht

Skalenniveau zulässige Operatoren messbare Eigenschaften


Nominalskala =, 6= Häufigkeit
Ordinalskala =, 6=, <, > Häufigkeit, Anordnung
Intervallskala =, 6=, <, >, +, − Häufigkeit, Anordnung, Abstand
Quotientenskala =, 6=, <, >, +, −, ×, ÷ Häufigkeit, Anordnung, Abstand, Nullpunkt

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 23 / 26
Arten von Variablen: Studenten

M/W Größe Alter Gewicht Studienrichtung Vorbildung Plz Geburtsjahr


1 w 1.50 24 50 BWL Ausl 1230 1991
2 w 1.64 22 64 BWL Ausl 8410 1993
3 m 1.76 24 64 BWL Ausl 4681 1991
4 m 1.65 20 52 BWL Ausl 9851 1995
5 w 1.67 21 81 BWL HBLA 2252 1994
6 m 1.66 21 53 BWL Ausl 2356 1994
7 m 1.79 20 90 BWL Ausl 2522 1995
8 m 1.76 22 71 IBWL Ausl 4371 1993
9 m 1.80 19 81 VWSOZOEK Ausl 8931 1996
10 w 1.54 38 53 BWL HAK 4263 1977

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 24 / 26
Beispiel: Skalenniveaus

Die Variable Geschlecht ist der Nominalskala zuzuordnen.

Die Variable Geburtsjahr ist der Intervallskala zuzuordnen.

Die Variable Größe ist der Quotientenskala zuzuordnen.

Die Variable Vorbildung ist der Nominalskala zuzuordnen.

Die Variable Postleitzahl ist der Nominalskala zuzuordnen.

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 25 / 26
Beispiel: Skalenniveaus

Die Variable Geschlecht ist der Nominalskala zuzuordnen. richtig

Die Variable Geburtsjahr ist der Intervallskala zuzuordnen. richtig

Die Variable Größe ist der Quotientenskala zuzuordnen. richtig

Die Variable Vorbildung ist der Nominalskala zuzuordnen. richtig

Die Variable Postleitzahl ist der Nominalskala zuzuordnen. richtig

Institute for Statistics and Mathematics – WU Wien


c 2008–2015 PI Statistik – 1 – Daten, Skalen – 26 / 26

Das könnte Ihnen auch gefallen