Sie sind auf Seite 1von 4

M2 Zusammenfassung

- Urliste (ungeordnet), Primärtafel (geordnet), Häufigkeitstabelle (Ausprägungen mit


Häufigkeiten)

univariat

- nominal: Modus, IQV


- ordinal: Modus, Median, Quantile, Range, Quartilsabstand
- metrisch: Modus, Median, Quantile, arithmetisches Mittel, Range, Quartilsabstand
Varianz, Standardabweichung

Lagemaße:
- absolute, relative, kummulierte (relative) Häufigkeiten
- Mittelwert, Median, Modus, Quantile
- Mittelwert Dummyvariable = p1
- Mittelwert empfindlich auf Ausreißer, daher besser Median oder getrimmtes
arithmetisches Mittel (nur zwischen bestimmten Quantilen)
- Modus: unimodal, bimodal, multimodal, mind. nominal
- Median, Quantile: mind. ordinal
- Mittelwert: mind. metrisch

Streuungsmaße:
- Range: Spannweite, Abstand zwischen kleinstem und größten Wert, mind. ordinal
- Quartilabstand: Abstand zwischen Q1 und Q3 (also Q25% und Q75%), mind.
ordinal
- Varianz: Summe der Abweichungsquadrate, mind. metrisch, nicht besonders
aussagekräftig
- Standardabweichung: Wurzel aus Varianz // gebräuchlich, weil in Einheit der
jeweiligen Messwerte (aussagekräftig)
- IQV (Index qualitativer Variation): nur nominal // 1 = maximale Heterogenität, 0 =
maximale Homogenität

Boxplot:
- Median, Q25%, Q75%, min, max, Ausreißer, Extremwerte
- min und max innerhalb von 1,5 Boxlängen (IQR/Interquartilsabständen) (also max =
Q0,75 + 1,5*IQR
- Ausreißer zwischen 1,5 und 3 Boxlängen
- Extremwerte über 3 Boxlängen

Schiefe:
- 0=symmetrisch
- über 0 = rechtsschief (linkssteil)
- unter 0 = linksschief (rechtssteil)

Kurtosis/Wölbung
- unter 0 = breitgipflig
- über 0 = spitzgipflig
- Standardisierung durch Variationskoeffizient (V)
z-Transformation:
- Standardisierung
- Mittelwert = 0 (Zentrierung)
- Standardabweichung = 1 (Normierung)

bivariat

Kreuztabelle:
- immer möglich
- Zeilensummen auf 100%
- Notation: xij: i=y-Variable (Zeilen, UV), j=x (Spalten, AV), z.B. n1,3 (Y in 1.
Ausprägung und X in 3. Ausprägung, also 1 runter und 3 zur Seite)
- ni,+ = maximales X einer bestimmten Y-Ausprägung (also Seite)
- n+,j = maximales Y einer bestimmten X-Ausprägung (also unten)

Assoziationsmaße:
- niedrigstes Skalenniveau beachten
- nominal: Kontingenztabelle: d%, Odds ratio, Chi-Quadrat, Phi, Cramers-V, Lambda,
PRE
- ordinal: Rho, Tau-a, -b, -c, Gamma, Somers’ d
- metrisch: Kovarianz, Pearson-Korrelation r, Regressionsgewicht b
- Ausnahme metrisch + nominal: Eta
- Faustregel: bis 0,05 = vernachlässigbar // bis 0,25 = schwach // bis 0,5 = mittelstark
// bis <1 = stark // 1 = perfekter Zusammenhang

Prozentsatzdifferenz d%
- geht mit absoluten sowie relativen Häufigkeiten
- -100% / 0% / 100%
- nur für 4-Felder-Tabelle
- Einteilung der Kästchen in a-b-c-d
- additives Maß: deshalb Verzerrung bei schiefer Y-Verteilung

Odds ratio, Yules Q


- multiplikatives Maß, unempfindlich gegen schiefe Y-Verteilung
- Überlebenschance = p(Überleben) / p(Sterben)
- Überlebenswahrscheinlichkeit = p(Überleben) / n
- Odds ratio kein Zusammenhangsmaß (zeigt nur Wahrscheinlichkeitsverhältnisse)
- Yules Q als Zusammenhangsmaß
- Interpretation Odds: Die Chance zu überleben ist (...) mal so hoch wie die Chance
zu Sterben. Bzw. auf 1 Toten kommen (...) Überlebende.
- Interpretation Odds Ratio: Die Überlebenschance der Frauen ist (...) mal so hoch
wie die Überlebenschance der Männer. Bzw. auf 1 überlebenden Mann kommen (...)
überlebende Frauen.
- Umwandlung in Prozent: wenn kleiner als 1, dann 1-(...) und dann *100 // wenn
größer als 1, dann (...)-1 und auch wieder *100
- Es gibt (...)% weniger/mehr Überlebende als Tote. (genau so mit Odds ratio)

Chi-Quadrat, Phi, Cramers-V


- Chi-Quadrat: Indifferenztabelle erstellen: erwartete Werte ohne Abhängigkeit = ei,j //
Berechnung bei 4-Felder-Tabelle auch ohne Indifferenztabelle möglich //
unstandardisiert
- Phi: standardisiert, kann aber nicht Richtung des Zusammenhangs zeigen, wenn es
aus Chi-Quadrat berechnet wurde (nur, wenn es mit alternativen Formel ohne Chi-
Quadrat berechnet wird), nur für 4-Felder-Tafel
- Richtung des Zusammenhangs bei nominal meist ohnehin sinnlos
- Cramers-V: aus Chi-Quadrat // r sind Zeilen, c sind Spalten: den kleineren Wert
nehmen (je nach dem ob es weniger Zeilen oder weniger Spalten gibt) // für
Mehrfelder möglich // keine Richtung des Zusammenhangs // keine eindeutige
Interpretation (daher PRE besser)

Lambda (PRE)
- asymmetrisch
- 0-1, also 0-100%: Die Vorhersagegenauigkeit von Y verbessert sich durch die
Kenntnis von X um ...%.
- ausgehend von Modalwert von Y insgesamt (E0), bzw. von Modalwert von Y in
jeder X-Ausprägung (E1)

Tau, Gamma
- Tau und Gamma über Paarvergleich, symmetrisch
- Paarvergleich: Menge der Paare = (n*(n-1))/2 (Formel in Tau-a-Formel integriert)
- Paartypen: Konkordante Paare (C), Diskordante Paare (D), Randbindungen auf X
(Tx), Rangbindungen auf Y (Ty), Randbindungen auf X und Y (Txy)
- Paartypen über Häufigkeitstabelle bestimmen
- Konkordanzen: links oben nach rechts unten, alle Werte für mögliche Kästchen
abgrasen: z.B. 3*(3+2+2+4), das für alle Kästchen machen wo Konkordanzen
möglich sind, dann alle Werte zusammenrechnen
- Diskordanzen: rechts oben nach links unten
- Rangbindungen auf X: runter
- Rangbindungen auf Y: zur Seite
- Rangbindungen auf X und Y: Formel für Menge der Paare für jedes Kästchen
anwenden
- Tau: -1 / 0 / +1, Daumenregel
- Tau-a nicht verwenden, ist nur Grundgedanke
- Tau-b ist gut, gut interpretierbar, nur quadratische Tabellen
- Tau-c schwer interpretierbar
- Gamma: als PRE-Maß // beachtet keine Ties, daher verzerrt bei wenigen Gruppen
- Gamma Interpretation: Bei Kenntnis über die gemeinsame Verteilung von X und Y
verbessert sich die Vorhersage der Paarvergleiche um ...%.
- Gamma > Tau-b > Tau-a
- Somers’ d: asymmetrisch, beachtet auch Bindungen auf Y

Rho
- über Rangreihen
- symmetrisch
- -1 / 0 / +1
- di = Differenz zwischen verschiedenen Rangplätzen
- z.B. 2 verschiedene Jurys (Jury X und Jury Y) bewerten die Darbieter
unterschiedlich: dadurch entstehen 2 verschiedene Rangplatzreihen für jeden
Darbieter wird die Differenz berechnet
- Möglichkeit metrische Daten in Rangplätze umzuwandeln: bei 2 gleichen Werten 2x
gleiche ,5-Zahl einsetzen
- nur wenn ties unter 20%

Kovarianz, Korrelation
- Kovarianz: Basis für Korrelation // invariant ggü. Niveauverschiebung
(Addition/Subtraktion mit Konstanten) // nicht invariant ggü. Maßstabverschiebung
(Division/Multiplikation) // nicht standardisiert, nicht interpretierbar // Kovarianz einer
Variable mit sich selbst = deren Varianz
- Korrelation: invariant ggü. Niveauverschiebung und Maßstabverschiebung //
normiert // mit z-transformierten Daten einfachere Formel // klein ab 0,1 mittel ab 0,3
hoch ab 0,5
- Probleme Korrelation: keine Richtung // keine Beachtung von Drittvariablen // nicht
für nicht-lineare Zusammenhänge

Lineare Regression
- asymmetrisch
- Gesamtvarianz = yi – y(Mittelwert) // erklärte Varianz (Regression) = y(Dach) –
y(Mittelwert) // nicht erklärte Varianz = yi – y(Dach)
- b0: wenn x=0, dann ist y (...) // b1: wenn x um eine Einheit steigt, steigt/sinkt y um
(...) Einheiten
- b1 unstandardisiert: y von Euro auf Cent = b1*100 // x von Jahre auf Monate =
b1/12
- b1*: standardisiert // invariant gegen Maßstabverschiebungen, also unabhängig von
Einheiten // wenn x um 1 Standardabweichung steigt, steigt/sinkt y um (...)
Standardabweichungen.
- R^2 als PRE-Maß: zeigt wie gut die jeweilige Regressionsgleichung für Erklärungen
oder Prognosen geeignet
- Dummy: UV mit 2 Ausprägungen (0 und 1)
- b0 zeigt den durchschnittlichen y-Wert der 0-Ausprägung an
- b1 zeigt den Unterschied zwischen Ausprägung 0 und 1
- nicht sinnvoll bei UV mit polytomen Gruppen (nominal mit mehr als 2
Ausprägungen)

ANOVA
- Eta^2 als PRE-Maß (wenn AV metrisch und UV nominal) + Eta Interpretation mit
Faustregel möglich
- mehrere Gruppen: UV mit mehreren nominalen Ausprägungen: y-Mittelwerte aller
Ausprägungen berechnen sowie insgesamten Mittelwert // Gesamtvariation E0 =
Unterschied jeder einzelne Ausprägung vom Gesamtmittelwert // Variation zwischen
den Gruppen E1 (erklärte V.) = Unterschied zwischen dem Gesamtmittelwert und
jedem einzelnen Gruppenmittelwert // Variation innerhalb der Gruppen (nicht-erklärte
V.) = Unterschied zwischen jeder einzelnen Ausprägung und dem Mittelwert der
jeweiligen Gruppe
- Interpretation: ca. ...% der Varianz in der AV werden durch das Merkmal UV
gebunden/erklärt