Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
univariat
Lagemaße:
- absolute, relative, kummulierte (relative) Häufigkeiten
- Mittelwert, Median, Modus, Quantile
- Mittelwert Dummyvariable = p1
- Mittelwert empfindlich auf Ausreißer, daher besser Median oder getrimmtes
arithmetisches Mittel (nur zwischen bestimmten Quantilen)
- Modus: unimodal, bimodal, multimodal, mind. nominal
- Median, Quantile: mind. ordinal
- Mittelwert: mind. metrisch
Streuungsmaße:
- Range: Spannweite, Abstand zwischen kleinstem und größten Wert, mind. ordinal
- Quartilabstand: Abstand zwischen Q1 und Q3 (also Q25% und Q75%), mind.
ordinal
- Varianz: Summe der Abweichungsquadrate, mind. metrisch, nicht besonders
aussagekräftig
- Standardabweichung: Wurzel aus Varianz // gebräuchlich, weil in Einheit der
jeweiligen Messwerte (aussagekräftig)
- IQV (Index qualitativer Variation): nur nominal // 1 = maximale Heterogenität, 0 =
maximale Homogenität
Boxplot:
- Median, Q25%, Q75%, min, max, Ausreißer, Extremwerte
- min und max innerhalb von 1,5 Boxlängen (IQR/Interquartilsabständen) (also max =
Q0,75 + 1,5*IQR
- Ausreißer zwischen 1,5 und 3 Boxlängen
- Extremwerte über 3 Boxlängen
Schiefe:
- 0=symmetrisch
- über 0 = rechtsschief (linkssteil)
- unter 0 = linksschief (rechtssteil)
Kurtosis/Wölbung
- unter 0 = breitgipflig
- über 0 = spitzgipflig
- Standardisierung durch Variationskoeffizient (V)
z-Transformation:
- Standardisierung
- Mittelwert = 0 (Zentrierung)
- Standardabweichung = 1 (Normierung)
bivariat
Kreuztabelle:
- immer möglich
- Zeilensummen auf 100%
- Notation: xij: i=y-Variable (Zeilen, UV), j=x (Spalten, AV), z.B. n1,3 (Y in 1.
Ausprägung und X in 3. Ausprägung, also 1 runter und 3 zur Seite)
- ni,+ = maximales X einer bestimmten Y-Ausprägung (also Seite)
- n+,j = maximales Y einer bestimmten X-Ausprägung (also unten)
Assoziationsmaße:
- niedrigstes Skalenniveau beachten
- nominal: Kontingenztabelle: d%, Odds ratio, Chi-Quadrat, Phi, Cramers-V, Lambda,
PRE
- ordinal: Rho, Tau-a, -b, -c, Gamma, Somers’ d
- metrisch: Kovarianz, Pearson-Korrelation r, Regressionsgewicht b
- Ausnahme metrisch + nominal: Eta
- Faustregel: bis 0,05 = vernachlässigbar // bis 0,25 = schwach // bis 0,5 = mittelstark
// bis <1 = stark // 1 = perfekter Zusammenhang
Prozentsatzdifferenz d%
- geht mit absoluten sowie relativen Häufigkeiten
- -100% / 0% / 100%
- nur für 4-Felder-Tabelle
- Einteilung der Kästchen in a-b-c-d
- additives Maß: deshalb Verzerrung bei schiefer Y-Verteilung
Lambda (PRE)
- asymmetrisch
- 0-1, also 0-100%: Die Vorhersagegenauigkeit von Y verbessert sich durch die
Kenntnis von X um ...%.
- ausgehend von Modalwert von Y insgesamt (E0), bzw. von Modalwert von Y in
jeder X-Ausprägung (E1)
Tau, Gamma
- Tau und Gamma über Paarvergleich, symmetrisch
- Paarvergleich: Menge der Paare = (n*(n-1))/2 (Formel in Tau-a-Formel integriert)
- Paartypen: Konkordante Paare (C), Diskordante Paare (D), Randbindungen auf X
(Tx), Rangbindungen auf Y (Ty), Randbindungen auf X und Y (Txy)
- Paartypen über Häufigkeitstabelle bestimmen
- Konkordanzen: links oben nach rechts unten, alle Werte für mögliche Kästchen
abgrasen: z.B. 3*(3+2+2+4), das für alle Kästchen machen wo Konkordanzen
möglich sind, dann alle Werte zusammenrechnen
- Diskordanzen: rechts oben nach links unten
- Rangbindungen auf X: runter
- Rangbindungen auf Y: zur Seite
- Rangbindungen auf X und Y: Formel für Menge der Paare für jedes Kästchen
anwenden
- Tau: -1 / 0 / +1, Daumenregel
- Tau-a nicht verwenden, ist nur Grundgedanke
- Tau-b ist gut, gut interpretierbar, nur quadratische Tabellen
- Tau-c schwer interpretierbar
- Gamma: als PRE-Maß // beachtet keine Ties, daher verzerrt bei wenigen Gruppen
- Gamma Interpretation: Bei Kenntnis über die gemeinsame Verteilung von X und Y
verbessert sich die Vorhersage der Paarvergleiche um ...%.
- Gamma > Tau-b > Tau-a
- Somers’ d: asymmetrisch, beachtet auch Bindungen auf Y
Rho
- über Rangreihen
- symmetrisch
- -1 / 0 / +1
- di = Differenz zwischen verschiedenen Rangplätzen
- z.B. 2 verschiedene Jurys (Jury X und Jury Y) bewerten die Darbieter
unterschiedlich: dadurch entstehen 2 verschiedene Rangplatzreihen für jeden
Darbieter wird die Differenz berechnet
- Möglichkeit metrische Daten in Rangplätze umzuwandeln: bei 2 gleichen Werten 2x
gleiche ,5-Zahl einsetzen
- nur wenn ties unter 20%
Kovarianz, Korrelation
- Kovarianz: Basis für Korrelation // invariant ggü. Niveauverschiebung
(Addition/Subtraktion mit Konstanten) // nicht invariant ggü. Maßstabverschiebung
(Division/Multiplikation) // nicht standardisiert, nicht interpretierbar // Kovarianz einer
Variable mit sich selbst = deren Varianz
- Korrelation: invariant ggü. Niveauverschiebung und Maßstabverschiebung //
normiert // mit z-transformierten Daten einfachere Formel // klein ab 0,1 mittel ab 0,3
hoch ab 0,5
- Probleme Korrelation: keine Richtung // keine Beachtung von Drittvariablen // nicht
für nicht-lineare Zusammenhänge
Lineare Regression
- asymmetrisch
- Gesamtvarianz = yi – y(Mittelwert) // erklärte Varianz (Regression) = y(Dach) –
y(Mittelwert) // nicht erklärte Varianz = yi – y(Dach)
- b0: wenn x=0, dann ist y (...) // b1: wenn x um eine Einheit steigt, steigt/sinkt y um
(...) Einheiten
- b1 unstandardisiert: y von Euro auf Cent = b1*100 // x von Jahre auf Monate =
b1/12
- b1*: standardisiert // invariant gegen Maßstabverschiebungen, also unabhängig von
Einheiten // wenn x um 1 Standardabweichung steigt, steigt/sinkt y um (...)
Standardabweichungen.
- R^2 als PRE-Maß: zeigt wie gut die jeweilige Regressionsgleichung für Erklärungen
oder Prognosen geeignet
- Dummy: UV mit 2 Ausprägungen (0 und 1)
- b0 zeigt den durchschnittlichen y-Wert der 0-Ausprägung an
- b1 zeigt den Unterschied zwischen Ausprägung 0 und 1
- nicht sinnvoll bei UV mit polytomen Gruppen (nominal mit mehr als 2
Ausprägungen)
ANOVA
- Eta^2 als PRE-Maß (wenn AV metrisch und UV nominal) + Eta Interpretation mit
Faustregel möglich
- mehrere Gruppen: UV mit mehreren nominalen Ausprägungen: y-Mittelwerte aller
Ausprägungen berechnen sowie insgesamten Mittelwert // Gesamtvariation E0 =
Unterschied jeder einzelne Ausprägung vom Gesamtmittelwert // Variation zwischen
den Gruppen E1 (erklärte V.) = Unterschied zwischen dem Gesamtmittelwert und
jedem einzelnen Gruppenmittelwert // Variation innerhalb der Gruppen (nicht-erklärte
V.) = Unterschied zwischen jeder einzelnen Ausprägung und dem Mittelwert der
jeweiligen Gruppe
- Interpretation: ca. ...% der Varianz in der AV werden durch das Merkmal UV
gebunden/erklärt