Sie sind auf Seite 1von 21

Begriffsübersicht Statistik I 2018/19

1. Sitzung
- Deskriptive Statistik: Zusammenfassung & Präsentation von Daten. Ziel: Überblick über
betrachtetes Phänomen gewinnen/ Datensatz mit anderen Gruppen vergleichen.

- Merkmalsträger: Subjekt oder Objekt der statistischen Untersuchung.

- Grundgesamtheit: Gesamtmenge aller Merkmalsträger

- Variable, Merkmal,Item: Eigenschaft des Merkmalsträgers

- Merkmalsausprägung: Alle mögl. Werte, die das Merkmal beim Merkmalsträger annehmen
kann.

- Wert: Wert, der beim Merkmalsträger festgestellt wurde.

Merkmalsarten:
- qualitativ: Merkmalswerten = Namen oder Klassenbezeichnungen

- Quantitativ: Merkmal = besitzt messbare Dimension besitzt/ Mengeneinheiten (z.B. Verbrauch


in Litern)

- diskretes Merkmal: quantitatives Merkmal, das abzählbar viele Werte annehmen kann (z.B.
Einwohnerzahl einer Stadt)

- stetiges Merkmal: quantitatives Merkmal, das überabzählbar viele Werte annehmen kann (z.B.
Füllmengen). Um stetiges Merkmal wie diskretes zu behandeln -> Einheit hinzufügen (z.B.
Füllmengen in Litern)

- häufbares Merkmal: Merkmal, von dem Merkmalsträger mehr als 1 Merkmalswert annehmen
kann (z.B. Hobbys).

- nicht häufbares Merkmal: Merkmal, von dem ein Merkmalsträger nur 1 Merkmalswert
besitzen kann (z.B. Alter).

Verteilungsformen:
- absolute Häufigkeit hj: Anzahl der Merkmalswerten in der Urliste. Note 1 = 3x, ->
h(1)=3

- relative Häufigkeit fi: Division der absoluten Häufigkeit durch Gesamtanzahl. Noten-
Urliste = 10 Elemente -> relative Häufigkeit für Note 1 3/10=0,3. Multipliziert relative
Häufigkeit x 100, -> prozentuale relative Häufigkeit. 0,3*100=30% → 30%

Skalenniveaus: extra Blatt!

2. Sitzung
Kumulierte Häufigkeiten Fi: Aufsummmierung der relativen Häufigkeiten. (a) + (b) = (c)

Rel. Häufigkeit Kummulierte Häufigkeit

(a) Entspricht dem wert


von a
(b) (C)

Quantile (genauer p-Quantile):

Klassenmitte: (xj*) repräsentiert die jew. Klasse bei der Auswertung des statistische
Datenmaterials.

Klassenbreite: Differenz 2 aufeinander folgender Klassengrenzen (x o – x u)



Diskretes Merkmal: : quantitatives Merkmal, das abzählbar viele Werte annehmen kann (z.B.
Einwohnerzahl einer Stadt)

Kontinuierliches Merkmal:
Histogramm:

1 of 21
Begriffsübersicht Statistik I 2018/19

Modus (Modalwert, Gipfelwert, Dichtemittel, häufigster Wert):

- = der in der Verteilung am häufigsten vorkommende Messwert

- Bezeichnung: D

- Bestimmung:

• Ablesen in der Häufigkeitsverteilung -> 3,4,4,5,5,5,5,6.6.6,7,8 D = 5

• wenn 2+ nebeneinanderliegende Maßzahlen gleich oft & am häufigsten vorhanden: ihr


arithmetisches Mittel = Modalwert -> 3,4,4,5,5,5,6,6,6,7 D = 5,5

• Wenn 2 nicht nebeneinanderliegende Maßzahlen gleich oft & am häufigsten vorhanden ->
bimodale Verteilung-> beide Maßzahlen = Modalwerte -> 3,4,5,5,5,5,6,6,7,8,8,8,8,9 D = 5; 8 


- Voraussetzung: Nominalskalenniveau

- Aussagekraft:

• aussageschwächstes Maß der Zentraltendenz

• bringt Verteilung nicht zum Ausdruck

• leicht von Zufallsfehlern beeinflusst

• Geeignet für: Kennzeichnung zwei- oder mehrgipfliger Häufigkeitsverteilungen

Median (Zentral; 50. Zentil):


- = Mittlere Maßzahl in geordneter Urliste der Messwerte; unter/ über diesem Pkt. Liegen jeweils
50% der Messwerte (N) der Verteilung

- Bestimmung:

• Ablesen der mittleren Maßzahl (s. prozentuale Häufigkeitsverteilung)

• Bei ungeradem N: Median ist tatsächlich auftretender Wert

• Bei geradem N: Median liegt zwischen 2 zentralen Messwerten (arithmetisches Mittel der
beiden bilden)

- Voraussetzung: Ordinalskalenniveau

- Aussagekraft:

• mehr Infos über Verteilung als Modalwert

• als “mittlerer Fall” von weniger Ausreißern beeinflusst

• Angebracht v.A. bei ordinalskallierten Merkmalen

• Angebracht bei offenen Maßzahlen (am Anfang/ Ende der Verteilung d.h. viele Ausreißer)

• Angebracht bei extrem geringer Anzahl von Messwerten/ bei sehr schiefen Verteilungen

Arithmetisches Mittel (Durchschnitt, Mittelwert):

- Formel:

- Bestimmung: Quotienten aus der Summe aller Maßzahlen durch ihre Gesamtanzahl

- Voraussetzung: mindestens Intervallskala

- Aussagekraft: mehr Infos als Modus & Median

Variation:

2 of 21
Begriffsübersicht Statistik I 2018/19

Varianz & Standardabweichung:

- Varianz (s2) = Summe der Abweichungsquadrate aller Messwerte einer Verteilung von ihrem
arithmetischen Mittel, dividiert durch die um 1 verminderte Anzahl der Messungen
- Standardabweichung (s) = [=mittlere quadratische Abweichung] ist die Quadratwurzel aus der
Varianz

- Mittelwert der Mittelwertsabweichungen: gibt Grad der Abweichung einzelner Werte in einer
Liste vom Mittelwert aller Werte in der Liste an

- je kleiner Standardabweichung -> desto geringer Abweichung einzelner Werte vom Mittelwert +
größere Zuverlässigkeit des Mittelwerts

- Wenn STABW = 0 -> dann sind alle Werte gleich

- Vorteile:

• wird von zufälligen Extremwerten der Stichprobe kaum beeinflußt

• hängt von allen Messwerten der Verteilung ab

• stellt eine algebraische Funktion aller Meßwerte der Verteilung dar

• zuverlässiger Schätzwert für die Streuung in der Grundgesamtheit

• für die Prüfstatistik gut geeignet

- Voraussetzung: Intervallskalenniveau
- Vergleich:

- Zentraltendenz bedeutet die Lage der Verteilung durch die in mehrfacher Weise angebbare
Mitte auf dem Merkmalskontinuum

- Dispersion bezeichnet die Breite der Verteilung Interpretation:

- Zentraltendenz als Maß und Norm für Pegel, Rangstufe, Durch- und Querschnitt

Dispersion als Maß für die Abweichungen der Elemente der statistischen Menge
voneinander (z.B. als Maß für die Homogenität einer Gruppe, interindividuelle
Übereinstimmung)

anwenden: Zentralmaße berechnen

3. Sitzung
Spannweite( absoluter Streubereich, Streuungsbreite, Variationsweite):

- Differenz zwischen kleinstem & größtem Wert: R = X(max) - X(min) d.h. Blick auf Extremwerte &
wieweit sie auseinander liegen

- je stärker sie auseinander liegen -> desto größer die Streuung

- Bezeichnung: R = Range

- Vorteile:

• leicht bestimmbar

• leicht verständlich

• wird von den Extremwerten der Verteilung bestimmt

- Nachteile:

• stark von Zufallseinflüssen abhängig

• hängt stark von Stichprobengröße ab (Variationsweiten aus verschieden großen


Stichproben nicht unmittelbar vergleichbar)

• liefert unzulässige Schätzwerte für die Streuung in der Grundgesamtheit

- Voraussetzung: setzt Ordinalskalenniveau voraus; nur bei bei kleinen Stichproben verwenden
(n<=12)

3 of 21
Begriffsübersicht Statistik I 2018/19
Interquartilsabstand


Mittlere Quartilsabstand
- = Intervall auf Merkmalsachse, das durch unteres Quartil Q1 & oberes Quartil Q3 begrenzt wird

- In diesem Bereich liegen 50% aller Werte. Diese Streuen umso stärker, je breiter der
Quartilabstand

- Berechnung: Qdif = Q3 - Q1 = P75 - P25

- QA = halber Quartilabstand

- Voraussetzung:

• Ordinalskalenniveau

• wenn kein Intervall- oder Verhältnisskalenniveau, d.h. wenn kein arithm. Mittel berechnet
werden kann

Normalverteilung

- Grundlage vieler statistischer verfahren

- viele Merkmale sind normalverteilt

- Basis Standartnormalverteilung

- empirische Verteilung, die annähernd Verlauf der Normalverteilung


entspricht -> normalverteilt

- normalverteiltes Merkmal= X : N (m,s)


- Normalvert. Merk.: inversen z-Transformation —> Normalverteilung N(m,s)

- Normalvert. Merk.: Normalverteilung N(m,s) —z-Transformation—> Standardnormalverteilung N(0,1)

Normalverteilungen können
verschiedene Mitten &
Streuungen haben

- Wahrscheinlichkeit 1 Wert im Intervall [a;b] -> “prob [a;b]”

4 of 21
Begriffsübersicht Statistik I 2018/19

Standardnormalverteilung

- charakteristischer Verteilungsverlauf:

- [-1;+1]= 68% der Verteilungsfläche


- [-2;+2]= 95% der Verteilungsfläche

- [-3;+3]=99,7% der Verteilungsfläche


- Merkmale:

- Asymptotisch zur x-Achse

- Symmetrieachse 0

- Mitte=0

- Streuung=1
- 0 bis +/-∞=0,5

- standardnormalverteiltes Merkmal: X: N (0,1)

- Ogive: kumulative Häufigkeitsverteilung einer theoretischen Standardnormalverteilung

- S-förmiger Verlauf

Prozentränge

- Nutzen:

• Einstufung einzelner Merkmalsträger über Prozentränge bzw. über standardisierte Werte;


• Verwendet sie für paarweiser Vergleich von Merkmalsträgern eines Merkmals

- Voraussetzung: mindestens ordinalskaliertes Merkmal

- How to:

• 1. Rangreihe der Werte: Merkmalsausprägungen werden aufsteigend geordnet

• 2. Rangplätze vergeben: geringste Merkmalsausprägung -> Rangplatz 1; größte Ausprägung -> letzten Rangplatz

• 3. Prozentrang ermitteln: Prozentrang des Merkmalsträgers kennzeichnet seine relative


Stellung in Gesamtheit aller Merkmalsträger

- Eigenschaft:

• Prozentränge treffen keine Aussage über Grad der Unterschiedlichkeit von Merkmalsträgern

5 of 21
Begriffsübersicht Statistik I 2018/19

- Definitionen, Formel:

1. DEFINITION 2. DEFINITION

- Merkmalsträger besitzt bzgl. Merkmal den - Merkmalsträger besitzt bzgl. Merkmal den
Prozentrang von “P ”
Prozentrang von “P ”

rang rang
-> Werte von P % aller Merkmalsträger = kleiner -> Werte von P % aller Merkmalsträger = kleiner
rang rang
oder gleich dem Wert dieses Merkmalsträgers als der Wert dieses Merkmalsträgers

- der Sonderfall: alle Werte sind unterschiedlich!

-> Berechnung Prozentrang bei n Merkmalsträger mit versch. Werten für Merkmalsträger mit
Rangplatz “rangplatz” (auf Basis 2. Definition):

Profildiagramm

- Definition:
• Grafische Beschreibung der Unterschiedlichkeit von Merkmalsträgern (mehrerer Merkmale)

• = Sammlung von Linienzügen (jede Linie enthält sämtliche Werte eines/vieler


Merkmalsträger/s (z.B. Mittelwert)

6 of 21
Begriffsübersicht Statistik I 2018/19
z-Transformation & Standardisierung & z-Score “z” (PRÜFUNG)

z-Transformation Standardisierung z-Score z


Jedem Wert wird ein Um Werte zu vergleichen, - besitzt (anders als Ursprungswert x)
zugehöriger wird der jeweilige keine Maßeinheit

standardisierter Wert als z- Abstand des Wertes vom - durch Standardisierung von x
score zugewiesen Zentrum sowie die ermittelt

Variabilität der jeweiligen


Testwerte berücksichtigt - z>0, wenn x rechts vom Zentrum liegt
Definition
- z<0, wenn x links vom Zentrum liegt

- Absolutbetrag von z => kennzeichnet


Entfernung vom Zentrum, d.h. der zu
z zugehörige Ursprungswert x liegt
um das z-fache der Dispersion vom
Zentrum entfernt
Bewertung, wie stark sich 2 Kennzeichnung, um das “Wievielfache
Merkmalsträger der Dispersion” Ursprungswert X vom
Nutzen
voneinander unterscheiden Zentrum in (positiver/negativer
Richtung) entfernt liegt
Voraussetzung intervallskaliertes Merkmal
- Verteilung von z-scores:

Eigenschaft Merke: z ≠ Z - Zentrum = 0; Dispersion = 1

(Stichwort: Standardnormalverteilung)

- Lassen sich Werte eines Merkmalsträgers, die er für 2 oder mehrere Merkmale besitzt, sinnvoll
untereinander vergleichen?

- Können 2 oder mehrere Merkmalsträger bzgl ihrer Werte, die sie bei 1 oder mehreren
Merkmalen besitzen, miteinander verglichen werden?

- Beispiel:

• Ist Schüler im Deutschtest (Punktwert 30 erreicht) besser als im Mathematiktest (Leistung mit
Punktwert 40 bewertet)?

- 1. wichtige Frage:

- Was bedeutet besser? Bzw. Wie kann ich die Werte vergleichen?

Antwort: Für Beurteilung das Abschneiden aller Schüler beachten, d.h. Beurteilung eines Punktwerts im
Kontext des durchschnittlichen Punktwerts betrachten

- 2. wichtige Fragen:

• Liegt jew. Wert der Person links oder rechts des Zentrums?

• Entfernung des Werts vom Zentrum?

Antwort: Standardisierung der Werte

- Formel: Z-Transformation

7 of 21
Begriffsübersicht Statistik I 2018/19

- how to: Z-Transformation

1. Von XXX den Mittelwert des Merkmals


subtrahieren

2. Ergebnis durch die Dispersion dividieren

3.

- Berechnung am Beispiel

Schüler erreichte in Mathe 40 & in Deutsch 30 Pkt.

Ergebnis:
- Für Mathe & Deutsch gilt: positiver Wert geht mit besserer Leistung einher

- Ergebnis z-Transormation: Mathe -0.95; Deutsch +0.95

-> Der Schüler hat im Mathetest schlechter abgeschnitten als im Deutschtest

Für den Vergleich zweier Merkmale (hier: der Leistungen) gilt für ermittelte z- scores:

- |zi| < |zj| => xi ist näher dem Zentrum von X als xj. (bzw yj dem Zentrum von Y (bei anderem
Merkmal))

- Abweichen (positiv/negativ) vom Zentrum lässt sich nur inhaltlich begründen!!!

8 of 21
Begriffsübersicht Statistik I 2018/19
Inverse z-Transformation & Flächengleichheit

- Vorabinformation:

• Standardnormalverteilung besitzt, wie die empirische Verteilung der z-scores, die Mitte 0
und die Streuung 1

• Generell gilt: Jede empirische Verteilung, unabhängig von ihrem Verteilungsverlauf, kann
in eine z-score Verteilung transformiert werden

• Kann man aufgrund der empirischen Verteilung aber von einem normalverteilten Merkmal
ausgehen, so erhält man als z-score Verteilung die Standardnormalverteilung
• Ein normalverteiltes Merkmal= X : N (m,s)

• Ein standardnormalverteiltes Merkmal: X: N (0,1)

Inverse z-Transformation

Definition Rücktransformation der z-score Werte in die ursprünglichen empirischen Werte xi

inverse z-Transformation & z- Transformation

= flächeninvariant (Flächenanteile bleiben gleich)

Eigenschaft

- Liegt ein normalverteiltes Merkmal vor, können konkret Verteilungsflächenanteile durch


Transformation in die Standardnormalverteilung angegeben werden

Vorteile/ Nutzen - Angabe, mit welcher Wahrscheinlichkeit Werte in ein bestimmtes Intervall fallen

- Für Flächenberechnung bei normalverteilten Merkmalen benötigt man durch z-


Transformation & Flächeninvarianz nur die Standardnormalverteilungstabelle

Formel

Bei theoretischen Verteilung (Standardnormalvert.):

Zusammenhänge - aus einer inversen z-Transformation resultiert -> die Normalverteilung N(m,s)
(normalverteilte - aus z-Transformation einer Normalverteilung N(m,s) resultiert
Merkmale) Standardnormalverteilung N(0,1)

- How to:

anwenden: Berechnung per Hand

9 of 21
Begriffsübersicht Statistik I 2018/19

Berechnung von Flächenanteilen innerhalb der Standardnormalverteilung

4. Sitzung
Prüfung auf Normalverteilung:

Ausgangsfrage: Ist die empirische Verteilung einer Normalverteilung ähnlich?

- Werte der Merkmalsträger z-


transformieren (= Standardisierung)

1. Möglichkeit - aus der Standardisierung resultierende


Verteilung mit Standardnormalverteilung
(SNV) vergleichen

- Werte der Standardnormalverteilung so


transformieren, dass ein X: N (m,s) entsteht

2. Möglichkeit - die mit der ursprünglichen empirischen


Verteilung verglichen werden

- = Vgl. Mit Originaldaten

Prüfen auf NV mit Histogrammen

- Definition: grafische Darstellung einer Häufigkeitsverteilung in Form von Säulen, die den
Häufigkeiten der Messwerte entsprechen

- Ausgangsfrage: Ähnelt die empirische Verteilung, die sich grafisch als Histogramm darstellen
lässt, einer Normalverteilung?

10 of 21
Begriffsübersicht Statistik I 2018/19

Prüfen auf NV mit Q-Q- Diagrammen( =Quantil-Quantil) / QQ-Plots

- es gilt: Ist Merkmal normalverteilt -> alle Punkte, die innerhalb des Koordinatensystems
eingetragen sind, liegen auf einer Geraden

- How to:

• Punkte in ein Koordinatensytem mit einer Ordinatenachse (vertikal) und einer Abzissenachse
(horizontal) eingetragen

• Abzissenwerte (x-Achse) = Merkmalsausprägungen der empirischen Verteilung

• Ordinatenwerte (y-Achse) = Normalwerte zj

Normalwert zj

- Werte, die man erhalten würde, wenn das Merkmal normalverteilt


Definition
(=erwartete Normalwerte)

- Normalwert wird so ermittelt, dass er mit dem Wert xj lagemäßig korrespondiert

Eigenschaft
(bedeutet, dass Fläche der SNV durch Zahl zj in demselben Verhältnis aufgeteilt
wird, wie die empirische Verteilung aller Werte durch den Wert xj geteilt wird)
Verteilung ist keine Normalverteilung
Verteilung ist eine Normalverteilung

Der Schiefekoeffizient (Schiefe einer Verteilung)

- Definition: Zur Einschätzung der Symmetrie einer Verteilung dient die Statistik Schiefe
(skewness).

- Formel:

FEHLT WAS (+ gehört Bild zu schiefe o. wölbung?)

- Interpretation:

• Schiefe annähernd 0, dann Symmetrie


(symmetrische Verteilung)

• Schiefe >0, dann linkssteile Verteilung

• Schiefe <0, dann rechtssteile Verteilung

11 of 21
Begriffsübersicht Statistik I 2018/19
Wölbungskoeffizient

- Nutzen: Zur Einschätzung der Zentriertheit einer symmetrischen Verteilung dient die Statistik
Wölbung (Kurtosis)

- Formel:

- Interpretation (Abgleich emp. Verteilung mit NV):


• Beide gleichartig zentriert: Wölbung ≈0

• Empirische Verteilung zentrierter: Wölbung > 0

• Normalverteilung ist zentrierter: Wölbung <0


Bildung von Gesamttestwerten -> SPSS

Gesamtindikatoren

- Nutzen: Wenn einzelne Subtestwerte summiert


werden sollen -> man spricht von dem
Gesamtindikator z.B. für Konstrukt “Intelligenz”

- Formel:

- Anwendungsbereich:

• Indikatormerkmale gleiche inhaltliche Dimension messen

• Verteilungen der Indikatormerkmale sich nicht bedeutsam voneinander unterscheiden

• alle Indikatormerkmale die gleiche Maßeinheit besitzen

5. Sitzung
Gab es nicht

X: Sitzung: Zweidimensionale (bivariate) Verteilungen: Nominalskala -> Statistische


(Un)Abhängigkeit

Vorwissen:
- Beschreibung der Verteilung einzelner Merkmale = Univariate Verteilungen
- Beschreibung der Verteilung zweier oder mehrerer Merkmale Bi- oder multivariate Verteilungen

Statistische Abhängigkeit

gleicher Verteilungsverlauf aber unterschiedliche


Abhängigkeit
Zentren der Merkmale

Unabhängigkeit gleiche Zentren sowie Verteilungen der 2 Merkmale

12 of 21
Begriffsübersicht Statistik I 2018/19
- Definition: (statistical dependency) = statistischer Zusammenhang, statistische
Wechselbeziehung, d.h. Merkmale variieren gemeinsam

Kontingenz

- Beispiel: Es gibt geschlechtsspezifische Unterschiede in der Neigung, mit dem Computer zu


arbeiten

Positive bzw. negative Assoziation

- Beispiel pos. Ass.: Je höher man seine Leistungsfähigkeit einschätzt, desto größer ist die
Motivation, sich am Unterricht zu beteiligen

Positive bzw. negative Korrelation

- Beispiel neg. Korrelation: Je öfter man für ein Diktat übt, desto geringer fällt die Anzahl der
Rechtschreibfehler aus

ACHTUNG: statistische Beziehungen können auf kausale Beziehungen hinweisen, sie aber
niemals beweisen!!!

- Sonderfall: Artefakt

• Definition: Scheinbare Abhängigkeiten/ Unabhängigkeiten; auch Scheinkorrelationen


• statistische Beziehung sachlogisch nicht begründbar!

Statistische Abhängigkeit anhand der Skalenniveaus: (HIER HIN)

- Nominalskala: Kontingenz

- Ordinalskala: Positive oder negative Assoziation

- Intervallskala: Positive oder negative Korrelation

Kontigenztabelle (Kreuztabelle, contingency table)

- Definition:

• Die “rxc Tabelle” ist eine Kontingenztabelle, die die Ausprägungen von Zeilenmerkmal &
Spaltenmerkmals in Form von r Zeilen (rows) & c Spalten (columns) wiedergibt

- Nutzen:

• Diskussion der statistischen Beziehung zwischen 2 Merkmalen X und Y

• Darstellung der bivariaten (gemeinsamen) Verteilung von 2 nominalskalierter Merkmale

- Arten: bivariate Verteilung kann sich auf Zeilenmerkmal oder Spaltenmerkmal ausrichten

Konditionalverteilung Neutral

Zeilenkonditionalverteilung Bedingt durch das Zeilenmerkmal

Spaltenkonditionalverteilung Bedingt durch das Spaltenmerkmal

13 of 21
Begriffsübersicht Statistik I 2018/19

- ??

• Aus Verteilungen des Zeilen- und Spaltenmerkmals


resultiert eine univariate Verteilung:

• Marginal- oder Randverteilung

Was Wann

Spaltenkonditionalverteilungen unterschieden
statistische Abhängigkeit von 2 Merkmale
sich voneinander
müssen sich mindestens 2 voneinander
Bei mehr als 2 Spaltenkonditionalverteilungen
unterscheiden
Merkmale voneinander statistisch unabhängig Keine Abweichung der
Spaltenkonditionalverteilungen
diese Verteilungen stimmen mit der
statistischer Unabhängigkeit
Marginalverteilung des Zeilenmerkmals überein

- Fazit : unwichtig ob Konditionalverteilung des Spalten-Merkmals oder des Zeilenmerkmals


miteinander vergleichen wird. Es wird immer entweder “stat. Unabhängigkeit” oder “stat.
Zusammenhang” festgestellt!

Statistische Unabhängigkeit

Partialtabelle

- Nutzen: Prüfung, ob andere Merkmale (Drittvariablen) einen Einfluss auf die bivariate
Verteilung ausüben (3. Merkmal als Kontrollgröße wird untersucht)

14 of 21
Begriffsübersicht Statistik I 2018/19

- Interpretation (Einfluss 3. Merkmal):

• kein Einfluss auf bivariate Verteilung = in Partialtabellen & Kontingenztabellen ist die gleiche
statistische Beziehung (Abhängigkeit oder Unabhängigkeit) beschrieben

• Merkmal besitzt Interaktionsefekt = mind. 1 Partialtabelle unterscheidet sich von der


statistischen Beziehung innerhalb der Kontingenztabelle

Interaktionseffekte

- Kontingenztabelle=statistische Abhängigkeit
- Partialtabelle= statistische Unabhängigkeit
1. Fall: Erklärender Interaktionseffekt
- -> Das Merkmal erklärt bzw. unterstützt die statistische
Abhängigkeit
- Kontingenztabelle=statistische Unabhängigkeit
- Partialtabelle=statistische Abhängigkeit
2. Fall: Spezifizierender Interaktionseffekt
- ->Die Einflussgröße spezifiziert die statistische Beziehung
der beiden Merkmale

Boxplots

- Nutzen: Grafische Beschreibung der Konditionalverteilungen intervall- bzw. ordinalskalierter


Merkmale durch Boxplots; statt Kontingenztabellen

- Eigenschaften:

• Box durch das erste (Q1) und das dritte Quartil (Q3) begrenzt àInnerhalb der Box liegen 50%
der Werte

• Mittellinie im Boxplot ist der Median (Q2)

• Distanz zwischen Q1und Q3 = Interquartilsabstand (IQR)

• Definition der Antennen (Whiskers) nicht einheitlich:

• 1. Variante: Antennen = kleinster Wert innerhalb Q1


- 1,5 IQR bzw. größter Wert innerhalb Q3 + 1,5 IQR

• 2. Variante: Antennen = beim 2,5% und 97,5%


Quantil

• „Milde” Ausreißer = Werte zwischen 1,5 IQR - 3


IQR

• Extreme Ausreißer = Werte größer 3 IQR

-> Statistiken, die Stärke oder Schwäche des statistischen Zusammenhangs beschreiben
-> Statistiken, die ggf. Richtung des statistischen Zusammenhangs beschreiben

15 of 21
Begriffsübersicht Statistik I 2018/19

6. Sitzung: Zweidimensionale Verteilungen: Nominalskala

- Vorwissen bivariaten Statistiken:

• Aussagen über Stärke/Schwäche des statistischen Zusammenhangs

• Festgelegter Wertebereich: ab wann ist noch unabhängig ist und ab wann nicht mehr

• Richtung des Zusammenhangs: positiv oder negativ

• Stärke & Richtung des Zusammenhangs ->


2 Gruppen von Statistiken:

- PRE-Maße (Proportional Reduction in Error)


- Unterschiedliche Statistiken

χ2 : Chi-Quadrat-Koeffizient (PRÜFUNG)

- Def.: Statistik, die die Stärke der statistischen Beziehung in Form der Abweichung der
Kontingenztabelle von der Indifferenztabelle = Chi-Quadrat χ2

- Nutzen: Beurteilung der Stärke des statistischen Zusammenhangs zw. 2 nominalskalierten


Merkmalen

- Grundliegende Frage: Wie sieht gemeinsame Verteilung aus, wenn statistische Unabhängigkeit
vorliegen würde?

- How To:

• Verwendung der Kontingenztabelle + Abgleich mit einer Kontingenztabelle bei stat.


Unabhängigkeit (Indifferenztabelle)

• Erstellung Indifferenztabelle für Fall, dass für die bivariate Verteilung statistische
Unabhängigkeit angenommen werden kann (Zellenhäufigkeiten dann nicht beobachtete
Häufigkeiten, sondern erwartete Häufigkeiten fe)

Es ergibt sich folgende Indifferenztabelle

- Formel:

Übersetzung: Summe der quadratischen


Abweichungen der beobachteten Häufigkeiten
16 of
fb aus der Kontingenztabelle von 21
den
erwarteten Häufigkeiten fe der
Indifferenztabelle dividiert durch fe
Begriffsübersicht Statistik I 2018/19

- Chi-Quadrat bzgl. Der stat. (un)Abhängigkeit:

• Statistische Unabhängigkeit = alle beobachteten Häufigkeiten fb sind gleich den erwarteten


Häufigkeiten fe→χ2=0

• Statistische Abhängigkeit = Je größer der Unterschied zw. Kontingenztabelle &


Indifferenztabelle, desto größer χ2

- 1. Problem:

• χ2 hat keinen festen Wertebereich

• Was bedeutet es, wenn sich ein Wert von χ2=5,35 ergibt?
• Wie kann ich Wert sinnvoll bzgl. der Stärke der Abhängigkeit interpretieren?
-> KEINE ANTWORT MÖGLICH

- Merkmale:
• χ 2 ist abhängig von der Tabellengröße und den jeweiligen Zellenhäufigkeiten!!!

Die bivariate Verteilung


wird nicht verändert,
sondern die
Zellenhäufigkeiten
lediglich verdoppelt

- 2. Problem:

• Aus der Verdopplung der Zellenhäufigkeiten resultiert (bei gleichbleibenden hj und pj) eine
Verdopplung des Chi-Quadrat Koeffizienten

- Lösung: χ 2 normieren -> eindeutiger Wertebereich liegt vor & Verdopplungseffekt tritt nicht auf

17 of 21
Begriffsübersicht Statistik I 2018/19

Phi-Koeffizient

Cramers V

Kontingenzkoeffizient C

PRE-Maß Lambda

anwenden: Chi-Quadrat & Lambda per Hand berechnen

7. Sitzung
Konkordante & diskordante Paare

18 of 21
Begriffsübersicht Statistik I 2018/19
Gamma als Statistik

Somers‘ d

Kendall‘s Tau A

Kendall‘s Tau B &

Kendall‘s Tau C

anwenden: N & N per Hand berechnen


c d

8. Sitzung
Streudiagramm

Kovariation

19 of 21
Begriffsübersicht Statistik I 2018/19


Kovarianz

Korrelationskoeffizient I

Regressionsgerade

anwenden: Erklärung des Prinzips der Kovarianz

Extra:

- Korrelation (positiv & negativ): 2 (oder mehr) Ereignisse treten gleichzeitig auf & hängen
miteinander zusammen; korrelative Beziehung muss konsistent & theoretisch untermauert sein;

Beispiele: Rauchen & Lungenkrebs;


Körpergröße & Gewicht

- Vorsicht bei Interpretation von Korrelationen !



z.B. Depressive Menschen haben weniger soziale Kontakte. (Ausmaß der Depressivität korreliert
mit Anzahl sozialer Kontakte)

Erklärungsmöglichkeiten:

-> Depressivität führt zum Rückzug oder zu mangelnder Kompetenz, soziale Kontakte zu pflegen.

-> Der Rückgang sozialer Kontakte führt zur Depressivität.

-> Depressive Menschen leben in einer reizärmeren Umgebung: dies führt zu

erhöhter Depressivität und resultiert in Isolation.



z.B. Die Dauer einer Therapie ist positiv korreliert mit der Befindlichkeit.

-> Hieraus folgt nicht sofort, dass die Therapie wirksam ist: Meist beginnen Patienten eine
Therapie wenn es ihnen extrem schlecht geht. Es ist aber dann möglicherweise zu erwarten, dass
auch ohne Therapie eine gewisse Besserung eintritt.

z.B. Menschen, die Tabletten nehmen fühlen sich unwohler.

-> Hieraus lässt sich nicht folgern, dass die Tabletten Ursachen für das Missbefinden sind. Denn,
nur diejenigen, denen es schlecht geht, nehmen Tabletten.

20 of 21
Begriffsübersicht Statistik I 2018/19
- Koinzidenz: 2 (oder mehr) Ereignisse treten zufällig auf; es besteht zwischen ihnen kein
theoretisch begründbarer Zusammenhang -> erlaubt keinerlei wissenschaftlich fundierte
Voraussagen

- z scores: zum besseren vlg. Zwischen zwei Studien; Standardisierung der werte (Maßeinheit)

- > dispersion = Streuung entspricht der Standardabweichung in der epischen


Verteilung

Zusammenfassung Formeln:

21 of 21