Skript Statistik Ws22

Skript Statistik Ws22/23
Inhalt
1. Einführung......................................................................................................................................3
1.1 Methoden der Datenauswertung:................................................................................................3
1.2 Variablen und Merkmale..............................................................................................................3
1.3 Konstante.....................................................................................................................................4
1.4 Statistische Methoden..................................................................................................................4
1.4.1 Univariate statistische Methoden..........................................................................................4
1.4.2 Bivariate statistische Methoden............................................................................................4
1.4.3 Multivariate statistische Methoden.......................................................................................4
2. Messen..............................................................................................................................................4
2.1 Skalenniveaus...............................................................................................................................4
2.2 Messen auf Nominalskalenniveau................................................................................................5
2.2.1 Unterscheidung von numerischem und empirischem Relativ...............................................5
2.2.2 Homomorphismus.................................................................................................................5
2.2.3 Äquivalenzrelation.................................................................................................................5
2.2.4 Eineindeutigkeit.....................................................................................................................6
2.2.5 Zusammenfassung Nominalskala...........................................................................................6
2.3 Ordinalskalierung.........................................................................................................................6
2.3.1 Strenge Ordnungsrelation.....................................................................................................6
2.3.2 Ordinalskalenmodel...............................................................................................................6
2.3.3 Zulässige Transformationen-> Monotone Transformation....................................................6
2.3.4 Zusammenfassung Ordinalskala............................................................................................7
2.4 Kardinalskalierte Variablen...........................................................................................................7
2.4.1 Intervallskalierte Variablen....................................................................................................7
2.4.2 Verhältnisskalierte Variablen..........................................................................................7
2.4.3 Absolutskalierte Variablen..............................................................................................7
2.5 Arten von Variablen................................................................................................................7
3. Univariate Statistik.............................................................................................................................8
3.1 Einführung/ Grundbegriffe...........................................................................................................8
3.1.1 Datenmatrix...........................................................................................................................8
3.1.2 Urliste....................................................................................................................................8
3.1.2 Relative Häufigkeit..........................................................................................................8
3.2 Lage- und Dispersionsmaße für Nominalskalierte Variablen..................................................8
3.2.1 Modus....................................................................................................................................8
3.2.2 Relativer Informationsgehalt..........................................................................................8
3.3 Lage- und Dispersionsmaße für ordinalskalierte Variablen....................................................9
3.3.1 Singuläre Daten.....................................................................................................................9
3.3.2 Geordnete Kategorien....................................................................................................9
3.3.3 Histogramm....................................................................................................................9
3.4 Lage- und Dispersionsmaße für metrische Variablen...........................................................10
3.4.1 Arithmetisches Mittel..........................................................................................................10
3.4.2 Streubereich und Variationsbreite................................................................................11
3.4.3 Quantile........................................................................................................................11
3.4.4 5-Punkt-Zusammenfassung..........................................................................................11
3.4.5 Box-Plot (Box-Whisker-Plot).........................................................................................12
4. Bivariate Statisitk..............................................................................................................................12
4.1 Varianz und Standardabwichung(SD) (auch in univariater Statistik angewandt)........................12
4.1.1Varianz:.................................................................................................................................12
4.1.2 Standardabweichung...........................................................................................................12
4.1.3 Eigenschaften Varianz und Standardabweichung.........................................................12
4.2 Zentrierung und Standardisierung........................................................................................12
4.2.1 Zentrierung..........................................................................................................................12
4.2.2 Standardisierung..................................................................................................................13
4.3 Bivariate Zusammenhangsmaße...........................................................................................13
4.3.1 Kovarianz.............................................................................................................................13
4.3.2 Korrelation...........................................................................................................................13
4.3.3 Rangkorrelation nach Spearman...................................................................................14
4.3.4 Gammakoeffizient (Ordinalskaliert)..............................................................................14
4.3.5 Mittelwert für Dichotome Variablen.............................................................................14
4.3.6 Phi-Koeffizient (Dichotom)...............................................................................................15
4.3.6 Yules Q..........................................................................................................................15
4.3.7 Wann Yules Q, wann Phi...............................................................................................15
4.3.8 Odds Ratio....................................................................................................................15
5. Einfache lineare Regression..............................................................................................................15
5.1 Grundbegriffe.............................................................................................................................15
5.2 Bestimmung der Regressionskoeffizienten.................................................................................16
5.3 Eigenschaften der Residuen.......................................................................................................16
5.4 Quadratsummenzerlegung.........................................................................................................16
5.5 Determinationskoeffizient..........................................................................................................16
5.6 Regression mit zentrierter UV....................................................................................................16
5.7 Regression mit z-Standardisierten Werten.................................................................................16
5.8 Unstandardisierte vs. Standardisierte Regression......................................................................16
5.9 Korrelation vs Regression...........................................................................................................17
6. Semi- und Partialkorrelation.............................................................................................................17
6.1 Partialkorrelation........................................................................................................................17
6.2 Semipartialkorrelation..........................................................................................................17
7 Multiple Regression......................................................................................................................17
7.1 Regressionsgleichung.................................................................................................................18
7.2 Eigenschaften Regressionsgewichte.....................................................................................18
7.3 Multiple Korrelation und Multiple Determination................................................................18
7.3.1 Multiple Korrelation......................................................................................................18
7.3.2 Multiple Determination................................................................................................18
7.4 Inkrement und Nützlichkeit..................................................................................................19
8. Wahrscheinlichkeit...........................................................................................................................19
8.1 Begriffe und Schreibweisen........................................................................................................19
8.2 Axiome von Kolgomorov.......................................................................................................21
8.3 Laplacewahrscheinlichkeit....................................................................................................21
8.4 Bernoulli Theorem................................................................................................................21
1. Einführung
1.1 Methoden der Datenauswertung:
- Deskriptive Statistik (beschreibende Statistik)
 Daten sinnvoll zusammenfassen, zu beschreiben und graphisch darzustellen
- Inferenzstatistik (schließende Statistik)
 Unter Einbezug der Wahrscheinlichkeitstheorie allgemeine Schlussfolgerungen über
Grundgesamtheiten (Populationen) treffen
1.2 Variablen und Merkmale
Variablen
- Veränderliche Größe
- Beschreibt Objekte (oder Subjekte)
- Objekte können sich darin unterscheiden
- Auch häufig als Merkmal bezeichnet
- Ein unveränderliche Größe heißt Konstante
Merkmalsträger
- Objekte, die durch Variablen beschrieben werden
- Personen, Situationen, Organisationen, ...
Merkmalsausprägung
- Konkreter Werte eines Merkmals bei einem Merkmalsträger
1.3 Konstante
Konstante: Eine unveränderliche Größe
1.4 Statistische Methoden
1.4.1 Univariate statistische Methoden
 Nur ein Merkmal wird erfasst
z.B: Welche psychiatrische Erkrankung haben die Personen, die den Raum betreten
1.4.2 Bivariate statistische Methoden

 Zwei Merkmale werden erfasst, Korrelation kann festgestellt werden
 Korrelation von -1;1
1. z.B.: Anstrengung und Leistung -> Positive Korrelation: je mehr Anstrengung, desto höher die
Leistung
2. z.B.: soziale Kontakte und Depressivität -> Negative Korrelation: Je mehr soziale Kontakte
desto, niedriger die Depressivität
1.4.3 Multivariate statistische Methoden

 Mehr als zwei Merkmale werden erfasst
z.B.: Intelligenz, Teamfähigkeit, Fleiß, Erfolg
- Um den genauen Zusammenhang von Intelligenz und Erfolg darzustellen, müssen weitere
Variablen (Teamfähigkeit, Herkunft, Fleiß etc. …) kontrolliert werden
Scheinzusammenhänge:
Korrelation bei der Kein kausaler Zusammenhang besteht
z.B.: Schuhgröße Korreliert Positiv mit Einkommen
 Wird auf Geschlecht kontrolliert, deckt sich der Scheinzusammenhang auf
Maskierte Zusammenhänge:
Zusammenhang zwischen 2 Variablen wird erst sichtbar, wenn eine 3. Variable beachtet wird
2. Messen
 Die Zuordnung von Zahlen auf Objekte nach bestimmten Regeln, sodass bestimmte
Relationen auf der Menge der Objekte, auf der Menge der Zahlen erhalten bleiben
2.1 Skalenniveaus
Skala: Ein Maßstab zur Messung von Merkmalsausprägungen
Skalenniveau: Das Skalenniveau legt fest, nach welchen Regeln Untersuchungsobjekte (z.B.
Personen) Zahlen zugeordnet werden können, wie willkürlich diese Zuordnung ist und welche
inhaltlichen Aussagen über die Merkmalsunterschiede sinnvollerweise getroffen werden können.
2.2 Messen auf Nominalskalenniveau

Ziel Nominalskalenniveau: Klassifikation von Objekten, die auf Gleichheit bzw. Verschiedenheit
aufbaut
U: Menge von Untersuchungsobjekten

Relation R: Stellt Elemente von U in ein Verhältnis
Relationsvorschrift: u hat das gleiche Geschlecht wie v (u und v sind Teilmenge on U)
Relativ RV= (U,R)
2.2.1 Unterscheidung von numerischem und empirischem Relativ
Empirisches Relativ:
- Menge U besteht aus Personen

- Relation stellt Personen in Verhältnis
zueinander
Numerisches Relativ:
- Menge R besteht aus reellen Zahlen

- Relation verbindet Zahlen -> z.B.
Gleichheit von Zahlen
2.2.2 Homomorphismus
 Unter Messen versteht man die Zuordnung von Zahlen zu Objekten derart, dass die
Relationen im empirischen Relativ im numerischen Relativ erhalten bleiben. Eine Abbildung
der Menge U auf die Menge R, die dies leistet, nennt man eine strukturerhaltende Abbildung
oder einen Homomorphismus h
h: U-> R z.B.: h(Fritz)=1 (bei männlich=1, weiblich=2) h ist die Funktion, die die Menge U in die Menge
der reellen Zahlen abbildet
2.2.3 Äquivalenzrelation
Eine Relation R heißt Äquivalenzrelation, wenn sie folgende drei Anforderungen erfüllt:
1. R ist reflexiv, d.h., für alle u aus U gilt: uRu
2. R ist symmetrisch, d.h., für alle u; v aus U gilt: uRv -> vRu
3. R ist transitiv, d.h., für alle u; v; w aus U gilt: (uRv ^ vRw) -> uRw.
Für die Äquivalenzrelation verwenden wir das Zeichen ≈

Äquivalenzklassen und Klassifikationssysteme
- Eine Person kann nur zu einer Äquivalenzklasse gehören

- Personen in den gleichen Äquivalenzklassen gleichen sich in untersuchtem Merkmal
- Personen in verschiedenen Äquivalenzklassen unterscheiden sich in untersuchtem Merkmal
2.2.4 Eineindeutigkeit
Objekte, die die gleichen Werte hatten, haben nach einer beliebigen Transformation immer noch die
gleichen Werte
2.2.5 Zusammenfassung Nominalskala

- Nominalskalierte Merkmale zeichnen sich dadurch aus, dass sie die Klassifikation von
Objekten erlauben
- Klassifikationsmerkmal ist die Gleichheit vs. Verschiedenheit von Objekten in Bezug auf ein
Merkmal
- Die definierende empirische Relation ist die Äquivalenzrelation, die reflexiv, symmetrisch
und transitiv ist
- Die Zuordnung von Werten (Zahlen) ist beliebig, sofern in Bezug auf das Merkmal gleiche
Personen gleiche Werte und merkmalsverschiedene Personen verschiedene Werte erhalten
- Personen müssen einer Merkmalsklasse, dürfen aber auch nur einer Merkmalsklasse
angehören.
- Zulässig sind eineindeutige Transformationen.
- Bedeutsam sind Aussagen über die Gleichheit und Verschiedenheit von Werten.
2.3 Ordinalskalierung
- Ordinalskala erlaubt Aussagen über Verschiedenheit(=;/=) und über die Art der
Verschiedenheit (<;>)
- Ziel der Ordinalskalierung: Klassifikation und Ordnung
2.3.1 Strenge Ordnungsrelation

Eine Relation R heißt strenge Ordnungsrelation, wenn sie die folgenden zwei Anforderungen erfüllt:
1. R ist asymmetrisch, d.h., für alle u; v 2 U gilt: uRv ! :(vRu)
2. R ist transitiv, d.h., für alle u; v; w 2 U gilt: (uRv ^ vRw) -> uRw
2.3.2 Ordinalskalenmodel
Das Ordinalskalemodell beinhaltet die Äquivalenzrelation und die strenge Ordnungsrelation
 Man kann also nicht nur über Gleichheit und

Verschiedenheit Aussagen treffen, sondern
auch über die Ordnung innerhalb der
Objekte
2.3.3 Zulässige Transformationen-> Monotone Transformation

Monotone Transformation:
- Personen, die die gleichen Werte haben, müssen nach der Transformation auch gleiche
Werte haben
- Eine Person, die einen höheren Wert als eine Andere hat, muss nach der Transformation
immer noch einen höheren Wert haben
Transformation t dann Monoton wenn…
- a=b wenn t(a)=t(b)

- a>b wenn t(a)>t(b)
2.3.4 Zusammenfassung Ordinalskala
- Ordinalskalierte Merkmale zeichnen sich dadurch aus, dass sie die Klassifikation und
Ordnung von Objekten erlauben.
- Klassifikationsmerkmal ist die Gleichheit (Äquivalenz) vs. Verschiedenheit von Objekten in
Bezug auf ein Merkmal
- Ordnungsmerkmal ist die strenge Ordnung.
- Die definierenden empirischen Relationen sind die Äquivalenzrelation und die strenge
Ordnungsrelation
- Die strenge Ordnungsrelation ist asymmetrisch und transitiv
- Die Zuordnung von Zahlen ist beliebig, sofern die Äquivalenz undOrdnung der Objekte
erhalten bleibt
- Zulässige Transformationen sind monotone Transformationen
- Bedeutsam sind Aussagen über die Gleichheit/Verschiedenheit von Werten sowie über die
Größer/Kleiner-Beziehung zwischen Werten
2.4 Kardinalskalierte Variablen

 Metrische Variablen, bzw. alle Variablen, die mindestens Intervallskaliert sind
2.4.1 Intervallskalierte Variablen

- Verhältnisse von Differenzen haben Bedeutung
- Verhältnisse von Zahlendifferenzen entsprechen den Verhältnissen von
Merkmalsunterschieden
- Erlaubt Aussagen über die Äquivalenz(in diesem Fall Gleichheit), Ordnung und Größe der
Verschiedenheit von Merkmalsausprägungen
- Zulässige Transformation: Positiv lineare Transformation also Addition und Multiplikation,
allerdings nur mit zahlen >0, da sich ansonsten das Verhältnis umkehrt
2.4.2 Verhältnisskalierte Variablen

- Erlaubt Aussagen über die Äquivalenz, Ordnung, Größe der Verschiedenheit und Verhältnis
von Merkmalsausprägungen
- Objekten werden Zahlen derart zugeordnet, dass das Verhältnis zwischen zwei Zahlen dem
Verhältnis der Merkmalsausprägungen entspricht
- Hat einen absoluten Nullpunkt
- Zulässige Transformation: Ähnlichkeitstransformation, also Multiplikation mit zahlen >0
2.4.3 Absolutskalierte Variablen

- Erlaubt Aussagen über die Äquivalenz, Ordnung, Größe der Verschiedenheit, Verhältnis und
den absoluten Wert von Merkmalsausprägungen
- Gleiche Eigenschaften wie Intervallskala, nur dass sich die Zuordnungsvorschrift bei der
Absolutskala aus der natürlichen Maßeinheit des Merkmals ergibt
- Keine Transformationen zulässig
2.5 Arten von Variablen

Qualitativ:
- Endliche Anzahl von Ausprägungen

- Höchstens Ordinalskaliert
- Kennzeichnen Qualität und nicht Ausmaß eines Merkmals
Quantitativ:
- Ausprägungen stellen ein Ausmaß oder eine Intensität dar

- Werte sind stets Zahlen
- Kardinalskalierte Variablen sind quantitative Variablen
Diskret
- Endlich oder abzählbar unendliche viele (mögliche) Ausprägungen

- Können alle Skalenniveaus haben
Stetig (Kontinuierlich)
- Unendlich viele (mögliche) Ausprägungen

- Alle Werte innerhalb eines Intervalls sind möglich
3. Univariate Statistik
3.1 Einführung/ Grundbegriffe
3.1.1 Datenmatrix
 Eine systematische Darstellung von n * p Messwerten
- n= Anzahl der Merkmalsträger-> wie viele Zeilen? , m= einzelner
Merkmalsträger
- p= Anzahl der möglichen Merkmale-> wie viele Spalten? , i=
einzelnes Merkmal
3.1.2 Urliste
 Ungeordnete Liste von gemessenen Merkmalsausprägungen
 Z.B.: Liste von Personen mit verschiedenen
Persönlcihkeitsstörungen(Merkmalsausprägungen)
 Ziel der Deskriptivstatistik ist es, die Urliste zusammenfassend zu beschreiben
3.1.2 Relative Häufigkeit

- Absolute Häufigkeit nj: Anzahl der Merkmalsträger mit einer betimmten
Merkmalsausprägung
- Relative Häufigkeit: Anteil von Merkmalsträgern mit einer bestimmten Merkmalsausprägung
in Bezug auf alle Merkmalsträger -> hj=nj/n
3.2 Lage- und Dispersionsmaße für Nominalskalierte Variablen

3.2.1 Modus
-> Modus ist die Merkmalsausprägung, die am häufigsten erfasst wurde
 Kann nicht eindeutig bestimmt werden, wenn mehr als eine Merkmalsausprägung am
häufigsten vorkommt
MERKE: Modus wird durch die die Stelle beschrieben, an der er in einer Liste steht, nicht durch die
Häufigkeit der Messungen der bestimmten Merkmalsausrägung
3.2.2 Relativer Informationsgehalt

- Maß für die Streuung bzw. Dispersion
- Gibt an, wie sehr sich die Merkmalsträger über die
Kategorien ausbreiten oder Konzentrieren
Interpretation:
- H=0 alle merkmalsträger haben die gleiche Merkmalsausprägung

 Keine Information
- H=1 alle Merkmalsträger haben verschiedene Merkmalsausprägungen
 Maximale Information
3.3 Lage- und Dispersionsmaße für ordinalskalierte Variablen

3.3.1 Singuläre Daten
 Jede Beobachtung kommt nur einmal vor. Z.B.: Zieleinlauf Marathon
- Rangplatz R: Platznummer eines Objekts in einer Tabelle
- Rangbindung: mehrere Merkmalsträger teilen sich einen Rangplatz
3.3.1.1 Relativer Rang und Prozentrang

- Relativer Rang: Relativer Anteil von Merkmalsträgern, die einen gleichen
oder kleineren Wert haben als ein bestimmter Merkmalsträger m
- Prozentrang: Relativer Rang in Prozenten angegeben -> RRm*100
3.3.1.2 Median
 Median ist der Wert, der die Beobachtungen in zwei hälften Teilt
 Der Wert des Merkmalträgers „in der Mitte“
- Bei ungeradem n: (n+1)/2 <- Wert an dieser Stelle
- Bei geradem n: n/2;n/2+1 <- Mittelwert von den Werten an diesen beiden Rängen
3.3.2 Geordnete Kategorien

 Eine Variable kann mehrere Antwortkategorien zu einer einzelnen Frage annehmen, diese
Kategorien sind geordnet von z.B. schwach zu stark/1-5
- Absolute Häufigkeiten: Welche Kategorie nimmt die Variable wie oft an?
- Kumulierte Häufigkeiten: auf jede Anzahl von Merkmalsträgern auf einer bestimmten
Kategorie wird die Anzahl aller Merkmalsträger der vorangegangenen Kategorien
aufsummiert
3.3.2.1 Median und Medianklasse

Klasse: „Rang der Kategorie“
Median: Wert an der Stelle (n/2)/(n/2+1)
Medianklasse: Klasse, in der sich der Median befindet
3.3.2.2 Quartile
- Q1: min 25% der Werte sind <= Q1
 n/4 ganze Zahl: Q1= Mittelwert aus Werten an Stellen: n*0,25 und n*0,25+1
 n/4 keine ganze Zahl: Q1= Wert an Stelle (n*0,25 aufgerundet auf nächste ganze zahl)
- Q2(Median): min 50% der Werte sind <= Q2/Median
- Q3: min 75% der Werte sind <= Q3
 Gleich wie bei Q1 nur mit faktor 0,75
Empirischer Interquartilsbereich: Beriech der Werte zwischen Q1 und Q3
 Mittlere 50% der Ausprägungen
3.3.3 Histogramm
 Ein Histogramm stellt die Häufigkeitsverteilung kategorisierter (gruppierter) Daten dar
- Für die Gruppierung werden als Kategorien benachbarte Intervalle gewählt
- Wenn für die Kategorienbreite 1 gewählt wird und die Höhe der Säule
der absoluten Häufigkeit entspricht, entspricht die Fläche der Säule
ebenfalls der absoluten Häufigkeit
3.4 Lage- und Dispersionsmaße für metrische Variablen
Bereits bekannt:
- Modus
- Median
 Zusatz: Eigenschaft: Die Summe der Abweichungsbeträge aller
Messwerte vom Median ist kleiner als die Summe der
Abweichungsbeträge von irgend einem anderen Wert
3.4.1 Arithmetisches Mittel

 Auch Mittelwert oder Durchschnitt
 Das häufigste Maß der zentralen Tendenz für metrische Variablen
- Das Arithmetische Mittel ist die Summe aller beobachteten
Merkmalswerte geteilt durch die Anzahl der Beobachtungen
Eigenschaften:
 Das arithmetische Mittel repräsentiert die Lage einer Verteilung nach dem Kriterium der
kleinsten Quadrate
Interpretation:
- Der Mittelwert ist bei symmetrischen unimodalen Verteilungen am aussagekräftigsten

- Der Mittelwert ist bei schiefen Verteilungen weniger aussagekräftig
- Der Mittelwert reagiert sehr sensitiv auf extreme Werte
 Falls extreme Werte vorhanden sind, repräsentiert der Median die Lage der Verteilung
meist angemessener
3.4.1.1 Getrimmtes Mittel

- Um zu verhindern, dass Ausreißerwerte den Mittelwert beeinflussen werden diese
Ausreißerwerte bei der Berechnung des Mittelwerts nicht berücksichtigt
 5% der oberen und unteren Werte werden vor dem Berechnen des Mittelwerts entfernt
 n wird dadurch um die Anzahl der entfernten Werte kleiner
3.4.1.1 Winsorisiertes Mittel

- Um zu verhindern, dass Ausreißerwerte den Mittelwert zu stark beeinflussen, wird eine
bestimmte Anzahl von hohen und niedrigen Werten den benachbarten Werten gleichgesetzt
 Beispiel: die 2 obersten/untersten Werte werden dem 3. Obersten/untersten Wert
gleichgesetzt
 n wird nicht verändert
3.4.2 Streubereich und Variationsbreite
Streubereich SB: Wertebereich in dem alle beobachteten
Werte Liegen
Variationsbreite v: Spannweite/Range der Messwerte
3.4.3 Quantile
p-Quantil: Wert Xp(0<p<1), für den gilt, dass mindestens ein Anteil p*100% der Daten kleiner oder
gleich Xp und mindestens ein Anteil (1-p)*100% der Daten größer oder gleich Xp ist.
 Beispiele:
- Median Md=X0,50
- Quartile Q1=X0,25, Q3=X0,75
- Dezile: X0,10, X0,20…
- Perzentile: X0,01, X0,02…
Interdezilabstand: IDA= P90-P10
 Robust gegenüber Ausreißern
3.4.3.1 Interquartilabstand
IQA= Q3-Q1
 Im Bereich zwischen Q1 und Q3 liegen 50% der Daten
Interpretation:
- Kleiner Quartilsabstand: geringe Streuung im mittleren Bereich der Verteilung

- Großer Quartilsabstand: große Streuung im mittleren Bereich der Verteilung
3.4.4 5-Punkt-Zusammenfassung
1. Minimaler Wert
2. 1. Quartil
3. Median
4. 3. Quartil
5. Maximaler Wert
3.4.5 Box-Plot (Box-Whisker-Plot)

4. Bivariate Statisitk
4.1 Varianz und Standardabwichung(SD) (auch in univariater Statistik angewandt)
4.1.1Varianz:
 Ist der Mittelwert der (Abweichungen aller Messwerte vom
Mittelwert)^2
 Mittlere quadratische Abweichung
 Die Varianz ist die Kovarianz einer Variablen mit sich selbst
 Sie sagt aus wie unterschiedlich die Werte sind und ist als Fläche dargestellt
4.1.2 Standardabweichung
 Positive Quadratwurzel aus der Varianz
 Bringt die Varianz wieder in die Metrik der Messung
zurück
 Ist der durchschnittliche Wert um den alle Werte vom
Mittelwert abweichen
4.1.3 Eigenschaften Varianz und Standardabweichung

1. Reagieren durch Quadrierung besonders empfindlich auf Ausreißer
2. Addition einer Konstanten zu den Messwerten(zu jedem Messwert) ändert Varianz und SD
nicht
 Jeder Messwert wird um Konstante erhöht, also erhöht sich der Mittelwert um genau diese
Konstante. Messwerte+K und Mittelwert+K gleichen sich in der Formel also wieder aus
3. Multiplikation Messwerte um Faktor b= Varianz x b^2, SD x b
4.2 Zentrierung und Standardisierung

4.2.1 Zentrierung
- Durch die Zentrierung aller Messwerte nimmt der Mittelwert
den Wert 0 an, sodass alle unterdurchschnittlichen Werte ein
negatives und alle überdurchschnittlichen Werte ein positives Vorzeichen annehmen
 Metrik der Messung bleibt erhalten
 Varianz der zentrierten Werte = Varianz der unzentrierten Werte
4.2.2 Standardisierung
- Die Standardisierung ist die Zentrierung im Verhältnis zur
Standardabweichung
- oder: Abweichung der Ausprägung des Merkmalsträgers vom
Mittelwert in Standardabweichungen
 Die Zentrierung geteilt durch die Standardabweichung
 Mittelwert der zentrierten Werte = 0, Varianz der zentrierten Werte = 1
 Aussagen bezüglich standardisierter Werte sind gegenüber linearen Transformationen der
ursprünglichen Werte invariant
4.3 Bivariate Zusammenhangsmaße

- Dispersionsmaße stellen Unterschiedlichkeit zwischen Merkmalsträgern auf einer Variable
dar
- Zusammenhänge sind gleichzeitige Unterschiedlichkeit auf mehreren Variablen
 z.B.: Höherer Wert für X führt zu höherem Wert für Y im Vergleich zu einem anderen
Merkmalsträger
4.3.1 Kovarianz
 Die Kovarianz ist die Kreuzproduktsumme durch die
Summe aller Merkmalsträger
Eigenschaften:
- Addition von Konstanten verändern die Kovarianz nicht

- Multiplikation mit Konstanten a und b verändern die Kovarianz um den Faktor a*b
- Wenn eine der beiden Variablen eine Konstante (-> Jeder Merkmalsträger hat den gleichen
Wert) ist, ist die Kovarianz immer 0
Interpretation:
- Wenn beide Variablen über bzw. unter dem Mittelwert der jeweiligen Variablen liegen,
resultiert das in einem positiven Kreuzprodukt-> Positive Kovarianz
 Positive Kovarianz bedeutet, dass hoher Wert auf der einen Variablen mit einem hohen Wert
auf der anderen Variablen einhergeht -> Positiver Zusammenhang
 Negative Kovarianz bedeutet, dass wenn die eine Variable Teigt, die andere sinkt
- Ausmaß der Kovarianz ist abhängig von der Skalierung der Variablen
 Wertebereich von -unendlich bis +unendlich
4.3.2 Korrelation
 Die Korrelation ist die standardisierte Form der Kovarianz
 Die Korrelation ist Die Kovarianz geteilt durch das Produkt der Standardabweichung von X
und der Standardabweichung von Y
 Der Wertebereich ist -1 bis +1
 Korrelation ist für metrische Variablen
Interpretation:
- Trifft nur Aussage über linearen Zusammenhang

- rxy = -1: Perfekter, negativer, linearer Zusammenhang
- rxy= 0: kein linearer Zusammenhang
- rxy=1: Perfekter, positiver, linearer Zusammenhang
- Korrelation ist Symmetrisch: rxy=ryx
- Stärke des Zusammenhangs nach Cohen: >0,1 schwach, >0,3 mittel, >0,5 stark
Eigenschaften:
1. Ist eine der beiden Variablen eine Konstante, ist die Korrelation nicht definiert
 Produkt im Nenner = 0 -> man darf nicht durch 0 teilen -> nicht definiert
2. Die Korrelation einer Variablen mit sich selbst ist
immer 1
3. Die Korrelation zweier variablen ist stets 1, wenn eine Variable Y eine lineare
Transformation der jeweils anderen Variable X ist.
 Jeder Wert von X wird um a+b* erweitert und ergibt dann den jeweils neuen Wert für Y
4. Positiv lineare Transformationen der Werte
ändern die Korrelation nicht
5. Korrelation reagiert sensitiv auf Ausreißerwerte
 Korrelation ist abhängig vom Mittelwert und Mittelwert reagiert ebenfalls sensitiv auf
Ausreißer
4.3.3 Rangkorrelation nach Spearman

 Da Korrelation auf Ausreißerwerte empfindlich reagiert, wird manchmal
 Nur für metrische Variablen
4.3.4 Gammakoeffizient (Ordinalskaliert)

- Konkordanz: Im Vergleich von 2 Merkmalsträgern ist der eine Merkmalsträger auf beiden
Variablen höher oder niedriger als der Andere
- Diskordanz: Im Vergleich von 2 Merkmalsträgern ist der eine Merkmalsträger auf der einen
Variable höher und auf der anderen niedriger als der Andere
- Rangbindung: Im Vergleich von 2 Merkmalsträgern hat der eine Merkmalsträger auf einer
der beiden Variablen den gleichen Wert
Interpretation:
- Wertebereich von -1 bis 1

- -1 wenn alle nicht gebundenen Paare diskordant sind -> max. negativer Zusammenhang
- 0, wenn gleich viele konkordante und diskordante Paare vorliegen
- 1, wenn alle nicht gebundenen Paare konkordant sind
4.3.5 Mittelwert für Dichotome Variablen

Dichotome Variablen: Variablen mit 2 Merkmalsausprägungen (0 und 1)
- 2 Mittelwerte in bivariaten dichotomen Fällen -> einmal für X und einmal für Y
- Mittelwert entspricht der relativen Häufigkeit beider Werte in Kategorie 1 für entweder X
oder Y
4.3.6 Phi-Koeffizient (Dichotom)

 Entspricht der Produktmomentkorrelation für dichotome Variablen, wenn diese
dummykodiert (in 0 und 1 übersetzt) sind
- Grenzwerte [-1;1] nur bei perfektem Zusammenhang und gleicher Rangverteilung möglich
- Je stärker sich die Randverteilungen unterscheiden, desto geringer fällt Phi aus
4.3.6 Yules Q
 Gamma-Koeffizient angewandt auf dichotome Variablen
- Wertebereich [-1;1]
4.3.7 Wann Yules Q, wann Phi

 Yules Q
- Wenn beide Variablen ein in Kategorien übersetztes Kontinuum sind (z.B.: unglücklich –
glücklich, arm – reich)
- Wenn eine klare Ordnung innerhalb der 4-Felder Tafel besteht -> Zelle 2/2 ist steigerung von
Zelle 2/1 ist Steigerung von Zelle 1/2 ist Steigerung von Zelle 1/1
 Phi
- Wenn natürliche Kategorien bestehen (männlich, weiblich – Parteipräferenz)
4.3.8 Odds Ratio

- Trifft Aussage darüber inwieweit das Vorhandensein bzw.
Nichtvorhandensein eines Merkmals A mit dem Vorhandensein bzw.
Nichtvorhandensein eines Merkmals B zusammenhängt OR=
Interpretation:
- OR ist der Wert, um den die WS steigt dass wenn A zutrifft, auch B zutrifft
- OR < 1 negativer Zusammenhang
- OR=1 kein Zusammenhang
- OR> 1 positiver Zusammenhang
5. Einfache lineare Regression

5.1 Grundbegriffe
UV: Unabhängige Variable/Prädiktor -> X-Achse
AV: Abhängige Variable/Kriterium -> Y-Achse
b0: Schnittpunkt Y-Achse -> Y-Wert, wenn X=0
b1: Steigung Regressionsgerade/Regressionsgewicht -> für X=1 steigt y um B1
b1 und b0: Regressionskoeffizienten
Ym: der gemessene Wert
^Ym: der durch die Regressionsgerade vorhergesagte Wert
em: Residuum -> Abweichung des gemessenen Wertes von der Regressionsgerade
 em= Ym - ^Ym
5.2 Bestimmung der Regressionskoeffizienten

- b0: Mittelwert von Y minus b1 mal Mittelwert von X
- B1: KorrelationXY mal (StandartabweichungY geteilt durch
StandardabweichungX)
5.3 Eigenschaften der Residuen

- Die Summe der Residuen beträgt Null
- Die Summe der quadrierten Residuen ist minimal
- Die Residuen sind unabhängig von den Ausprägungen des Prädiktors
- Die Residuen sind unabhängig von den Ausprägungen der vorhergesagten Werte
5.4 Quadratsummenzerlegung
- Jeder Messwert lässt sich zerlegen in den auf Basis des
Regressionsmodels erwarteten Wert und die Abweichung von
diesem Wert (Residuum)
- Gilt auch für die Summen der quadrierten
Abweichungen(Quadratsummen)
- Und auch für die empirischen Varianzen
 Additive Varianzzerlegung
5.5 Determinationskoeffizient
Aus der additiven Varianzzerlegung kann man schließen:
 Anteil an der Varianz von Y der durch X vorhergesagten

Varianz
- Sagt aus wie genau die Vorhersage ist
- Wertebereich [0;1]
 Entspricht der quadrierten Korrelation
- Indeterminationskoeffizient: 1-R^2 -> Anteil den wir nicht vorhersagen können
5.6 Regression mit zentrierter UV

 X wird zentriert
 X-Achse wird so verschoben, dass alle X>0 einen überdurchschnittlichen Wert und alle X<0
einen unterdurchschnittlichen Wert für X bedeuten
 Steigung ändert sich hierdurch nicht
5.7 Regression mit z-Standardisierten Werten

 Beide Variablen werden z-Standardisiert
 Regressionsgerade verläuft nun durch den
Koordinatenursprung
 Steigung entspricht der Korrelation
5.8 Unstandardisierte vs. Standardisierte Regression

Unstandardisiert:
- Vorhersage von Y durch X

- Vergleich des Zusammenhangs von X und Y in verschiedenen Gruppen, bei denen das gleiche
Messinstrument verwendet wurde
Standardisiert:
- Vergleich von verschiedenen Studien, bei denen das gleiche Merkmal mit unterschiedlichem
Messinstrument erfasst wurde
5.9 Korrelation vs Regression

Korrelation:
- Steigung der Regressionsgeraden standardisierter Variablen

- Ungerichteter Zusammenhang -> der Zusammenhang geht in beide Richtungen
 Symmetrisch
Regressionsgewicht:
- Steigung der Regressionsgeraden von unstandardisierten Werten

- Gerichteter Zusammenhang -> der Zusammenhang geht nur in eine Richtung
(Y wird durch X vorhergesagt, aber nicht X durch Y)
 Asymmetrisch
6. Semi- und Partialkorrelation

6.1 Partialkorrelation
 Berücksichtigung einer Drittvariable Z, die eventuell einen Einfluss auf X und Y nimmt
- Zusammenhang zweier Variablen X und Y bereinigt um bzw. kontrolliert für Z
Ziel: Kontrolle von Störvariablen -> Aufdecken von Scheinkorrelationen, Maskierten

Zusammenhängen und redundanten Zusammenhängen
- Partialkorrelation ist die Korrelation von den Residuen von den Regressionen von X abhängig
von Z und Y abhängig von Z
Interpretation Möglicher Ergebnisse:
- Korrelation = Partialkorrelation
 Z hat keinen Einfluss auf X und Y
- Korrelation < Partialkorrelation
 Es besteht eine Redundanz
- Korrelation > Partialkorrelation
 Es besteht eine Suppression -> maskierter Zusammenhang
- Partialkorrelation =0
 Scheinzusammenhang
6.2 Semipartialkorrelation
- Nur eine der beiden Variablen (Y oder X) wird
um Z bereinigt
 Semipartialkorrelation ist die Korrelation von
(dem Regressionsresiduum von Y abhängig von Z) und X
7 Multiple Regression
 Erweiterung der einfachen linearen Regression um weitere unabhängige Variablen
7.1 Regressionsgleichung
Y: Beobachtete Kriteriumswerte
^Y: Vorhergesagte Kriteriumswerte
X1;X2: Prädiktoren (beliebig viele)
b1: Partialregressionsgewicht von X1
 Steigung der bedingten regressionsgeraden

von Y auf X1
 = der Wert, um den sich ^Y verändert, wenn
X1 um eine Einheit verändert und X2 Konstant
gehalten wird
b2: Partialregressionsgewicht von X2
 Steigung der bedingten regressionsgeraden von Y auf X2

 = der Wert, um den sich ^Y verändert, wenn X2 um eine Einheit verändert und X1 konstant
gehalten wird
b0: Achsenabschnit/Intercept
 Vorhergesagter Wert für X1 =0 und X2=0
E= Y-^Y: Residualvariable
7.2 Eigenschaften Regressionsgewichte

- Berücksichtigen Redundanz
- Entspricht beinfach, wenn keine Korrelation zwischen den Prädiktorvariablen besteht
- Typischerweise kleiner als beinfach
- Wenn eine Suppression besteht, werden Partialregressionsgewichte größer als b einfach
- Reihenfolge der Prädiktoren in der Regressionsgleichung irrelevant
- Können auf 2 Äquivalente Weisen dargestellt werden
1. Als Regressionsgewichte einer bedingten einfachen Regression
2. Als Regressionsgewichte zweier Regressionsresiduen
 Zu 2.: Beispiel für Partialregressionsgewicht von X1: 2 Einfache Regressionen: X1(X2)-> X1
abhängig von X2 und Y(X2) -> erhalten der Residualvariablen eX1(X2) und eY(X2), einfache
Regression dieser beiden Residuumsvariablen mit eX1(X2) als Prädiktor und eY(X2) als Kriterium.
-> so ist die das Regressionsgewicht dieser Regression das Partialregressionsgewicht von X1
Varianzzerlegung ist analog zur Varianzzerlegung in der einfachen Regression
7.3 Multiple Korrelation und Multiple Determination

7.3.1 Multiple Korrelation
- Beschreibt wie die abhängige Variable mit den Prädiktorvariablen zusammenhängt
- Wird aus der Produkt-Momentkorrelation der
gemessenen und vorhergesagten Werten berechnet
- Die vorhergesagten ^Y-Werte stellen eine lineare Kombination aller unabhängigen Variablen
dar -> alles, was in der Regressionsgleichung rechts neben dem „=“ steht
7.3.2 Multiple Determination

- Standardisiertes Maß für die Güte der Vorhersage von Y durch das Modell
- Quadrierte multiple Korrelation
- Bzw. Varianzverhältnis der Varianz der vorhergesagten Werte
und der Varianz der gemessenen Werte
 Anteil der Variation vorhergesagter Werte ^Y an der
Gesamtvariation von Y
- Wertebereich [0;1]
 0 gar keine Vorhersage
 1 Perfekte Vorhersage
7.4 Inkrement und Nützlichkeit

Das Inkrement klärt auf, wie viel zusätzliche Varianz der Kriteriumsvariablen durch einen zusätzlichen
Prädiktor vorhergesagt wird.
 R^2 des Modells mit dem interessierenden Prädiktor(Uneingeschränktes)
Modell minus R^2 des Modells ohne den interessierenden
Prädiktor(Eingeschränktes Modell)
- Modelle sind geschachtelt, wenn eingeschränktes Modell ein Sonderfall des
uneingeschränkten Modells ist
- Das Inkrement in R^2 ist definiert als Differenz in R^2 zwischen geschachtelten
Regressionsmodellen
Nützlichkeit = Inkrement in R^2
 Inkrement in R^2 entspricht der Nützlichkeit U eines bestimmten Prädiktors, wenn sich die
verglichenen Modelle nur in diesem Prädiktor unterscheiden
8. Wahrscheinlichkeit
8.1 Begriffe und Schreibweisen
Menge:
- Eine Menge ist eine Zusammenfassung verschiedener Objekte

zu einem Ganzen
- Einzelne Objekte werden Elemente genannt
Teilmengen:
- Leere menge ist immer eine Teilmenge von A

- A ist eine Teilmenge von A
Schnittmengen:
- Wenn B eine Teilmenge von A -> Schnittmenge von A und B = B

- Schnittmenge von A und A = A
- Schnittmenge von A und leere Menge = leere Menge
Vereinigungsmengen:
- Wenn B eine Teilmenge von A -> dann ist die Vereinigungsmenge von A und B
=A
- Vereinigungsmenge von A und A= A
- Vereinigungsmenge von leere Menge und A = A
Differenzmenge:
Komplementärmenge:
- Die Schnittmenge von A und Aquer = leere Menge

- Die Vereinigungsmenge von A und Aquer = Omega
Mächtigkeit:
 Die Anzahl der Elemente in A

 Mächtigkeit = IAI
Potenzmenge:
 Menge aller möglichen Teilmengen von A

- Potenzmenge ist wird ebenfalls als Menge
behandelt
Zufallsvorgang:
 Führt zu einem von mehreren, sich gegenseitig ausschließenden Ergebnissen
Zufallsexperiment:
 Zufallsvorgang, der unter Kontrollierten Bedingungen abläuft
Ergebnisraum:
 Menge aller möglichen Ergebnisse eines Zufallsvorgangs
ωi=Ein einzelnes mögliches Ergebnis
Ω=Ergebnisraum -> Menge aller möglichen Ergebnisse
K=Anzahl aller möglichen Ergebnisse (Mächtigkeit von Ω)
Ergebnisse
- Einzelne Elemente in der Menge möglicher Ergebnisse (ωi ∈ Ω)
Ereignisse
- Beliebige Teilmenge von Ω

- Beliebige Kombination von Ergebnissen
Elementarereignisse:
- Ereignisse, die nur ein Element enthalten
Mengensystem:
- Menge aller möglichen Ereignisse (z.B. Potenzmenge)
Spezielle Ereignisse:
- Unmögliches Ereignis: A= ∅
- Sicheres Ereignis: A= Ω
- Disjunkte Ereignisse: A ∩ B = ∅ -> A und B teilen sich keine Information
Ausgang eines Zufallsvorgangs:
- Zufallsvorgänge enden in einem Ergebnis ω

- Ereignis A tritt ein: ω ∈ A -> Ereignis A tritt ein, wenn Omega Teil von A ist
- Ereignis A tritt nicht ein: ω / ∈ A
Wahrscheinlichkeit
 Die Wahrscheinlichkeit P ordnet jedem Element von P(Ω), also jedem möglichen Ereignis,
eine reele Zahl zu, d.h. sie bildet P(Ω) in die Menge der reellen Zahlen R ab
8.2 Axiome von Kolgomorov

1. Nichtnegativität: P(A) ≥ 0 -> WS kann keinen negativen Wert annehmen
2. Normiertheit: P(Ω) = 1 -> Wertebereich [0;1]
3. Additivität: Wenn A ∩ B = ∅, dann P(A ∪ B) = P(A) + P(B) -> WS von disjunkten Ereignissen
können aufsummiert werden
8.3 Laplacewahrscheinlichkeit
- Laplace-Experiment: Experiment, bei dem alle Elementarereignisse gleich
Wahrscheinlich sind
- Laplace-Wahrscheinlichkeit: Anteil der uns interessierenden Ergebnisse A an
allen möglichen Ergebnissen
8.4 Bernoulli Theorem

Schwaches Gesetz der großen Zahlen:
Die Wahrscheinlichkeit, dass die absolute Abweichung zwischen der relativen Häufigkeit h(A) und der
tatsächlichen Wahrscheinlichkeit P(A) größer/gleich einer beliebigen Zahl (ϵ) ist, geht gegen 0, wenn
der Stichprobenumfang (n) gegen unendlich geht und die Stichproben unabhängig voneinander
gezogen worden sind. Man sagt auch h(A) konvergiert stochastisch oder in Wahrscheinlichkeit gegen
P(A).
 Relative Häufigkeit konvergiert gegen tatsächliche Wahrscheinlichkeit von A, wenn unendlich

viele unabhängige Stichproben gezogen werden
 Bei ausreichend großem n ist die relative Häufigkeit ein geeigneter Schätzer für die
Wahrscheinlichkeit
 Bei ausreichend großem n strebt auch der arithmetische Mittelwert gegen den
Erwartungswert
8.5 Wahrscheinlichkeitsverteilung
8.5.1 Zufallsvariable
Eine Zufallsvariable X ist eine Größe, die unterschiedliche Ergebnisse eines Zufallsvorgangs
(zusammengefasst in der Menge Ω) mithilfe des Zahlenraums (zusammengefasst in der Menge Ω′)
beschreibt
- Wenn Ω′ = R, dann ist X eine reellwertige Zufallsvariable

- x ∈ R ist eine Realisierung (ein konkreter Wert) der Zufallsvariablen
- z.B.: P(X = 7) gibt die Wkt. an, beim zweifachen Würfelwurf, genau die Augenzahl 7 zu werfen
Zwei Arten von Zufallsvariablen:
Diskrete Zufallsariablen:
- Zufallsvariablen mit endlicher oder abzählbar unendlicher Anzahl von Werten

- Beispiele: Ergebnisse beim Würfeln oder beim Münzwurf (abzählbar endlich) sowie
natürliche Zahlen, Primzahlen (abzählbar unendlich)
Stetige Zufallvariablen:
- Zufallsvariablen, bei der zwischen zwei beliebigen Werten xu und xo überabzählbar

unendlich viele Werte liegen können
- Beispiele: Reaktionszeiten
8.5.2 Verteilung von diskreten Zufallsvariablen
- Darstellung als Balkendiagramm aller möglichen Ergebnisse

- X-Achse ordnet 36 Ergebnisse in 11 Ereignisse ein
- Y-Achse gibt Wahrscheinlichkeit jedes Ereignisses an
- P(X=x): Wahrscheinlichkeit, dass die Zufallsvariable X die Realisierung bzw. Ausprägung x
annimmt
8.5.3 Unabhängigkeit diskreter Zufallsvariablen

Wenn zwei diskrete Zufallsvariablen X und Y unabhängig voneinander sind gilt:
- P(X = xi, Y = yi ) = P(X = xi ) · P(Y = yi )

- P(X = xi, Y = yi ) = P([X = xi ] ∩ [Y = yi ])
 Die Wahrscheinlichkeit des gemeinsamen Auftretens von X und Y ist das Produkt der beiden
Einzelwahrscheinlichkeiten von X und Y
8.5.4 Erwartungswert E(X)

- E(X) Erwartungswert von X
- xi Ausprägung der Zufallsvariable
- k Anzahl der möglichen Ausprägungen
- πi Wahrscheinlichkeit der Ausprägung xi
 Bei Zweimaligem würfeln, wäre 7(Die Augenzahl die am häufigsten auftritt) der
Erwartungswert
8.5.5 Varianz/Standardabweichung
Standardabweichung: SD(X)= bzw.
 SD ist der Wert, um den X im Durchschnitt vom Erwartungswert abweicht
8.5.6 Bernoulli-Verteilung
 Zufallsexperiment hat nur 2 mögliche Ausgänge
 Müssen nicht gleich wahrscheinlich sein
- K=2
- X wird in 1 und 0 kodiert
Binomialverteilung
 Bernoulli-Kette von n-mal wiederholten Bernoulli-Experimenten mit π = P(A) für das

interessierende Ereignis A
 X= „Anzahl der Wiederholungen, bei denen A eintritt“
- n: Anzahl der Wiederholungen

- π^x: : Wahrscheinlichkeit von x Treffern
- (1 - π)^n-x: Wahrscheinlichkeit von n-x Nieten
- : Anzahl der Möglichkeiten
Erwartungswert:
Varianz:
8.5.6.1 Verteilungsfunktion
Beispiel: 4 Aufgaben lösen, jedes Mal 50/50
- Die Wahrscheinlichkeit entspricht konzeptuell der relativen Häufigkeit der Ereignisse
- Verteilungsfunktion: bildet kumulierte Wahrscheinlichkeit ab
8.5.7 Verteilung von stetigen Zufallsvariablen

- Bei unendlich vielen Kategorien gilt für alle x: P(X=x)=0
- Durch additivität der Wahrscheinlichkeiten von Elementarereignissen muss
- Für stetige Zufallsvariablen können Wahrscheinlichkeiten nur für ganze Intervalle bestimmt
werden
8.5.7.1 Dichteverteilung
- Wahrscheinlichkeit des Intervalls

- f(x) Wahrscheinlichkeitsfunktion oder Dichte
- d Kategorienbreite mit d->0
 Gesamtfläche zwischen x-Achse und Dichte f(x) ist 1
8.5.7.2 Kennwerte der Dichtefunktion

- Erwartungswert:
- Varianz:
8.5.7.3 Normalverteilung (Gauß-Vereiltung)

- Notation:
- Erwartungswert:
- Varianz:
Eigenschaften der Dichte:

- Symmetrisch um µ
- Glockenförmig
- Wendepunkt bei µ +- σ
- Erwartungswert = Median = Maximum bei σ
- 68,27% der Verteilung liegt in [ µ - σ; µ+ σ]
8.5.7.4 Standardnormalverteilung
 Alle Normalverteilungen lassen sich durch Transformation in eine Standardnormalverteilung
überführen
- Standardisierung:
- Verteilung:
- Umrechnung:
8.5.7.5 Wichtige Quantile

-
-
-
8.5.7.6 Zentrale Schwankungsintervalle
- .

Skript Statistik Ws22

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Skript Statistik Ws22

Hochgeladen von

Copyright:

Verfügbare Formate

Skript Statistik Ws22/23

1.2 Variablen und Merkmale

1.4.2 Bivariate statistische Methoden

1.4.3 Multivariate statistische Methoden

z.B.: Intelligenz, Teamfähigkeit, Fleiß, Erfolg

Korrelation bei der Kein kausaler Zusammenhang besteht

z.B.: Schuhgröße Korreliert Positiv mit Einkommen

 Wird auf Geschlecht kontrolliert, deckt sich der Scheinzusammenhang auf

2.2 Messen auf Nominalskalenniveau

U: Menge von Untersuchungsobjekten

2.2.1 Unterscheidung von numerischem und empirischem Relativ

- Menge U besteht aus Personen

- Menge R besteht aus reellen Zahlen

Für die Äquivalenzrelation verwenden wir das Zeichen ≈

- Eine Person kann nur zu einer Äquivalenzklasse gehören

2.2.5 Zusammenfassung Nominalskala

2.3.1 Strenge Ordnungsrelation

 Man kann also nicht nur über Gleichheit und

2.3.3 Zulässige Transformationen-> Monotone Transformation

Transformation t dann Monoton wenn…

- a=b wenn t(a)=t(b)

2.4 Kardinalskalierte Variablen

2.4.1 Intervallskalierte Variablen

2.4.2 Verhältnisskalierte Variablen

2.4.3 Absolutskalierte Variablen

2.5 Arten von Variablen

- Endliche Anzahl von Ausprägungen

- Ausprägungen stellen ein Ausmaß oder eine Intensität dar

- Endlich oder abzählbar unendliche viele (mögliche) Ausprägungen

- Unendlich viele (mögliche) Ausprägungen

3.1.2 Relative Häufigkeit

3.2 Lage- und Dispersionsmaße für Nominalskalierte Variablen

3.2.2 Relativer Informationsgehalt

- H=0 alle merkmalsträger haben die gleiche Merkmalsausprägung

3.3 Lage- und Dispersionsmaße für ordinalskalierte Variablen

3.3.1.1 Relativer Rang und Prozentrang

3.3.2 Geordnete Kategorien

3.3.2.1 Median und Medianklasse

Median: Wert an der Stelle (n/2)/(n/2+1)

Medianklasse: Klasse, in der sich der Median befindet

Empirischer Interquartilsbereich: Beriech der Werte zwischen Q1 und Q3

 Mittlere 50% der Ausprägungen

3.4.1 Arithmetisches Mittel

- Der Mittelwert ist bei symmetrischen unimodalen Verteilungen am aussagekräftigsten

3.4.1.1 Getrimmtes Mittel

3.4.1.1 Winsorisiertes Mittel

Variationsbreite v: Spannweite/Range der Messwerte

Interdezilabstand: IDA= P90-P10

 Robust gegenüber Ausreißern

 Im Bereich zwischen Q1 und Q3 liegen 50% der Daten

- Kleiner Quartilsabstand: geringe Streuung im mittleren Bereich der Verteilung

3.4.5 Box-Plot (Box-Whisker-Plot)

4.1.3 Eigenschaften Varianz und Standardabweichung

4.2 Zentrierung und Standardisierung

4.3 Bivariate Zusammenhangsmaße

- Addition von Konstanten verändern die Kovarianz nicht

- Trifft nur Aussage über linearen Zusammenhang

4.3.3 Rangkorrelation nach Spearman

4.3.4 Gammakoeffizient (Ordinalskaliert)

- Wertebereich von -1 bis 1

4.3.5 Mittelwert für Dichotome Variablen

4.3.6 Phi-Koeffizient (Dichotom)

4.3.7 Wann Yules Q, wann Phi

4.3.8 Odds Ratio