Beruflich Dokumente
Kultur Dokumente
Inhalt
1. Einführung......................................................................................................................................3
1.1 Methoden der Datenauswertung:................................................................................................3
1.2 Variablen und Merkmale..............................................................................................................3
1.3 Konstante.....................................................................................................................................4
1.4 Statistische Methoden..................................................................................................................4
1.4.1 Univariate statistische Methoden..........................................................................................4
1.4.2 Bivariate statistische Methoden............................................................................................4
1.4.3 Multivariate statistische Methoden.......................................................................................4
2. Messen..............................................................................................................................................4
2.1 Skalenniveaus...............................................................................................................................4
2.2 Messen auf Nominalskalenniveau................................................................................................5
2.2.1 Unterscheidung von numerischem und empirischem Relativ...............................................5
2.2.2 Homomorphismus.................................................................................................................5
2.2.3 Äquivalenzrelation.................................................................................................................5
2.2.4 Eineindeutigkeit.....................................................................................................................6
2.2.5 Zusammenfassung Nominalskala...........................................................................................6
2.3 Ordinalskalierung.........................................................................................................................6
2.3.1 Strenge Ordnungsrelation.....................................................................................................6
2.3.2 Ordinalskalenmodel...............................................................................................................6
2.3.3 Zulässige Transformationen-> Monotone Transformation....................................................6
2.3.4 Zusammenfassung Ordinalskala............................................................................................7
2.4 Kardinalskalierte Variablen...........................................................................................................7
2.4.1 Intervallskalierte Variablen....................................................................................................7
2.4.2 Verhältnisskalierte Variablen..........................................................................................7
2.4.3 Absolutskalierte Variablen..............................................................................................7
2.5 Arten von Variablen................................................................................................................7
3. Univariate Statistik.............................................................................................................................8
3.1 Einführung/ Grundbegriffe...........................................................................................................8
3.1.1 Datenmatrix...........................................................................................................................8
3.1.2 Urliste....................................................................................................................................8
3.1.2 Relative Häufigkeit..........................................................................................................8
3.2 Lage- und Dispersionsmaße für Nominalskalierte Variablen..................................................8
3.2.1 Modus....................................................................................................................................8
3.2.2 Relativer Informationsgehalt..........................................................................................8
3.3 Lage- und Dispersionsmaße für ordinalskalierte Variablen....................................................9
3.3.1 Singuläre Daten.....................................................................................................................9
3.3.2 Geordnete Kategorien....................................................................................................9
3.3.3 Histogramm....................................................................................................................9
3.4 Lage- und Dispersionsmaße für metrische Variablen...........................................................10
3.4.1 Arithmetisches Mittel..........................................................................................................10
3.4.2 Streubereich und Variationsbreite................................................................................11
3.4.3 Quantile........................................................................................................................11
3.4.4 5-Punkt-Zusammenfassung..........................................................................................11
3.4.5 Box-Plot (Box-Whisker-Plot).........................................................................................12
4. Bivariate Statisitk..............................................................................................................................12
4.1 Varianz und Standardabwichung(SD) (auch in univariater Statistik angewandt)........................12
4.1.1Varianz:.................................................................................................................................12
4.1.2 Standardabweichung...........................................................................................................12
4.1.3 Eigenschaften Varianz und Standardabweichung.........................................................12
4.2 Zentrierung und Standardisierung........................................................................................12
4.2.1 Zentrierung..........................................................................................................................12
4.2.2 Standardisierung..................................................................................................................13
4.3 Bivariate Zusammenhangsmaße...........................................................................................13
4.3.1 Kovarianz.............................................................................................................................13
4.3.2 Korrelation...........................................................................................................................13
4.3.3 Rangkorrelation nach Spearman...................................................................................14
4.3.4 Gammakoeffizient (Ordinalskaliert)..............................................................................14
4.3.5 Mittelwert für Dichotome Variablen.............................................................................14
4.3.6 Phi-Koeffizient (Dichotom)...............................................................................................15
4.3.6 Yules Q..........................................................................................................................15
4.3.7 Wann Yules Q, wann Phi...............................................................................................15
4.3.8 Odds Ratio....................................................................................................................15
5. Einfache lineare Regression..............................................................................................................15
5.1 Grundbegriffe.............................................................................................................................15
5.2 Bestimmung der Regressionskoeffizienten.................................................................................16
5.3 Eigenschaften der Residuen.......................................................................................................16
5.4 Quadratsummenzerlegung.........................................................................................................16
5.5 Determinationskoeffizient..........................................................................................................16
5.6 Regression mit zentrierter UV....................................................................................................16
5.7 Regression mit z-Standardisierten Werten.................................................................................16
5.8 Unstandardisierte vs. Standardisierte Regression......................................................................16
5.9 Korrelation vs Regression...........................................................................................................17
6. Semi- und Partialkorrelation.............................................................................................................17
6.1 Partialkorrelation........................................................................................................................17
6.2 Semipartialkorrelation..........................................................................................................17
7 Multiple Regression......................................................................................................................17
7.1 Regressionsgleichung.................................................................................................................18
7.2 Eigenschaften Regressionsgewichte.....................................................................................18
7.3 Multiple Korrelation und Multiple Determination................................................................18
7.3.1 Multiple Korrelation......................................................................................................18
7.3.2 Multiple Determination................................................................................................18
7.4 Inkrement und Nützlichkeit..................................................................................................19
8. Wahrscheinlichkeit...........................................................................................................................19
8.1 Begriffe und Schreibweisen........................................................................................................19
8.2 Axiome von Kolgomorov.......................................................................................................21
8.3 Laplacewahrscheinlichkeit....................................................................................................21
8.4 Bernoulli Theorem................................................................................................................21
1. Einführung
1.1 Methoden der Datenauswertung:
- Deskriptive Statistik (beschreibende Statistik)
Daten sinnvoll zusammenfassen, zu beschreiben und graphisch darzustellen
- Inferenzstatistik (schließende Statistik)
Unter Einbezug der Wahrscheinlichkeitstheorie allgemeine Schlussfolgerungen über
Grundgesamtheiten (Populationen) treffen
Variablen
- Veränderliche Größe
- Beschreibt Objekte (oder Subjekte)
- Objekte können sich darin unterscheiden
- Auch häufig als Merkmal bezeichnet
- Ein unveränderliche Größe heißt Konstante
Merkmalsträger
- Objekte, die durch Variablen beschrieben werden
- Personen, Situationen, Organisationen, ...
Merkmalsausprägung
- Konkreter Werte eines Merkmals bei einem Merkmalsträger
1.3 Konstante
Konstante: Eine unveränderliche Größe
1.4 Statistische Methoden
1.4.1 Univariate statistische Methoden
Nur ein Merkmal wird erfasst
z.B: Welche psychiatrische Erkrankung haben die Personen, die den Raum betreten
- Um den genauen Zusammenhang von Intelligenz und Erfolg darzustellen, müssen weitere
Variablen (Teamfähigkeit, Herkunft, Fleiß etc. …) kontrolliert werden
Scheinzusammenhänge:
Maskierte Zusammenhänge:
Zusammenhang zwischen 2 Variablen wird erst sichtbar, wenn eine 3. Variable beachtet wird
2. Messen
Die Zuordnung von Zahlen auf Objekte nach bestimmten Regeln, sodass bestimmte
Relationen auf der Menge der Objekte, auf der Menge der Zahlen erhalten bleiben
2.1 Skalenniveaus
Skala: Ein Maßstab zur Messung von Merkmalsausprägungen
Skalenniveau: Das Skalenniveau legt fest, nach welchen Regeln Untersuchungsobjekte (z.B.
Personen) Zahlen zugeordnet werden können, wie willkürlich diese Zuordnung ist und welche
inhaltlichen Aussagen über die Merkmalsunterschiede sinnvollerweise getroffen werden können.
Empirisches Relativ:
Numerisches Relativ:
2.2.2 Homomorphismus
Unter Messen versteht man die Zuordnung von Zahlen zu Objekten derart, dass die
Relationen im empirischen Relativ im numerischen Relativ erhalten bleiben. Eine Abbildung
der Menge U auf die Menge R, die dies leistet, nennt man eine strukturerhaltende Abbildung
oder einen Homomorphismus h
h: U-> R z.B.: h(Fritz)=1 (bei männlich=1, weiblich=2) h ist die Funktion, die die Menge U in die Menge
der reellen Zahlen abbildet
2.2.3 Äquivalenzrelation
Eine Relation R heißt Äquivalenzrelation, wenn sie folgende drei Anforderungen erfüllt:
1. R ist reflexiv, d.h., für alle u aus U gilt: uRu
2. R ist symmetrisch, d.h., für alle u; v aus U gilt: uRv -> vRu
3. R ist transitiv, d.h., für alle u; v; w aus U gilt: (uRv ^ vRw) -> uRw.
2.2.4 Eineindeutigkeit
Objekte, die die gleichen Werte hatten, haben nach einer beliebigen Transformation immer noch die
gleichen Werte
2.3.2 Ordinalskalenmodel
Das Ordinalskalemodell beinhaltet die Äquivalenzrelation und die strenge Ordnungsrelation
- Personen, die die gleichen Werte haben, müssen nach der Transformation auch gleiche
Werte haben
- Eine Person, die einen höheren Wert als eine Andere hat, muss nach der Transformation
immer noch einen höheren Wert haben
Quantitativ:
Diskret
Stetig (Kontinuierlich)
3. Univariate Statistik
3.1 Einführung/ Grundbegriffe
3.1.1 Datenmatrix
Eine systematische Darstellung von n * p Messwerten
- n= Anzahl der Merkmalsträger-> wie viele Zeilen? , m= einzelner
Merkmalsträger
- p= Anzahl der möglichen Merkmale-> wie viele Spalten? , i=
einzelnes Merkmal
3.1.2 Urliste
Ungeordnete Liste von gemessenen Merkmalsausprägungen
Z.B.: Liste von Personen mit verschiedenen
Persönlcihkeitsstörungen(Merkmalsausprägungen)
Ziel der Deskriptivstatistik ist es, die Urliste zusammenfassend zu beschreiben
Kann nicht eindeutig bestimmt werden, wenn mehr als eine Merkmalsausprägung am
häufigsten vorkommt
MERKE: Modus wird durch die die Stelle beschrieben, an der er in einer Liste steht, nicht durch die
Häufigkeit der Messungen der bestimmten Merkmalsausrägung
Interpretation:
3.3.1.2 Median
Median ist der Wert, der die Beobachtungen in zwei hälften Teilt
Der Wert des Merkmalträgers „in der Mitte“
- Bei ungeradem n: (n+1)/2 <- Wert an dieser Stelle
- Bei geradem n: n/2;n/2+1 <- Mittelwert von den Werten an diesen beiden Rängen
3.3.2.2 Quartile
- Q1: min 25% der Werte sind <= Q1
n/4 ganze Zahl: Q1= Mittelwert aus Werten an Stellen: n*0,25 und n*0,25+1
n/4 keine ganze Zahl: Q1= Wert an Stelle (n*0,25 aufgerundet auf nächste ganze zahl)
- Q2(Median): min 50% der Werte sind <= Q2/Median
- Q3: min 75% der Werte sind <= Q3
Gleich wie bei Q1 nur mit faktor 0,75
3.3.3 Histogramm
Ein Histogramm stellt die Häufigkeitsverteilung kategorisierter (gruppierter) Daten dar
- Für die Gruppierung werden als Kategorien benachbarte Intervalle gewählt
- Wenn für die Kategorienbreite 1 gewählt wird und die Höhe der Säule
der absoluten Häufigkeit entspricht, entspricht die Fläche der Säule
ebenfalls der absoluten Häufigkeit
3.4 Lage- und Dispersionsmaße für metrische Variablen
Bereits bekannt:
- Modus
- Median
Zusatz: Eigenschaft: Die Summe der Abweichungsbeträge aller
Messwerte vom Median ist kleiner als die Summe der
Abweichungsbeträge von irgend einem anderen Wert
Eigenschaften:
Das arithmetische Mittel repräsentiert die Lage einer Verteilung nach dem Kriterium der
kleinsten Quadrate
Interpretation:
3.4.3 Quantile
p-Quantil: Wert Xp(0<p<1), für den gilt, dass mindestens ein Anteil p*100% der Daten kleiner oder
gleich Xp und mindestens ein Anteil (1-p)*100% der Daten größer oder gleich Xp ist.
Beispiele:
- Median Md=X0,50
- Quartile Q1=X0,25, Q3=X0,75
- Dezile: X0,10, X0,20…
- Perzentile: X0,01, X0,02…
3.4.3.1 Interquartilabstand
IQA= Q3-Q1
Interpretation:
3.4.4 5-Punkt-Zusammenfassung
1. Minimaler Wert
2. 1. Quartil
3. Median
4. 3. Quartil
5. Maximaler Wert
4.1.2 Standardabweichung
Positive Quadratwurzel aus der Varianz
Bringt die Varianz wieder in die Metrik der Messung
zurück
Ist der durchschnittliche Wert um den alle Werte vom
Mittelwert abweichen
4.3.1 Kovarianz
Die Kovarianz ist die Kreuzproduktsumme durch die
Summe aller Merkmalsträger
Eigenschaften:
Interpretation:
- Wenn beide Variablen über bzw. unter dem Mittelwert der jeweiligen Variablen liegen,
resultiert das in einem positiven Kreuzprodukt-> Positive Kovarianz
Positive Kovarianz bedeutet, dass hoher Wert auf der einen Variablen mit einem hohen Wert
auf der anderen Variablen einhergeht -> Positiver Zusammenhang
Negative Kovarianz bedeutet, dass wenn die eine Variable Teigt, die andere sinkt
- Ausmaß der Kovarianz ist abhängig von der Skalierung der Variablen
Wertebereich von -unendlich bis +unendlich
4.3.2 Korrelation
Die Korrelation ist die standardisierte Form der Kovarianz
Die Korrelation ist Die Kovarianz geteilt durch das Produkt der Standardabweichung von X
und der Standardabweichung von Y
Der Wertebereich ist -1 bis +1
Korrelation ist für metrische Variablen
Interpretation:
Eigenschaften:
1. Ist eine der beiden Variablen eine Konstante, ist die Korrelation nicht definiert
Produkt im Nenner = 0 -> man darf nicht durch 0 teilen -> nicht definiert
2. Die Korrelation einer Variablen mit sich selbst ist
immer 1
3. Die Korrelation zweier variablen ist stets 1, wenn eine Variable Y eine lineare
Transformation der jeweils anderen Variable X ist.
Jeder Wert von X wird um a+b* erweitert und ergibt dann den jeweils neuen Wert für Y
4. Positiv lineare Transformationen der Werte
ändern die Korrelation nicht
5. Korrelation reagiert sensitiv auf Ausreißerwerte
Korrelation ist abhängig vom Mittelwert und Mittelwert reagiert ebenfalls sensitiv auf
Ausreißer
Interpretation:
- 2 Mittelwerte in bivariaten dichotomen Fällen -> einmal für X und einmal für Y
- Mittelwert entspricht der relativen Häufigkeit beider Werte in Kategorie 1 für entweder X
oder Y
Interpretation:
- OR ist der Wert, um den die WS steigt dass wenn A zutrifft, auch B zutrifft
- OR < 1 negativer Zusammenhang
- OR=1 kein Zusammenhang
- OR> 1 positiver Zusammenhang
em: Residuum -> Abweichung des gemessenen Wertes von der Regressionsgerade
em= Ym - ^Ym
5.4 Quadratsummenzerlegung
- Jeder Messwert lässt sich zerlegen in den auf Basis des
Regressionsmodels erwarteten Wert und die Abweichung von
diesem Wert (Residuum)
- Gilt auch für die Summen der quadrierten
Abweichungen(Quadratsummen)
- Und auch für die empirischen Varianzen
Additive Varianzzerlegung
5.5 Determinationskoeffizient
Aus der additiven Varianzzerlegung kann man schließen:
Standardisiert:
- Vergleich von verschiedenen Studien, bei denen das gleiche Merkmal mit unterschiedlichem
Messinstrument erfasst wurde
- Partialkorrelation ist die Korrelation von den Residuen von den Regressionen von X abhängig
von Z und Y abhängig von Z
- Korrelation = Partialkorrelation
Z hat keinen Einfluss auf X und Y
- Korrelation < Partialkorrelation
Es besteht eine Redundanz
- Korrelation > Partialkorrelation
Es besteht eine Suppression -> maskierter Zusammenhang
- Partialkorrelation =0
Scheinzusammenhang
6.2 Semipartialkorrelation
- Nur eine der beiden Variablen (Y oder X) wird
um Z bereinigt
Semipartialkorrelation ist die Korrelation von
(dem Regressionsresiduum von Y abhängig von Z) und X
7 Multiple Regression
Erweiterung der einfachen linearen Regression um weitere unabhängige Variablen
7.1 Regressionsgleichung
Y: Beobachtete Kriteriumswerte
b0: Achsenabschnit/Intercept
E= Y-^Y: Residualvariable
Inkrement in R^2 entspricht der Nützlichkeit U eines bestimmten Prädiktors, wenn sich die
verglichenen Modelle nur in diesem Prädiktor unterscheiden
8. Wahrscheinlichkeit
8.1 Begriffe und Schreibweisen
Menge:
Teilmengen:
Schnittmengen:
Vereinigungsmengen:
- Wenn B eine Teilmenge von A -> dann ist die Vereinigungsmenge von A und B
=A
- Vereinigungsmenge von A und A= A
- Vereinigungsmenge von leere Menge und A = A
Differenzmenge:
Komplementärmenge:
Mächtigkeit:
Potenzmenge:
Zufallsvorgang:
Zufallsexperiment:
Ergebnisraum:
Ergebnisse
Ereignisse
Elementarereignisse:
- Ereignisse, die nur ein Element enthalten
Mengensystem:
Spezielle Ereignisse:
- Unmögliches Ereignis: A= ∅
- Sicheres Ereignis: A= Ω
- Disjunkte Ereignisse: A ∩ B = ∅ -> A und B teilen sich keine Information
Wahrscheinlichkeit
Die Wahrscheinlichkeit P ordnet jedem Element von P(Ω), also jedem möglichen Ereignis,
eine reele Zahl zu, d.h. sie bildet P(Ω) in die Menge der reellen Zahlen R ab
8.3 Laplacewahrscheinlichkeit
- Laplace-Experiment: Experiment, bei dem alle Elementarereignisse gleich
Wahrscheinlich sind
- Laplace-Wahrscheinlichkeit: Anteil der uns interessierenden Ergebnisse A an
allen möglichen Ergebnissen
Die Wahrscheinlichkeit, dass die absolute Abweichung zwischen der relativen Häufigkeit h(A) und der
tatsächlichen Wahrscheinlichkeit P(A) größer/gleich einer beliebigen Zahl (ϵ) ist, geht gegen 0, wenn
der Stichprobenumfang (n) gegen unendlich geht und die Stichproben unabhängig voneinander
gezogen worden sind. Man sagt auch h(A) konvergiert stochastisch oder in Wahrscheinlichkeit gegen
P(A).
Bei ausreichend großem n ist die relative Häufigkeit ein geeigneter Schätzer für die
Wahrscheinlichkeit
Bei ausreichend großem n strebt auch der arithmetische Mittelwert gegen den
Erwartungswert
8.5 Wahrscheinlichkeitsverteilung
8.5.1 Zufallsvariable
Eine Zufallsvariable X ist eine Größe, die unterschiedliche Ergebnisse eines Zufallsvorgangs
(zusammengefasst in der Menge Ω) mithilfe des Zahlenraums (zusammengefasst in der Menge Ω′)
beschreibt
Diskrete Zufallsariablen:
Stetige Zufallvariablen:
8.5.5 Varianz/Standardabweichung
8.5.6 Bernoulli-Verteilung
Zufallsexperiment hat nur 2 mögliche Ausgänge
Müssen nicht gleich wahrscheinlich sein
- K=2
- X wird in 1 und 0 kodiert
Binomialverteilung
Erwartungswert:
Varianz:
8.5.6.1 Verteilungsfunktion
Beispiel: 4 Aufgaben lösen, jedes Mal 50/50
- Die Wahrscheinlichkeit entspricht konzeptuell der relativen Häufigkeit der Ereignisse
- Verteilungsfunktion: bildet kumulierte Wahrscheinlichkeit ab
8.5.7.1 Dichteverteilung
- Varianz:
- Erwartungswert:
- Varianz:
8.5.7.4 Standardnormalverteilung
Alle Normalverteilungen lassen sich durch Transformation in eine Standardnormalverteilung
überführen
- Standardisierung:
- Verteilung:
- Umrechnung:
- .