Sie sind auf Seite 1von 12

Statistik II Fragenkatalog

WS 2019/20
Reliabilitätsanalyse

Beschreiben Sie kurz die Operationalisierung des Werteansatzes von Inglehart


und versuchen Sie eine methodische Kritik! Welche statistischen Verfahren der
Indexprüfung wurden nicht bzw. nur oberflächlich angewandt?
 Werteforschung = Schlüsselansatz der Soziologie, weil Werte einen wichtigen
Prädiktor in zahlreichen Lebensbereichen darstellen
 Ronald Inglehart ist Begründer der weltweiten empirischen Werteforschung
 Modernisierungstheorie nach Inglehart (1973) = eindimensionale Entwicklung von
materialistischen zu postmaterialistischen Werten
 Zwei breite Dimensionen: traditionell vs. säkular-rationale Orientierung und
Überlebens- vs. Selbstentfaltungsdimension)
 In der empirischen Sozialforschung versuchen wir nicht willkürlich Indikatoren zu
Konstrukten zusammenzufassen, sondern es erfolgt theoretisch fundierte und
empirisch umfassende Prüfung von Skalen, um eine qualitativ hochwertige
Erhebung von latenten Variablen zu erzielen.
 Qualität eines Index sollte grob mit Korrelationen bzw. differenziert mit
Reliabilitäts- und Faktorenanalyse geprüft werden
 Mittels Datenaggregation kann man z.B. mit Mittelwerten auf Länderebene
weiterrechnen. Inglehart hat im Laufe der Jahre weder seinen theoretischen
Zugang noch seine Methoden überdacht. Seit 1973 haben sich sicher
Werteinstellungen etc. geändert, wie beispielweise die Sichtweise zur
Homosexualität. In seiner ersten Dimension gibt es sicher ein Problem mit
kulturellen Unterschieden
 Vertikale Dimension zielt mehr auf Religiosität ab; horizontale Dimension eher in
Richtung „Bürgerlichkeit“
 Kritik an kulturellen Zonen und willkürlichem Ansatz Länder zuzuordnen
 Ein Problem ist einerseits seine „willkürlich“ scheinende Auswahl der
Indexvariablen, welche eigentlich gar nicht stark korrelieren, es wurde hier
wahrscheinlich keine Reliabilitätsanalyse durchgeführt. Andererseits gibt es eine
fragliche Stichprobenauswahl (Inglehart macht hierzu keine Angaben) in
gewissen Ländern, es werden in Drittländer höchstwahrscheinlich nicht zufällig
Leute aus den Slums ausgewählt.

Beschreiben Sie die theoretische Grundannahmen der klassischen


Testtheorie? Welches Gütekriterium der Forschung steht bei der klassischen
Testtheorie im Vordergrund?
Theoretische Grundannahmen (Axiome):
1a. Messung setzt sich aus wahrem Wert und Fehlerwert zusammen
(Verknüpfungsaxiom: X = T+E)
1b. Mittelwert (M) des Messfehlers (E) ergibt bei zahlreichen Messungen einer
Person bzw. einer beliebigen Population 0 (Existenzaxiom: M(E) = 0)

1
Statistik II Fragenkatalog
WS 2019/20
 Aus den Axiomen folgt, dass kein Zusammenhang zwischen Messfehler (E) und
wahrem Wert (T) besteht
 Unabhängigkeitsaxiom: r (E,T) = 0
 Zusätzliche Annahmen gehen von keinen Zusammenhängen zwischen
Messfehlern verschiedener Tests bzw. zwischen Messfehler und wahren Werten
aus anderen Tests aus  r (EA, EB) = 0; r (EA, TB) = 0)

Reliabilität als zentrales Gütekriterium


 Zentrale Annahmen führen zu einer Definition und Berechnung der Reliabilität
 Zuverlässige Messung, wenn Testwert bei wiederholter Messung gleich ausfällt
bzw. Rangordnung zwischen Personen gleich bleibt
 Da bei wiederholten Messungen neben Zufallsfehlern auch systematische
Verzerrungen auftreten können (z.B. Lerneffekte, Einfluss externer Ereignisse),
werden Skalen verwendet und Konstrukte mit mehreren Items erhoben
 Durch Indexbildung aus mehreren Items erfolgt Neutralisation des Zufallsfehlers

Annäherung an Reliabilität durch Varianzen:


 Jedes Merkmal hat inhärente Streuung = „wahre“ Varianz“ (Unterschiede
zwischen Personen)  S(T) z.B. introvertiert vs. extrovertiert
 Zusätzlich Fehlervarianz durch fehlende Genauigkeit der Messung  S(E)
 Gesamtvarianz wird durch beobachtete Streuung ausgedrückt  S (X)

Wie erfolgt die klassische Konstruktion einer Likert-Skala? Mit welchen


Kennwerten wird die Qualität der Items geprüft?
 Sammlung einer großen Anzahl an Items (positive und negative Polung)
 Skala wird Stichprobe von Personen vorgelegt
 Itemanalyse (Schwierigkeit und Trennschärfe)
 Auswahl geeigneter Items
 Skalenwerte werden als Summe der Einschätzungen berechnet

Prüfung der Qualität: durch Itemanalyse und Reliabilitätsschätzung können in


Reliabilitätsanalyse gute und schlechte Skalen unterschieden werden
 Schwierigkeit der Items (Anteil der Probanden, die Aufgabe „lösen“)
o Beurteilung über Mittelwert, Streuung und Verteilung
o Mittlere Schwierigkeiten (normalverteilte Items) optimal, extreme
Verteilungen (linkssteil, rechtssteil) führen zu reduzierter Homogenität und
reduzierter Trennschärfe
 Trennschärfe der Items (wie gut spiegelt sich Gesamtskala in Item wider)
o (Korrigierte) Korrelation des Items mit der Gesamtskala
o r> 0,5 gefordert  gleiche Interpretation wie bei Korrelationen

2
Statistik II Fragenkatalog
WS 2019/20
Wie kann die Reliabilität einer Messung bzw. Skala statistisch bestimmt
werden? Erläutern Sie einzelne Verfahren der Reliabilitätsberechnung!
Mehrere Berechnungsmethoden:
 Re-Test Reliabilität: Korrelation zwischen aufeinanderfolgenden Messungen
 Bei einfacher Messung Split-Half Methode, Paralleltestmethode bzw. Prüfung der
internen Konsistenz
 Interne Konsistenzschätzung liefert beste Ergebnisse (Cronbach alpha), bei
Retest- und Paralleltestkoeffizienten häufig Unterschätzung der Reliabilität
-
Berechnung Cronbach alpha:
 Verhältnis der Varianz zwischen Testpersonen (wahre Varianz) und der Varianz
zwischen Items
 Je höher Testvarianz im Vergleich zu Itemvarianz, desto höher ist Reliabilität der
Messung
 Mit zunehmender Anzahl der Items erhöht sich Reliabilität, weil sich Messfehler
gegenseitig eliminieren

Cronbach alpha
 kann auch als Funktion der mittleren Item-Interkorrelation und der Anzahl an
Items beschrieben werden
 Mittlere Item-Korrelation (MIC) als grobes Homogenitätsmaß der Skala
 Formel setzt die MIC mit Anzahl der Items in Verbindung
 Cronbach alpha kann Werte zwischen 0 und 1 annehmen
 Werte > 0,7 (ausreichend), Werte > 0,8 (gute Reliabilität der Skala)
 Bei vielen Items kann auch eine geringere Homogenität zu einer erhöhten
Reliabilität führen
 Zusätzlich bewirkt hohe Homogenität immer hohe Reliabilität (Konstrukte werden
oft mit geringer inhaltlicher Breite gemessen)

Faktorenanalyse

Wie können Korrelationen im geometrischen Raum abgebildet werden und wie


versucht man mittels Faktoren die Korrelationen angemessen zu erfassen?
Erläutern Sie das orthogonale Rotationsprinzip der
Hauptkomponentenanalyse!

3
Statistik II Fragenkatalog
WS 2019/20
 Jeder beliebige Korrelationskoeffizient zwischen zwei Variablen lässt sich durch
zwei Vektoren mit einem genau definierten Winkel zueinander darstellen
o Diese beiden Items (Vektoren) stehen in einem Winkel von 60°
zueinander.
o Der Zusammenhang lässt sich im geometrischen Raum durch den Cosinus
des Winkels erfassen.
o Der cosinus von 60° beträgt 0,5, dies bedeutet, dass die beiden Items mit
0,5 miteinander korrelieren.
o In der Faktorenanalyse wird nun ein Faktor (C) hineingelegt, der die beiden
Items am besten repräsentiert
o Der Winkel zwischen dem Faktor und dem Item entspricht im Endeffekt der
Faktorladung (also cos 30°= 0,87)
o Die Ladung beschreibt die Korrelation des Items mit dem Faktor
o Bei einer Hauptkomponentenanalyse versucht der erste Faktor die meiste
Varianz aus allen Items zu erklären; der zweite Fraktor wird im 90° Winkel
zum zweiten Faktor gebildet, weil bei der PCA-Analyse von unabhängigen
Dimensionen ausgegangen wird

Orthogonale Rotation
 Um die Interpretierbarkeit zu erleichtern und Faktorladungen zu maximieren, wird
Koordinatensystem bei Varimax-Rotation in seinem Ursprung gedreht
o Dabei wird Erklärungskraft der Faktoren verändert (Eigenwert und erklärte
Varianz des Faktors), jedoch nicht Kommunalität und Korrelation der Items
 keine Datenmanipulation
o Anfängliche Faktorlösung wird solange rotiert, bis Items ideal Faktoren
zugeordnet werden können!

Wie wird in der Hauptkomponentenanalyse die adäquate Anzahl der Faktoren


bestimmt? Erläutern Sie einzelne Verfahren zur Faktorenextraktion!
 Drei bis vier Items sollten Faktor bilden
 Kommunalitäten werden anfangs auf 1 festgesetzt (problematische Annahme,
dass Itemvarianz vollständig durch Faktoren aufgeklärt werden kann  keine
Berücksichtigung von Messfehlern, automatische Überschätzung der Reliabilität)
 Suche nach dem Faktor, der die höchste Varianz aufklären kann  1.
Hauptkomponente; 2. Hauptkomponente: maximaler Anteil der verbleibenden
Gesamtvarianz  gleich viele Faktoren wie Items können extrahiert werden!
 Eigenwert = Summe der quadrierten Faktorladungen bei einem Faktor; gibt an,
welcher Betrag der Gesamtstreuung durch einen Faktor erklärt wird
 Faktorenextraktion nach Kaiser- Guttmann: Eigenwert >1, ein Faktor mit einem
Eigenwert <1 würde weniger Varianz erklären als ein verwendetes Item
 Screeplot stellt Eigenwerte der Hauptkomponentenanalyse grafisch dar: Es wird
nach einem Eigenwerteabfall (Knick) gesucht; strikte Auswahl der Faktoren über
dem Knick sinnvoll

4
Statistik II Fragenkatalog
WS 2019/20

Welche Regeln bestehen in der inhaltlichen Interpretation einzelner Faktoren.


Welche Eigenschaften sollten die Ladungen der Items aufweisen?
Interpretation Faktoren
 Ein Faktor kann insgesamt interpretiert werden, wenn mindestens vier Items eine
Ladung > 0,60 aufweisen.
 Eine Faktorladung von 0,40 ist der untere Grenzwert für Faktorladungen, die
berücksichtigt werden.
 Striktes Kriterium nach Furntratt (1969): Ein Item sollte dann einem Faktor
zugeordnet werden, wenn die quadrierte Ladung a2 des Items mindestens 50%
der Kommunalität des Items ausmacht (a2/h2 ≥ .50).
 Eindeutigkeit der Zuordnung: Ladung bei einem Faktor sollte um mindestens 0,2
größer sein als bei einem anderen Faktor

Lineare Regression

Erklären Sie das Prinzip der OLS- Schätzung in der linearen


Regressionsanalyse!
 OLS: Ordinary Least Squares
 Es wird jene Gerade gesucht, die die lineare Beziehung zwischen zwei
metrischen Variablen am besten erklären kann
 Es gilt jene Gerade zu finden, wo Differenz zwischen Y-Werten und geschätzten
Werte am geringsten ist  durch die Punktewolke wird eine Gerade gezogen, die
Punkte am besten trifft
 Naheliegend wäre Gerade, wo die Summe der Abweichung 0 ergibt; es ergeben
sich jedoch mehrere Lösungen, weil sich die positiven und negativen
Abweichungen aufheben
 Die zu minimierende Summe wird deshalb aus quadrierten Abweichungen
gebildet „kleinste Quadrate Schätzung“ (OLS)

Wie können die Abweichungsquadrate in der linearen Regression beschrieben


werden und was besagt das Bestimmtheitsmaß r²?
 Abweichungen der Y-Werte zum Mittelwert werden aufgeteilt: Gesamtvarianz
(Distanz zwischen empirischem Wert und MW) = Erklärte Varianz (Distanz
zwischen geschätztem Wert und MW) + Unerklärte Varianz (Distanz zwischen
empirischem Wert und geschätztem Wert)
 Die Gleichung verdeutlicht die Varianz für einzelnen Fall, für die gesamte
Regression muss die Summe der Abweichungen (quadriert) berechnet werden.
 r²: Prozentanteil der erklärten Varianz an Gesamtvarianz (wird durch MW
berechnet); In welchem Ausmaß beeinflusst die UV die AV?  wie viel kann UV
an Gesamtvarianz erklären z.B.: r² = 0,14  14 % der Abweichungen werden
durch Regressionsgerade erklärt; 86% bleiben unerklärt; Inhaltlich bedeutet dies,
dass z.B. die Risikobereitschaft zu 14% durch das Alter beeinflusst wird.

5
Statistik II Fragenkatalog
WS 2019/20
 Nimmt Werte zwischen 0 und 1 an (0= keine, 1= perfekte Erklärungskraft), erklärt
standardisierte Koeffizienten
In welchen Situationen könnte das Bestimmtheitsmaß r² verfälscht sein?
Beschreiben Sie die problematische Rolle des Determinationskoeffizienten!
 Auf ersten Blick erscheint r² als überzeugende Maßzahl (in der Praxis: Jagd nach
hohem R²)  je mehr Variablen, desto anfälliger für Verzerrungen in der
Schlussfolgerung
 Eine undifferenzierte Operationalisierung führt zu oberflächlicher Messung des
Merkmals, wodurch eine geringere „Erklärungskraft“ resultieren könnte
 Wenn in multipler Regression wesentliche UVs unberücksichtigt bleiben, ist die
unerklärte Varianz i.d.R. hoch
 Auch das Regressionsmodell könnte für einzelne Fragestellungen nicht geeignet
sein (Verletzung Linearität, Ausreißer in Daten)
 Lässt indirekte Einflüsse von Drittvariablen unberücksichtigt
 Trifft keine Aussage über Multikollinearität der UV

Welche Unterschiede bestehen zwischen unstandardisierten und


standardisierten Koeffizienten? Wie können die einzelnen Koeffizienten in der
Regressionsanalyse zur Interpretation genutzt werden?
Unstandardisierte Koeffizienten a und b:
 Keine Einflussstärke messbar
 Können zur inhaltlichen Schätzung von Y-Werten herangezogen werden
 Unabhängig von Streuungen, Vergleich über Stichproben möglich (bei gleicher
Messung)
 Beide Koeffizienten geben Aufschluss über die Signifikanz des Einflusses
 Verdeutlichen Startwert und Steigungskoeffizienten
Standardisierter Koeffizient Beta:
 unabhängig von der Maßeinheit (Maß der Einflussstärke)
 Vergleich von Einflussstärken von Prädiktoren bei multiplen Regressionen
 Kein klarer Vergleich über mehrere Stichproben/Studien, weil unterschiedliche
Streuungen vorliegen

Multiple Regression

Welche Vorzüge weist das Verfahren der multiplen Regression auf?


 Analyse des Einflusses mehrerer metrischer bzw. dichotomer oder
dichotomisierter Merkmale auf eine metrische Variable
 Für jede UV wird die Einflussstärke unter Konstanthaltung bzw. unter Kontrolle
der anderen Prädiktoren geschätzt
 Vorteil gegenüber bivariater Analyse ist adäquates Abbild der Einflussstärke,
Verhinderung von Scheinkorrelationen
 Kontrolle von Drittvariablen wird durch Auspartialisieren erreicht

6
Statistik II Fragenkatalog
WS 2019/20
Wie funktioniert das Auspartialisieren von Drittvariablen in der multiplen
Regression?
 Man rechnet bei beiden Variablen X und Y den Einfluss von Z heraus
 Zusammenhang der Kontrollvariable auf X und Y wird berechnet mittels einer
linearen Regression
 Der partielle Korrelationskoeffizient wird aus der unerklärten Streuung (Residuen)
dieser beiden Regressionsschätzungen berechnet
 Der partielle Korrelationskoeffizient zeigt uns den bereinigten Einfluss der
angenommenen UV auf die AV unter Berücksichtigung der eingegebenen
Kotrollvariablen (nullter Ordnung)
 Diagnose des Einflusses wird interpretativ durchgeführt, indem man die Situation
vor der Auspartialisierung mit dem Partialkorrelationskoeffizienten vergleicht

Wie können nominale und ordinale Daten in eine multiple


Regressionsgleichung integriert werden? Geben Sie ein Beispiel, wie Sie mit
der folgenden UV „Familienstand“ verfahren würden (1=ledig; 2=verheiratet;
3=geschieden; 4=verwitwet)!
 Es muss eine Dichotomisierung vorgenommen werden: es werden k-1 Dummy-
Variablen gebildet, da sonst Multikollinearität vorliegt und keine adäquate
Koeffizientenschätzung möglich ist
 Hier liegen vier Ausprägungen vor, daher drei Dummys:
Variable D1 D2 D3
Ledig 1 0 0
Geschieden 0 1 0
Verwitwet 0 0 1
Verheiratet 0 0 0

 Die Interpretation erfolgt anhand einer Referenzkategorie. Somit kann eindeutig


zugeordnet werden. Die Referenzkategorie fließt jedoch nicht als eigene Variable
mit ein, sie wird dargestellt durch Startwert a, Steigungswert b verdeutlicht jeweils
die erwartete Veränderung in y im Vergleich zur Referenzkategorie.

Wie lässt sich mit Regressionsmodellen prüfen, ob der Effekt des Geschlechts
auf das Einkommen (Gender Gap) in Österreich deutlicher ausgeprägt ist als in
Schweden?
Das Geschlecht wird zunächst gesplittet. Danach rechnet man zwei Regressionen.
Einmal für Österreich und ein weiteres Regressionsmodell für Schweden. Dann muss
man jeweils die standardisierten Koeffizienten vergleichen und somit kann man den
unterschiedlichen Effekt des Geschlechts auf das Einkommen vergleichen.

Wie lassen sich die Mediatoreffekte beschreiben und in multiplen


Regressionsmodellen nachweisen?
Mediatorvariable= Intervenierende Variable zwischen X und Y, Gleichzeitig AV (in
Relation zu X) und UV (in Relation zu y)
7
Statistik II Fragenkatalog
WS 2019/20
 Partieller Mediationseffekt: Zusammenhang X  Y führt über Z, jedoch
weiterhin signifikanter Einfluss von X  Y = Reduktion eines Effekts durch die
intervenierende Variable
 Totaler Mediationseffekt: Zusammenhang zwischen X und Y führt vollständig
über Z, es besteht nur eine indirekte Beziehung zwischen X und Y = Auflösen
eines Effekts
 Sie können durch Partialkorrelationen, mehrere Regressionen oder
Strukturgleichungsmodelle aufgedeckt werden
 Statistischer Nachweis der Mediation mit drei Regressionsanalysen:
o Einfache lineare Regression (X  Z) z.B. Stadtgröße  Kontakt
MigrantInnen
o Einfache lineare Regression (X  Y) z.B. Stadtgröße 
Fremdenfeindlichkeit
o Multiple Regression (X & Z Y) z.B. Stadtgröße, Kontakt 
Fremdenfeindlichkeit
 Weiters kann man Strukturgleichungsmodelle aufstellen:
o Theoretische Modelle können grafisch nachgezeichnet und statistisch
geprüft werden
o Mehrere Regressionsanalysen werden simultan durchgeführt
o Auch latente Variablen, die sich aus mehreren Indikatoren
zusammensetzen, können integriert werden

Sequentielle Regression, Modellverstöße

Formulieren Sie ein theoretisches Modell, das mit einer sequentiellen


Regressionsanalyse geprüft werden könnte! Welche UV‘s können in Ihrem
Modell auf unterschiedliche Ebenen berücksichtig werden?
Man könnte folgende Fragestellung prüfen: Übt der Tourismus einen Einfluss auf die
EU-Wahlbeteiligung aus?
 UV auf der ersten Ebene: Nächtigungsintensität, Auslandsreisen, Reiseintensität
 UV auf der zweiten Ebene: kosmopolitische Orientierung, zukünftige Identität
national
Potentielle Mediationseffekte können somit zusätzlich berücksichtigt werden,
Aussage über direkte und indirekte Effekte können getroffen werden

Inwieweit können Ausreißer in Regressionsanalyse die Ergebnisse verzerren?


Wie können Ausreißer diagnostiziert und wie sollten mit diesen umgegangen
werden?
 Ausreißer können im Regressionsmodell nicht adäquat berücksichtigt werden.
Wenn einzelne Residuen größer als doppelte Standardabweichung aller
Residuen abweicht sollten sie als Ausreißer klassifiziert werden. Grenzwert
< -2SD bzw. >2SD

8
Statistik II Fragenkatalog
WS 2019/20
 Prinzip der „OLS-Schätzung“: Abstände zwischen geschätzten und tatsächlichen
Werten werden quadriert  Ausreißer bewirken eine deutliche Verzerrung. Bei
kleiner Stichprobe kann eine Regressionsschätzung mit Ausreißern zu
drastischen Verzerrungen führen. Problematik findet sich beispielsweise auf
höheren Abstraktionsebenen z.B. Länderebene
 Man kann Ausreißer visuell analysieren mittels Streudiagramm oder partiellen
Regressionsdiagrammen. Lösung des Problems erfolgt durch Ausschluss von
Fällen oder durch Erstellung von Dummy-Variablen, mit welchen man den
Einfluss von Ausreißern messen kann.

Was ist das Problem der Multikollinearität in der multiplen


Regressionsanalyse? Welche Maßzahlen können zur Diagnose der
Multikollinearität verwendet werden?
 Korrelationen der UVs untereinander sind eines der Hauptprobleme der multiplen
Regression; ist beinahe unausweichlich
 Multikollinearität zeigt Zusammenhänge zwischen mehreren UVs. Bei hoher
Multikollinearität erfolgt weiterhin unverzerrte Schätzung des Gesamtmodells,
einzelne unstandardisierte bzw. standardisierte Koeffizienten können jedoch stark
verzerrt sein z.B. kann es sein, dass Variablen die gar nicht relevant sind, als
äußerst relevant eingestuft werden
 Aufdecken von Multikollinearität
o Toleranzwerte: verdeutlichen den von anderen X-Variablen
unerklärten/unbeeinflussten Anteil des jeweiligen Prädiktors (1 minus R²)
liberaler Grenzwert von <0,1 = großes Problem; bereits ab <0,25 (unter
25%) sollte jedoch von erhöhter Multikollinearität gesprochen werden
o Variance Inflation Factor (VIF) : Reziproke Transformation der Toleranz
(1/Toleranz). Hohe VIF Werte (>4 bei Tolerenz <0,25 = Multikollinearität)
o Konditionsindex: Maß zur Beurteilung der Kollinearität des Gesamtmodells;
wird auf Basis der Eigenwerte errechnet. Je mehr UV‘s korrelieren, desto
höher die 1. Hauptkomponente. Werte zwischen 10 und 30= mittlere
Kollinearität; >30 gravierendes Kollinearitätsproblem

Zeichnen Sie jeweils überblicksartig einen Scatterplot auf, der eine


Homoskedastizität und eine Heteroskedastizität der Werte illustriert! Welche
Verzerrungen kann Heteroskedastizität bewirken und wie kann in der
Regressionsanalyse damit umgegangen werden?

Homoskedastizität Heteroskedastizität

9
Statistik II Fragenkatalog
WS 2019/20
 Heteroskedastizität beeinflusst nicht Koeffizienten aber deren Standardfehler.
Varianzen bzw. Signifikanztest können Verzerrungen unterliegen, da die OLS-
Schätzung nicht mehr effizient ist.
 In der linearen Regression leicht durch Streudiagramme aufzudecken
 In der multiplen Regression partielle Regressionsdiagramme erstellen
 Differenzierte Analysen durch Gestaltung von Schwellenwerten und
Varianzhomogenitätstests z.B. Levene`s Test
Logistische Regression

Welche drei wesentlichen Transformationsschritte werden mit der dichotomen


AV in der logistischen Regression vollzogen?
1. Transformation: Transformation der AV in eine Wahrscheinlichkeit und eine
Gegenwahrscheinlichkeit (p und 1-P). Es handelt sich hierbei um die
Wahrscheinlichkeit, dass Y=1 ist. (y ist die Achse für die AV und die AV kann bei der
logistischen Regression nur 0 und 1 sein)
2. Transformation: Transformation der Wahrscheinlichkeit zu ODDS.
Wahrscheinlichkeit (von y=1) / Gegenwahrscheinlichkeit (von y=1) -> P / (1-p); Das
Verhältnis zweier ODDS sind die ODDS-Ratios = (ODDS1/ODDS2)
3. Transformation: Die ODDS werden logarithmiert. Die AV kann so nun alle Werte
annehmen. Die daraus entstehenden logistischen Funktionen der Werte nennt man
LOGITS. Hier kann nur die Richtung interpretiert werden und keine Stärke, dazu
muss man wieder entlogarithmieren.

Wie erfolgt die Interpretation der Effektkoeffizienten in der logistischen


Regression? Inwieweit werden positive und negative Effekte unterschiedlich
interpretiert?
 Beziehen sich immer auf Änderung um eine Einheit (X- Variable)  aus
Transformation resultiert ODDS- Ratio
 Der Regressionskoeffizient B gibt nur die Richtung vor.
 Sie beschreiben die Einflussstärke, das Wahrscheinlichkeitsverhältnis ändert sich,
wenn X- Prädiktoren um eine Einheit vergrößert wird
 Da zwei verschiedene Wertebereiche vorliegen, sind negative Effekte schwieriger
zu beurteilen, es muss erst der Kehrwert gebildet werden
 Von [0;1] = negativ: Die Chance (ODDS) für y=1 wird kleiner bei Anstieg von X
um eine Einheit
 Von [1; ∞]= positiv: die Chance (ODDS) für y=1 wird größer bei einem Anstieg
von X um eine Einheit

Wie erfolgt die Modellevaluation in der logistischen Regression? Welche


unterschiedlichen Maßzahlen können zur Interpretation herangezogen werden?
Parameter (b0 +b1) in logistischer Regression werden nicht mit OLS-Methode
sondern mit Maximum Likelihood Verfahren geschätzt
Optimaler Schätzwert: Ermittlung der beobachteten y-Wert für einzelne X-Werte mit
höchstmöglicher Wahrscheinlichkeit
10
Statistik II Fragenkatalog
WS 2019/20
Parameter-Schätzwerte lassen sich nicht aus Gleichung ableiten, Schätzung muss
iterative erfolgen.
Wenn sich Wahrscheinlichkeit nicht mehr steigern lässt, wird Iteration abgesprochen
(Schätzwerte werden als optimal akzeptiert)
Werte werden mit jeder Iteration verändert, bis bestmögliche Schätzung erzielt wird
und Konvergenz der Schätzung erreicht ist.

Likelihood- ratio- Test:


 Es wird geprüft, ob ML- Schätzung mit Prädiktoren sig. Besser ist als ohne
 Wert wird mit chi² geprüft, Freiheitsgrade durch Anzahl der Prädiktoren bestimmt
 Bei Signifikanz: signifikant besseres Schätzergebnis als im Prädiktorenmodell
durch – 2 Log- Likelihood

Pseudo R²-Koeffizienten (Nagelkerke R²)


 gibt über die Güte des Modells Auskunft, sagt aber nichts über die erklärte
Varianz sondern um wieiviel Prozent das Prädiktorenmodellbeser ist als das
Schätz-Modell.
 Mit Hilfe der G- Statistik
 Standardisierung zwischen 0 und 1, Beurteilung der prozentualen
Modellverbesserung

Klassifizierung prognostizierter Wahrscheinlichkeit


 überprüft, wie viele Personen durch das geschätzte Regressionsmodell richtig
erkannt werden.
 Alle mit geschätztem p- Wert > 0,5 werden Kategorie y=1 zugeordnet, Je höher
der Anteil richtiger Zuordnung ausfällt, desto höher ist Modellgüte!
 Dies ist jedoch ein grobes Maß und Nagelkerke R² ist als Maß der Güte
vorzuziehen.

Welche Modellverstöße können in der logistischen Regression auftreten?


Beschreiben Sie kurz die angesprochenen Modellverletzungen
Fallzahl:
 Zu kleine Stichproben sind nicht aussagekräftig genug, um ML- Schätzung
durchzuführen
 Mind. N=100 (mehrere Prädiktoren  größere Stichprobe)
y- Verteilung:
 Ausreichende Heterogenität der Y-Variable (mind. 10% in Kategorie 1 bzw. 0)
 Konvergenzprobleme bei ML- Schätzung bzw. unplausible Werte
Unvollständige Informationen
 Ausreichende Anzahl von Fällen in allen Wertekombinationen
Multikollinearität
 Ist sie hoch, sind es die Standardfehler auch
 Unzutreffend hohe Regressionskoeffizienten

11
Statistik II Fragenkatalog
WS 2019/20
Linearität
 Zwischen Logit- Werten und X-Variablen sollte eine lineare Beziehung bestehen
Residuen- Unabhängigkeit
 Werte einer X- Variablen sollten über Beobachtungszeiträume nicht korrelieren 
Autokorrelation
Ausreißer:
 Unterschied zwischen y- Wert und prognostiziertem p- Wert
Unbeachtete Heterogenität
 Spezifikationsfehler, wenn wichtige, mit anderen Prädiktoren unkorrelierte X-
Variablen nicht berücksichtigt werden
 Koeffizienten in log. Regression immer unterschätzt

12

Das könnte Ihnen auch gefallen