--------------------------------------------------------------------------
Was ist Diagnostik?
Diagnostik = theoriegeleitete, systematische Sammlung hochwertiger Informationen über ein diagnostisches
Objekt
Ziele:
Beschreibung relevanter Merkmale des Objekts
Vorhersage künftig relevanter Merkmale des Objekts (z.B. Vorstellungsgespräch)
Bestimmung von Maßnahmen, um erwünschte Merkmale des Objekts zu verhindern/ beseitigen
Anwendungsbezug der Diagnostik: Diagnostisches Urteil als Entscheidungsgrundlage
Seite 1 von 65
Sir Francis Galton
• Wichtigste Ideen
Menschen unterscheiden sich in ihrer Intelligenz
Intelligenz ist normalverteilt
• Messung der Intelligenz
Intelligenz = Fähigkeit, große Mengen an Sinneseindrücken zu verarbeiten
Operationalisierbar über Reaktion auf sensorische Reize
Reaktionszeiten, Hörvermögen, Sehvermögen, etc.
Projektive Persönlichkeitstests
Projektion
– Psychodynamisches Konzept
– Unbewusste Konflikte werden in andere Objekte projiziert
– Wissenschaftlich wenig fundiert
Rorschach-Test (1921)
– Reaktion auf unstrukturierte Tintenklekse
– Formales Auswertungsschema
Vorlesung 2 – Gütekriterien
-----------------------------------------------------------------------
Überblick
1. Objektivität 2. Reliabilität 3. Validität 4. Skalierung 5. Normierung (Eichung)
6. Testökonomie 7.Nützlichkeit 8. Zumutbarkeit 9. Unverfälschbarkeit 10. Fairness
Seite 2 von 65
1. Objektivität
„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter und
Testauswerter misst. Außerdem müssen klare und anwenderunabhängige Regeln für die
Ergebnisinterpretation vorliegen.“
Durchführungsobjektivität
- Testdurchführung ist unabhängig vom Testleiter
- Dann gegeben, wenn der Test möglichst standardisiert ist
- Gleiche Durchführungsbedingungen für alle (z.B. Gleiche Instruktion, Gleiche Zeitvorgabe, Gleiche
Rahmenbedingungen)
Auswertungsobjektivität
- Testergebnis ist unabhängig vom Testauswerter
- Einfacher zu erreichen bei geschlossenen Antwortformaten als bei
offenen Antwortformaten
- Erfordert genaue Anweisungen im Testmanual
- Überprüfung durch Messung des Grads der Übereinstimmung zwischen verschiedenen Auswertern
Interpretationsobjektivität
- Verschiedene Testanwender kommen bei Testpersonen mit demselben Testergebnis zu denselben
Schlussfolgerungen
- Beispiele: Ist eine bestimmte Therapie indiziert? Ist die Bewerberin für die Stelle geeignet?
- Hilfestellungen: Genaue Anleitungen im Testmanual; Normentabellen aus Eichstichproben
2. Reliabilität
Messgenauigkeit: Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt
(messfehlerfrei) misst
Wird ausgedrückt im Reliabilitätskoeffizienten
0 = Testergebnis ist nur auf Messfehler zurückzuführen
1 = Testergebnis ist völlig frei von Messfehler
3. Validität
Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst und
nicht irgendein anderes
Objektivität und Reliabilität sind notwendige, aber keine hinreichende Voraussetzungen für Validität
4 Validitätsaspekte
1.Augenscheinvalidität
- Validität des Tests ist aus Sicht eines Laien gegeben
- Wichtig für Akzeptanz von Tests
- Beispiele: Fehlende Augenscheinvalidität im Vorstellungsgespräch; Fehlende
Augenscheinvalidität bei impliziten Verfahren
2.Inhaltsvalidität
- Test oder Testitem ist repräsentativ für das zu erfassende Merkmal
- Kein numerischer Kennwert, sondern logische und fachliche Überlegungen durch Experten
- Beispiel: Situative Fragen im Vorstellungsgespräch
3.Konstruktvalidität
- Theoretische Fundierung der gemessenen psychologischen Merkmale
- Beispiel: Misst der Test wirklich Intelligenz oder doch eher Aufmerksamkeit?
- Struktursuchendes Vorgehen (z.B. Exploratorische Faktorenanalyse; Nomologisches Netzwerk
(konvergente und diskriminante Validität))
Seite 3 von 65
- Strukturprüfendes Vorgehen (z.B. Konfirmatorische Faktorenanalyse; Multitrait-Multimethod-
Analysen mit Strukturgleichungsmodellen)
4.Kriteriumsvalidität
- Testergebnis korreliert angemessen mit einem „Kriterium“ (= Verhalten außerhalb der
Testsituation)
- Konkurrente Validität (Übereinstimmungsvalidität)
Korreliert das Testergebnis mit einem zeitgleich gemessenen Kriterium?
Beispiel: Korrelation zwischen dispositioneller Extraversion und extravertiertem Verhalten
- Prognostische Validität (Vorhersagevalidität)
Korreliert das Testergebnis mit einem in der Zukunft gemessenen Kriterium?
Beispiel: Korrelation zwischen Abinote und Studienerfolg
4. Skalierung
Die Testwerte sollen die empirischen Merkmalsrelationen adäquat abbilden
- Unterschiede zwischen Personen (interindividuelle Unterschiede)
- Unterschiede innerhalb Personen (intraindividuelle Unterschiede)
Abhängig vom Skalenniveau
- Mindestens Ordinalskalenniveau
- Besser Intervallskalenniveau
Kann im Rahmen der Item-Response-Theorie untersucht werden
6. Testökonomie
Testökonomie bezieht sich auf: Finanziellen Aufwand & Zeitaufwand
Oft Widerspruch zwischen Ökonomie und Reliabilität/Validität
7. Nützlichkeit
Das durch den Test gemessene Merkmal ist praktisch relevant
Durch den Test wird mehr Nutzen als Schaden erwartet
8. Zumutbarkeit
Testpersonen sollten zeitlich, psychisch und physisch möglichst geschont werden
Belastung durch Test wird in Relation zum Nutzen des Tests gesetzt
Bezieht sich auf Testpersonen, nicht auf Testleiter!
9. Unverfälschbarkeit
Testpersonen können das Testergebnis nicht gezielt verzerren
Faking = absichtliches Verzerren der Testergebnisse
Besonders begünstigt bei Tests mit hoher Augenscheinvalidität
Erschwert bei: Leistungstests & „Objektiven Tests“
10. Fairness
Bestimmte Personengruppen werden nicht systematisch benachteiligt
Beispiele für Personengruppen
Seite 4 von 65
o Ethnische Gruppen
o Soziokulturelle Gruppen
o Geschlechtsspezifische Gruppen
Beispiele
o kulturfaire Intelligenztests
o Durchführungsfairness
o Testroutine
Vorlesung 3 – Itemkonstruktion
-----------------------------------------------------------------
Schritte in der Testplanung und -entwicklung
Seite 5 von 65
- Speed- oder Geschwindigkeitstests: Differenzierung durch Begrenzung der Bearbeitungszeit (d2
= b vs p)
- Power- oder Niveautests: Differenzierung durch unterschiedliche Aufgabenschwierigkeiten Auch
Mischformen möglich (z.B Matrizentests)
b. Persönlichkeitstest
Selbstauskunft über typisches Verhalten
Keine richtigen oder falschen Antworten
Verfälschung in beide Richtungen möglich
- Simulation: Merkmalsausprägung wird höher als eigentlich wahr dargestellt (faking good)
- Dissimulation: Merkmalsausprägung wird niedriger als eigentlich wahr dargestellt (faking bad)
Konstruktionsstrategien
1. Intuitive Konstruktion
Bei geringem theoretischem Kenntnisstand
Intuition und Erfahrung des Testkonstrukteurs leiten die Testkonstruktion
Beispiel: Unser gemeinsamer Test
2. Rationale Konstruktion
Bei Vorhandensein einer elaborierten Theorie zu dem Merkmal
Schritte
1. Definition und Spezifikation des Konstrukts anhand der Theorie
2. Einteilung des Konstrukts in Teilbereiche oder Unterkonstrukte
3. Sammeln von Verhaltensindikatoren zu jedem Teilbereich
Formulierung als Testitems
Beispiel: Test zur Erfassung der momentanen Stimmung
Seite 6 von 65
Schritte
- Entwicklung eines sehr großen Itempools
- Statistische Auswahl derjenigen Items mit besonders guter Vorhersagekraft (z.B.
regressionsanalytische Verfahren)
Keine theoretische Erklärung für Vorhersagekraft einzelner Items notwendig
Beispiele:
- Frühe Intelligenztests (Binet)
- Kurzversionen von Tests
- Vorhersage von Persönlichkeitseigenschaften anhand von Facebook-Likes
2. Antwortformat
3. Ordnungsaufgaben: Umordnungsaufgaben
4. Auswahlaufgaben
Aus mehreren Antwortalternativen muss die richtige bzw. zutreffende Antwort ausgewählt werden
Geeignete Distraktoren
Besondere Formate
- Forced Choice (bei Einstellungstests): es muss die Antwort gewählt werden, die am ehesten
zutrifft, auch wenn keine Antwort genau zutrifft
- Mehrere richtige Antworten (bei Leistungstests): verringert die Ratewahrscheinlichkeit, höhere
Anforderungen an Probanden
5. Beurteilungsaufgaben
Antwort = Grad der Zustimmung oder Ablehnung zu einem Statement
Antwortformat ist meistens nicht aufgabenspezifisch, sondern gilt für den gesamten Test
Unterscheidungen
- Ohne vs. mit Skalenstufen
- Unipolare vs. bipolare Antwortskala
- Bezeichnung der Skalenpunkte
- Mit vs. ohne neutrale Mittelkategorie
Seite 8 von 65
- Mit vs. ohne „Weiß nicht“-Kategorie
- Symmetrisch vs. asymmetrisch
1) Skalenstufen
Ohne Skalenstufen: Kontinuierliche Analogskala
- Beispiel: Visuelle Analogskala
Kontinuierliche Analogskala
- Mittlerweile einfache Auswertung durch computergestützte Verfahren
- Differenziertheit der Messung > Differenziertheit des Urteils
- Werden deshalb selten verwendet
Diskret gestufte Rating-Skala
- Kein Informationsgewinn bei mehr als 7 Skalenstufen
- Anfällig für Antworttendenzen (s.u.)
2) Polarität
Bipolare Skala
- Negativer Pol = Ablehnung
- Positiver Pol = Zustimmung
Unipolare Skala
- Nullpunkt bzw. Bezugspunkt = geringste Zustimmung
- Positiver Pol = maximale Zustimmung
4) Neutrale Mittelkategorie
Beispiel
Seite 9 von 65
5) „Weiß nicht“-Kategorie
Beispiel
6. Atypische Antworteformate
Fazit zu Antwortformaten
Jedes Antwortformat ist mit Vor- und Nachteilen verbunden (nachlesen –klausurrelevant!)
Kriterien für die Auswahl des Aufgabentyps und Antwortformats
- Leichte Verständlichkeit
- Einfache Durchführbarkeit
- Kurze Lösungszeit
- Geringer Material-bzw. Papierverbrauch
- Leichte Auswertbarkeit
- Geringe Häufigkeit von Zufallslösungen
Seite 10 von 65
2. Optimizingund Satisficing
Optimizing
- Probanden haben einen positiven Grund, den Test gründlich zu bearbeiten
- Beispiele: Selbsterkenntnis, Hilfestellung für andere, Belohnung
Satisficing (aus satisfying und sufficing)
- Probanden nehmen beiläufig oder nur aus Verpflichtung teil
- Beispiele
Verpflichtende Mitarbeiterbefragungen
Teilnahme an Studien für Vpn-Stunden–
- Strategien
Schwaches Satisficing: alle kognitiven Stadien werden nur oberflächlich durchlaufen
Starkes Satisficing: Antwort ist unabhängig von tatsächlichen Einstellungen
3. Soziale Erwünschtheit
Probanden stellen sich selbst im besten Licht dar
Zwei Varianten der sozialen Erwünschtheit
- Selbsttäuschung (self-deceptive enhancement)
- Fremdtäuschung (impression management)
Kontrolle oder Verringerung des Sozialen Erwünschtheit-Effekts
- Aufklärung über den Untersuchungsgegenstand–Zusicherung der Anonymität
- Kontrollskalen („Lügenskala“) zur Messung der Tendenz zur sozialen Erwünschtheit
Beispiel-Item: „Als Kind habe ich manchmal gelogen“
- Objektive Persönlichkeitstests
4. Antworttendenzen
engl. Response Sets
Tendenz zur Mitte
- Bevorzugung der mittleren Antwortkategorie
- Bewusst oder unbewusst
- Führt zu einer verringerten Itemvarianz und zu Verzerrungen
- Kontrolle durch Vermeidung einer mittleren Antwortkategorie
Tendenz zum extremen Urteil
- Bevorzugung von extremen Antwortkategorien
- Relativ selten
Akquieszenz
- Tendenz, den Fragen oder Statements unabhängig vom Inhalt zuzustimmen
(Zustimmungstendenz)
- Besonders häufig bei Ja/Nein-Fragen
- Auch häufiger bei Müdigkeit, schwierigen Aufgaben, unpersönlichen Befragungen
- Führt zu Verzerrungen der Messung
Maßnahmen gegen Akquieszenz
- Mischung von positiv und negativ gepolten (invertierten) Items
Ich gehe gerne auf Menschen zu.
Mit anderen Menschen bin ich eher zurückhaltend. (-)
- Positive und negative Items laden häufig auf unterschiedlichen Faktoren, selbst wenn das
Merkmal eigentlich eindimensional gemessen wird
ITEMFORMULIERUNG
Itemarten
Direkt vs. indirekt
Hypothetisch vs. biographiebezogen
Seite 11 von 65
Konkret vs. Abstrakt
Personalisiert vs. depersonalisiert
Kategorisierung nach Stimulusqualität
Kategorisierung nach Aufgabeninhalt
- Selbstbeschreibung
- Fremdbeschreibung
- Motivationale Fragen
- Etc.
Sprachliche Verständlichkeit
Items möglichst positiv formulieren
- Verneinungen vermeiden
- Doppelte Verneinungen unbedingt vermeiden!
Klare Satzkonstruktionen
Keine Abkürzungen
Keine Fachbegriffe
Intensitätsangaben im Item können problematisch sein
Varianz erzeugen
Tests sind nur dann aussagekräftig, wenn sie Unterschiede zwischen Personen auch tatsächlich erkennen
wir wollen Varianz
Zu leichte und zu schwierige Items vermeiden
- Leichte Items: (Fast) alle Personen antworten zustimmend
- Schwierige Items: (Fast) alle Personen antworten ablehnend
In Leistungstests: leichte und schwierige Items kombinieren
Weitere Aspekte
Items sollten aktuell sein
Items sollten keine Wertungen enthalten
Items sollten nicht suggestiv sein
Antwortformat muss zum Item passen
Vorlesung 4 – Itemanalyse
------------------------------------------------------------------------
= Beurteilung der Qualität von Items mit Hilfe von deskriptivstatistischen Verfahren
Ziel: Auswahl und Verbesserung von Items
SCHWIERIGKEITSANALYSE
Schwierigkeitsindex
Ziel von Tests: interindividuelle Unterschiede abbilden
Nicht alle Personen dürfen dieselbe Antwort geben
- Items dürfen nicht zu leicht sein (alle lösen das Item bzw. alle stimmen zu)
- Items dürfen nicht zu schwierig sein (keiner löst das Item bzw. keiner stimmt zu)
Seite 12 von 65
Itemschwierigkeit im Schwierigkeitsindex ausgedrückt:
Seite 13 von 65
(Beispiel)
Seite 14 von 65
Items sollten so kodiert sein, dass hohe Werte symptomatisch für Merkmal sind
Beispiel: Zwei Items zur Messung von Extraversion
Dichotomes Antwortformat: k= 2
- Kodierung: Symptomatische Antwort = 1;
asymptomatische Antwort = 0
- Formel wie bei Niveautests
Polytomes Antwortformat mit intervallskalierten Stufen: k> 2
- Nie dichotomisieren!
- Kodierung: von 0 bis k–1
- Beispiel: 5 Antwortstufen werden mit 0, 1, 2, 3, 4 kodiert
- Schwierigkeitsindex:
ITEMVARIANZ
Itemvarianz
Itemvarianz drückt die Differenzierfähigkeit eines Items aus
Itemvarianz = 0 alle haben denselben Wert Item ist nutzlos
Je größer die Itemvarianz, desto besser
TRENNSCHÄRFEANALYSE
Drückt aus, wie gut ein einzelnes Item zwischen den Testwerten aller Probanden
differenzieren (trennen) kann
Berechnung über Korrelation zwischen Itemwerten x vi und Testwerten xv
Seite 15 von 65
ITEMSELEKTION UND REVISION DES TESTS
Kriterien für die Itemselektion
TESTWERTE
Testwertermittlung
Allgemeine Formel: Testwert = Zeilensumme aller Antworten
Besonderheiten bei Leistungstests
- Evtl. Gewichtung der einzelnen Aufgaben (z.B. nach Schwierigkeit)
- Evtl. Korrektur um falsch gelöste Aufgaben (z.B. um zwischen ausgelassenen und falschen
Antworten zu unterscheiden)
- Evtl. Ratekorrektur
Besonderheiten bei Persönlichkeitstests
- Bei k> 2 Antwortoptionen wird vorausgesetzt, dass die Antwortoptionen intervallskaliert sind
(gleiche Abstände zwischen Werten)
- Testwert= Summe oder Mittelwert aller erzielten Punkte
Normalisierung
Normalisierung = nicht-lineare Transformation der Testwerte, so dass die Testwertverteilung annähernd
normalverteilt ist (Normalisierung ≠ Normierung)
Sollte nur durchgeführt werden, wenn das Merkmal in der Population normalverteilt ist
Verschiedene Möglichkeiten
- Logarithmierung(für rechtsschiefe
Verteilungen)
- Flächentransformation ( Sitzung zu
Normierung)
Seite 16 von 65
Logarithmierung
ITEMANALYSE IN R
Je niedriger der Mittelwert, umso schwieriger ist das Item
Je höher der Mittelwert, umso leichter ist das Item. ( zu viel Zustimmung) Mittel ist am besten!!!!
Cronbachs a ist raw alpha; wenn ein Item ein niedrigeres a hat, dann maybe rausnehmen?
Plot (Korrelations Grafik): je blauer, desto positiver der Zusammenhang
r.drop = korrelierte Trennschärfe = sollte bei 0.5(?) liegen
Messfehler
Keine Messung ist perfekt
Alle Messungen werden durch einen unsystematischen Messfehler beeinflusst
Je geringer der Einfluss des Messfehlers, desto reliabler(messgenauer) ist ein Test.
Seite 17 von 65
Deshalb gilt auch: Der Erwartungswert der Messungen x vi eines Probanden v in Item i entspricht dem
wahren Wert τvi dieser Person
Formal:
Messfehler und wahre Werte sind unkorreliert
Formal:
Die Fehlerwerte zweier Messungen mit beliebigen Items i und j sind bei derselben Person
unkorreliert
Testkonstruktion und -durchführung: Antwort auf ein Item darf nicht von Antwort auf ein anderes
Item beeinflusst sein
Die Fehlerwerte zweier Messungen mit demselben Item bei beliebigen Personen v und w sind
unkorreliert
Testkonstruktion und -durchführung: Antwort einer Person darf nicht von Antwort einer anderen
Person beeinflusst sein
Die Kovarianz einer Variablenmit sich selbst entspricht der Varianz dieser Variablen
Die Kovarianz zweier addierter Variablen ist
Messwertzerlegung
Messwertzerlegung in Form der
individuellen Messwerte
Messwertzerlegung in Variablenform
Varianzzerlegung
Messwertzerlegung in Variablenform
Varianzzerlegung
Seite 18 von 65
Wahre Varianz und Fehlervarianz sind
unbekannt.
Aber die wahre Varianz kann über die
Kovarianz von zwei Tests p und q desselben
Merkmals geschätzt werden.
Die Kovarianz von zwei Tests p und q ist gleich der Kovarianz ihrer wahren Werte.
Wenn beide Tests dasselbe Merkmal auf diese Art messen (parallele oder τ-
äquivalente Tests, s. Sitzung 6), gilt τp τq τ und
Die wahre Varianz schätzen wir aus der Kovarianz der Messwerte zweier Tests
Wenn die wahre Varianz bekannt ist, können wir die Fehlervarianz berechnen:
Reliabilität
Reliabilität = Anteil der wahren Varianz an der Gesamtvarianz
Reliabilitätskoeffizient
Wertebereich des Reliabilitätskoeffizienten: [0; 1] niedrig – hoch (0,
wenn Varianz wahrer Werte(t) = 0, 1, wenn Var der Messfehler = 0)
Methoden zur Schätzung der Reliabilität: s. nächste Sitzung
Unreliabilität
Unreliabilität = Anteil der Fehlervarianz an der Gesamtvarianz
Unreliabilitätskoeffizient
Wertebereich des Unreliabilitätskoeffizienten: [0; 1]
Reliabilitätskoeffizient und Unreliabilitätskoeffizient addieren sich zu 1, deshalb wird nur ein Koeffizient
berichtet.
Standardmessfehler
Formale Definition des Standardmessfehlers
Eigenschaften des Standardmessfehlers
- Wertebereich: [0; ∞]
- Je größer die Reliabilität, desto kleiner der Standardmessfehler
- Bei normalverteilten Fehlerwerten liegen die beobachteten Werte mit einer Wahrscheinlichkeit
von 68% in dem Bereich τ ± SD(Ԑ)
Vorlesung 6 – Reliabilitätsbestimmung
--------------------------------------------------------
Reliabilität
Reliabilität = Anteil der wahren Varianz an der Gesamtvarianz
Reliabilitätskoeffizient
Wertebereich des Reliabilitätskoeffizienten: [0; 1]
Seite 20 von 65
Retest-Reliabilität Paralleltest-Reliabilität
Testhalbierungs-Reliabilität Interne Konsistenz
Ob diese Methoden tatsächlich die Reliabilität schätzen, hängt vom zugrundeliegenden Messmodell ab.
MESSMODELLE
Regressionsanalytische Darstellung
Items
3 unterscheidet sich zu Items 1 und 2 in der Fehlervarianz:
Messmodelle im Überblick
Essentielle -Äquivalenz
Gleichung für vorhergesagte Werte: i = ai + η
Gleichung für beobachtete Werte: xi = αi+ η + i
Fehlervarianzen: Var(i) ≠ Var(j)
(Grafik: beide Graphen unterschiedliche Achsenabschnitt)
Essentielle -Äquivalenz
Testmodellgleichung: i = ai + η
Variablen unterscheiden sich nicht bezüglich
- Steigungskoeffizienten bzw. Faktorladungen: λ = 1
Variablen unterscheiden sich bezüglich
- Achsenabschnitte ai
- Fehlervarianzen Var(i)
Achsenabschnitte ai geben die Itemschwierigkeit einer Variablen an
- Je größer ai, desto leichter ist das Item, d.h. desto größer ist i für einen bestimmten Wert auf η
Spezifische Objektivität
Seite 21 von 65
- Die Differenz der wahren Werte zweier Personen ist unabhängig davon, mit welchem
Messinstrument sie gemessen wurden
- Die Differenz der wahren Werte zweier Items ist unabhängig von der Merkmalsausprägung η
-Äquivalenz
Essentielle -Parallelität
-Parallelität
-Kongenerität
Seite 22 von 65
Variablen unterscheiden sich bezüglich
- Achsenabschnitte αi
- Steigungskoeffizienten bzw. Faktorladungen λ i
- Fehlervarianzen Var(i)
Ursachen für Unterschiede in den Steigungskoeffizienten λ i
- Unterschiedliche Metrik der Items
- Unterschiede in der Diskriminationsfähigkeit der Items: Je größer λi, desto besser kann ein
Item zwischen Personen unterscheiden (diskriminieren)
Die Differenz der wahren Werte zweier Personen ist abhängig davon, mit welchem Messinstrument sie
gemessen wurden
Die Differenz der wahren Werte zweier Items ist abhängig von der Merkmalsausprägung η
1) Retest-Reliabilität
Test wird denselben Probanden zweimal vorgelegt
Korrelation der Testwerte = Schätzer für die Reliabilität
Annahmen:
- Die wahren Werte sind unverändert: 1= 2=
- Die Fehlervarianzen sind unverändert
(Modell -essentieller Variablen): SD(1) =
SD(2)
- Daraus folgt: Auch die Varianz der Testwerte
ist unverändert: SD(x1) = SD(x2) = SD(x)
(Herleitung nicht relevant!!; Wahre Varianz durch Gesamt)
Bewertung
Wiederholte Testung ist nicht immer möglich oder sinnvoll
‒ Bsp. Übungseffekte bei Leistungstests
Wiederholte Testung kann aufwändig und teuer sein
Wiederholte Testung ist für Probanden nicht immer nachvollziehbar oder zumutbar
Seite 23 von 65
Retest-Intervall muss sinnvoll gewählt werden
‒ Zu kurz: Erinnerungseffekte möglich
‒ Zu lang: Merkmalsveränderungen möglich
‒ Keine allgemeingültige Regel für Länge des Retest-Intervalls, sondern abhängig vom Merkmal und
vom Testverfahren
Systematische Veränderungen der wahren Werte Unsystematische Veränderungen der wahren Werte
2) Paralleltest-Reliabilität
Parallele Tests = Tests, die das gleiche Merkmal mit der gleichen Genauigkeit messen
Gegeben bei gleichen wahren Werten und gleichen Fehlervarianzen (essentielle -Parallelität)
Beide Tests werden denselben Probanden vorgelegt
Paralleltest-Reliabilität = Korrelation zwischen den beiden Tests (zur Herleitung s. Retest-Reliabilität)
Bewertung
Erinnerungseffekte spielen keine Rolle (Vorteil gegenüber Retest-Reliabilität)
Parallelität ist in der Praxis schwer herzustellen
‒ Etwas einfacher bei Leistungstests als bei Persönlichkeitstests
‒ Schon kleine Unterschiede in den Items können Parallelität beeinträchtigen
Reliabilität wird unterschätzt
Intervall zwischen der Darbietung beider Testformen sollte nicht zu lang sein (vgl. Retest-Reliabilität)
Testformen sollten ausbalanciert dargeboten werden
‒ Gruppe 1: Version A, Version B
‒ Gruppe 2: Version B, Version A
3) Testhalbierungs-Reliabilität
Engl. Split half reliability Items werden in zwei möglichst parallele Testhälften aufgeteilt
Seite 24 von 65
Jede Testhälfte ist nur halb so lang wie vorgesehen Korrelation der beiden Testhälften unterschätzt die
Reliabilität
Korrektur durch Spearman-Brown-Formel
Spearman-Brown-Korrektur
Reliabilität bei Verdopplung der Testlänge ℓum Faktor k
Testhalbierungs-Reliabilität
Zeitpartitionierungsmethode
‒ Bearbeitung beider Testhälften dauert gleich lange
‒ Bei prinzipiell gleichartigen Items, z.B. Konzentrationstests
Bewertung
Testhälften sind in der Praxis selten parallel
Sehr viele Kombinationen von Items zu Testhälften möglich
Reliabilität wird unterschätzt, wenn
‒ Testhälften nicht perfekt parallel sind
‒ Testhälften heterogen sind und nicht exakt dasselbe messen
4) Interne Konsistenz
Cronbachs’s α
= Verallgemeinerung der Testhalbierungs-Reliabilität auf beliebig viele Testteile
Test mit m Items wird in m Testteile zerlegt
Interne Konsistenz drückt die Höhe der Korrelationen der Items untereinander aus
Voraussetzung: essentielle τ-Äquivalenz
‒ Gleiche Steigungen (Faktorladungen)
Seite 25 von 65
‒ Unterschiedliche Schwierigkeiten
‒ Unterschiedliche Fehlervarianzen
Falls essentielle τ-Äquivalenz nicht gegeben ist, ist Cronbach’s α die untere Grenze der Reliabilität
Bewertung
Vorteile
‒ Test muss nur einmal durchgeführt werden
‒ Lediglich essentielle τ-Äquivalenz erforderlich
Reliabilität wird unterschätzt bei heterogenenen Merkmalen
Hohe Retest-Reliabilität trotz geringer interner Konsistenz möglich
Kein Maß für Eindimensionalität ( Faktorenanalyse)
Invertierte Items (= negativ formuliertes Item) können zu Verzerrungen der Relabilitätsschätzung führen
Bedingung der essentiellen τ-Äquivalenz häufig nicht gegeben
Negatives Cronbach’s α? einige Items korrelieren negativ mit den übrigen Items
Je länger der Test, desto höher wird das Cronbachs Alpha
McDonalds Omega
Reliabilitätsschätzung für die Summenvariable S:
Seite 26 von 65
Interpretation der Reliabilitätsschätzungen
Alle Verfahren liefern nur Schätzungen der Reliabilität, nicht die Reliabilität!
Wie hoch sollte der Reliabilitätskoeffizient ausfallen?
abhängig von
‒ Art des Merkmals und Vergleich zu konkurrierenden Verfahren: z.B. Leistungs-vs.
Persönlichkeitstests
‒ Individual- vs. Kollektivdiagnostik: Reliabilität muss für Individualdiagnostik höher sein als für
Kollektivdiagnostik
‒ Einsatzbedingungen des Testverfahrens: z.B. Einsatz langer Tests aus ökonomischen Gründen nicht
möglich
‒ Kosten-Nutzen-Abwägung
‒ Objektivität als Voraussetzung für Reliabilität
‒ Homogenität vs. Heterogenität des Tests
Daumenregeln: Rel ≥ .70 ist akzeptabel, Rel ≥.90 ist exzellent
Abschließende Empfehlungen
Testkonstruktion
‒ Mehrere Methoden zur Reliabilitätsschätzung verwenden
‒ Möglichst heterogene Stichproben
‒ Gültigkeit der Messmodelle prüfen
Anwendung von Tests in empirischen Studien
‒ Reliabilität immer anhand der aktuellen Stichprobe schätzen
‒ Immer Cronbach‘s α berichten
‒ Wenn möglich, auch weitere Reliabilitätsschätzungen berichten
Vorher Gültigkeit der essentiellen -Parallelität prüfen
Vorlesung 7 – Exploratorische
Faktorenanalyse----------------------------------------------
Seite 27 von 65
Grundidee der Faktorenanalyse
Items sind korreliert, weil sie eine oder mehrere gemeinsame
Ursachen haben (= Faktoren)
Korrelationen zwischen den Items verschwinden, wenn alle
Faktoren auspartialisiert wurden
Hauptkomponentenanalyse: Datenreduktion
‒ Extraktion von Hauptkomponenten statt Faktoren
‒ Komponenten erklären die Gemeinsamkeit zwischen Variablen
vollständig (KEIN MESSFEHLER!)
‒ Annahme: Alle Variablen werden perfekt reliabel gemessen
‒ Typisch für zusammengesetzte Konstrukte wie sozioökonomischer Status
‒ Früher häufig eingesetzt wegen geringerer Rechenkapazitäten, heute nicht mehr
Seite 28 von 65
Exploratorische vs. konfirmatorische Faktorenanalyse
Exploratorische Faktorenanalyse
Datenbasierter Ansatz
Keine Vorannahmen über
‒ Die Anzahl der Faktoren
‒ Die Beziehungen zwischen Indikatoren und Faktoren
Ziel
‒ Explorativ, deskriptiv
‒ Bestimme die angemessene Zahl an Faktoren
‒ Eingesetzt im frühen Stadium der Testkonstruktion und
Konstruktvalidierung
Konfirmatorische Faktorenanalyse
Theoriebasierter Ansatz
Konkrete Vorannahmen über
‒ Die Anzahl der Faktoren
‒ Die Beziehungen zwischen Indikatoren (beobachtete Variablen) und Faktoren
Ziel
‒ Bestätige („confirm“) eine spezifische Faktorenstruktur
‒ Eingesetzt im späten Stadium der Testkonstruktion und Konstruktvalidierung
Je kleiner der Winkel zwischen zwei Vektoren, desto ähnlicher (= höher korreliert) sind
diese Variablen
Dabei gilt:
o 0° r= 1.00
o 90° r= .00
o 180° r= -1.00
Rotation
Problem: Der erste Faktor versucht die
Gemeinsamkeiten aller Variablen zu beschreiben; ABER
Faktoren können besser interpretiert werden, wenn
jeder eine eigene Gruppe von Variablen beschreibt
Lösung: Faktoren rotieren
GRUNDBEGRIFFE
Mustermatrix für die Serienkonsum-Items
Faktorladung
Ein Wert für jede Faktor-Variablen-Kombination
Gibt an, wie viel die Variablen und der Faktor gemeinsam
haben
Variablen mit höheren Faktorladungen sind
repräsentativer für einen Faktor als
Variablen mit niedrigeren Faktorladungen
Häufig werden Faktorladungen < .30 nicht interpretiert
Eigenwert
Summe der quadrierten Faktorladungen aller Variablen für einen bestimmten Faktor
Maß für die „Wichtigkeit“ eines Faktors
Theoretischer Wertebereich:
Seite 30 von 65
‒ Minimum: 0
‒ Maximum: k (k = Anzahl der Variablen)
Anteil der durch einen bestimmten Faktor erklärten Varianz der Variablen = Eigenwert / k
Scree-Test
Nacheinander extrahierte Faktoren erklären immer weniger Varianz der
Variablen
Screeplot = graphische Darstellung des Eigenwertverlaufs
Seite 31 von 65
Interpretation
o Suche den „Knick“ = die Stelle, an der die Kurve flach wird
o Nur Faktoren links vom Knick werden extrahiert
Problem: kann sehr subjektiv sein
FAKTORENEXTRAKTION
Verschiedene Methoden für Faktorenextraktion
Es stehen sehr viele verschiedene Methoden zur
Verfügung
In der Psychologie am häufigsten eingesetzt
‒ Hauptachsenanalyse
‒ Maximum-Likelihood-Methode: erfordert
multivariate Normalverteilung und größere
Stichproben
Ergebnisse sollten über verschiedene Methoden hinweg
stabil sein
Rotation
Rotationsmethoden
Ziel der Rotation: Einfachstruktur
‒ Jede Variable lädt auf nur einem Faktor hoch und auf allen anderen Faktoren niedrig
Orthogonale Rotationsmethoden
‒ Die Faktoren bleiben unkorreliert
‒ Beispiele : Varimax, Quartimax, etc.
Oblique Rotationsmethoden
‒ Faktoren dürfen korreliert sein bei psychologischen Konstrukten meist eine sinnvolle Annahme
‒ Beispiele: Promax, Oblimin, etc.
INTERPRETATION
Inhaltliche Bedeutung der Faktoren
Welche Variablen laden auf demselben Faktor?
Interpretation ist einfacher wenn
‒ Jede Variable nur eine einzige hohe Faktorladung hat (Einfachstruktur)
‒ Auf jeden Faktor mindestens zwei Variablen stark laden
Seite 32 von 65
‒ Die meisten Ladungen entweder hoch oder niedrig sind und wenige Variablen mittlere
Faktorladungen haben
Interpretation wird durch Rotation erleichtert
PRAKTISCHE EMPFEHLUNGEN
Welche Methoden sollte man verwenden?
Bestimmung der Faktorenzahl: Parallelanalyse
Extraktion der Faktoren: Hauptachsenanalyse oder Maximum-Likelihood-Faktorenanalyse
Seite 33 von 65
Rotation: oblique Rotationsmethoden
(Stichprobengröße
Stichprobengröße ist abhängig von
o Anzahl von beobachteten Variablen pro Faktor
o Höhe der Kommunalitäten
Daumenregeln
o Mindestens 4 beobachtete Variablen pro (erwarteten) Faktor
o Bei Kommunalitäten> .70: n= 100
o Bei Kommunalitäten> .40: n= 200
Das Müllproblem
GIGO = Garbage In –Garbage Out
o Die Faktorenlösung kann nur so gut sein wie die zugrundeliegenden Variablen
o Variablen müssen substantiell miteinander korreliert sein
Kaiser-Meyer-Olkin-Test
Bartlett-Test
Variablen müssen inhaltsvalide und theoretisch plausibel sein)
Das Subjektivitätsproblem
Bei der exploratorischen Faktorenanalyse müssen sehr viele Entscheidungen durchgeführt werden
Gefahr, dass die Ergebnisse in die gewünschte Richtung „gelenkt“ werden
‒ Vgl. Kriterium der Interpretationsfähigkeit der Faktoren
Daher:
‒ Strategie vorher festlegen und dokumentieren
‒ Faktorenstruktur in einer anderen Stichprobe replizieren konfirmatorische Faktorenanalyse
Ergebnisdarstellung
Wichtige Entscheidungen
Kriterien zur Bestimmung der Faktorenzahl
Faktorenextraktions-Methode
Rotationsmethode
Tabelle mit Faktorladungen
Für jeden Faktor: Anteil der erklärten Varianz
Korrelationen zwischen den Faktoren
Inhaltliche Interpretation der Faktoren
Seite 34 von 65
‒ Relative Modellgüte wird mit statistischem Test geprüft
‒ Bsp.: τ-kongenerisches vs. essentiell τ -äquivalentes Modell (Achsenabschnitte auf 1 gesetzt)
MODELLSPEZIFIKATION
Anzahl der Faktoren
Exploratorische Faktorenanalyse:
‒ Anzahl der Faktoren wird empirisch bestimmt
‒ (Kaiser-Kriterium (Eigenwert > 1); Scree-Plot; Parallelanalyse)
‒ Alle Indikatoren laden auf allen Faktoren
Konfirmatorische Faktorenanalyse
‒ Anzahl der Faktoren wird durch Forscher festgelegt
‒ Beziehungen zwischen Indikatoren und Faktoren werden durch Forscher festgelegt
Weitere Spezifikationen
Spezifikationen können sich auch auf einzelne Modellparamater beziehen, z.B.
‒ Faktorladungen
‒ Kovarianzen zwischen Faktoren
‒ Residualvarianzen (Fehlervarianzen)
‒ Kovarianzen zwischen Residuen
‒ Achsenabschnitte
Möglichkeiten der Spezifikation einzelner Modellparameter
‒ Freisetzen: Modellparameter wird frei geschätzt
‒ Gleichsetzen: Zwei oder mehr Modellparameter werden auf denselben Wert gesetzt,
z. B. λ1= λ2
‒ Fixieren: Ein oder mehrere Modellparameter werden auf einen festen Wert fixiert, z. B. λ1= 1
Seite 35 von 65
o Modell-implizierte Werte = vorhergesagte Werte
Modellschätzung
Ziel: Finde Werte für die Modellparameter, mit denen die Varianz-Kovarianz-Matrix in der Population Σ
reproduziert werden kann
Wir kennen Σ nicht, daher nutzen wir die beobachtete Varianz-Kovarianz-Matrix S als Schätzer für Σ
Alle Fit-Funktionen minimieren die Diskrepanz zwischen
‒ Der beobachteten Varianz-Kovarianz-Matrix S und
‒ Der modell-implizierten Varianz-Kovarianz-Matrix Σ ()
F: S –Σ () min
Identifikation
Ein Modell ist identifiziert, wenn
1. Anzahl der Varianzen und Kovarianzen ≥ Anzahl der unbekannten Modellparameter (Freiheitsgrade
df) notwendige, aber nicht hinreichende Bedingung
2. Jede latente Variable skalierti st notwendige aber nicht hinreichende Bedingung
3. Alle Modellparameter als Funktion der beobachteten Varianzen und Kovarianzen dargestellt werden
können empirische Identifikation, hinreichende Bedingung
Mögliche Identifikations-Ergebnisse
Freiheitsgrade (df): Anzahl Informationen/Beobachtungen minus Anzahl unbekannter Modellparameter
Drei mögliche Fälle
‒ df < 0: Modell ist nicht identifiziert (under-identified)
‒ df = 0: Modell ist genau identifiziert (just-identified)
‒ df > 0: Modell ist überidentifiziert (over-identified)
Seite 36 von 65
2.
p ∙ (p+ 1) / 2
Freiheitsgrade
Freiheitsgrade df:
o Anzahl der Beobachtungen minus Anzahl der Modellparameter
o Hier: 6 Beobachtungen -7 Modellparameter df = -1
Dieses Modell ist nicht identifiziert
Was nun?
Unter-Identifizierung ist eine Eigenschaft des Modells, nicht der Daten modifiziere das Modell
Anzahl der Freiheitsgrade muss erhöht werden verringere die Anzahl der unbekannten Parameter
o Fixiere Parameter auf einen bestimmten Wert
Seite 37 von 65
Beispiel: Fixiere die Faktorladung auf den Wert 1
o Setze Parameter gleich
Beispiel: Setze alle Faktorladungen gleich
Modell-implizierte Varianz-Kovarianz-Matrix
Elemente der Varianz-Kovarianz-Matrix werden aus den
Modellparametern berechnet
vgl. vorhergesagte Werte bei Regression
Datenbeispiel
Seite 38 von 65
BEURTEILUNG DER MODELLGÜTE
Der c2-Test
Einziger Signifikanztest für Modell-Fit
H0: Σ= Σ(θ)
o Alle Elemente in der Residual-Varianz-Kovarianz-Matrix sind gleich 0 in der Population
o Alle Abweichungen von 0 können durch Stichprobenfehler erklärt werden
H1: Σ≠ Σ(θ)
Wir wollen die Nullhypothese beibehalten
Prüfgröße berechnet sich aus der Fit-Funktion
Freiheitsgrade s. Identifikation
(Problem: Abhängig von Stichprobe!)
Approximative Fit-Statistiken
Root MeanSquare Error of Approximation (RMSEA):
‒ Wie nahe kommt das geschätzte Modell dem wahren Modell?
‒ Interpretation: < .08 ist akzeptabel, < .05 ist gut
Standardisiertes Root MeanSquare Residual (SRMR)
‒ Standardisiertes Maß für das durchschnittliche Residuum
‒ Interpretation: < .08 ist akzeptabel
Inkrementelle Fit-Indices
- Wie viel besser ist unser Modell als das Baseline-Modell (= Modell, in dem alle Variablen
unabhängig sind)
- Beispiele: Comparative Fit Index (CFI), Tucker-Lewis-Index (TLI)
- Interpretation: > .95 ist akzeptabel, > .97 ist gut
Konfirmatorische Faktorenanalyse in R
Paket: lavaan(latent variable analysis)
‒ Auch für Strukturgleichungsmodelle; Mehr Info unter lavaan.ugent.be
Vorgehen
1. Modell spezifizieren Modellgleichungen angeben
2. Modell schätzen
3. Verschiedene Ausgaben anfordern
4. Ggf. Modellvergleich
Modellschätzung
Seite 39 von 65
Ausgabe: Fit-Statistiken/Modellgüte
Modellvergleiche
Zwei unvereinbare Ziele:
‒ Finde das Modell mit der besten Passung
‒ Finde das sparsamste Modell
Unterschiedliche Verfahren für
‒ Geschachtelte Modelle
‒ Nicht-geschachtelte Modelle
Geschachtelte Modelle
Ein Modell ist ein Spezialfall eines anderen
Modells
χ2-Differenzentest
Die Differenz der χ2-Werte von zwei geschachtelten Modelle ist χ2-verteilt:
χ2diff = χ2B- χ2A
dfdiff = dfB - dfA
Interpretation
‒ Test ist nicht signifikant: Das restriktivere Modell (B) passt nicht signifikant schlechter als das
allgemeinere Modell (A), Modell B wird bevorzugt
‒ Test ist signifikant: Das restriktivere Modell (B) passt signifikant schlechter als das allgemeinere
Modell (A), Modell A wird bevorzugt
Seite 40 von 65
t-kongenerisches Modell:
Das Problem
Messmodelle der klassischen Testtheorie beziehen sich immer auf
kontinuierliche Variablen
Aber: viele (die meisten?) Items sind nicht kontinuierlich, sondern diskret
‒ Dichotom bzw. binär: zwei Antwortmöglichkeiten
‒ Polytom: mehrere diskrete Antwortmöglichkeiten
Klassische Testtheorie kann nicht auf diskrete Items angewandt werden
Item-Response-Theorie: Messmodelle für diskrete Items
Item-Response-Theorie (IRT)
Seite 41 von 65
Item-Response-Theorie (IRT) = Modelle zur Beziehung zwischen Merkmalsausprägung und Itemantwort
(item response)
Beziehung wird formuliert als Item-Response-Funktion(Itemcharakteristik)
Klassische Testtheorien als Spezialfall der Item-Response-Theorie
‒ KTT: Beziehung zwischen Merkmalsausprägung und Itemantwort ist linear (Item kontinuierlich) )
‒ IRT (im engeren Sinne): Beziehung zwischen Merkmalsausprägung und Itemantwort ist nichtlinear
(Item diskret)
Logistische Funktion
Logistische Testmodelle
Merkmalsausprägung und Lösungsw.keit stehen in
einer logistischen Beziehung
Allgemeine logistische
Funktion (vgl. logistische
Regression):
Logistische Funktion kann nur Werte zwischen 0 und 1
annehmen
DAS 1PL-MODELL
Modellgleichung des 1PL-Modells
Personenparameter wird am Schwierigkeitsparameter zentriert!
Itemcharakteristikkurvendes 1PL-Modells
Je höher die Merkmalsausprägung θ, desto höher die Lösungsw.keit
Je höher der Schwierigkeitsparameter bj, desto niedriger die Lösungsw.keit
Wendepunkt der Kurve ist die Stelle, an der θ = bj
Schwierigkeitsparameter bj drückt hier tatsächlich die Schwierigkeit aus, nicht die
Leichtigkeit des Items (vgl. KTT)
Spezifische Objektivität
Messungen sind spezifisch objektiv, wenn
‒ Vergleiche zwischen den gemessenen Objekten nicht
davon abhängen, welche Instrumente zur Messung herangezogen werden
‒ Vergleiche zwischen Instrumenten nicht von den Objekten abhängen, die für den Vergleich
verwendet werden (Wann sinnvoll? Wenn viele Menschen, aber nicht immer neuen Test)
Etwas ganz anderes als Objektivität als Testgütekriterium!
Spezifische Objektivität ist nur beim 1PL-Modell gegeben,
nicht 2PL-& 3PL-Modell.
Zwei rasch homogene Items
Seite 43 von 65
‒ Items unterscheiden sich nur im Achsenabschnitt bj
‒ Items unterscheiden sich nicht in der Steigung aj
‒ Der Abstand der Logit-Werte der beiden Items ist für alle θ -Werte gleich
‒ Der Unterschied der bedingten Logits zweier θ-Werte ist für beide Items gleich
DAS 2PL-MODELL
Das 2PL-Modell (Birnbaum-Modell)
Erweiterung des 1PL-Modells
Zweiter Itemparameter: Diskriminationsparameter a j
Modellgleichung:
Wenn aj für alle Items gleich ist, geht das 2PL-Modell in das 1PL-Modell
über
Itemcharakteristikkurvendes 2PL-Modell
DAS 3PL-MODELL
Rateparameter
Bei Leistungstests kann eine korrekte Lösung durch Raten zustande kommen
Auswirkung auf Messmodell: Die Lösungsw.hkeit nähert sich nicht 0 an, sondern einem größeren Wert
o Bsp.: Ratew.keit bei 5 Antwortoptionen: 20 % S-Kurve nähert sich nach unten dem Wert 0.20 an
Im 3PL-Modell wird die Ratewahrscheinlichkeit als Rateparameter cj berücksichtigt
LOKALE UNABHÄNGIGKEIT
Lokale Unabhängigkeit
Zusammenhänge unter den Items lassen sich vollständig durch das Modell erklären
‒ Modell = Personparameter + Itemparameter
Dann gegeben, wenn innerhalb merkmalshomogener Subpopulationen (lokal) (mehrere Personen mit
gleicher Merkmalsausprägung ) keine Abhängigkeiten (unabhängig) zwischen Items existieren
Wird auch als lokale stochastische Unabhängigkeit bezeichnet
Vgl. Faktorenmodelle
PARAMETERSCHÄTZUNG: ITEMPARAMETER
Parameterschätzung
Itemparameter und Personparameterwerden nicht direkt berechnet, sondern aus den Daten geschätzt
Voraussetzungen der Schätzung
‒ Modellgleichung ist gültig
‒ Lokale Unabhängigkeit
Folgende Erläuterungen beziehen sich auf das 1PL-Modell (Rasch-Modell)
‒ Vorteil: spezifische Objektivität
Lösungsansatz (Teil 1)
Wir wissen, dass Item 4 schwieriger ist als alle anderen Items
Item 4 müsste daher den höchsten Wert für den Schwierigkeitsparameter bj erhalten
Die Schwierigkeitsparameter der anderen Items müssen die relativen Abstände zueinander wiedergeben
Die Abstände können wir aus den bedingten Wahrscheinlichkeiten berechnen
Seite 46 von 65
Problem (Teil 2)
Wir kennen jetzt die relative Position der Items zueinander
Aber wir müssen immer noch die Metrik von festlegen
Die Einheiten ergeben sich aus den Abständen der Itemcharakteristiken zueinander
Aber wo ist der Nullpunkt? völlig arbiträr, welchen Nullpunkt wir wählen, aber wir
müssen einen Nullpunkt festlegen
PARAMETERSCHÄTZUNG: PERSONPARAMETER
Schätzung der Personparameter im 1PL-Modell
Itemparametermüssen bereits geschätzt sein
Gesucht: der Wert , für den das gegebene Antwortmuster einer Person am wahrscheinlichsten ist
maximum likelihood
Beispiel: Vier Items mit
‒ b1= –1
‒ b2= 0
‒ b3= 1
‒ b4= 2
Antwortmuster: (1,1,0,0)
Erster Versuchsballon:
Informationsfunktionen
Iteminformation im 1PL-Modell: Ij() = Pj() ∙ Qj()
Iteminformation im 2PL-Modell: Ij ) = a²∙ Pj() ∙ Qj()
Iteminformation im 3PL-Modell: Zu kompliziert für Folien und Buchkapite
Informationsfunktionen
Seite 48 von 65
Testinformation
Informationsfunktion eines Tests =
Summe aller
Iteminformationsfunktionen:
Standardschätzfehler
Standardschätzfehler berechnet sich aus Testinformation:
Je größer der Standardschätzfehler, desto ungenauer ist die Messung (vgl.
Standardmessfehler in der KTT)
Kann genutzt werden, um ein Konfidenzintervall für einen Personwert zu bestimmen
Hängt von der Merkmalsausprägung ab (anders als beim Standardmessfehler)
(IRT IN R
Empfohlene R-Pakete für IRT
1PL-Modell (Rasch-Modell)
‒ Paker: eRM (und andere)
‒ Beispiel: > rm1 <-RM(data)
> summary(rm1)
2PL-Modell (Birnbaum-Modell)
‒ Paket: ltm (und andere)
‒ Funktion: lmt
3PL-Modell
‒ Paket: ltm
‒ Funktion tpm
Seite 49 von 65
Outputs für das 1PL-Modell: Personparameter
)))))
Das Partial-Credit-Modell:
Darstellung der Schwellenw.keiten Darstellung der Kategorienw.keiten
Seite 50 von 65
Partial-Credit-Modell: Geordnete vs. Ungeordnete Schwellenparameter
Geordnete Schwellenparameter
‒ Reihenfolge der Schwellenparameter = Reihenfolge der Antwortkategorien
‒ Für jede Antwortkategorie gibt es einen Bereich auf , für den diese Antwortkategorie am
wahrscheinlichsten ist
Ungeordnete Schwellenparameter
‒ Reihenfolge der Schwellenparameter ≠ Reihenfolge der Antwortkategorien
‒ Für manche Antwortkategorien gibt es keinen Bereich auf , für den diese Antwortkategorie am
wahrscheinlichsten ist
Person-Item-Karte
Vorlesung 11 – Validität
---------------------------------------------------------------------------
Validität
Validität = Gültigkeit (engl. validity)
Ein Test ist valide, wenn er das misst, was er messen soll
Validität bezieht sich auf die Gültigkeit von Interpretationen und Maßnahmen
‒ Bewertung des Ergebnisses
‒ Verallgemeinerung des Ergebnisses
‒ Extrapolation des Ergebnisses auf einen anderen Bereich
‒ Erklären des Ergebnisses (im kausalen Sinn)
‒ Entscheidung über weiterführende Maßnahmen
Wichtigstes Testgütekriterium
Seite 51 von 65
Voraussetzung: Merkmal muss hinreichend definiert sein
Operationale Merkmalsdefinition
Theoretische Merkmalsdefinition
INHALTSVALIDITÄT
Inhaltsvalidiät
Seite 52 von 65
Inhaltsvalidität bei theoretisch definieren Merkmalen
Zusammenfassung zu Inhaltsvalidität
KONSTRUKTVALIDITÄT
Definition
Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der
Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl die Testergebnisse selbst als
auch die Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird.
Nomologisches Netz
Unterscheidung zwischen
‒ Bereich der Theorie: nicht beobachtbare (latente)
Variablen
‒ Bereich der Beobachtung: beobachtbare Variablen
(Indikatoren)
Axiome = mathematische Beschreibungen der
Zusammenhänge der latenten Variablen untereinander
Korrespondenzregeln = Verbindungen zwischen latenten
Variablen und beobachteten Variablen
Seite 53 von 65
Empirische Gesetze = aus den Axiomen abgeleitete Vorhersagen zu den Zusammenhänge der
beobachteten Variablen untereinander
Konstruktvalidierung
Starke Konstruktvalidierung
‒ Prüfung des nomologischen Netzes wie oben beschrieben
‒ Erfordert präzise, formalisierte Theorien über Zusammenhänge zwischen Variablen
oft nicht gegeben
Schwache Konstruktvalidierung
‒ Keine oder vage theoretischen Annahmen über Zusammenhänge zwischen Variablen
‒ Alle beobachteten Zusammenhänge mit anderen Variablen werden als relevant gesehen
‒ Explorativer Ansatz, Gefahr des blinden Empirismus
Experimenteller Ansatz
‒ Theoretische Annahmen: eine Variable (UV) hat einen kausalen Effekt auf das zu messende
Merkmal (AV)
‒ Unabhängige Variable wird experimentell manipuliert
‒ Testwerte als abhängige Variable
‒ Signifikante Unterschiede in der AV = Beleg für Konstruktvalidität
Korrelativer Ansatz
‒ Untersucht Korrelationen der Testwerte mit anderen Variablen
‒ Theoretische Annahmen über Richtung und Höhe der Korrelationen müssen vorliegen
‒ Konvergente vs. diskriminante Validität
Konvergente Validität
Konvergente Validität = hohe Korrelation zwischen zwei Tests, die dasselbe oder eng verwandte
Konstrukte messen
Lösungen
‒ Modelle für latente Variablen (lineare Strukturgleichungsmodelle)
‒ Doppelte Minderungskorrektur: korrigiert die beobachtete Korrelation um die Unreliabilität
der beiden Testverfahren
Diskriminante Validität
Diskriminante (divergente) Validität = niedrige Korrelation zwischen zwei Tests, die unterschiedliche
Konstrukte messen
Diskriminante Validität ist nur dann gegeben, wenn die beobachtete Korrelation nicht größer ist als ein
vorher festgelegter Vergleichswert Nullhypothese
Problem: Nullhypothese soll belegt werden, dies ist aber beim Nullhypothesen - Test nicht möglich
Lösungen
‒ Fehler 2. Art (b-Fehler) bei der Stichprobenumfangsplanung berücksichtigen
‒ Bayesianischer Ansatz
Faktorielle Validität
MULTITRAIT-MULTIMETHOD-ANALYSEN
Grundbegriffe
Seite 55 von 65
Methodeneffekte
Multitrait-Multimethod-Analyse
Abgekürzt MTMM
Messung mehrerer Merkmale (multitrait) mit jeweils mehreren Methoden (multimethod)
Oberbegriff für
‒ Multitrait-Multimethod-Analyse im engeren Sinn: Vergleich verschiedener Messmethoden
‒ Multitrait-Multiinformant-Analyse: Vergleich verschiedener Beurteiler
‒ Multitrait-Multioccasion-Analyse: Vergleich verschiedener Messzeitpunkte
Erlaubt es, konvergente und diskriminanteValidität simultan zu untersuchen
Multitrait-Multimethod-Matrix
Seite 56 von 65
Koeffizienten der MTMM-Matrix
Monotrait-Monomethod-Koeffizienten
‒ Reliabilitätskoeffizienten für eine Trait-Methoden-Einheit
Monotrait-Heteromethod-Koeffizienten
‒ Messungen desselben Merkmals mit verschiedenen Methoden
‒ Indikatoren für die konvergente Validität
Heterotrait-Monomethod-Koeffizienten
‒ Messungen unterschiedlicher Merkmale mit derselben Methode
‒ Indikatoren für die diskriminante Validität
Heterotrait-Heteromethod-Koeffizienten
‒ Messungen unterschiedlicher Merkmale mit unterschiedlichen Merkmale
‒ Indikatoren für die diskriminante Validität
KRITERIUMSVALIDITÄT
Seite 57 von 65
Kriteriumsvalidität
Consequential Validity
Kann man mit dem Test das praktisch relevante Ziel erreichen?
‒ Bsp. Durchführung eines Studiumseignungstest mit dem Ziel der Verringerung der
Abbrecherquote
Bezieht sich auf individuelle und soziale Konsequenzen eines Tests
‒ Bsp. Teaching to the test
Kann sich über die Zeit verändern
Vgl. Testgütekriterien der Nützlichkeit, Testfairness
Seite 58 von 65
Verallgemeinerung des Ergebnisses Inhaltsvalidität, Konstruktvalidität
Extrapolation des Ergebnisses auf einen anderen Bereich Konstruktvalidität
Erklären des Ergebnisses (im kausalen Sinn) Konstruktvalidität
Entscheidung über weiterführende Maßnahmen Kriteriumsvalidität
NORMORIENTIERTE TESTWERT-INTERPRETATION
Normorientierte Testwertinterpretation
Prozentrang = Anteil der Bezugsgruppe, die diesen oder einen niedrigeren Testwerterreichen
Nicht-lineare Testwerttransformation bzw. Flächentransformation
‒ Transformation anhand der Häufigkeitsverteilung der Bezugsgruppe
‒ Abstände zwischen Prozenträngen sind nicht proportional zu den Abständen zwischen den
Testwerten nur Ordinalskalenniveau
Erstellen der Prozentrangnorm
Erfassung der Häufigkeiten der einzelnen Testwerte freq(xv)
Berechnung der kumulierten Häufigkeiten der einzelnen Testwerte freqcum(xv) in aufsteigender
Reihenfolge
Relativierung an Stichprobengröße und Umrechnung in %
Seite 59 von 65
Normtabelle
Normtabelle = Tabelle mit Testwerten und korrespondierenden Prozentwerten
Perzentil= der Testwert x , dem ein bestimmter Prozentrang zugeordnet wird
‒ Beispiel: 9. Perzentil = 2
Quartile
‒ Q1 = 25. Perzentil
‒ Q2 = 50. Perzentil = Median
‒ Q3 = 75. Perzentil
Seite 60 von 65
Standardnormen
Stanine-Normwerte
Stanine= Standard Nine(9)
Werte werden in 9 Abschnitte aufgeteilt
1. 4 %
2. 7 %
3. 12 %
4. 17 %
5. 20 %
6. 17 %
7. 12 %
8. 7 %
9. 4 %
Bei normalverteilten Variablen ist jeder Abschnitt genau 0.5 Standardabweichungen breit
KRITERIUMSORIENTIERTETESTWERTINTERPRETATION
Kriteriumsorientierte Testwertinterpretation
Beurteilung des Testwerts anhand eines vorher festgelegten Kriteriums
‒ Ein oder mehrere Schwellenwerte
Verteilung der getesteten Personen ist uninteressant
‒ Theoretisch können alle oder niemand das Kriterium erreichen
Beispiele für kriteriumsorientierteTestwertinterpretation
‒ Inventare in der klinischen Diagnostik (z.B. Depression)
‒ Klausuren an deutschen Universitäten (meistens)
Seite 61 von 65
Sensitivität und Spezifität
Sensitivität = Trefferquote
‒ Anteil der richtig positiven Diagnosen (RP)
‒ Wahrscheinlichkeit, einen Fall, der das Kriterium erfüllt, korrekt zu klassifizieren
‒ 1 – Sensitivität = Verpasserquote (Wahrscheinlichkeit für FN)
Spezifität = Quote korrekter Ablehnungen
‒ Anteil der richtigen negativen Diagnosen (RN)
‒ Wahrscheinlichkeit, einen Fall, der das Kriterium nicht erfüllt, korrekt zu klassifizieren
‒ 1 – Spezifität = Quote falscher Alarme (FP)
Seite 62 von 65
ROC-Analyse
Vorgehen
‒ Berechne für jeden möglichen Schwellenwert jeweils Spezifität und Sensitivität
‒ Je größer die Summe von Spezifität und Sensitivität, desto besser trennt der Schwellenwert
zwischen den Gruppen
Darstellung
‒ ROC-Kurve: zeigt das Verhältnis von Spezifität und Sensitivität für verschiedene
Schwellenwerte
‒ Youden-Index: Spezifität + Sensitivität –1 (je höher, desto besser)
ROC-Analyse: ROC-Kurve
Wenn der Test gar nicht zwischen Personen trennt, entspricht die ROC-
Kurve genau der Diagonalen
Je stärker die ROC-Kurve von der Diagonalen abweicht, umso besser
trennt der Test zwischen Personen
Optimaler Trennwert = der Punkt der ROC-Kurve, der den größten
Abstand zur Diagonalen hat (Tangente ist hier parallel zur Diagonalen)
ROC-Analyse: Anmerkungen
ROC-Analyse ist verteilungsfrei
Seite 63 von 65
Gruppengrößen können frei gewählt werden
‒ Müssen nicht den tatsächlichen Anteilen in der Bevölkerung entsprechen
ROC-Analyse kann für verschiedene Optimierungsverhältnisse verwendet werden
‒ Youden-Index: Optimale Balance zwischen Sensitivität und Spezifität
‒ Evtl. Sensitivität wichtiger als Spezifität–Evtl. Spezifität wichtiger als Sensitivität
TESTEICHUNG
Testeichung
Testeichung = Durchführung des Tests in einer repräsentativen Stichprobe zur Gewinnung von
Normwerten
Eichstichprobe muss repräsentativ für die Zielpopulation sein, für die der Test entwickelt wurde–
Problem der Normdifferenzierung (s.u.)
Zwei Arten der Repräsentativität
‒ Globale Repräsentativität = Stichprobe stimmt mit der Zielpopulation in allen möglichen
Faktoren überein
‒ Spezifische Repräsentativität = Stichprobe stimmt nur in Bezug auf die Faktoren mit der
Zielpopulation überein, die mit der Merkmalsausprägung korrelieren
Normdifferenzierung
Seite 64 von 65
Normierungsstichprobe
Stichprobenarten
‒ Geschichtete Stichproben bzw. Quotenstichproben: Stichproben werden so gezogen, dass die
prozentuale Verteilung der merkmalsrelevanten Faktoren in Stichprobe und Population
identisch sind spezifische Repräsentativität
‒ Zufallsstichprobe: völlig zufällige Auswahl der Personen aus der Zielpopulation
globale Repräsentativität
‒ ad-hoc-Stichprobe: zur Verfügung stehende Personen werden in Stichprobe einbezogen
häufig nicht repräsentativ
Stichprobe muss umso größer sein…
‒ ... je feinstufiger die Normen erstellt werden sollen
‒ ... je heterogener die Zielpopulation ist
Seite 65 von 65