Beruflich Dokumente
Kultur Dokumente
IRT-Modelle
1 Arten von Itemfunktionen
• Drei Schritte zur Bestimmung der Itemfunktionen eines Tests anhand von Testdaten
o Annahme des Funktionsverlaufs (z. B. stufenförmig, monoton steigend)
o Schätzung von Modellparametern (z. B. Itemschwierigkeit, Personenparameter)
o Modellgeltungstest (Wie gut passt das Modell auf Daten?)
• Itemfunktionen sind abhängig von der Itemantwort und der Eigenschaft der Person
o X-Achse: Persönlichkeitsmerkmal
o Y-Achse: Lösungswahrscheinlichkeit (von 0 bis 1)
• Zwei Typen von IC Funktionen (Modelle)
o Deterministische Itemcharakteristiken
▪ Sprung in der Kurve: Lösungswahrscheinlichkeit springt bei einem kritischen PP-
Wert von 0 auf 100% (z. B. bei einem Aha-Erlebnis)
o Probabilistische Itemcharakteristiken
▪ Annahme einer stochastischen Beziehung zwischen Personenparameter,
Itemparameter und Lösungswahrscheinlichkeit
→ Lösungswahrscheinlichkeiten in allen Abstufungen zwischen 0 und 1 möglich
▪ Funktionen sind i. d. R. monoton steigend
− D. h. je höher der PP, desto höher die Lösungswahrscheinlichkeit
2 Deterministische Itemcharakteristiken
2.1 Guttman-Skala
= Modelle mit stufenförmigen Itemfunktionen
• Strich: Cut-Off-Wert für jedes Item, ab dem es auf jeden Fall gelöst wird („Aha-Erlebnis“)
• Personen, die z. B. auf Strich 3 sind, lösen auch auf jeden Fall alle leichteren Items
B1 | Anwendung der IRT
• Grundidee: Item wird bei einem kritischen Wert des Personenparameters gelöst
→ Lösungswahrscheinlichkeit springt von Null auf Eins
o Lösungswahrscheinlichkeit wird vollständig von Item- und Personenparameter bestimmt
o Alle oder nichts Item-Charakteristik (entweder 0 oder 1)
• Annahmen
o Alle ICCs sind stufenförmig
o Alle Items lassen sich auf derselben Dimension anordnen
• Folgerungen
o Ordinalskalenniveau der latenten Variablen
▪ Keine weiteren Abstufungen, nur Rangfolge
▪ Nur Aussage, dass die Person besser/schlechter ist, aber nicht wie viel
o Anzahl der Eigenschaftsausprägungen = Itemanzahl + 1
▪ + 1 für die Gruppe, die kein Item löst
Nein, denn ab und an lösen Personen schwierigere Aufgaben, obwohl sie leichtere nicht lösen konnten
→ Unterschiedliche Reihenfolgen, keine Dreiecksstruktur gegeben
• Modelle mit geraden Itemfunktionen bei dichotomen Items sind Modelle der KTT
• Person = v; Item = i
• Item ist dichotom → Antworten 0 oder 1
• (4) Berechnung des Erwartungswertes: WSK aller Antwortmöglichkeiten aufsummieren
o 0 * WSK das Item nicht zu lösen + 1 * WSK das Item zu lösen
o Term, der mit Null multipliziert wird, fällt weg
• (5): Lösungswahrscheinlichkeit für Item i = Wahrer Wert
• Hier wurden die Axiome der KTT auf dichotome Items mit Wahrscheinlichkeiten angewendet
• Bei -äquivalenten oder -parallelen Messungen haben alle Items dieselbe Schwierigkeit und
dieselbe Trennschärfe → Itemfunktionen liegen übereinander
• Keine unterschiedlichen Itemparameter → Lösungswsk = Erwartungswert = Wahrer Wert = PP
B1 | Anwendung der IRT
• Bei geraden Itemfunktionen: Wenn nur der PP die Modellfunktion bestimmt, dann ist
PP = Erwartungswert
• Binomialverteilung: Beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und
unabhängigen Versuchen, die immer nur 2 Ergebnisse haben
B1 | Anwendung der IRT
• Eigenschaften
o Monoton steigend
o Werte zwischen 0 und 1
o Im Mittelbereich nahezu Linearität (starke Steigung)
▪ Im Rasch-Modell: Dort wo IP (Schwierigkeit) = PP (Fähigkeit)
o Nähert sich asymptotisch den Grenzwerten 0 und 1
• Bei einer additiven Konstante b im Exponenten verschieben sich die Graphen auf der X-Achse
o Je größer die Konstante, umso weiter verschiebt sich der Graph nach links
o Im Rasch-Modell steht im Exponenten ein anderes Vorzeichen (minus Itemparameter)
▪ Additive Konstante ist die negative Itemschwierigkeit
▪ Mit größerer Itemschwierigkeit verschiebt sich der Graph nach rechts
• Bei einet multiplikative Konstante a im Exponenten verändert sich die Steigung der Kurve
o Steigungen sind beim Rasch-Modell gleich (a = 1)
▪ Keine multiplikative Konstante
▪ Items haben gleiche Steigerungen und gleiche Trennschärfen
o Annahme einer multiplikativen Konstante nur beim 2-PL- und 3-PL-Modell
B1 | Anwendung der IRT
Additive Konstante b im Exponenten Multiplikative Konstante a im Exponenten
• Likelihood: WSK über alle Personen (dafür steht das erste Multiplikationszeichen) und über jede
Antwort (d. h über jedes Item) berechnen
• Modellgleichung in die Likelihoodfunktion einsetzen, um die WSK herauszufinden
• Daten sind in Form von Xvi vertreten
Inferenzstatistische Tests
Nicht-inferenzstatistische Tests
Informationstheoretische Kriterien Diese Maße setzen den Wert der Likelihoodfunktion (d. h. wie
(IC) wahrscheinlich sind meine der Daten unter der Annahme, dass
→ Anwendung, wenn Bedingungen das Modell gilt) in Beziehung zur Parameteranzahl
der inferenzstatistischen Tests nicht (z. B. Schwierigkeits-, Steigungsparameter)
erfüllt sind → Erlauben den Vergleich konkurrierender Modelle
7.1 Likelihoodquotiententest
• Ist ein globaler (allgemeiner) Modellgeltungstest
• (Maximale) Likelihood L: Angabe, wie gut ein Modell auf die Daten passt
o Je höher, desto besser erklärt das Modell die Daten
o Einschätzung schwierig, wann die Likelihood hoch genug ist
o Komplexe Modelle mit vielen Modellparameter (z. B. unterschiedliche Schwierigkeits- und
Steigungsparameter) haben eher eine höhere Likelihood (d. h. sie passen schnell gut auf
die Daten) als restriktivere Modelle
• Likelihoodquotient 𝐿𝑅=𝐿0/𝐿1
o Quotient zweier Likelihoodwerte derselben Datenmatrix unter zwei unterschiedlichen
Modellen (Modell 0 und Modell 1)
o Testet, ein restriktiveres Modell gegen ein Modell, das auf die Daten passt
→ Kann ein restriktiveres Modell die Daten immer noch genauso gut erklärt?
• Drei Bedingungen müssen (in der Regel) erfüllt sein
1. Modell 1 ist ein echtes Obermodell von Modell 0
▪ Modell 1 passt auf die Daten; Modell 0 ist das restriktivere Modell
▪ D. h. Modell 0 ergibt sich durch eine Restriktion der Parameter von Modell 1
− Obermodell (Modell 1) lässt mehr Modellparameter zu
▪ Bsp.: Modell 1 ist ein saturiertes Modell, Modell 0 ein Rasch-Modell
− Saturiertes Modell beschreibt die Daten perfekt, wird quasi für die Daten
generiert, stellt die maximale L dar
− Modell mit verschiedenen Steigungen wäre auch ein Obermodell
2. Modell 0 ergibt sich NICHT durch Nullsetzen eines Parameters von Modell 1
▪ Bsp.: Im Rasch-Modell sind alle Steigungen = 1
3. Für Modell 1 wurde Modellgültigkeit nachgewiesen
• Sofern die ersten beiden Bedingungen erfüllt sind, gilt: −2∙ln(𝐿𝑅) → χ2 mit 𝑑𝑓 = 𝑛𝑝(𝐿1) − 𝑛𝑝(𝐿0)
wobei 𝑛𝑝 = Jeweilige Anzahl der Parameter
o Wenn man 2 * natürlicher Logarithmus des Likilihoodquotienten rechnet, folgt die Statistik
einer χ2-Verteilung
o Wenn die Prüfstatistik einer bestimmten Verteilung folgt, kann dieser Verteilung ein
Wahrscheinlichkeitswert zugeordnet werden
o Freiheitsgraden entsprechend der Anzahl der Parameter des Modells 1 (Obermodell)
minus der Anzahl der Parameter des Modells 0
• Wenn das restriktivere Modell 0 die Daten genauso gut erklärt wie Modell 1 (𝐿0 = 𝐿1), dann ist
−2∙ln(𝐿𝑅) = 0
o Likelihoodquotient 𝐿𝑅 wäre dann 1, der natürliche Logarithmus von 1 = 0
o D. h., wenn es perfekt passen würde, wäre der Wert von 0 gegeben
→ Kleine Werte sind wünschenswert
• Je kleiner 𝐿0 im Vergleich zu 𝐿1, desto größer ist die χ2 verteilte Teststatistik
o Signifikantes Testergebnis: Modell 0 erklärt die Daten NICHT so gut wie Modell 1
o Wünschenswert ist hier ein NICHT signifikantes Testergebnis (Nullhypothese)
▪ Für ein konservatives Vorgehen: Alpha-Niveau hochsetzen
▪ Test wird bei kleinen Stichproben eher signifikant
B1 | Anwendung der IRT
7.2 Andersen-Test
• Überprüfung der Personenhomogenität
o Items sollen in jeder Teilstichprobe (bei allen Personen) dieselbe Eigenschaft messen
o Daher sollten die Schätzungen der Itemparameter für jede Teilstichprobe gleich sein
• Likelihoodquotienten-Test: Bedingte Likelihood der Gesamtstichprobe geteilt durch die bedingte L
von der ersten Teilstrichprobe mal die bedingte L von der zweiten Teilstrichprobe
• Nullhypothese: Rasch Modell gilt in allen Teilstichproben
→ Itemparameter unterscheiden sich nicht für verschiedene Teilstichproben
o Schätzungen der Itemparameter sollen für verschiedene Personengruppen gleich sein
• Signifikantes Ergebnis: Annahme der Gleichheit der Itemparameter wird verworfen
→ Rasch Modell ist NICHT gegeben
7.4 Martin-Löf-Test
• Ähnelt der Faktorenanalyse
• Überprüfung der Itemhomogenität
o Items werden in zwei Hälften geteilt
o Anschließend geprüft, ob sie dieselbe Eigenschaft/Fähigkeit messen
• Nullhypothese: Rasch-Modell gilt für alle Itemgruppen
o Schätzung der Personenparameter sollte für jede Itemgruppe (ungefähr) gleich sein
o Weil alle Items dieselbe Eigenschaft messen
• Signifikantes Ergebnis: Annahme homogener Testteile mussverworfen werden
→ Rasch Modell ist NICHT gegeben
B1 | Anwendung der IRT
7.5 Q-Index
• Trennschärfeindex
o Trennschärfen (Steigungen) sind beim Rasch-Modell gleich und haben einen
probabilistischen Charakter
o Ist nur ein Indikator; stellt nicht die Steigung (Trennschärrfe) der Items direkt dar
• Vergleich der WSK des beobachteten Antwortmusters mit der WSK eines Gutmann- und Anti-
Gutmann-Antwortmuster unter der Annahme, dass das Rasch Modell gilt
o Q-Index variiert zwischen 0 und 1
▪ Q = 0: Guttmann Antwortmuster
▪ Q = 0.5: Zufälliges Antwortmuster
▪ Q = 1: Anti Guttmann Antwortmuster
o IC-Funktionen sollen ähnlich sein → Q-Indizes der Items sollten ähnlich ausfallen
▪ Q-Index von 0.1 bis 0.3 passt häufig auf die logistische Funktion des Rasch-Modells
▪ Wichtiger ist aber, dass die Q-Indizes ähnlich sind
• Q-Index lässt sich in eine standardnormalverteilte Z-Statistik umwandeln
→ Ermöglicht mittels p-Wert eine inferenzstatistische Überprüfungen, ob ein Antwortmuster von
den unter dem Rasch Modell erwarteten Antwortmuster signifikant abweicht
o Item-Under-Fit: Signifikante Abweichung des Lösungsmuster vom erwarteten
Antwortmuster (p < .05)
▪ Antwortmuster ist zu zufällig
o Item-Over-Fit: Antwortmuster ist zu deterministisch (zu hoher p Wert, p > .95)
▪ Itemfunktion ähnelt eher einer Gutmannskala als des Rasch-Modells
B1 | Anwendung der IRT
• Rasch-Modell wird auch einparametrisches logistisches Modell genannt, weil es neben dem
Person-Parameter einen zusätzlichen Parameter annimmt
• Raschmodell ist ein Spezialfall des Birnbaum-Modells (mit α = 1)
o Werte > 1 sind steiler als das Raschmodell, Werte < 1 sind flacher
Grundlegende Ideen
o Eindimensionalität des latenten Merkmals θ (es wird nur eine latente Variable gemessen)
o Lokale Unabhängigkeit (weil alles auf nur eine latente Variable zurückzuführen ist)
o Doppelte Monotonie
1) Annahme monoton steigender Itemfunktionen
▪ Pi(θ) steigt monoton in θ
▪ Alle Personen weisen hinsichtlich ihrer Lösungswahrscheinlichkeit zu jedem Item
dieselbe Ordnung auf
▪ D. h. eine fähigere Person hat bei jedem Item eine höhere Lösungswsk als eine
weniger fähige Person
2) Itemfunktionen überschneiden sich nicht
▪ aj < aj, dann Pi(θ) > Pj(θ) für alle θ
▪ Alle Items weisen hinsichtlich ihrer Lösungswahrscheinlichkeit für jede Person
dieselbe Ordnung auf
▪ Bei Überschneidungen wären unterschiedlichen Lösungsreihenfolgen gegeben
▪ Z. B. ist Item 1 für jede Person schwieriger als Item 2
• Keine Überschneidung der Itemfunktionen, keine Festlegung des Typs der Itemfunktion
o Nichtparametrisch: Funktion folgt Parametern aber es wird keine Itemfunktion mit
bestimmten Parametern festgelegt