Sie sind auf Seite 1von 19

B1 | Anwendung der IRT

IRT-Modelle
1 Arten von Itemfunktionen
• Drei Schritte zur Bestimmung der Itemfunktionen eines Tests anhand von Testdaten
o Annahme des Funktionsverlaufs (z. B. stufenförmig, monoton steigend)
o Schätzung von Modellparametern (z. B. Itemschwierigkeit, Personenparameter)
o Modellgeltungstest (Wie gut passt das Modell auf Daten?)
• Itemfunktionen sind abhängig von der Itemantwort und der Eigenschaft der Person
o X-Achse: Persönlichkeitsmerkmal
o Y-Achse: Lösungswahrscheinlichkeit (von 0 bis 1)
• Zwei Typen von IC Funktionen (Modelle)
o Deterministische Itemcharakteristiken
▪ Sprung in der Kurve: Lösungswahrscheinlichkeit springt bei einem kritischen PP-
Wert von 0 auf 100% (z. B. bei einem Aha-Erlebnis)
o Probabilistische Itemcharakteristiken
▪ Annahme einer stochastischen Beziehung zwischen Personenparameter,
Itemparameter und Lösungswahrscheinlichkeit
→ Lösungswahrscheinlichkeiten in allen Abstufungen zwischen 0 und 1 möglich
▪ Funktionen sind i. d. R. monoton steigend
− D. h. je höher der PP, desto höher die Lösungswahrscheinlichkeit

2 Deterministische Itemcharakteristiken
2.1 Guttman-Skala
= Modelle mit stufenförmigen Itemfunktionen

• Strich: Cut-Off-Wert für jedes Item, ab dem es auf jeden Fall gelöst wird („Aha-Erlebnis“)
• Personen, die z. B. auf Strich 3 sind, lösen auch auf jeden Fall alle leichteren Items
B1 | Anwendung der IRT
• Grundidee: Item wird bei einem kritischen Wert des Personenparameters gelöst
→ Lösungswahrscheinlichkeit springt von Null auf Eins
o Lösungswahrscheinlichkeit wird vollständig von Item- und Personenparameter bestimmt
o Alle oder nichts Item-Charakteristik (entweder 0 oder 1)
• Annahmen
o Alle ICCs sind stufenförmig
o Alle Items lassen sich auf derselben Dimension anordnen
• Folgerungen
o Ordinalskalenniveau der latenten Variablen
▪ Keine weiteren Abstufungen, nur Rangfolge
▪ Nur Aussage, dass die Person besser/schlechter ist, aber nicht wie viel
o Anzahl der Eigenschaftsausprägungen = Itemanzahl + 1
▪ + 1 für die Gruppe, die kein Item löst

2.2 Prüfung der Modellgeltung einer Guttman-Skala


• Vorgehen: Items und Personen in einer Dreiecksmatrix jeweils in aufsteigender Reihenfolge ihrer
Scores sortieren
o Zuerst alle möglichen Antwortmuster auflisten
▪ Spalten (r, s. t) = Items; Zeilen (k, l, j, i, h) = Personen
▪ In der Stichprobe sind die rosa hinterlegten Antwortmuster gegeben
o Dann die Antwortmuster der Personen nach Rangfolge (nach Nullen und Einsen) sortieren
o Ergib sich die Dreiecksstruktur, gilt die Skala
• Ein unerlaubtes Antwortmuster falsifiziert bereits die Guttman-Skala
o Die Rangfolge der Itemschwierigkeiten darf sich nicht umdrehen
o Das Item, das für eine Person schwieriger ist, muss auch für die anderen Personen
schwieriger sein
o Löst eine Person Item 3, muss sie auch die beiden leichten Items gelöst haben
• Parameterschätzung ist unproblematisch, weil im Summenscore schon alle Informationen
enthalten sind
B1 | Anwendung der IRT

Nein, denn ab und an lösen Personen schwierigere Aufgaben, obwohl sie leichtere nicht lösen konnten
→ Unterschiedliche Reihenfolgen, keine Dreiecksstruktur gegeben

2.3 Erweiterung des Guttman-Modells


B1 | Anwendung der IRT

3 Modelle mit geraden Itemfunktionen

• Modelle mit geraden Itemfunktionen bei dichotomen Items sind Modelle der KTT
• Person = v; Item = i
• Item ist dichotom → Antworten 0 oder 1
• (4) Berechnung des Erwartungswertes: WSK aller Antwortmöglichkeiten aufsummieren
o 0 * WSK das Item nicht zu lösen + 1 * WSK das Item zu lösen
o Term, der mit Null multipliziert wird, fällt weg
• (5): Lösungswahrscheinlichkeit für Item i = Wahrer Wert
• Hier wurden die Axiome der KTT auf dichotome Items mit Wahrscheinlichkeiten angewendet

3.1 Itemfunktion des Modells -äquivalenter oder -paralleler Messungen


Wenn gleich schwierige und gleich trennscharfer Items dieselbe latente Variable θV erfassen, ergibt sich
folgende Itemfunktion:

• Bei -äquivalenten oder -parallelen Messungen haben alle Items dieselbe Schwierigkeit und
dieselbe Trennschärfe → Itemfunktionen liegen übereinander
• Keine unterschiedlichen Itemparameter → Lösungswsk = Erwartungswert = Wahrer Wert = PP
B1 | Anwendung der IRT

3.2 Modellgleichung von Modellen mit geraden Itemfunktionen


• Modellgleichung = Funktion, die die Antwortwahrscheinlichkeit einer Person auf ein Item in
Abhängigkeit von den Modellparametern spezifiziert
o Beinhaltet die WSK für alle möglichen Antworten (0 und 1)
• Modellgleichung von Modellen mit geraden Itemfunktionen
o Bei dichotomen Items ist die WSK für eine 0 ist die Gegenwsk
o Hoch 0 ergibt eine 1

3.3 Schätzung der Parameter bei Modellen mit geraden Itemfunktionen


Maximum Likelihood

• Likelihoodfunktion beschreibt die Wahrscheinlichkeit einer Datenmatrix unter der Annahme,


dass das Modell gilt
o D. h. wie gut meine Daten auf das angenommen Modell passen
o Likelihood hilft bei der Schätzung der Parameter; dafür benötigt man die angenommene
Modellgleichung
o Multiplikation der Einzelwsk → Ergibt die WSK der gesamten Datenmatrix
▪ Hier werden die WSK aller Ereignisse der gesamte Datenmatrix multipliziert
o Formel lässt sich anhand der Anzahl der Erfolge vereinfachen
▪ Bsp.: Person hat alle 3 Items richtig gelöst → Theta * Theta * Theta = Theta hoch 3
• Modellparameter sind so zu wählen, dass L maximal wird
B1 | Anwendung der IRT

3.4 Itemfunktionen bei unterschiedlichen Itemschwierigkeiten und Trennschärfen

• Essenziell: Unterschiedliche Itemschwierigkeiten → Zusätzlich Itemparameter


• Kongenerisch: Unterschiedliche Itemschwierigkeiten und Trennschärfen
→ Zusätzlich Itemparameter und Parameter für unterschiedliche Trennschärfen
• Problem von geraden Itemfunktionen bei unterschiedlichen Itemschwierigkeiten/Trennschärfen:
In bestimmten Bereichen ist die latente Variable nicht definiert!

3.5 Zusammenfassung des Konzepts linearer Itemfunktionen

• Bei geraden Itemfunktionen: Wenn nur der PP die Modellfunktion bestimmt, dann ist
PP = Erwartungswert
• Binomialverteilung: Beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und
unabhängigen Versuchen, die immer nur 2 Ergebnisse haben
B1 | Anwendung der IRT

4 Das dichotome Rasch-Modell


4.1 Modellannahmen des Rasch-Modells
• Probabilistischer Zusammenhang: In Abhängigkeit von der Höhe von Item- und
Personenparameter lässt sich dem Ereignis „Item wird gelöst“ ein Wahrscheinlichkeitswert
zuordnen
• Wahrscheinlichkeitsfunktion bildet diese Annahmen über die Parameter ab
o Ist eine logistische Funktion; hier sind alle Bereiche definiert

4.2 Eigenschaften einer logistischen Funktion

• Eigenschaften
o Monoton steigend
o Werte zwischen 0 und 1
o Im Mittelbereich nahezu Linearität (starke Steigung)
▪ Im Rasch-Modell: Dort wo IP (Schwierigkeit) = PP (Fähigkeit)
o Nähert sich asymptotisch den Grenzwerten 0 und 1
• Bei einer additiven Konstante b im Exponenten verschieben sich die Graphen auf der X-Achse
o Je größer die Konstante, umso weiter verschiebt sich der Graph nach links
o Im Rasch-Modell steht im Exponenten ein anderes Vorzeichen (minus Itemparameter)
▪ Additive Konstante ist die negative Itemschwierigkeit
▪ Mit größerer Itemschwierigkeit verschiebt sich der Graph nach rechts
• Bei einet multiplikative Konstante a im Exponenten verändert sich die Steigung der Kurve
o Steigungen sind beim Rasch-Modell gleich (a = 1)
▪ Keine multiplikative Konstante
▪ Items haben gleiche Steigerungen und gleiche Trennschärfen
o Annahme einer multiplikativen Konstante nur beim 2-PL- und 3-PL-Modell
B1 | Anwendung der IRT
Additive Konstante b im Exponenten Multiplikative Konstante a im Exponenten

4.3 Warum die logistische Verteilung?


• Aus der Empirie leitet sich häufig eine kumulative Normalverteilung als Modell für die latente
Variable ab (besitzt aber eine komplizierte Funktion)
• Die logistische Verteilung ist eine präzise und unkompliziertere Approximation
(ist einfacher und sehr ähnlich, passt gut auf empirische Daten)

4.4 Änderungen von p(x) in Abhängigkeit von θ und σ im dichotomen Rasch-Modell


• Bei gleicher Fähigkeit θ und Itemschwierigkeit σ…
o Lösungswahrscheinlichkeit = 50%
o hat die logistische Funktion ihren Wendepunkt
• Je mehr die Fähigkeit die Itemschwierigkeit übersteigt (d. h., je positiver die Differenz θ – σ),
desto größer wird die Lösungswahrscheinlichkeit
• Lösungswahrscheinlichkeit steigt bei geringeren Differenzen schneller an
→ Sehr gute Differenzierung im mittleren Bereich
o Im mittleren Bereich ist die stärkste Steigung
o Itemschwierigkeit und Fähigkeit werden sich da immer ähnlicher
B1 | Anwendung der IRT

5 Modellgleichung und Likelihoodfunktion des Rasch-Modells

Das Komplement der Lösungswahrscheinlichkeit lautet:

Die Zusammenfassung von Lösungs- und Gegenwahrscheinlichkeit führt zur Modellgleichung:

Die Likelihoodfunktion lautet:

• Likelihood: WSK über alle Personen (dafür steht das erste Multiplikationszeichen) und über jede
Antwort (d. h über jedes Item) berechnen
• Modellgleichung in die Likelihoodfunktion einsetzen, um die WSK herauszufinden
• Daten sind in Form von Xvi vertreten

5.1 Parameterschätzung im Rasch-Modell


• Ableitungen der Likelihoodfunktion (im Raschmodell: PP und IP) enthalten mehrere Unbekannte
und müssen geschätzt werden
• Parameterschätzung erfolgt über iterative Verfahren
o D. h. Wiederholte Schätzvorgänge, um sich an den besten Schätzungen (für die sich Lmax
ergibt) anzunähern
o Wann ist die WSK meiner Datenmatrix unter der Annahme, dass das Modell gilt, am
größten?
• Höhe der Likelihood variiert in Abhängigkeit von den Parameterschätzungen
o Wird bei ungünstigen Parametern niedriger
B1 | Anwendung der IRT

5.2 Beispiel-Berechnung der Likelihood

5.2.1 Likelihood bei günstigen Parametern


• Item 1 ist leichter als Item 2 → Erhält einen niedrigeren Schwierigkeitsparameter als Item 2
o z. B. σ^1 = –1 und σ^1 = 1
o ^ Dach, weil Parameter geschätzt sind
• Reihenfolge der Merkmalsausprägungen der Personen: P1 > P2 > P3
o z .B. Personenparameter ^1 = 2 und ^2 = 0 und ^3 = –2

5.2.2 Likelihood bei ungünstigen Parametern


Wenn dem Probanden, der am meisten Items gelöst hat, der niedrigste Personenparameter zugeordnet
wird (^1 = –2 und ^2 = 0 und ^3 = 2), ergibt sich dagegen folgende Likelihood:

L = 0.269 ∙ 0.731 ∙ 0.047 ∙ 0.047 ∙ 0.731 ∙ 0.269 = 0.00009


B1 | Anwendung der IRT

5.3 Arten der Maximum Likelihood Schätzungen


• Unbedingte Maximum-Likelihood-Schätzung
o Item- und Personenparameter werden gemeinsam iterativ geschätzt
o Problem: Hier kein Vorteil von größeren Stichproben, da dann mehr PP geschätzt werden
müssen → Verzerrte Schätzung bzw. genaue Schätzung der IP und PP hier schwierig
• Conditional Maximum-Likelihood Schätzung
o Effizientere Methode, nur beim Rasch-Modell möglich
o Beim Rasch-Modell hängt die WSK der Daten nur davon ab, wie viele Personen ein Item
gelöst haben bzw. wie viele Items von einer Person gelöst wurden
▪ NICHT welche Person welches Item gelöst hat
▪ D. h. Personenscore enthält alle Informationen; Betrachtung der Antwortmuster
nicht notwendig
o Vorgehen: IP iterativ festlegen und mit deren Hilfe anschließend die PP bestimmen
▪ Iterative Schätzung der Itemparameter ohne Berücksichtigung der
Personenparameter
− Bei der Parameterschätzungen können die PP in der Gleichung rausgekürzt
werden
▪ Anschließend Bestimmung der Personenparameter
• Marginale Maximum-Likelihood-Schätzung:
o Bestimmte Form der Verteilung der latenten Variable wird angenommen
o Iterative Schätzung der Itemparameter ohne Berücksichtigung der Personenparameter
möglich

6 Modelleigenschaften des Rasch-Modells


I. Item- /Raschhomogenität
II. Erschöpfende Statistiken
III. Modellparameter besitzen Differenzenskalenniveau
IV. Spezifische Objektivität
V. Stichprobenunabhängigkeit der Parameterschätzungen

6.1 Item-/ Raschhomogenität


• Items erfassen dasselbe latente Konstrukt
• Zusammenhang zwischen der Antwortwahrscheinlichkeit und dem latenten Konstrukt folgt
folgender Funktion:

• Itemcharakteristische Kurven verlaufen gleichartig und dürfen sich nicht schneiden


→ Für jedes Item ist dessen Lösungswahrscheinlichkeit für tüchtigere Personen größer als für
weniger tüchtige
• Nicht homogene Items werden bei der Testkonstruktion eliminiert
B1 | Anwendung der IRT

6.2 Summenscores als erschöpfende Statistik


• Anzahl der gelösten Aufgaben einer Person enthält alle Informationen über die Ausprägung auf
der latenten Variable
o Es ist nur bedeutsam, wie viele Items gelöst wurden
o NICHT: Welche Items eine Person gelöst hat
• Anzahl der Personen, die ein Item gelöst haben, enthält alle Informationen über den
Schwierigkeitsparameter des Items
o Es ist nur bedeutsam, wie viele Personen das Item gelöst haben
o NICHT: Welche Personen das Item gelöst haben
• Zeilen- und Spaltensummenscores sind suffiziente/erschöpfende Statistiken
o Schätzer nutzt alle in den Daten enthaltene Informationen
o Es gibt keinen weiteren Schätzer mit zusätzlichen Informationen über den Parameter

6.3 Item- und Personenparameter besitzen Differenzskalenniveau


• Lösungswahrscheinlichkeit einer Person bei einem Item hängt nur von der Differenz von
Personen und Itemparameter ab
• Wenn zu dem Itemparameter und Personenparameter dieselbe Konstante addiert wird, ändern
sich die Lösungswahrscheinlichkeiten nicht (Addieren ist erlaubt, Multiplizieren wie bei dem
Verhältnisskalenniveau aber nicht)
→ Menge der Personen und Itemparameter sind gemeinsam verschiebbar und müssen an
irgendeinen Punkt fixiert werden
• Differenzskala: Einheit liegt fest (aufgrund der gemeinsamen Skala der IP und PP), aber nicht der
Nullpunkt (weil Verschiebungen um eine Konstanze möglichen wären)

6.4 Spezifische Objektivität


• Innerhalb einer Population mit Modellkonformität sind Item- und Personenparameter für einen
Pb (und bei Probandenvergleichen) ungefähr immer gleich; unabhängig von der
Merkmalsausprägung des Pb und von den bearbeiteten Items
o Vergleich von zwei Personen ist unabhängig von den eingesetzten Items
o Vergleich von zwei Items in Bezug auf ihre Schwierigkeit ist unabhängig von den Personen
• Gegensatz zur KTT ! Hier können sich die Rangplätze von Personen ändern, wenn ihre Leistung
mit verschiedenen Items beurteilt wird
• Alle IC-Funktionen besitzen die gleiche Form und sind nur entlang der θ-Achse verschoben
→ Aufgrund der Parallelität der IC-Funktionen bleibt die Rangreihe der Itemschwierigkeiten und
der Lösungswahrscheinlichkeiten der Personen gleich

6.5 Stichprobenunabhängigkeit der Parameterschätzung


• Itemparameter können unabhängig von der Kenntnis der Personenparameter und
Personenparameter unabhängig von Itemparametern geschätzt werden
→ Conditional Maximum-Likelihood Schätzung möglich
• Keine Verteilungsannahmen über unbekannte Parameter notwendig
B1 | Anwendung der IRT

7 Empirische Modelltests des Rasch-Modells


• Empirische Überprüfung der Modellkonformität
→ Treffen die Eigenschaften des Rasch-Modells zu?
• Mind. Andersen-Test und Martin-Löf-Test durchführen

Inferenzstatistische Tests

Likelihood-Quotienten-Test gegen das


Weichen die beobachteten Antwortmuster insgesamt von den
saturierte Modell
Modellerwartungen ab?
(Reproduzierbarkeit der Patternhäufigkeiten)
Pearson- χ2-Test

Hierbei werden zwei (Personen-) Teilstichproben verglichen:


Andersen-Test Misst der Test bei allen Personen dieselbe Eigenschaft
(Personenhomogenität)?

Hierbei werden zwei Itemstichproben verglichen:


Martin-Löf-Test Messen die Testhälften dieselbe Eigenschaft
(Itemhomogenität)?

Nicht-inferenzstatistische Tests

Liegen die geschätzten Parameter zweier Teilstichproben auf der


Grafischer Modelltest
Diagonalen eines Streudiagramms?
(gehört quasi zum Andersen-Test)
→ Ermöglicht die Betrachtung einzelner (problematischer) Items

Informationstheoretische Kriterien Diese Maße setzen den Wert der Likelihoodfunktion (d. h. wie
(IC) wahrscheinlich sind meine der Daten unter der Annahme, dass
→ Anwendung, wenn Bedingungen das Modell gilt) in Beziehung zur Parameteranzahl
der inferenzstatistischen Tests nicht (z. B. Schwierigkeits-, Steigungsparameter)
erfüllt sind → Erlauben den Vergleich konkurrierender Modelle

Trennschärfeindex, mit dem der probabilistische Charakter jedes


Q-Index
Items beurteilt werden kann
B1 | Anwendung der IRT

7.1 Likelihoodquotiententest
• Ist ein globaler (allgemeiner) Modellgeltungstest
• (Maximale) Likelihood L: Angabe, wie gut ein Modell auf die Daten passt
o Je höher, desto besser erklärt das Modell die Daten
o Einschätzung schwierig, wann die Likelihood hoch genug ist
o Komplexe Modelle mit vielen Modellparameter (z. B. unterschiedliche Schwierigkeits- und
Steigungsparameter) haben eher eine höhere Likelihood (d. h. sie passen schnell gut auf
die Daten) als restriktivere Modelle
• Likelihoodquotient 𝐿𝑅=𝐿0/𝐿1
o Quotient zweier Likelihoodwerte derselben Datenmatrix unter zwei unterschiedlichen
Modellen (Modell 0 und Modell 1)
o Testet, ein restriktiveres Modell gegen ein Modell, das auf die Daten passt
→ Kann ein restriktiveres Modell die Daten immer noch genauso gut erklärt?
• Drei Bedingungen müssen (in der Regel) erfüllt sein
1. Modell 1 ist ein echtes Obermodell von Modell 0
▪ Modell 1 passt auf die Daten; Modell 0 ist das restriktivere Modell
▪ D. h. Modell 0 ergibt sich durch eine Restriktion der Parameter von Modell 1
− Obermodell (Modell 1) lässt mehr Modellparameter zu
▪ Bsp.: Modell 1 ist ein saturiertes Modell, Modell 0 ein Rasch-Modell
− Saturiertes Modell beschreibt die Daten perfekt, wird quasi für die Daten
generiert, stellt die maximale L dar
− Modell mit verschiedenen Steigungen wäre auch ein Obermodell
2. Modell 0 ergibt sich NICHT durch Nullsetzen eines Parameters von Modell 1
▪ Bsp.: Im Rasch-Modell sind alle Steigungen = 1
3. Für Modell 1 wurde Modellgültigkeit nachgewiesen
• Sofern die ersten beiden Bedingungen erfüllt sind, gilt: −2∙ln(𝐿𝑅) → χ2 mit 𝑑𝑓 = 𝑛𝑝(𝐿1) − 𝑛𝑝(𝐿0)
wobei 𝑛𝑝 = Jeweilige Anzahl der Parameter
o Wenn man 2 * natürlicher Logarithmus des Likilihoodquotienten rechnet, folgt die Statistik
einer χ2-Verteilung
o Wenn die Prüfstatistik einer bestimmten Verteilung folgt, kann dieser Verteilung ein
Wahrscheinlichkeitswert zugeordnet werden
o Freiheitsgraden entsprechend der Anzahl der Parameter des Modells 1 (Obermodell)
minus der Anzahl der Parameter des Modells 0
• Wenn das restriktivere Modell 0 die Daten genauso gut erklärt wie Modell 1 (𝐿0 = 𝐿1), dann ist
−2∙ln(𝐿𝑅) = 0
o Likelihoodquotient 𝐿𝑅 wäre dann 1, der natürliche Logarithmus von 1 = 0
o D. h., wenn es perfekt passen würde, wäre der Wert von 0 gegeben
→ Kleine Werte sind wünschenswert
• Je kleiner 𝐿0 im Vergleich zu 𝐿1, desto größer ist die χ2 verteilte Teststatistik
o Signifikantes Testergebnis: Modell 0 erklärt die Daten NICHT so gut wie Modell 1
o Wünschenswert ist hier ein NICHT signifikantes Testergebnis (Nullhypothese)
▪ Für ein konservatives Vorgehen: Alpha-Niveau hochsetzen
▪ Test wird bei kleinen Stichproben eher signifikant
B1 | Anwendung der IRT

7.2 Andersen-Test
• Überprüfung der Personenhomogenität
o Items sollen in jeder Teilstichprobe (bei allen Personen) dieselbe Eigenschaft messen
o Daher sollten die Schätzungen der Itemparameter für jede Teilstichprobe gleich sein
• Likelihoodquotienten-Test: Bedingte Likelihood der Gesamtstichprobe geteilt durch die bedingte L
von der ersten Teilstrichprobe mal die bedingte L von der zweiten Teilstrichprobe
• Nullhypothese: Rasch Modell gilt in allen Teilstichproben
→ Itemparameter unterscheiden sich nicht für verschiedene Teilstichproben
o Schätzungen der Itemparameter sollen für verschiedene Personengruppen gleich sein
• Signifikantes Ergebnis: Annahme der Gleichheit der Itemparameter wird verworfen
→ Rasch Modell ist NICHT gegeben

7.3 Grafischer Modelltest


• Prüft Personenhomogenität
• Ziel: (Nach signifikanten Andersen Test)
problematische Items identifizieren
• Darstellung der Itemparameter für zwei
Teilstichproben in einem Streudiagramm
o Bei Übereinstimmung der geschätzten
Itemparamter der beiden Stichproben
liegen alle Punkte auf einer 45 Grad Linie
o Je weiter die Punkte von der 45 Grad Linie
abweichen, desto stärker unterscheiden Hier liegen die Punkte relativ nah an der Linie
sich die Teilstichproben in den geschätzten (nur leichte Abweichungen; kein Ausreißer)
Itemschwierigkeiten → Test wahrscheinlich nicht signifikant

7.4 Martin-Löf-Test
• Ähnelt der Faktorenanalyse
• Überprüfung der Itemhomogenität
o Items werden in zwei Hälften geteilt
o Anschließend geprüft, ob sie dieselbe Eigenschaft/Fähigkeit messen
• Nullhypothese: Rasch-Modell gilt für alle Itemgruppen
o Schätzung der Personenparameter sollte für jede Itemgruppe (ungefähr) gleich sein
o Weil alle Items dieselbe Eigenschaft messen
• Signifikantes Ergebnis: Annahme homogener Testteile mussverworfen werden
→ Rasch Modell ist NICHT gegeben
B1 | Anwendung der IRT

7.5 Q-Index
• Trennschärfeindex
o Trennschärfen (Steigungen) sind beim Rasch-Modell gleich und haben einen
probabilistischen Charakter
o Ist nur ein Indikator; stellt nicht die Steigung (Trennschärrfe) der Items direkt dar
• Vergleich der WSK des beobachteten Antwortmusters mit der WSK eines Gutmann- und Anti-
Gutmann-Antwortmuster unter der Annahme, dass das Rasch Modell gilt
o Q-Index variiert zwischen 0 und 1
▪ Q = 0: Guttmann Antwortmuster
▪ Q = 0.5: Zufälliges Antwortmuster
▪ Q = 1: Anti Guttmann Antwortmuster
o IC-Funktionen sollen ähnlich sein → Q-Indizes der Items sollten ähnlich ausfallen
▪ Q-Index von 0.1 bis 0.3 passt häufig auf die logistische Funktion des Rasch-Modells
▪ Wichtiger ist aber, dass die Q-Indizes ähnlich sind
• Q-Index lässt sich in eine standardnormalverteilte Z-Statistik umwandeln
→ Ermöglicht mittels p-Wert eine inferenzstatistische Überprüfungen, ob ein Antwortmuster von
den unter dem Rasch Modell erwarteten Antwortmuster signifikant abweicht
o Item-Under-Fit: Signifikante Abweichung des Lösungsmuster vom erwarteten
Antwortmuster (p < .05)
▪ Antwortmuster ist zu zufällig
o Item-Over-Fit: Antwortmuster ist zu deterministisch (zu hoher p Wert, p > .95)
▪ Itemfunktion ähnelt eher einer Gutmannskala als des Rasch-Modells
B1 | Anwendung der IRT

7.6 Beispielhaftes Vorgehen bei der Rasch-Modelltestung (Bühner, 2011)

• Beginn mit dem Andersen-Test


• Überprüfung der Itemhomogenität neben Martin-Löf-Test auch mittels Faktorenanalyse möglich
o Auch die Faktorenanalyse prüft, ob verschiedene Itemgruppen gegeben sind, die
unterschiedliche Eigenschaften messen
o Rasch-Modell bei einem identifizierten Faktor beibehalten
• Rasch-Modell gegen das Mix-Rasch-Modell prüfen
o Mix-Rasch-Modell: Rasch-Modell gilt nicht für die Gesamtstichprobe, sondern nur
innerhalb verschiedener Personengruppen
o Rasch-Modell beibehalten, wenn der Vergleich NICHT signifikant ist
→ Mix-Rasch-Modell passt nämlich nicht besser auf die Daten
o Bsp.: Psychologie-Studenten haben bei einem Intelligenz-Test andere Lösungswege als
BWL-Studenten, innerhalb dieser Gruppen werden die Items aber gleich gelöst
B1 | Anwendung der IRT

8 Verschieden parametrische IRT-Modelle

• Rasch-Modell wird auch einparametrisches logistisches Modell genannt, weil es neben dem
Person-Parameter einen zusätzlichen Parameter annimmt
• Raschmodell ist ein Spezialfall des Birnbaum-Modells (mit α = 1)
o Werte > 1 sind steiler als das Raschmodell, Werte < 1 sind flacher

8.1 Birnbaum-Modell (2-PL)


• Verschiedene Lagen und unterschiedliche Steigung der Itemfunktionen
→ Kurven können sich auch schneiden
• Je höher der Diskriminationsparameter (α), desto...
o … steiler verläuft die IC-Funktion an ihrem Wendepunkt
o … stärker trennen/diskriminieren die Items zwischen Personen (= größere Trennschärfe)
• Problem aufgrund der möglichen Überschneidungen der IC-Funktionen: Unterschiedliche
Personen können bei verschiedenen Items unterschiedliche Lösungsreihenfolgen besitzen
o Summenscore ist KEINE suffiziente Statistik
▪ Im Summenscore sind nicht mehr alle Informationen von den Antworten enthalten
▪ Bei der Scorebildung ist eine Gewichtung der Messwerte mit den
Itemtrennschärfen nötig
▪ Muster der Item- Antworten muss zur Schätzung der Fähigkeitsausprägung der
Person berücksichtigt werden
o Spezifische Objektivität liegt NICHT vor
▪ Vergleich von zwei Personen ist abhängig von den betrachteten Items
▪ Vergleich von zwei Items ist abhängig von den betrachteten Personen

8.2 Dreiparametriges logistisches Modell (3-PL)


• Zusätzliche Berücksichtigung von Rate- bzw. Irrtumswahrscheinlichkeit
• Rateparameter: Untere Asymptote der Itemfunktion
o Welchem Wert sich die IC Funktion bei kleiner werdendem Wert des
Persönlichkeitsparameters asymptotisch annähert
B1 | Anwendung der IRT

9 Nichtparametrische Modelle (z. B. Mokken-Skala)

 Grundlegende Ideen
o Eindimensionalität des latenten Merkmals θ (es wird nur eine latente Variable gemessen)
o Lokale Unabhängigkeit (weil alles auf nur eine latente Variable zurückzuführen ist)
o Doppelte Monotonie
1) Annahme monoton steigender Itemfunktionen
▪ Pi(θ) steigt monoton in θ
▪ Alle Personen weisen hinsichtlich ihrer Lösungswahrscheinlichkeit zu jedem Item
dieselbe Ordnung auf
▪ D. h. eine fähigere Person hat bei jedem Item eine höhere Lösungswsk als eine
weniger fähige Person
2) Itemfunktionen überschneiden sich nicht
▪ aj < aj, dann Pi(θ) > Pj(θ) für alle θ
▪ Alle Items weisen hinsichtlich ihrer Lösungswahrscheinlichkeit für jede Person
dieselbe Ordnung auf
▪ Bei Überschneidungen wären unterschiedlichen Lösungsreihenfolgen gegeben
▪ Z. B. ist Item 1 für jede Person schwieriger als Item 2
• Keine Überschneidung der Itemfunktionen, keine Festlegung des Typs der Itemfunktion
o Nichtparametrisch: Funktion folgt Parametern aber es wird keine Itemfunktion mit
bestimmten Parametern festgelegt

Das könnte Ihnen auch gefallen