Sie sind auf Seite 1von 5

1) Wie wird die AIG in der Testadaptierung eingesetzt, was ist Testadaptierung, wie kann

Testadaptierung erfolgen?

-Testadaptierung soll sicherstellen, dass der Test über Sprach- und Kulturgrenzen hinweg anwendbar
ist Aufgaben sollten über die gewünschten Sprachversionen hinweg strukturell identisch sein

-Testadaptierung möchte strukturelle Äquivalenz (Messäquivalenz) der Testaufgaben gewährleisten,


daher:
o Abgleich der Definition des zu messenden latenten Traits und seiner Verhaltensindikatoren
 Vorbeugen eines Konstrukt-Bias
o Wahl des Aufgabentyps, der in den Sprachen vergleichbar bekannt ist
 Vorbeugen eines Methoden-Bias
o Transkulturell gut übertragbare Testvorgabebedingungen
o Theoriegeleitete Itemkonstruktion
 Ähnlichkeit der Items anhand ihres Genotyps definiert (radicals)

 kognitionspsychologisch orientierte Ansätze zur AIG eignen sich auch für etwas komplexeres
sprachliches Itemmaterial, um sprachübergreifend administrierbare Tests zu konstruieren
 aufgrund struktureller Unterschiede in verschiedenen Sprachen ist es jedoch häufig schwierig,
genotypisch und phänotypisch identische Items in verschiedenen Sprachen zu generieren (besonders
bei eher einfacher erscheinenden Sprachitems!)
 Genotypisch identische Items eignen sich auch dann als sprachübergreifende Link-Items, wenn
sie phänotypisch unterschiedlich sind
 Link Design: auf diese Weise können messäquivalente Sprachversionen psychometrischer Tests
konstruiert werden (= gemeinsame Aufgabenitemsets, gemeinsam kalibiert; zB 3 gemeinsam,
andere variieren)
 vorliegende Befunde untermauern und ergänzen Befunde aus Neurowissenschaften; Struktur des
Mentalen Lexikons ist über verschiedene Sprachen und Kulturen hinweg identisch

2) Unterschied zwischen Item-Modell-Ansatz/schemabasiert und elementbasiert

Radicals und incidentals dienen im Rahmen der modell- und automatisierten Itemgenerierung als
Beschreibungsparameter für automatisiert erstellte Testaufgaben.

Radicals: = Merkmale, die systematischen Einfluss (‚Haupteffekte‘) auf lösungsrelevante Prozesse und
Wissensstrukturen haben; nachweisbar über IRT-Modelle, multiple Regression, hierarchische
Entscheidungsbäume, MARS …

Unter radicals werden jene Aufgabenmerkmale verstanden, welche als „Haupteffekte“ einen
statistisch signifikanten Beitrag zur Erklärung und Variation psychometrischer Itemeigenschaften (z.B.
der Itemschwierigkeit oder Itemdiskrimination) leisten.

Incidentals = untereinander austauschbare Oberflächenmerkmale


Incitentals hingegen charakterisieren jene Aufgabeneigenschaften, die keinen diesbezüglichen
Erklärungsbeitrag leisten können und daher – untereinander austauschbar – als
„Oberflächenmerkmale“ zur Itemgenerierung eingesetzt werden können.
Constraints: = Funktionale Einschränkungen
Greeno et al. (1993) sprechen in diesen Zusammenhang von sog. „constraints“ im Sinne von
Einschränkungen der durch das Aufgabenmaterial unterstützten Handlungs- und
Bearbeitungsmöglichkeiten.

Elementbasierter Ansatz

- Bauelemente = Radicals & Incidentals, die frei und unabhängig voneinander variiert werden
können
- echte Itemvermehrung, kombinieren von Teilschwierigkeiten (zB bei Schleifen, Matrizen)
Beispiele: ES-Gen, GeomGen, WF-Gen

 Endlosschleifen (Mentale Rotation)

Item-Modell Ansatz, Schablonen/Schemata:


- Feste Kombination aus Radicals & Incidentals = „source item“
(einem Itempool entnommenes Item mit bekannter Problemstruktur und Itemeigenschaften)
Synonyme: Schema, blue print, item shell, template, …
Spezifikation über Konstruktanalyse
 Produkte: item instances, item clones, Isomorphen

- wenn man Incidentals austauscht sollte Schwierigkeit gleichbleiben; man tauscht also nur
Incidentals aus (zB bei Textaufgaben) = isomorph
Nachteil: wenn jemand Schablonen (Strukturen) kennt, kann er alle lösen!
- Itemvervielfachung
Beispiele: Mathemtics-Test-Creation-Assistant, A-Gen

 algebraische Textaufgaben

3) Klassisches Schema des 2 Komponenten Itemgenerators

Spezifikation von Item-Modellen bzw. Radicals & Incidentals im elementbasierten Ansatz reicht nicht
aus, um Testaufgaben definierter psychometrischer Qualität automatisch erzeugen zu können →
‚Generative Komponente‘ & ‚Qualitätssicherungskomponente‘

Ziel:

Konstruktnahe Varianz in Itemmerkmalen → Max.


Konstruktferne (Stör-)Varianz in Itemmerkmalen → Min.

Wie erreichbar?

Definition & Identifikation von Itemmerkmalen (z.B. aufgrund von kognitionspsychologischen


Befunden und darauf aufbauenden psychometrischen Experimenten, vgl. Arendasy, 2005), welche
mit hoher Wahrscheinlichkeit konstruktnahe/ferne Bearbeitungsstrategien evozieren →
Implementation von funktionalen Einschränkungen (‚constraints‘; Greeno et al., 1993) in QS-
Komponente
Beispiel: Itemgeneratoren auf Basis des Patents von Arendasy (2007)

Konstruktionsphasen eines Zwei-Komponenten Itemgenerators (zyklisch, iterativ)

4) Möglichkeiten und Grenzen der AIG/Nutzen

- Erhöhung von Testsicherheit (= all jene Aspekte, die dem Schutz von
Testmaterialien vor unkontrollierter Verbreitung dienen)
-erste Versuche: berufsständische Maßnahmen; spezielle Software; CAT:
Problem Item-Overexposure (Sympson & Hetter, 1985)
-neuere Versuche über AIG
- Präzisierung der psychologisch-diagnostischen Aussage durch systematische
Konstruktion & Validierung (nomothetische Spanne; Konstruktrepräsentation)

- Reduktion von Kosten


-item writing: pro Item z.B. im Hochschuleingangstest GRE für mittelschwere
Items rund USD 1000.- (Wainer, 2002);  Kostenersparnis insbesondere bei
high-stakes-high-volume-testing
-Kalibrierung automatisch generierter Items (I):
Item-Modell-Ansatz: Studien (z.B. Bejar et al., 2003; Embretson, 1999) weisen
auf Möglichkeit der Prognose von Itemparametern von item clones in
Abhängigkeit des Isomorphizitätsgrades der Tochteritems hin: je höher, desto
weniger wirken sich Ungenauigkeiten auf Prognose auf
Personenparameterschätzungen aus

Kalibrierung automatisch generierter Items (II):


Elementbasierter Ansatz: Studien zu linearen Testformen und Prognose von
Personenparametern auf Basis empirischer Itemparameter und prognostizierter
Itemparameter (zB Mislevy, 1993; Freund et al., 2008)
Ergebnis:
bei hinreichend großer Itemzahl (Freund et al., 2008: k=21) und mäßiger Korrelation
zw. empirischen und prognostizierten Itemparametern (0.49-0.71) keine sign.
Unterschiede zwischen den Personenparameterschätzungen; bei
progn.Itemparametern tendenziell: Regression der Personenparameter zur Mitte
(Embretson, 1999)
 Adaptogenes Testen

5) AIG 4 Achsen

Klassifikation anhand von 4 Achsen (Arendasy & Sommer, 2012):

- Grad der inhaltlich-theoretischen Fundierung des Itemmaterials

- Grad der freien Variierbarkeit der Bauelemente des Itemgenerators

- Grad der Automatisierung des eigentlichen Itemgenerierungsprozesses

- Einbeziehung einer Qualitätssicherungskomponente zur Sicherung der psychometrischen &


inhaltlicher Qualität

6) Computergestütztes adaptives Testen

Grundidee des Pyramidalen Testens von Binet & Simon:


- begonnen wird mit altersadäquaten Aufgabe (Start-Bedingung) – biologisches Alter
- Vorgabe zunehmend schwierigerer Aufgaben, bis bestimmte Anzahl in Folge falsch gelöst wird –
Testabbruch (Stop-Bedingung)
- Vorgabe zunehmend leichterer Aufgaben, bis bestimmte Anzahl/alle Aufgaben in Folge richtig
gelöst wird (Basal-Bedingung)  Testaufstieg in Aufgabenset nächsthöherer Altersgruppe

Problem: Vergleichbarkeit von Testwerten von Personen mit unterschiedlicher Anzahl und Art von
bearbeiteten Aufgaben
 Geltung 1PL Rasch Modells für gesamten Itempool ist Voraussetzung!

Wenn Differenz Intelligenzalter – Lebensalter positiv: schwierigere Aufgaben (negativ: leichtere)

Flexilevel Algorithmus, Lord:


Einsatz in KTT
- Hälfte des Tests wird in zusammenhängendem Block von nach Schwierigkeit geordneten Aufgaben
vorgegeben
- Start: Mittelschwieriges Item (zB 6)
- Ablauf: 6 richtig – 7 falsch – 5 richtig – 8 falsch – 4 falsch – 3 richtig
- Stop: 3 Items nicht gelöst oder Hälfte der zusammenhängenden Items vorgegeben (6 Items)
Rohwert = Itemnummer des schwierigsten, richtig bearbeiteten Items ab leichtestem Item (= 6)
Problem: spezifische objektive Vergleiche nicht möglich, man kann auf unterschiedliche Weise auf
Rohwert 6 kommen, Aufgaben unterschiedlich schwierig

Two Stage Testing, Lord:


Einsatz in KTT
Start: Routing Test (10 Items, Auswahl auf Basis von Alter, Geschlecht etc)
Stop: Measurement Test (30 Items)
Rohwert: Anteil richtig gelöster Aufgaben an Gesamtaufgaben

immer nur informative Teilmenge vorgegeben, andere als richtig/falsch angenommen


 es werden nicht belegbare Annahmen getroffen!
wenn man einmal zur leichteren Itemgruppe weitergeleitet wird, kommt man nicht mehr raus!

Ten Stage Pyramidal Testing, Larkin & Weiss:


Einsatz in KTT
Start: mittelschwieriges Item (Spitze Pyramide)
Stop: nach 10 Items
Rohwert: Anteil richtig gelöster Items an Gesamtaufgaben

Es wird immer entschieden ob gelöst/ungelöst (10 Items)  wenn immer richtig – 1 % der Stichprobe
Überprüfung ob Test funktioniert: nicht viele Richtungsänderungen
(wenn viele: liegt an klassischen Itemschwierigkeiten)

Das könnte Ihnen auch gefallen