Testkostruktion Marlies

1) Wie wird die AIG in der Testadaptierung eingesetzt, was ist Testadaptierung, wie kann
Testadaptierung erfolgen?
-Testadaptierung soll sicherstellen, dass der Test über Sprach- und Kulturgrenzen hinweg anwendbar
ist Aufgaben sollten über die gewünschten Sprachversionen hinweg strukturell identisch sein
-Testadaptierung möchte strukturelle Äquivalenz (Messäquivalenz) der Testaufgaben gewährleisten,

daher:
o Abgleich der Definition des zu messenden latenten Traits und seiner Verhaltensindikatoren
 Vorbeugen eines Konstrukt-Bias
o Wahl des Aufgabentyps, der in den Sprachen vergleichbar bekannt ist
 Vorbeugen eines Methoden-Bias
o Transkulturell gut übertragbare Testvorgabebedingungen
o Theoriegeleitete Itemkonstruktion
 Ähnlichkeit der Items anhand ihres Genotyps definiert (radicals)
 kognitionspsychologisch orientierte Ansätze zur AIG eignen sich auch für etwas komplexeres
sprachliches Itemmaterial, um sprachübergreifend administrierbare Tests zu konstruieren
 aufgrund struktureller Unterschiede in verschiedenen Sprachen ist es jedoch häufig schwierig,
genotypisch und phänotypisch identische Items in verschiedenen Sprachen zu generieren (besonders
bei eher einfacher erscheinenden Sprachitems!)
 Genotypisch identische Items eignen sich auch dann als sprachübergreifende Link-Items, wenn
sie phänotypisch unterschiedlich sind
 Link Design: auf diese Weise können messäquivalente Sprachversionen psychometrischer Tests
konstruiert werden (= gemeinsame Aufgabenitemsets, gemeinsam kalibiert; zB 3 gemeinsam,
andere variieren)
 vorliegende Befunde untermauern und ergänzen Befunde aus Neurowissenschaften; Struktur des
Mentalen Lexikons ist über verschiedene Sprachen und Kulturen hinweg identisch
2) Unterschied zwischen Item-Modell-Ansatz/schemabasiert und elementbasiert
Radicals und incidentals dienen im Rahmen der modell- und automatisierten Itemgenerierung als
Beschreibungsparameter für automatisiert erstellte Testaufgaben.
Radicals: = Merkmale, die systematischen Einfluss (‚Haupteffekte‘) auf lösungsrelevante Prozesse und
Wissensstrukturen haben; nachweisbar über IRT-Modelle, multiple Regression, hierarchische
Entscheidungsbäume, MARS …
Unter radicals werden jene Aufgabenmerkmale verstanden, welche als „Haupteffekte“ einen
statistisch signifikanten Beitrag zur Erklärung und Variation psychometrischer Itemeigenschaften (z.B.
der Itemschwierigkeit oder Itemdiskrimination) leisten.
Incidentals = untereinander austauschbare Oberflächenmerkmale

Incitentals hingegen charakterisieren jene Aufgabeneigenschaften, die keinen diesbezüglichen
Erklärungsbeitrag leisten können und daher – untereinander austauschbar – als
„Oberflächenmerkmale“ zur Itemgenerierung eingesetzt werden können.
Constraints: = Funktionale Einschränkungen
Greeno et al. (1993) sprechen in diesen Zusammenhang von sog. „constraints“ im Sinne von
Einschränkungen der durch das Aufgabenmaterial unterstützten Handlungs- und
Bearbeitungsmöglichkeiten.
Elementbasierter Ansatz
- Bauelemente = Radicals & Incidentals, die frei und unabhängig voneinander variiert werden
können
- echte Itemvermehrung, kombinieren von Teilschwierigkeiten (zB bei Schleifen, Matrizen)
Beispiele: ES-Gen, GeomGen, WF-Gen
 Endlosschleifen (Mentale Rotation)
Item-Modell Ansatz, Schablonen/Schemata:

- Feste Kombination aus Radicals & Incidentals = „source item“
(einem Itempool entnommenes Item mit bekannter Problemstruktur und Itemeigenschaften)
Synonyme: Schema, blue print, item shell, template, …
Spezifikation über Konstruktanalyse
 Produkte: item instances, item clones, Isomorphen
- wenn man Incidentals austauscht sollte Schwierigkeit gleichbleiben; man tauscht also nur
Incidentals aus (zB bei Textaufgaben) = isomorph
Nachteil: wenn jemand Schablonen (Strukturen) kennt, kann er alle lösen!
- Itemvervielfachung
Beispiele: Mathemtics-Test-Creation-Assistant, A-Gen
 algebraische Textaufgaben
3) Klassisches Schema des 2 Komponenten Itemgenerators
Spezifikation von Item-Modellen bzw. Radicals & Incidentals im elementbasierten Ansatz reicht nicht
aus, um Testaufgaben definierter psychometrischer Qualität automatisch erzeugen zu können →
‚Generative Komponente‘ & ‚Qualitätssicherungskomponente‘
Ziel:
Konstruktnahe Varianz in Itemmerkmalen → Max.

Konstruktferne (Stör-)Varianz in Itemmerkmalen → Min.
Wie erreichbar?
Definition & Identifikation von Itemmerkmalen (z.B. aufgrund von kognitionspsychologischen

Befunden und darauf aufbauenden psychometrischen Experimenten, vgl. Arendasy, 2005), welche
mit hoher Wahrscheinlichkeit konstruktnahe/ferne Bearbeitungsstrategien evozieren →
Implementation von funktionalen Einschränkungen (‚constraints‘; Greeno et al., 1993) in QS-
Komponente
Beispiel: Itemgeneratoren auf Basis des Patents von Arendasy (2007)
Konstruktionsphasen eines Zwei-Komponenten Itemgenerators (zyklisch, iterativ)
4) Möglichkeiten und Grenzen der AIG/Nutzen
- Erhöhung von Testsicherheit (= all jene Aspekte, die dem Schutz von
Testmaterialien vor unkontrollierter Verbreitung dienen)
-erste Versuche: berufsständische Maßnahmen; spezielle Software; CAT:
Problem Item-Overexposure (Sympson & Hetter, 1985)
-neuere Versuche über AIG
- Präzisierung der psychologisch-diagnostischen Aussage durch systematische
Konstruktion & Validierung (nomothetische Spanne; Konstruktrepräsentation)
- Reduktion von Kosten

-item writing: pro Item z.B. im Hochschuleingangstest GRE für mittelschwere
Items rund USD 1000.- (Wainer, 2002);  Kostenersparnis insbesondere bei
high-stakes-high-volume-testing
-Kalibrierung automatisch generierter Items (I):
Item-Modell-Ansatz: Studien (z.B. Bejar et al., 2003; Embretson, 1999) weisen
auf Möglichkeit der Prognose von Itemparametern von item clones in
Abhängigkeit des Isomorphizitätsgrades der Tochteritems hin: je höher, desto
weniger wirken sich Ungenauigkeiten auf Prognose auf
Personenparameterschätzungen aus
Kalibrierung automatisch generierter Items (II):

Elementbasierter Ansatz: Studien zu linearen Testformen und Prognose von
Personenparametern auf Basis empirischer Itemparameter und prognostizierter
Itemparameter (zB Mislevy, 1993; Freund et al., 2008)
Ergebnis:
bei hinreichend großer Itemzahl (Freund et al., 2008: k=21) und mäßiger Korrelation
zw. empirischen und prognostizierten Itemparametern (0.49-0.71) keine sign.
Unterschiede zwischen den Personenparameterschätzungen; bei
progn.Itemparametern tendenziell: Regression der Personenparameter zur Mitte
(Embretson, 1999)
 Adaptogenes Testen
5) AIG 4 Achsen
Klassifikation anhand von 4 Achsen (Arendasy & Sommer, 2012):
- Grad der inhaltlich-theoretischen Fundierung des Itemmaterials
- Grad der freien Variierbarkeit der Bauelemente des Itemgenerators
- Grad der Automatisierung des eigentlichen Itemgenerierungsprozesses
- Einbeziehung einer Qualitätssicherungskomponente zur Sicherung der psychometrischen &

inhaltlicher Qualität
6) Computergestütztes adaptives Testen
Grundidee des Pyramidalen Testens von Binet & Simon:

- begonnen wird mit altersadäquaten Aufgabe (Start-Bedingung) – biologisches Alter
- Vorgabe zunehmend schwierigerer Aufgaben, bis bestimmte Anzahl in Folge falsch gelöst wird –
Testabbruch (Stop-Bedingung)
- Vorgabe zunehmend leichterer Aufgaben, bis bestimmte Anzahl/alle Aufgaben in Folge richtig
gelöst wird (Basal-Bedingung)  Testaufstieg in Aufgabenset nächsthöherer Altersgruppe
Problem: Vergleichbarkeit von Testwerten von Personen mit unterschiedlicher Anzahl und Art von
bearbeiteten Aufgaben
 Geltung 1PL Rasch Modells für gesamten Itempool ist Voraussetzung!
Wenn Differenz Intelligenzalter – Lebensalter positiv: schwierigere Aufgaben (negativ: leichtere)
Flexilevel Algorithmus, Lord:

Einsatz in KTT
- Hälfte des Tests wird in zusammenhängendem Block von nach Schwierigkeit geordneten Aufgaben
vorgegeben
- Start: Mittelschwieriges Item (zB 6)
- Ablauf: 6 richtig – 7 falsch – 5 richtig – 8 falsch – 4 falsch – 3 richtig
- Stop: 3 Items nicht gelöst oder Hälfte der zusammenhängenden Items vorgegeben (6 Items)
Rohwert = Itemnummer des schwierigsten, richtig bearbeiteten Items ab leichtestem Item (= 6)
Problem: spezifische objektive Vergleiche nicht möglich, man kann auf unterschiedliche Weise auf
Rohwert 6 kommen, Aufgaben unterschiedlich schwierig
Two Stage Testing, Lord:

Einsatz in KTT
Start: Routing Test (10 Items, Auswahl auf Basis von Alter, Geschlecht etc)
Stop: Measurement Test (30 Items)
Rohwert: Anteil richtig gelöster Aufgaben an Gesamtaufgaben
immer nur informative Teilmenge vorgegeben, andere als richtig/falsch angenommen

 es werden nicht belegbare Annahmen getroffen!
wenn man einmal zur leichteren Itemgruppe weitergeleitet wird, kommt man nicht mehr raus!
Ten Stage Pyramidal Testing, Larkin & Weiss:

Einsatz in KTT
Start: mittelschwieriges Item (Spitze Pyramide)
Stop: nach 10 Items
Rohwert: Anteil richtig gelöster Items an Gesamtaufgaben
Es wird immer entschieden ob gelöst/ungelöst (10 Items)  wenn immer richtig – 1 % der Stichprobe
Überprüfung ob Test funktioniert: nicht viele Richtungsänderungen
(wenn viele: liegt an klassischen Itemschwierigkeiten)

Testkostruktion Marlies

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Testkostruktion Marlies

Hochgeladen von

Copyright:

Verfügbare Formate

1) Wie wird die AIG in der Testadaptierung eingesetzt, was ist Testadaptierung, wie kann

-Testadaptierung möchte strukturelle Äquivalenz (Messäquivalenz) der Testaufgaben gewährleisten,

2) Unterschied zwischen Item-Modell-Ansatz/schemabasiert und elementbasiert

Incidentals = untereinander austauschbare Oberflächenmerkmale

 Endlosschleifen (Mentale Rotation)

Item-Modell Ansatz, Schablonen/Schemata:

3) Klassisches Schema des 2 Komponenten Itemgenerators

Konstruktnahe Varianz in Itemmerkmalen → Max.

Definition & Identifikation von Itemmerkmalen (z.B. aufgrund von kognitionspsychologischen

Konstruktionsphasen eines Zwei-Komponenten Itemgenerators (zyklisch, iterativ)

4) Möglichkeiten und Grenzen der AIG/Nutzen

- Reduktion von Kosten

Kalibrierung automatisch generierter Items (II):

Klassifikation anhand von 4 Achsen (Arendasy & Sommer, 2012):

- Grad der inhaltlich-theoretischen Fundierung des Itemmaterials

- Grad der freien Variierbarkeit der Bauelemente des Itemgenerators

- Grad der Automatisierung des eigentlichen Itemgenerierungsprozesses

- Einbeziehung einer Qualitätssicherungskomponente zur Sicherung der psychometrischen &

6) Computergestütztes adaptives Testen

Grundidee des Pyramidalen Testens von Binet & Simon:

Wenn Differenz Intelligenzalter – Lebensalter positiv: schwierigere Aufgaben (negativ: leichtere)

Flexilevel Algorithmus, Lord:

Two Stage Testing, Lord:

immer nur informative Teilmenge vorgegeben, andere als richtig/falsch angenommen

Ten Stage Pyramidal Testing, Larkin & Weiss:

Das könnte Ihnen auch gefallen