1.) Einfhrung
a.) Warum notwendig?
Ein psychometrischer Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines
oder mehrerer empirisch abgrenzbarer Persnlichkeitsmerkmale mit dem Ziel einer mglichst
quantitativen Aussage ber den relativen Grad der individuellen Merkmalsausprgung.
Grundidee bei der Durchfhrung von psych. Tests ist es, dass
Persnlichkeitsmerkmale das Testverhalten beeinflussen und
aus diesem daher auf das Persnlichkeitsmerkmal
geschlossen werden kann.
Eine Testtheorie ist eine Theorie ber verschiedene Arten von Tests, ihrem Aufbau und ihren
Konstruktionsprinzipien. Sie beschftigt sich mit dem Zusammenhang von Testverhalten
(ausgedrckt in empirischen Testwerten) und dem zu erfassenden Merkmalen.
1
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
e.) Begriffe
2
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Planung beginnt mit berlegungen, das zu messende Konstrukt mglichst genau zu definieren
bzw. seine Charakteristika festzulegen:
Im Idealfall auf Basis eines psychologischen Modells oder eine psychologischen Theorie.
Ist dies (noch) nicht mglich, reichen vorlufige Explikationen oder Arbeitsmodelle aus, welche
dann im weiteren Verlauf przisiert werden knnen.
Auch Befragungen von Experten oder Personengruppen, die besonders hohe oder niedrige
Ausprgungen der entsprechenden Fhigkeit oder Eigenschaft ausweisen, knnen wichtige
Hinweise liefern.
Zur weiteren Eingrenzung sollte Literatur aus vorhandenen Theorien, empirischen Befunden
und eigenen berlegungen eine Arbeitsdefinition des Konstruktes formuliert werden.
Die Erhebungsmerkmale knnen aufgrund der Abhngigkeit von den psychologischen Theorien
und der Operationalisierbarkeit verschiedene Qualitten und Eigenschaften aufweisen.
1. Eindimensional (unidimensional)
2. Mehrdimensional (multidimensional) ist z.B. die Lebensqualitt, da materielle und
soziokulturelle Faktoren zusammengefasst werden. Sie werden in sogenannten
Subtests (Untertests) erfasst, die wiederum unidimensional sind.
3
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
b.) Aufgabenarten
Untertypen:
Vorteile:
Raten und zuflliges Antworten sind nicht mglich, da Reproduktion von Wissen/Generierung
von Antworten gefordert.
Eigenstndige Leistung (Motivation, Interesse, Kreativitt, Sprachverstndnis, etc.)
Auswertungsobjektivitt durch eindeutige Vorgabe gewhrleistet.
Nachteile:
Umordnungsaufgabe:
Zuordnungsaufgabe:
4
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Vorteile:
Nachteile:
Vorteile:
5
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(Aus den Big 5 aufpassen mit Intro-/Extraversion Keine Varianz wenn alle nur 2 ankreuzen
wrden. Je mehr Auswahlmglichkeiten es gibt, desto mehr Varianz unter den Probanden.)
Die optimale Anzahl von Skalenstufen hngt bei einer diskreten Ratingskala von der
Diskriminationsfhigkeit der Probanden bzw. der Differenzierbarkeit eines Urteils ab.
Grob werden bei einer einzelnen Ratingskala 9 2 Kategorien empfohlen, bei Itembatterien
5 2 Skaleneinheiten.
7 Skalenstufen habe sich als Optimal fr den Informationsgewinn herausgestellt
Eine geringere Anzahl von Antwortkategorien verhindert die Neigung, Extremurteile abzugeben.
Kontinuum einer Analogskala:
Ob die Angabe auch dem Urteil entspricht ist nicht in jedem Fall sichergestellt.
Analogskalen werden zunehmend im Bereich von computergesttzten Online-Erhebungen
verwendet.
Ungerade Anzahl von Kategorien hat zwangslufig einen Mittelpunkt, der verschieden
interpretiert werden kann. (unforciertes Rating) Wird hufig als Ausweichoption verwendet oder
als typische oder normale Ausprgung missverstanden. (wei nicht Kategorie wird oft mit
angegeben um gerade dies zu verhindern und gleichzeitig ein verwertbares Datum zu liefern)
Gerade Kategorienanzahl zwingt Proband zu einem Urteil. (forciertes Rating)
6
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Bipolare Skalen sind durch einen positiven und einen negativen Pol gekennzeichnet.
Unipolar Skalen besitzen einen Bezugspunkt geringster Intensitt und einen Pol grter
Intensitt. (Zustimmung/Ablehnung) Dabei steigt die Intensitt nur in eine Richtung
Bei einer balancierten Ratingskala ist die Anzahl der positiven & negativen Kategorien gleich.
Bei einer umbalancierten Ratingskala ist sie ungleich.
Beschriftung einer Skala: (Verankerung einer Ratingskala)
Numerische Verankerung = Kategorien mit Zahlen. (mathematisch prziser, stellt aber keine
Gleichabstndigkeit (quidistanz) der Zahlen sicher)
Verbale Verankerung = Kategorien mt Worten oder Stzen. (erleichtert die Beantwortung)
Eine kombinierte Ratingskala beschreibt nur die Extrempositionen verbal. (ergnzende
Funktion)
7
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Fazit:
Vorteile:
Raten und zuflliges Antworten ist mglich, da eine (Re-)Produktion von Wissen/Antworten
gefordert wird.
Antwortalternativen mssen exhaustiv & disjunkt sein. (d.h. alle mglichen Ausprgungen
mssen erfassbar sein und drfen sich nicht berschneiden)
Der Test ist uerst reliabel, d.h. wenn man bei einer
Platte lange braucht, braucht man auch bei einer
anderen Platte lange (rtt zwischen .96 und .90) und
differenziert gut zwischen unterschiedlichen
Schwierigkeitsgraden (Anzahl von Kreuzungen)
1. Leistungstests
2. Persnlichkeitstests
3. Projektive Verfahren
4. Apparative Verfahren
5. Objektive Tests
8
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Leistungstests
Sie verlangen den Probanden die Lsung von Aufgaben oder Problemen, die Reproduktion
von Wissen, das Unter Beweis stellen von Knnen, Ausdauer oder Konzentrationsfhigkeit
ab (Rost, 2004; S.43)
- Erfassung des maximalen Verhaltens
- Verflschung nur nach unten mglich
Leistungstests haben berlicherweise sowohl eine Speed- als auch eine Powerkomponente.
> Zur Bestimmung des Anteils der Varianz von Testwerten, die auf die Speed- bzw.
Powerkomponente eines Tests zurckgeht knnen Speed- bzw. Power-Indices berechnet
werden.
Persnlichkeitstests
Erfassen das fr den Probanden typische Verhalten in Abhngigkeit der Ausprgung von
Persnlichkeitsmerkmalen. (Verhaltensdisposition)
Die Messung erfolgt hierbei ber Selbstausknfte: (Fragebgen)
- Da es keine optimale Ausprgung von Persnlichkeitsmerkmalen gibt, werden
Antworten nicht im Sinne von richtig oder falsch bewertet.
- Bewertung erfolgt danach, ob Aussagen fr eine bestimmte Ausprgung eines
bestimmten Merkmals sprechen oder nicht.
- Simulation ist in beiden Richtungen, d.h. zugunsten niedriger als auch hoher
Merkmalsausprgungen mglich.
- Merkmalsbereiche sind z.B. aktuelle Zustnde, Symptome, Verhaltensweisen,
Motivation, Interessen, Meinungen, Einstellungen. (Bsp.: MMPI-2 Minnesota
Multiphasic Personality Investory-2)
9
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Projektive Verfahren
Apparative Verfahren
Aufgaben bedienen sich bestimmter technischer Anordnungen zur Erfassung des relevanten
Merkmals.
Erfasst werden vor allem Merkmale, die fr andere Testarten nicht zugnglich sind (z.B.
sensorische oder motorische Merkmale)
Computerbasierte Tests stellen eine Unterklasse der Apparaten Verfahren dar, die momentan im
Zunehmen begriffen ist.
10
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Objektive Tests
11
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
e.) Konstruktionsstrategien
Items werden auf Basis einer bestehenden Theorie generiert. Hierbei sind folgende
Gesichtspunkte wichtig:
Theorien liefern Konstrukte, die erfasst werden sollen (z.B. Intelligenz, Motivation, Angst)
Theorien beschreiben, welche Verhaltensindikatoren bei der Erfassung des Konstrukts
herangezogen werden knnen (z.B. fr das Konstrukt schulische Leistungsfhigkeit:
rechnerische und sprachliche Fhigkeiten)
Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen (z.B.
Verhaltensorientierte Persnlichkeitstheorien: Selbst- und Fremdbeschreibung;
tiefenpsychologische Persnlichkeitstheorien: projektive Verfahren)
Voraussetzung ist das Vorliegen verschiedener Gruppen, die sich in Bezug auf das Kriterium
unterscheiden. (z.B. Alkoholiker vs. Nicht-Alkoholiker, Misshandler vs. Nicht-Misshandler)
Den Mitgliedern der Gruppen wird eine groe Zahl mglichst breit gefcherter Items vorgelegt
Es werden die Items ausgewhlt, die signifikant zwischen den Gruppen trennen knnen.
Mittels Diskriminanzanalyse wird eine Funktion bestimmt, mit der die Gruppen optimal getrennt
werden knnen.
Achtung: Die Schtzung der Diskriminanzfunktion ist stark von der verwendeten Stichprobe
abhngig. Eine Kreuzvalidierung ist notwendig. (anpassen an Stichprobe)
12
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Werden viele Items in die Diskriminanzfunktion eingegeben, so befinden sich mit hoher
Wahrscheinlichkeit faule pfel darunter.
Ein Fauler Apfel ist ein Item, dass die beiden Gruppen nur in der
verwendeten Stichprobe trennt und in anderen Stichproben keine
Bedeutung besitzt.
In der verwendeten Stichprobe trennt das Item durch Zufall gut (mag pfel zufllig)
Es gibt immer eine Irrtumswahrscheinlichkeit. z.B. das Item Ich mag pfel und die Stichprobe Depressiv & Nicht, und zufllig mag
einer der Nicht-Depr. pfel nicht
13
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Vorgehen:
Induktive Konstrunktion (Items werden entsprechend korrelativer Analysen ausgewhlt - keine Theorie oder Kriteriumsgrpn)
Hier liegen weder eine Theorie noch bestimmte Kriteriumsgruppen vor. Vielmehr werden Items, die
hohe Korrelationen zeigen zu Skalen zusammengefasst. (zu Gruppen)
(Die Autoren gehen von bestimmten psychologischen Konstrukten aus, die ihnen aufgrund ihrer
Erfahrungen und der Literatur interessant und wichtig erscheinen)
Vorgehensweise: Items werden hinsichtlich der Prototypizitt fr eine oder mehrere Kategorien
eingeschtzt, wobei die Items mit der hchsten Prototypizittseinschtzung beibehalten werden.
14
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Alle Konstruktionsprinzipien sind in etwa gleicher Weise zielfhrend, und es wird im einzelnen von
Vorlieben oder Notwendigkeiten abhngen, fr welche Strategie man sich entscheidet.
Intuitive Konstruktion
Fehler bei der Itembearbeitung sind dann zu bercksichtigen, wenn sie systematisch auftreten,
denn das fhrt zu konstruktirrelevanter Varianz.
15
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Soziale Erwnschtheit
uern von Meinungen und/oder Einstellungen unter der Annahme, diese seien in
bereinstimmung mit gesellschaftlichen Werten & Normen (Normanpassungseffekt).
- Kommt hufig bei Testverfahren vor, die eine Selbstbeschreibung erwarten (social desirability)
- Das Vortuschen von Verhaltensweisen, die ein Proband sonst nicht zeigt, wird als
Simulation (fake good) bezeichnet.
- Das Verbergen von Verhaltensweisen die ein Proband normalerweise zeigt, nennt man
Dissimulation (fake bad).
Tuschungsarten:
Wann?
2. Ausbalancierung:
Antwortalternativen so gestalten, dass sie gleich attraktiv sind. Dadurch soll
Wahrscheinlichkeit erhht werden, dass diejenige Alternative gewhlt wird, die tatschlich
zutrifft. Jedoch ist die Entwicklung sehr aufwendig.
3. Objektive Persnlichkeitstests:
Testabsicht und Testziel verschleiern.
Keine Augenschein-Validitt.
berwiegend sachbezogene Inhalte (um Verflschungstendenzen vorzubeugen)
16
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Antworttendenzen:
Durch die Form der Datenerhebung knnen vor allem Antworttendenzen (response sets)
ausgelst werden, die Probanden zu einem stereotypen (gleichbleibenden) Antwortstil verleiten.
(Die dadurch reduzierte Itemvarianz verzerrt die Daten)
2. Akquieszenz (Ja-/Nein-Sage-Tendenz)
Wenn Aussagen nicht reflektiert werden (ohne Rcksicht auf erfragte Inhalte), kann eine
Zustimmungstendenz oder Ablehnungstendenz kann die Folge sein.
Vermeiden durch klare und eindeutige Itemformulierungen und ausbalancierte
Schlsselrichtung der Items. (gleiche Anzahl von bejahten und verneinten Items)
17
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
18
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
a.) Allgemeines
Entscheidungen, die auf der Basis von Ergebnissen psychologischer Tests getroffen werden,
sind oft mit weitreichenden Konsequenzen fr den Probanden verbunden.
(z.B. Einschulungsuntersuchungen, Personalauswahl, Schuldfhigkeitsbegutachtung)
Die Gtekriterien dienen somit der Einschtzung der Eignung eines Tests vor dem Hintergrund
einer gegebenen Fragestellung.
Obwohl eine weitgehende Einigkeit ber zu erfllende Spezifika besteht, wurde bisher kein
verbindlicher Katalog einschlgiger Kriterien definiert.
bersicht:
b.) Hauptgtekriterien
1.) Objektivitt
Objektivitt besteht fr einen Test dann, wenn das Testergebnis unabhngig von Untersuchungs-
leiter, vom Testauswerter und der Ergebnisinterpretation ist.
(Sie soll sicherstellen, dass die Ergebnisse eines Tests zwischen Personen vergleichbar sind.)
Durchfhrungsobjektivitt:
Bsp.: NEO-FFI
Testsituation:
Auswertungsobjektivitt:
20
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Interpretationsobjektivitt:
Bsp.: NEO-FFI
21
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Zusammenfassung:
Das Hauptgtekriterium Objektivitt kann als erfllt gelten, wenn ein psychologischer Test
hinsichtlich seiner Handhabung, Auswertung und Interpretation so festgelegt ist, dass sein
Einsatz unabhngig von umgebenen Faktoren (wie Ort, Zeit, Testleiter und Auswerter)
vorgenommen werden kann und unterschiedliche Testauswerter bei den gleichen Personen immer
zu gleichen Ergebnissen kommen.
2.) Reliabilitt
Reliabilitt ist ein Ma fr die Przision, Zuverlssigkeit und Genauigkeit, mit der ein Test ein
Merkmal misst. Przise ist eine Messung dann, wenn sie mglichst frei von Messfehlern erfolgt.
(Mit Reliabilitt wird die Qualitt eines Tests bezeichnet, die auf seiner Zuverlssigkeit beim
Erheben von Merkmalen beruht.)
Wichtig: Umschlossen wird lediglich die Frage, ob irgendein Konstrukt fehlerfrei erfasst wird und
nicht, ob es wirklich das intendierte Konstrukt ist.
Reliabilittskoeffizient rtt drckt in den Extremen ein Testergebnis vollkommen ohne Messfehler
aus (= 1,0) oder eins, das nur durch Messfehler zustande gekommen ist (=0).
0 = Wiederholung eines Tests an der gleichen Person fhrt unter gleichen Bedingungen und
ohne Vernderung des Merkmals zu vllig unterschiedlichen Resultaten.
1 = Wiederholung eines Tests an der gleichen Person fhrt unter gleichen Bedingungen und
ohne Vernderung des Merkmals zu identischen Resultaten.
Mit diesem Koeffizienten wird der Grad der Genauigkeit einer Merkmalsmessung ausgedrckt.
(unabhngig davon, ob der Test dieses Merkmal auch zu messen beansprucht)
Realibilitt = Quotient von wahrer Varianz (ohne Messfehler) zur Gesamtvarianz (einschlielich
Messfehler)
22
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(Test)-Retest-Reliabilitt
Paralleltest-Reliabilitt
23
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Splithalf-Reliabilitt
In vielen Fllen ist die Berechnung von Retest- bzw. Paralleltest-Reliabilitt nicht durchfhrbar.
Aus diesem Grund wurden Verfahren entwickelt,mit denen die Reliabilitt auf der Basis von
Testungen zu 1 Zeitpunkt mit 1 Testform mglich ist.
Grundlegende Idee dabei ist, Teile eines Tests als parallele Testversionen aufzufassen und die
Reliabilitt als Zusammenhang der einzelnen Teile anzunehmen.
Zur Aufteilung der Testhlften bieten sich verschiedene Strategien an. Gngig sind unter
anderem diese Vorgehensweisen:
Testhalbierung Teilung des Tests in der Mitte.
Odd-Even Items mit geraden Nummern werden zu einer Testhlfte zusammengefasst, bei
Items mit ungeraden zu der anderen.
Zufallsaufteilung Die Items werden zufllig zwei Testhlften zugeordnet.
Parallelisierung Aufteilung der Items nach Trennschrfe und Schwierigkeit, d.h. beiden
Testhlften sollen gleich schwierig und trennscharf sein. (Methode der Itemzwillinge)
Konsistenzanalyse/Interne Konsistenz
24
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Problematisch an der Berechnung von Split-Halt-Reliabilitten ist, dass die Testhlften relativ
willkrlich gebildet werden knnen.
Unterschiede zwischen Koeffizienten, die aus unterschiedlichen Aufteilungen hervorgehen sind
schwer zu interpretieren.
Einen Ausweg aus dieser Problematik bietet die Berechnung von Cronbachs Alpha ( ).
Dieser Koeffizient entspricht der mittleren Reliabilitt, die sich bei der Bildung aller mglichen
Testhalbierungen ergibt. (Mittelwert aller mglichen Testhalbierungen)
Sinnvoll knnen -Werte im Bereich zwischen 0 und 1 interpretiert werden.
Die Untergrenze, ab der eine Skala noch als hinreichend reliabel betrachtet werden kann wird
blicherweise bei 0,7 angenommen.
Zusammenfassung:
Verschiedene Zugnge zur Beurteilung der Reliabilitt eines Testverfahrens lassen sich
unterscheiden:
Keiner der besprochenen Reliabilittskennwerte ist hierbei einem anderen generell vorzuziehen.
Wichtig ist die gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen mglichst
umfassenden berblick ber die Reliabilitt des Verfahrens zu gewinnen.
3.) Validitt
Validitt bezieht sich auf die Frage, ob ein Test wirklich das Merkmal misst, was er messen soll
bzw. zu messen vorgibt. Die Validitt bezieht sich dabei auf die Gltigkeit verschiedener mglicher
Interpretationen von Testergebnissen.
(Damit soll festgestellt werden, ob zwischen dem was gemessen wird und dem was gemessen
werden soll, tatschlich bereinstimmung besteht.)
Bei gegebener Validitt berechtigen die Ergebnisse dazu, das in der Testsituation gezeigte
Verhalten auf beobachtbares Verhalten auerhalb dieser Testsituation zu generalisieren.
(Ein solcher Zusammenhang knnte z.B. durch Korrelation der Testwerte mit einem relevanten
Auenkriterium berprft werden.)
25
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Zur Bestimmung er Validitt eines Tests gibt es verschiedene Zugnge. Moosbrugger & Kerala
(2007b) veranschaulichen dies am Beispiel eines Schulreife- bzw. Schuleignungstests:
1. Inhaltsvaliditt: Items, die Bestandteil des Tests sind, sollen inhaltlich das Konstrukt
widerspiegeln, das der Test erfassen soll (z.B. Umgang mit Zahlen, Sprachverstndnis)
2. Kriteriumsvaliditt: Mit dem Test soll vorhergesagt werden, in wiefern Kinder eingeschult
werden knnen. Kinder mit hheren Testwerten sollten sich daher besser in der Schule
zurechtfinden als Kinder mit niedrigen Werten.
3. Konstruktvaliditt: Das durch den Test gemessene Konstrukt Schulreife soll mit hnlichen
Konstrukten (z.B. Intelligenz, Entwicklungsstand) zusammenhngen und unabhngig von
inhaltsfremden Konstrukten (z.B. Temperament, Persnlichkeit) sein.
4. Augenscheinvaliditt: Auch fr Laien besitzen Schuleignungstests eine gewisse
Glaubwrdigkeit, da aufgrund der inhaltlichen Gestaltung solcher Tests nahegelegt wird, dass
damit wirklich Schuleignung gemessen wird.
a.) Inhaltsvaliditt
26
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
b.) Kriteriumsvaliditt
Befasst sich mit der Frage, inwiefern aus den Testwerten Kriteriumswerte vorhergesagt werden
knnen.
Es geht um die praktische Anwendbarkeit eines Tests, um das Verhalten einer Person
auerhalb der Testsituation anhand der produzierten Daten in der Testsituation vorherzusagen.
Dazu wird die Korrelation der Testvariablen & der Kriteriumsvariablen bestimmt:
Liegt ein zeitgleiches Auenkriterium vor, resultiert eine konkurrente (bereinstimmungs-)
Validitt. (t = test c = Kriterium)
Ist eine Prognose hinsichtlich einer zuknftigen Merkmalsausprgung intendiert, wird eine
prognostische bzw. prdikative (Vorhersage-) Validitt angestrebt.
Soll die Vorhersage eines praktisch relevanten externen Kriteriums verbessert werden, indem
zustzliche Items oder Skalen hinzugefgt werden, kann eine inkrementelle Validitt bestimmt
werden.
Schlielich ist auch eine retrospektive Validitt zu unterscheiden, bei der Zusammenhnge mit
zuvor ermittelten Kriterien hergestellt werden.
(Regressionsgerade = linearer Zusammenhang zwischen den beiden Merkmalen)
27
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
c.) Konstruktvaliditt
Auf Basis der Konstruktvaliditt wird bestimmt, ob mit dem im Test gezeigten Verhalten auf
zugrunde liegende Fhigkeits- oder Persnlichkeitskonstrukte geschlossen werden kann. Die
Konstruktvaliditt erlaubt entsprechende Aussagen, wie angemessen ein Test das beanspruchte
Konstrukt misst.
Diskriminane Validitt:
Unterschiedliche Konstrukte
in unterschiedlichen Tests
korrelieren gering.
(Validittsdiagonale)
28
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
d.) Augenscheinvaliditt
Ein Test ohne Objektivitt wird keine optimale Reliabilitt erreichen knnen:
Entstehen Fehler bei der Ermittlung oder Interpretation der Daten, beeinflusst dies die
Messgenauigkeit.
Ist die Reliabilitt nicht gegeben, knnen keine gltigen Aussagen oder Vorhersagen getroffen
werden, da der Test das Merkmal nicht genau messen kann:
Ohne einen exakten Testwert lsst sich keine klare Beziehung zu einem Auenkriterium
herstellen.
Zusammenfassung:
Die Validitt eines Tests kann als perfekt gelten, wenn ein individuelle Testwert eine Person
eindeutig auf einer Merkmalsskala lokalisiert.
In diesem Fall erlaubt ein Testergebnis einen unmittelbaren Rckschluss auf den Ausprgungsgrad
des zu erfassenden Merkmals.
Inhaltsvaliditt (die Testitems stellen das optimale Kriterium zur Erfassung des Merkmals dar)
Konstruktvaliditt (ein Test kann aufgrund theor. Erwgungen ein best. Konstrukt erfassen)
Kriteriumsvaliditt (das Ergebnis eines Tests korreliert mit unab. erhobenen Auenkriterien)
29
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
5.) Nebengtekriterien
a.) Normierung/Testeichung
Anhand der Normdaten kann eingeordnet und interpretiert werden, ob die Ergebnisse einer
getesteten Person zur Norm gehrend (durchschnittlich), oberhalb der Norm
(berdurchschnittlich) oder unterhalb der Norm (unterdurchschnittlich) zu beurteilen sind.
Normierungsstichprobe:
30
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Von Messinstrumenten wird allgemein erwartet, dass sie mit dem entsprechenden
Skalenniveau ausgestattet sind, d.h. mindestens Ordinal- (um strkere von schwcheren
Ausprgungen zu unterscheiden) besser aber Intervallskalenniveau (um Gre einer
Merkmalsdifferenz zu bestimmen).
31
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
32
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
b.) Itemschwierigkeit
Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item
richtig (d.h. im Sinne hherer Merkmalsausprgungen) beantworten.
Bezeichnet den relativen Anteil der Probanden, die das Item lsen.
Bei der Konstruktion von Items ist es entscheidend, dass diese nicht von allen bejaht, richtig
beantwortet, gelst bzw. verneint, etc. werden.
Die Antwort also nicht immer dieselbe (Konstante) ist.
Die Itemkonstrukton soll also weder zu leicht, noch zu schwer sein, etc
Diese Schwierigkeit wird mittels eines Schwierigkeitsindex angegeben. (Fr
Fragebogenskalen auch Popularittsindex)
Schwierigkeitsindex: (Pi)
- prozentualer Anteil richtiger Antworten fr das Item i in einer Stichprobe der Gre n.
- Ist der Wert von P hoch, ist die Aufgabe leicht.
- Ist der Wert niedrig, ist die Aufgabe schwierig.
Er errechnet sich fr ein beliebiges Item i aus dem Quotienten der tatschlich erreichten
Punktwerte und der maximal erreichbaren Punktsumme aller Probanden, multipliziert mit 100.
(Multiplikation fhrt zu Indizes zwischen 0 und 100 - eigentlich Leichtigkeitsindex, der umso
grer wird, je hufiger ein Item gelst wird - je leichter also ein Item ist, desto grer ist P)
- Beginnt der Wertebereich eines Items bei 1 oder hher (und nicht bei 0), muss der Minimalwert
eines Items von jeder Itemantwort und der maximalen Punktsumme subtrahiert werden.
33
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Beispiel: In einer Stichprobe von 360 Testpersonen haben 240 die Zahlenreihe 3-6-9-12-15-18-?
richtig fortgesetzt und die Zahl 21 eingesetzt. Welche Schwierigkeit ergibt sich fr das Item?
Problem 1: (Ratekorrektur)
- Probanden knnen durch Zufall (d.h. Raten) die richtige Antwortalternative whlen. Hieraus folgt
eine artifizielle Verringerung der Itemschwierigkeit.
- Bercksichtigt, dass die Schwierigkeit unterschtzt wird, wenn Probanden raten.
> Schwierigkeit wird um die geschtzte Anzahl zufllig richtiger Antworten korrigiert.
Beispiel: Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. 360 Testpersonen
bearbeiten das Item, 240 whlen die richtige Antwortoption. Wie lautet die um
Ratewahrscheinlichkeit korrigierte Aufgabenschwierigkeit?
- Probanden, die Items nicht bearbeiten, knnen diese auch nicht richtig beantworten. Hieraus
folgt eine artifizielle Erhhung der Itemschwierigkeit.
- Bercksichtigt, dass die Schwierigkeit berschtzt wird, wenn Probanden nicht dazu kommen
das Item zu bearbeiten.
> Es werden lediglich die Probanden bercksichtigt, die das entsprechende Item auch
bearbeitet haben.
Beispiel: Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. Von 360 Testpersonen
bearbeiten 240 das Item, 140 whlen die richtige Antwortoption. Wie lautet die um
Ratewahrscheinlichkeit und Inangriffnahme korrigierte Aufgabenschwierigkeit?
34
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Bei Leistungstests:
- Bei Leistungstests ergibt sich eine typische Datenanordnung, bei denen wiederum die n
Probanden in den Teilen und die m Items in den Spalten abgetragen sind.
1. Speed-Tests:
2. Power Tests:
Keine Zeitbegrenzung
Unterscheidung zwischen richtig & falsch & ausgelassen, unbeantwortet entfllt, da kein
Zeitlimit vorhanden ist.
Schwierigkeitsindex: Quotient aus richtigen und allen Antworten
(nF = Anzahl der Probanden mit einer Falschantwort; k = Anzahl der Antwortalternativen)
Bei Persnlichkeitstests:
- Bei Persnlichkeitstests werden Items nicht nach richtig oder falsch, sondern nach
symptomatisch (hohe Werte) und unsymptomatisch (niedrige Werte) fr eine
Merkmalsausprgung bewertet.
- Bevor Schwierigkeitsindizes fr derart ausgeprgte Items ermittelt werden, ist die einheitliche
Kodieren zu berprfen.
- Dies gilt insbesondere fr inverse Items, die vor der Berechnung ggf. umkodiert werden
mssen.
35
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Dichotomisierung > Werte in 2 Kategorien hoch & niedrig anhand eines Grenzwertes einteilen
> macht Skala grob (Informationsverlust)
- Mittlere Werte fr diesen Index (50): maximale Streuung > hohe Differenzierung zwischen
den Probanden (Lser werden von Nicht-Lsern unterschieden)
- Sucht man Differenzierung in den Extremen (P-Werte von 5-10 oder 90-95), also sehr schwer,
oder sehr leicht, wird eine breite Streuung der Schwierigkeitskoeffizienten angestrebt.
Bei Ratingskalen:
36
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
- Gibt an, wie stark die Leistungen einer Stichprobe bei einzelnen Items streuen.
- legt die Differenzierungsfhigkeit eines Items hinsichtlich der untersuchten Stichprobe fest.
Bei dichtomen Items:
Produkt der Wahrscheinlichkeit, das Item zu lsen (pi), und der Gegenwahrscheinlichkeit, das
Item nicht zu lsen (qi):
37
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
d.) Trennschrfe
Ein weiteres Ma der Itemanalyse ist entscheidend, wie substanziell die Korrelation zwischen
den einzelnen Itemwerten und dem gesamten Testwert ausfllt.
Korrelation zwischen Item- und Testwerten (Item-Test-Korrelation)
Korrelation einzelner Itemwerte mit dem Testwert smtlicher Items eines Tests.
Misst, inwieweit die Differenzierung erfolgreicher und erfolgloser Probanden durch ein Item der
Differenzierung durch den Test bereinstimmt.
Passt das Item zum Test?
(Korrelation zwischen Item & Summenwert sollte hoch sein, da Item die Skala/den Summenwert
dann gut reprsentiert. z.B: Item hoch - Item hoch - Item niedrig = Summenwert Hoch. Niedriges
Item erniedrigt Reliabilitt > aussortieren oder ggf. umpolen.)
- Durch Trennschrfe knnen verschiedene Itemgruppen getrennt werden. Items sollen mit
Summenwert der eigenen Gruppe hoch korrelieren & mit Summenwerten anderer niedrig.
- Korrelation Item mit eigenem Summenwert nie 0, da Item im Summenwert enthalten &
Korrelation des Items mit sich selbst = 1 > berschtzen der Korrelation des Items mit dem
Summenwert > Part-Whole-Korrektur.
- Was wenn alle Probanden 0 auf der Skala ankreuzen? Dann ist die Korrelation doch 0? Nein!
Zusammengefasst: Trennschrfe bezeichnet die Korrelation zwischen Item & Summenwert einer
Skala. Konvergente TS bezeichnet die Korrelation mit der eigenen Skala, diskriminante TS die
Korrelation mit einer anderen Skala.
Part-Whole-Korrektur:
38
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
- Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt, wenn die Skala aus wenigen
Items besteht oder wenn die Skala relativ geringe Trennschrfen aufweist (d.h. inhomogen ist)
Zusammengefasst: Da der Summenwert durch die Ausprgung des Items konfundiert ist, wird die
Trennschrfe als Korrelation zwischen dem Item und dem um das Item bereinigten Summenwert
berechnet. (Durch PWK wird die Trennschrfe geringer)
Berechnung:
- Zur Berechnung der Trennschrfe wird fr alle n Probanden der Zusammenhang eines Items i
mit dem Testwert xv bestimmt:
- Dabei wird unter dem Testwert xv eines Probanden v der Summenwert aller Itemwerte
verstanden:
- Bei wenigen Items ist es zu empfehlen, den Testwert als Summenwert ohne Item i zu
berechnen, um die Trennschrfe nicht zu berschtzen. (Part-Whole-Korektur)
- Wichtig ist anzumerken, dass die Bildung eines Testwertes Itemhomogenitt voraussetzt, d.h.
alle Items sollten das gleiche Merkmal messen.
- Zudem wird eine hohe Trennschrfe zwar durch eine hohe Itemvarianz begnstigt, aber nicht
garantiert.
- In Abhngigkeit von der Skalierung der Items sind verschiedene Koeffizienten angemessen.
39
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Koeffizienten:
Anhand der Rohwerte ermittelt sich die Korrelation zwischen der Itembeantwortung und dem
Testscore nach:
Dabei sind xv der Skalen-(Summen-)Score und xvi der Itemscore, xv und xvi die Summen der
Skalen- bzw. Itemscores, xv2, xvi2 die Quadratsummen und xv xvi die Produktsumme.
Aus der unkorrigierten Item-Test-Korrelation rit kann die (part-whole) korrigierte Trennschrfe rit(i)
berechnet werden:
Dabei sind SD(x) die Standardabweichung der Testwerte, SD(xi) die Standardabweichung des
Items i und rit * SD(x) + SD(xi) die Kovarianz zwischen den Itemwerten xvi von Item i und den
Testwerten xv.
Dabei sind xv0 und xv1 die Mittelwerte und n0 und n1 die Anzahl der Probanden, die in Item i
entweder eine 0 oder eine 1 als Antwort angegeben haben.
Aus der unkorrigierten Trennschrfe kann wiederum die (part-whole) korrigierte Trennschrfe
rpbis(i) berechnet werden:
40
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Diskriminationsindex D:
- Als vereinfachtes Ma zur Schtzung der Trennschrfe kann vor allem fr ordinale
Itemantworten auch der Diskriminationsindex D (D-index for item analysis) verwendet werden.
D wird in 6 Schritten ermittelt:
Interpretation von D:
Werte zwischen 0,4 und 0,7 deuten auf eine angemessene bis ausgezeichnete Trennschrfe
hin.
Hoher Wert = Items sind homogen gegenber dem Gesamttest > Probanden mit hoher
Merkmalsausprgung lsen das Item.
Kleiner Wert = mangelnde Differenzierung durch ein Item in Zusammenhang mit der
Differenzierung des Gesamttests > Item fr Unterscheidung von Probanden ungeeignet.
Negative Werte: fehlerhafte Itemformulierung > Kodierung muss umgedreht werden >
Probanden mit niedriger Merkmalsausprgung lsen das Item.
Zu kleineren Werten:
41
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Selektionskennwert:
Zusammenfassend: Itemselektion
- Da besonders leichte und schwierige Items nur wenig Varianz erzeugen, wird die Trennschrfe
gemindert.
- Zur Differenzierung in Extrembereichen ist eine Aufnahme derartiger Items dennoch sinnvoll.
42
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Speed-Tests:
Power-Tests:
- Aufgaben sind schwer und knnen auch bei unbegrenzter Bearbeitungszeit nicht von allen
Probanden gelst werden.
- Differenzierung erfolgt ber Schwierigkeit der Aufgabe.
Test mit hoher Powerkomponente:
"0,7 Power = 70% der Varianz der Testwerte gehen auf die
Powerkomponente zurck, 30% auf die Speedkomponente
43
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(vom bergang Disposition > Verhalten passieren Fehler > unreines Verhalten)
Klassische Testtheorie:
Axiom = Setzungen oder Definitionen, die einfach ohne weitere Erklrung aufgestellt werden.
Sie erlauben es, logische Ableitungen aus ihnen zu ziehen.
Beziehen sich auf beobachteten Testwerte, die wahren Testwerte & einen Messfehler.
44
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
1. Axiom Existenzaxiom:
Der wahre Wert einer Person ist der Erwartungswert der Messung x
eines Probanden v in Item i, wenn man hufig genug misst.
(Aus einer bestimmten Anzahl von Messungen kann auf die tatschliche (wahre) Ausprgung des Merkmals geschlossen
werden. Der wahre Wert bezieht sich dabei zunchst auf ein einzelnes Item eines einzelnen Probanden.)
Der wahre Wert ist der Erwartungswert unendlich vieler Testungen eines Probanden
2. Axiom Verknpfungsaxiom:
Messwerte setzen sich aus wahren Werten (tau) und Fehlerwerten zusammen.
(Der Messfehler berdeckt den wahren Wert und fhrt zu Abweichungen vom wahren Wert.)
(Die Differenz zwischen dem wahren Wert und dem Ergebnis der Vp ist der Fehler.)
- Beide Axiome nehmen an, dass der Zufallsfehler einen Erwartungswert von 0 besitzt, d.h. wenn
man hufig genug misst, mittelt sich der Fehler weg.
- Vorausgesetzt wird also, dass die Wiederholungen unter konstanten Bedingungen stattfinden &
keine Messung von der vorherigen beeinflusst wird.
3. Axiom Unabhngigkeitsaxiom:
Die Korrelation zwischen den wahren Werten & den Messfehlern ist 0.
Wre die Korrelation nicht 0, wre der Fehler systematisch.
(Keine spezifische Abhngigkeit zwischen wahren Werten & Messfehlern)
(Der Fehler ist unabhngig vom wahren Wert d.h. eine Zufallsvariable mit dem Erwartungswert 0)
Als Zufallsvariable ist der Messfehler von allen anderen Variablen unabhngig:
(immer wenn eine Variable zufllig ist, kann sie keine Korrelation zeigen)
Fazit:
45
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
- Es wird angenommen, dass die Fehlervariablen zweier Items fr dieselbe Person unabhngig
sind, d.h. dass Erfolg bei einem Item unabhngig von anderen Items bei einer Person ist.
> Kein Lerneffekt. (unabhngige Items)
- Fehlervariablen zweier Personen bei dem selben Item sind unabhngig, d.h. die
Itembearbeitung muss von unabhngigen Personen erfolgen. (unabhngige Personen)
Bsp.: Der IQ eines Probanden soll mithilfe eines Intelligenztests gemessen werden. Mgliche
Fehlereinflsse auf das Testergebnis knnten u.s. sein, dass der Proband
46
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
b.) Fehlerwerte:
Einflsse, die sich im Zuge der Messung unkontrolliert auf das Testverhalten der
Probanden auswirken und damit das Messresultat kontaminieren knnen.
(Tageszeit des Experiments, Klima, Motivation, Versuchsleiter,)
Messfehler berdeckt den wahren Wert und fhrt zu Abweichungen von ihm > Messfehler
sorgt dafr, dass der wahre Wert schwankt.
Die beobachtbare Messung setzt sich aus einem wahren Wert und einem Fehlerwert
zusammen, die beide nicht beobachtbar sind > unbekannte Gren, die sich aus
Schtzungen ergeben.
(auch eine solche Schtzung kann fehlerbehaftet sein und ist daher um eine
Angabe zu ihrem Fehler zu ergnzen (dem sog. Standardmessfehler))
47
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
- Zerlegung der Gesamtvarianz (beobachtete Varianz) in wahre Varianz (ein Proband ist einfach
besser als ein andere > Unterschiede in wahren Merkmalsausprgungen der Probanden) und
Fehlervarianz (Messfehler der Probanden).
- Die Schtzung der Varianz wird in 2 Schritte unterteilt:
Varianzzerlegung:
Varianz einer Summe von Variablen ist gleich der Summe der Varianzen der einzelnen
Variablen + der zweifachen Summe der Kovarianz beider Variablen:
Da die Korrelation zwischen wahrem Wert & Messfehler laut Unabhngigkeitsaxiom aber 0 ist,
ist auch der Term Cov = 0. Daher ergibt sich:
Varianzschtzung:
Um die unbekannten Varianzen (tau & epsilon) schtzen zu knnen, werden Testwertevariablen
zweier Tests xp und xq herangezogen. Unter Anwendung des Verknpfungsaxioms wird dabei
die Kovarianz der Testwertevariablen xp und xq zweier Tests p und q betrachtet:
Da die Messfehler & wahre Werte untereinander unkorreliert sind, ist der Kovarianzterm
hinsichtlich der Fehlerwerte 0 und kann entfallen:
Stammen xp und xq aus 2 parallelen (sog. tau-quivalenten) Tests, dann gilt tp = tq = t, und die
wahre Testwertevarianz ergibt sich aus der Kovarianz zweier paralleler Tests:
Somit kann die wahre Testwertevarianz Var(tau) als Kovarianz zweier tau-quivalenter Tests
geschtzt werden. Dies ermglicht schlielich auch, die Fehlervarianz zu schtzen:
48
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Die Grundlage der Korrelation zwischen 2 Messwerten des gleichen Probanden in 2 Testungen
ist, dass der wahre Wert der Gleiche bleibt.
Die Korrelation der Messwerte wird im Vergleich zur Korrelation der wahren Werte gemindert,
da die Messwerte sich wegen des Messfehlers unterscheiden.
Aus den Axiomen der KTT kann abgeleitet werden, dass die Korrelation der Messwerte (rtt)
dem Anteil der Varianz der wahren Werte (st2) an der Gesamtvarianz der Messwerte (sx2)
entspicht.
Reliabilitt:
- Ma der Zuverlssigkeit.
- Reliabilitt ist wahre Varianz geteilt durch beobachtete Varianz.
- Ist das Verhltnis der beiden Varianzanteile 1, dann gbe es keine Messfehler und die
Reliabilitt wre perfekt.
- Ist die Reliabilitt 0, misst der Test nur Messfehler.
- Quotient aus Anteil der wahren Varianz und dem Anteil der beobachteten Varianz:
Bei parallelen Tests kann der Anteil wahrer Varianz an der beobachteten Varianz zudem als Test-
Test-Korrelation rtt anhand der beobachteten Daten geschtzt werden:
(Die Retest-Reliabilitt wird als Anteil der Varianz wahrer Werte an der Gesamtvarianz der Messwerte verstanden)
49
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Die Testwerte eines Tests mit einer Reliabilitt von rtt = .70 gehen zu 70%
auf wahre Werte und zu 30% auf Fehlerwerte zurck.
f.) Standardmessfehler:
Wie wirkt sich der Messfehler auf die Streuung der Messwerte aus?
(Htte ich keinen Messfehler > wahrer Wert = Messwert > Reliabilitt = 1)
Standardmessfehler:
50
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Er gibt denjenigen Anteil an der Streuung eines Tests wieder, der auf seine Ungenauigkeit
zurckzufhren ist.
Berechnet wird er aus der Standardabweichung der Messwerte multipliziert mit der Wurzel der
Unreliabilitt:
bzw.
Ist rtt gro, wird Messfehler kleiner > je kleiner desto grer der Standardmessfehler.
Hat man einen groen Messfehler, streuen sie um den wahren Wert.
Wird ein Test eingesetzt, um die Ausprgung eines Kriteriums zu prognostizieren, kann ein
Standardschtzfehler ermitteln werden, der die Streuung um den wahren Kriteriumswert
eingrenzt:
(SD(c) = Standardabweichung des Kriteriums; corrtc = Korrelation zwischen Test & Kriterium)
Aus Berechnung des Standardmessfehlers kann zudem eine Gleichung abgeleitet werden, mit
der die Differenz zweier einzelner Testwerte auf Signifikanz geprft werden kann. Diese sog.
kritische Differenz berechnet sich wie folgt:
Der Abstand zweier Testwerte wird dann signifikant, wenn dieser grer ist als diffcrit
Bsp.: Ein Proband erzielt in einem ersten Untertest einen Testwert von 115 (bei einer Reliabilitt
des Tests von 0,86), in einem zweiten Untertest einen Testwert von 102 (bei einer Reliabilitt von
0,90). Es stellt sich nunr die Frage ob dieser Abstand bei einem alpha = 0,05 signifikant ist:
51
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Mit dem Standardmessfehler kann ein Konfidenzintervall berechnet werden, in dem der wahre
Wert einer Testperson mit einer bestimmten Wahrscheinlichkeit zu finden ist.
Zur Berechnung des Konfidenzintervalls wird die folgende Formel verwendet:
(Confidence Limit Messwert 1,96 Wert bei Irrtumsws. bei Standardnv Standardmessfehler)
Der Standardmessfehler wird dazu genutzt, die Messwertsumme der Punktschtzung um ein
Konfidenzintervall zu erweitern, in dem der wahre Wert liegt.
Vertrauensbereich, in dem 95% aller mglichen wahren Werte liegen, die den
Stichprobenschtzwert erzeugt haben knnen.
Groer Standardmessfehler = groes Konfidenzintervall
Voraussetzungen:
Test hat ausreichende Reliabilitt (> 0,80)
Fehler sind normalverteilt
Stichprobe > 60 bei kleineren kann t-Verteilung herangezogen werden.
Bsp.: Die Reliabilitt einer IQ-Tests (M=100; SD=15) betrgt rtt = 0,80. Ein proband erreicht einen
Messwert von 110. In welchem Intervall ist der wahre Wert des Probanden mit einer
Wahrscheinlichkeit von 95% zu erwarten?
52
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
h.) Minderungskorrekturen:
Wie wirkt sich der Messfehler auf die maximale Hhe der Korrelation,
die ein Test zu anderen Variablen zeigen kann aus?
Ein gesondertes Problem bezieht sich auf die Frage, welche Auswirkungen Messfehler auf die
Hhe einer bivariaten Korrelation ausben.
ber die Minderungskorrektur kann dazu eine Schtzung abgegeben werden, welche
Korrelation zu erwarten ist, wenn die betrachteten Testverfahren vollkommen reliabel (frei von
Messfehlern) sind.
Korrelation zwischen den wahren Werten zweier Tests soll geschtzt werden.
Reliabilitten und die Korrelation der beiden Tests mssen bekannt sein.
> Minderungskorrektur fr die Korrelation
Mit Minderungskorrektur kann Schtzung der Korrelation zweier Variablen mit wahren Werten
vorgenommen werden, wenn deren Reliabilittskoeffizienten vorliegen.
Es lsst sich so der Korrelationskoeffizient fr den Fall korrigieren, wenn die beiden korrelierten
Werte fehlerbehaftet sind, wodurch deren Korrelation vermindert war.
Doppelte Minderungskorrektur: wenn Test t und Kriterium c eine unzureichende Reliabilitt
besitzen.
Mit der Minderungskorrektur kann berechnet werden, wie hoch die Korrelation von 2 Tests maximal
wre, wenn sie komplett reliabel wren (rtt = 1).
ACHTUNG:
53
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Beobachtet werden knnen nur die Korrelationen zwischen den Messwerten. Ist man an der
Korrelation der wahren Werte interessiert, kann man diese schtzen.
Aus den Axiomen der KTT lsst sich die Formel der Minderungskorrektur ableiten, die den
mindernden Einfluss des Messfehlers in der Korrelation der Messwerte korrigiert.
Doppelte MK
(rtc = empirisch festgestellte Korrelation; durch Produkt aus den wurzeln der Reliabilitt)
In der Forschung sind wir an den wahren Werten interessiert, und nicht an den Testergebnissen.
Wir rechnen Messfehler heraus und kommen somit auf die wahren Werte. (hier werden die
Fehlerwerte herausgerechnet).
Einfache MK
Entwicklung neuer Tests. Man mchte wissen wie sie das Konstrukt operationalisieren. Man will
konvergente Validitt feststellen (die Korrelation mit einem Test mit anderen Tests die das selbe
Merkmal feststellen).
Wenn man in ein Testverfahren reinsieht und man sieht die Doppelte MK (Schulnoten = 0,6)
bedeutet das automatisch dass man damit gut Schulnoten vorhersagen kann?
Minderungskorrektur fhrt zu hherer Korrelation, da sie in Richtung wahrer Werte geht. man
teilt immer durch Werte kleiner 1 daher erhht sich die Korrelation.
Bringt uns in der Praxis aber nichts, da wir nur die Messfehler behafteten Messwerte haben. Auf
den wahren Wert kommt man nicht
54
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Bsp.: Test A weist eine Reliabilitt von rtt = 0,8 auf, Test B eine von rcc= 0,6. Die Tests zeigen
einen Zusammenhang von rtc = 0,3. Wie hoch wre der Zusammenhang maximal, wenn Test A
bzw. beide Tests perfekt reliabel wren?
i.) Testverlngerung:
ACHTUNG:
Wird ein Test um (gleich gut geeignete) Items verndert, so nimmt die Varianz
wahrer Werte strker zu, als die Varianz der Fehlerwerte, d.h. Test wird reliabler.
Praktischer Bezug:
- Die Reliabilitt eines Testverfahrens kann somit gesteigert werden, wenn zustzliche Items
aufgenommen werden, die gleich gut geeignet sind, d.h. wenn er verlngert wird.
- Aus den Axiomen der KTT lsst sich eine Formel ableiten, mit der geschtzt werden kann, wie
hoch sich die Reliabilitt des Tests nach der Verlngerung ergibt:
(Spearman-Brown-Prophecy-Formula)
- Parallele Testteile: 2 Testteile p und q mit gleichen wahren Werten & gleicher wahrer Varianz.
- Verlngert man Test p um q, ist die gemeinsame Testvarianz die Summe der Einzelvarianzen +
der zweifachen Kovarianz beider Tests.
- Bei Verdopplung der Testlnge durch einen parallelen Testteil, resultiert die doppelte
Fehlervarianz, aber die vierfache wahre Varianz > Spearman-Brown-Formel
- k = Verlngerungsfaktor (K = 2 > Verdopplung, K = 3 > Verdreifachung)
55
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Bsp.: Ein Test besteht aus 10 Items und weist eine Reliabilitt von rtt = 0,5 auf. Wie hoch wre die
Reliabilitt, wenn man den Test um 5 Items verlngern wrde?
Steigerungen der Reliabilitt lassen sich dann am effektivsten erzielen, wenn die
Ausgangsreliabilitt niedrig ist.
Die Gleichung kann zudem auch dann eingesetzt werden, um eine Reliabilittsminderung
infolge einer Testkrzung abzuschtzen. Dies kann z.B. notwendig sein, wenn infolge des
Entfernens von Skalen aus einem Test eine kritische Reliabilittsgrenze nicht unterschritten
werden soll.
Dabei ist der Faktor k zu ersetzen durch den Quotienten k = (Anzahl der Items nach der
Korrektur)/(Anzahl der Items vor der Korrektur)
Bsp.: Ein Test soll von 100 Items auf 60 Items gekrzt werden. Damit ergibt sich ein k = 100/60 =
0,6. Weist der ursprngliche Test eine Reliabilitt von rtt = 0,90 auf, resultiert fr die verkzte
Version:
56
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Die KTT liefert einen bewhrten und konomischen Ansatz zur Ermittlung von Testwerten & zur
Beurteilung von Messgenauigkeiten bei psychometrischen Tests & Fragebgen.
Die KTT ist pragmatisch, aber umstritten, da sie viele starke Annahmen macht, die nicht empirisch
berprfbar oder fraglich sind:
1.) Schtzprobleme:
Addition eines Testwertes aus wahrem Wert & Fehlerwert: Dieses Axiom der KTT ist
empirisch nicht berprfbar, da es sich beim wahren Wert und Fehlerwert nur um theoretische
(nicht beobachtbare) und maximal schtzbare Gren handelt.
Nullkorrelation zwischen wahrem Wert & Fehlerwert: Ebenfalls nicht empirisch prfbar und
zudem im Falle abhngiger Messungen (wiederholte) nicht immer haltbar.
Konstanz der Werte: Wenn berhaupt nur fr kurze Zeitrume & spezifische Merkmale
vertretbar. Fr Vielzahl von Merkmalen muss hingegen angenommen werden, dass sie sich
ber die Zeit verndern.
2.) Skalierungsprobleme:
Intervallskalierung von Testwerten: Nicht alle Tests erfllen das Kriterium intervallskalierter
Daten. Zudem gelingt es mit den Mitteln der KTT nicht zu berprfen, welches Skalenniveau die
Testwerte aufweisen.
3.) Konstruktprobleme:
Annahmen ber Eigenschaften der untersuchten Merkmale: Die mit den statistischen
Verfahren verbundenen Implikationen sind nicht berprfbar. (z.B. dass Merkmale grundstzlich
Normalverteilt sein sollen ob alle physischen Merkmale Normalverteilt sind)
Annahmen ber Eigenschaften der verwendeten Items: Keine direkte Mglichkeit der
berprfung, ob verwendete Items hinsichtlich des untersuchten Merkmals homogen sind.
Eingeschtzt werden kann diese Forderung lediglich ber Angaben zur Trennschrfe und
Angaben zur internen Konsistenz.
Unabhngigkeit der Parameter: Die Parameter der KTT sind populations- bzw
Stichprobenabhngig. in Abhngigkeit von der Homo- oder Heterogenitt der untersuchten
Stichprobe verndern sich die Reliabilittskoeffizienten. Besonders das Auftreten oder Fehlen
extremer Werte nimmt dabei erheblichen Einfluss auf korrelative Beziehungen zwischen
Variablen.
4.) Stichprobenproblem:
57
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Positives:
Pragmatische Grnde
Die darauf basierenden Tests haben sich in der Praxis oft bewhrt
Es liegen inzwischen auch Erweiterungen der KTT vor
58
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
a.) Grundidee:
- Bei der Validierung von Testverfahren wird geprft, ob die empirischen Daten durch
Modellgleichungen vorhergesagt werden knnen.
- Sofern diese Prfung erfolgreich ist, knnen dem Test bestimmte Eigenschaften
zugemessen werden, die in der psychodiagnostischen Praxis von Vorteil sind.
Wie verhlt sich die Schwierigkeit des Items zu dem, was der Proband kann
Beispiel:
Personenparameter: 62kg & 135kg Itemparameter: Sind sie schwerer als 40/60/ etc.?
Proband 1: Fhigkeit Items zu lsen ist hher als der Itemparameter, d.h. er Antwortet dann mit ja.
Bei 60 ebenfalls ja, bei 80 msste er nein sagen. (voraussgesetzt er antwortet immer ehrlich).
Proband 2: Bei 135kg sollte dieser mit nein antworten, davor nur mit ja.
59
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Die Antwort auf einem Item hngt gleichzeitig vom Itemparameter (wie schwer ist die Aufgabe?) & vom
Personenparameter (wie fhig ist die Person?) ab.
Verlauf der Lsungswahrscheinlichkeit in Abhngigkeit von Personen und Itemparameter (Itemcharakteristische Kurve)
Bis zu dem Punkt von 80kg ist sie 0 und springt ab dann auf 1 d.h. wenn ich jemanden habe der weniger als 80kg
wiegt, sagt er auf jeden Fall nein & bei jemandem mit 135kg auf jeden Fall ja
(Diese Guttman - Skala bezieht sich nur auf die frage, also das Item)
- In diesem Sinne sollten Probanden mit einer hohen Ausprgung der latenten Variable
zugehrige Items auch in Schlsselrichtung beantworten (lsen) whrend Probanden mit einer
niedrigen Ausprgung in gegenlufiger Richtung antworten (nicht lsen).
- Dabei werden wechselseitige Korrelationen zwischen den manifesten Variablen angenommen
und auf den Einfluss der latenten Variable zurckgefhrt.
60
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Wenn alle Items Indikatoren der latenten Variable sind, so sollten die Korrelationen zwischen den
Items verschwinden, wenn die latente Variable auf einer Stufe konstant gehalten wird.
(immer wenn das der Fall ist, ist es eindimensional, d.h. man misst nur 1 Konstrukt und kein anderes - also reliabel)
Um von manifesten Variablen auf eine gemeinsame latente Variable schlieen zu knnen,
bedarf es einer Datenbasis mit korrelierten manifesten Variablen (xvi*).
Hinreichende Bedingung: Itemhomogenitt bezglich der latenten Variable, d.h. dass das
Antwortverhalten nur durch das latente Merkmal beeinflusst wird.
Itemhomogenitt, wenn die manifesten Variablen die Bedingung der lokalen stochastischen
Unabhngigkeit erfllen.
1. Die latente Variable wird auf einem bestimmten Wert konstant gehalten (Stichprobe von
Probanden, die alle die gleiche Ausprgung hinsichtlich des Merkmals haben)
2. Korrelationen der Antwortvariablen an den Personen mit dieser Ausprgung werden in der
latenten Variable (ksiv) untersucht.
3. Liegt Itemhomogenitt vor, verschwinden die Korrelationen zwischen den Antwortvariablen.
- Wenn alle Items homogen sind, mssen Personen mit gleicher Merkmalsausprgung der
latenten Variable bei einem Item die selben Werte erreichen.
- im idealen Fall ohne Fehlereinflsse gbe es also einen Datenpunkt in einem Streudiagramm,
bzw. mit Messfehlern eine enge kleine Punktwolke mit Nullkorrelation.
- Wre die Korrelation nicht 0, wren die Items nicht homogen und die Items wrden dann noch
etwas anderes messen als das Merkmal.
61
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
2 Basismodelle:
Deterministische Modelle:
Gehen davon aus, dass Antwortverhalten nur durch Item- und Personenparameter bestimmt
wird.
Guttmann-Modell: (Skalogramm-Modell)
- Wenn ein Proband ein Item lst, muss er alle leichteren auch gelst haben
- Wenn ein Proband ein Item nicht lst, darf er danach kein schwereres lsen.
Die relativ strengen Modellannahmen der Guttman-Skala werden in der
psychodiagnostischen Praxis blicherweise nicht erfllt.
62
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Zur Guttmann-Skala:
Items sind von links nach rechts nach ihrer Schwierigkeit abgetragen.
Eine Person mit einem bestimmten Fhigkeitsparameter kann, wenn er Item 2 lsen kann auch
Item 1 links davon lsen.
Items sind dichotom: es gibt nur gelst (1) und ungelst (0)
Fr jedes Item wird ein bestimmter Fhigkeitswert angenommen, ab dem es gelst wird.
Auswertung der Skala:
Reproduzierbarkeitskoeffizienten:
anhand dessen wird festgestellt, ob Modellkonformitt/Itemhomogenitt gegeben ist.
mageblich: Anzahl der Rangplatzvertauschungen, wenn schwierigere Items gelst,
leichtere nicht gelst werden (dies ist nmlich nicht modell-konform!).
Also berprfung, ob die Probanden sich Modellkonform verhalten.
Der Skalenwert/Testwert eines Probanden ist die Rangzahl des Items, auf das noch positiv
reagiert wird.
Kritik:
Es knnen nur
Ranginformationen abgelesen
werden (ordinale Information)
keine Aussagen zu Distanzen
(da nur Rangskalenniveau)
63
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Probabilistische Modelle:
Gehen von stochastischer Beziehung zwischen dem Antwortverhalten und dem Item- und
Personenparameter aus.
Verwendung monoton steigender IC-Funktionen (logistische Funktion).
Ordnet jeder Ausprgung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein Proband
ein bestimmtes Item lst.
eine Funktion bezieht sich immer auf ein einzelnes Item.
Lsungswahrscheinlichkeit steigt mit Fhigkeit des Probanden.
je weiter rechts die Funktion liegt, desto schwieriger ist ein Item.
am Wendepunkt ist immer eine Lsungswahrscheinlichkeit von 0,5 > hier ist der
Personenparameter gleich der Itemschwierigkeit.
Gnstiger sind IC-Funktionen bei dichotomen Items
In Rasch-Modellen wird der Zusammenhang von Fhigkeit des Probanden, Schwierigkeit des
Items & der Lsungswahrscheinlichkeit durch die logistische Funktion beschrieben.
(p = probability; exp = Item von Testperson v in Item; Ist ein Item schwerer als die Fhigkeit eines
Probanden oder umgekehrt? Differenz)
64
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Einfachster Fall: Annahme, dass fr alle Items die gleiche logistische IC-Funktion gilt.
Definition Itemcharakteristische Funktion (IC-Funktion)
Sie legt in Form einer mathematischen Gleichung fest, welche Annahmen ber den
Zusammenhang zwischen manifesten und latenten Variablen getroffen werden. Sie stellt dabei die
Grundlage fr die Schtzung der Personen- und Itemparameter dar.
(Dies wre die Kurve von 3 Items, welche sich nur in der
Schwierigkeit unterscheiden -5 bis 5)
Es gibt 2 Wahrscheinlichkeiten: Item gelst & Gegenwahrscheinlichkeit Item nicht gelst > 2
Verlufe der Funktion.
Gleichung ist wesentlich durch die Differenz von Merkmalsausprgung einer Person
(Personenparameter) minus Itemschwierigkeit bestimmt, da der Itemschwierigkeitsparameter
darber entscheidet, welche Anforderungen das Item an den Personenparameter stellt.
Rasch-homogene Items:
- Unterscheiden sich nur in ihren Schwierigkeitsparametern, ansonsten sehen sie gleich aus.
> Unterscheiden sich also nur in der Lage (leichtere Items weiter links, schwierigere rechts)
65
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
fr alle Reaktionen wird je eine Wahrscheinlichkeit berechnet, die dann mit anderen
Wahrscheinlichkeiten pro Reaktion zu einem Wert multipliziert wird.
Ergebnis: Wahrscheinlichkeit fr eine Datenmatrix, in der fr n Personen und m Items alle
Reaktionen abgetragen sind.
mit passenden Parametern steigt die Wahrscheinlichkeit, mit unpassenden sinkt sie.
bester Schtzer fr die Parameter ist die fr die Funktion einen Maximalwert ergeben.
Summennormierung:
- Werte des Itemparameter in einem Intervall -3 bis +3 gewhlt, sodass deren
Summe 0 ergibt:
- leichte Items: negative Werte des Itemparameters
- schwere Items: positive
- geringe Merkmalsausprgung: negative Werte
fr den Personenparameter
- hohe Merkmalsausprgung: positive Werte
Likelihood erreicht Maximum, wenn die geschtzten Item- und Personenparameter optimal sind.
Likelihood: Ermittlung aus den Zellen- und Spaltensummen der Datenmatrix > erschpfende
Statistik.
66
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Modellkonformitt:
Wie gut passen Parameter zum Modell; wie konform sind die Daten zum Modell?
Es knnte sein, dass die optimal geschtzten Parameter nur zu verhltnismig geringen
Wahrscheinlichkeiten fr die Daten fhren.
Voraussetzung der Stichprobenunabhngigkeit durch die Aufteilung der Gesamtstichprobe in 2
Substichproben anhand eines relevanten Kriteriums.
Liegen Itemparameter (kalibrierte Items) vor, und ist Modellkonformitt besttigt, muss nicht fr
jede Person der eigene Personenparameter geschtzt werden.
Wenn IC-Funktionen aller Items die gleiche Form aufweisen und entlang der x-Achse parallel
verschoben sind.
Ermglicht Schwierigkeitsunterschied zweier Items unabhngig von Merkmalsausprgung einer
Person festzustellen.
Ebenso: Unterschiede zwischen Personenparameter knnen unabhngig von der
Itemschwierigkeit festgestellt werden.
67
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(8 Items, 2 Personen Grn = Item gelst; Rot = nicht gelst Person 1 ist im gesamten Test fhiger.
Teilt man die Tests jedoch auf, ist es anders.)
Welche Antwortsequenzen
korrespondieren?
Welche knnen dargestellt
werden?
(Spez. Obj. in der Guttman-Skala: Person 4 ist am fhigsten. Schneiden wir Item 4 raus, bleibt es so. Schneiden wir 3
und 4 raus, verndert sich schon die Rangreihe (Person 3 und 4 teilen sich den Platz). Schneiden wir 3 Items raus,
ndert sich wieder etwas. Die Rangreihe bleibt gleich, egal welche Items ich rausnehme)
68
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(Spezifische Objektivitt: Rangreihe der Probanden verschiebt sich nicht, wenn unterschiedliche
Itemstichproben vorgegeben werden)
Iteminformation:
Definition:
Beschreibt den Beitrag eines Items zur Messung des entsprechenden Merkmals. Je hher der
Informationswert, desto mehr trgt das Item zur Messung eines Merkmals bei. Der Informationswert ist somit
das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als
konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird.
zeigt an, wie viel Information ein Item in einem bestimmten Fhigkeitsbereich ber die
Unterschiedlichkeit der Probanden liefert.
(Differenz zwischen Probanden- und Itemschwierigkeit Maximale Information liefert das Item
auf dem Niveau seiner Schwierigkeit)
Je grer die Steigung der IC-Funktion, desto hher der Informationsgewinn durch Anwendung
des Items i bei einer bestimmten Person.
Jedes Item liefert unterschiedliche Informationen ber die Merkmalsausprgungen
verschiedener Personen.
69
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Wenn man eine Person von der anderen unterschieden hat, gibt es einen Gewinner und einen
Verlierer (sie schtteln sich praktisch die Hand)
100 Probanden bearbeiten ein Item. Wie viele Unterscheidungen zwischen Probanden knnen
getroffen werden?
70
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
zustzlich: Itemdiskriminationsparameter
Gibt an, wie stark sich die Lsungswahrscheinlichkeiten in Abhngigkeit von der
Merkmalsausprgung ndern.
Ma fr die Sensitivitt der Items fr Merkmalsunterschiede
Je kleiner der Parameter, desto geringer die Diskriminationsfhigkeit des Items.
Ein solches Item ist aber sensitiv im oberen oder unteren Bereich.
Entspricht etwa der Trennschrfe in der KTT
71
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(y Achsenabschnitt = Ratewahrscheinlichkeit)
Modellvergleich:
Intervallskalenqualitt:
72
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Es geht immer in die gleiche Richtung, sowohl negativ als auch positiv.
berdurchschnittliche Fhigkeit = berdurchschnittliche Werte
Bei der PTT herrscht intervallskalenniveau (d.h. die Ausschlge sind strker/akzentuierter/
prziser. Hoher Personenparameter bei lsen von sehr schweren Items)
Bei der KTT herrscht rangskalenniveau (d.h. Abstnde knnen nicht interpretiert werden,
Rangreihe informiert nicht ber Details)
Es gelten damit:
KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person und der Schwierigkeit
eines Items her.
Bei der PTT werden Fhigkeitsschtzungen & Itemschwierigkeiten auf einer joint scale
abgebildet.
Eindeutig ist die relative Lokalisation der Personenfhigkeit zu der Itemschwierigkeit nur dann,
wenn die IC-Funktionen aller Items parallel verlaufen.
KTT liefert als Messfehlertheorie Konzepte zur Reliabilittsschtzung
PTT expliziert Beziehungen zwischen Antworten von Probanden und dahinterstehenden
latenten Merkmalen.
Beide Anstze ergnzen sich daher.
- Bei der KTT wird bei der Testwertbildung die Antwort auf die Items des Tests mit der Messung
des im Test erfassten Konstruktes gleichgesetzt.
- Bei der IRT hingegen wird das im Test gezeigte Verhalten (also die Antwort) auf eine Fhigkeit
oder Eigenschaft zurckgefhrt, die das Testverhalten verursacht.
- Somit ist das beobachtete Verhalten (manifeste Variable) bei der PTT lediglich ein Indikator fr
das dahinterliegende Konstrukt, dessen Messung nur indirekt erfolgen kann & die Ausprgung
der latenten Variable nur erschlossen werden kann.
73
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Tests, die den Modellansprchen der IRT (PTT) gengen, haben in der psychodiagnostischen
Praxis mit einem konomischen Vorteil die Mglichkeit, eingesetzt zu werden.
Aufgrund der spezifischen Objektivitt ist es nicht notwendig, dass alle Probanden alle Items
bearbeiten. (unabhngig von den Items die ich rausnehme, soll das selbe Ergebnis
rauskommen)
Vielmehr knnen den Probanden Teile der Skala vorgegeben werden, die maximal informativ fr
die Abschtzung der Ausprgung der latenten Variable sind.
Diese Vorgehensweise wird als adaptives Testen bezeichnet.
5 Karten mit Szenen, die man in die richtige Reihenfolge bringen soll.
74
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Realittssicherheit (Subtest)
Ein Bild wird vorgegeben, es fehlt immer eine Komponente. (Hier z.B. die Zgel und die 0)
75
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
(Adaptives Testen: Gilt spezifische Objektivitt, so knnen den Probanden lediglich die Items
vorgegeben werden, die fr die Erfassung der latenten Variable maximal informativ sind)
Allgemeines:
Das Adaptive Testen bietet sich besonders bei Testverfahren an, die auf der Grundlage der
Probabilistischen Testtheorie konstruiert werden.
Die Auswahl aus einem Itempool bzw. die Vorgabe einzelner Items orientiert sich am
spezifischen Antwortverhalten einzelner Probanden.
Erfolgt meist durch Anpassung der Itemauswahl hinsichtlich ihrer Schwierigkeit an die Fhigkeit
des Probanden.
Die angepasste Vorgabe von Items soll dabei mehr diagnostischen Nutzen bringen (mglichst
exakte Informationen zur individuellen Merkmalsausprgung) und gleichzeitig testkonomisch
sein.
Adaptiver Algorithmus.
Dieser regelt die Itemauswahl zu Beginn & whrend der Testung
sowie Kriterien zur Testbeendigung.
- hier entscheidet nicht ein von auen regelnder Algorithmus, sondern die Probanden selber ber
die Schwierigkeit des nachfolgenden Items.
Vor dem Testen sind i.d.R. noch keine Informationen ber die Fhigkeit eines Probanden
vorhanden.
Daher wird hufig ein Item mittlerer Schwierigkeit (p=0,5) verwendet, oder ein leichteres Item
(p=0,8).
Sind Informationen vorhanden, knnen diese zu einer vorlufigen Schtzung der
Merkmalsausprgung herangezogen werden, um ein passendes Item mit der gewnschten
Schwierigkeit aus dem Itempool auszuwhlen.
76
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Bei dieser Strategie entscheidet jede Antwort des Probanden ber die Auswahl des
nachfolgenden Items.
Ausgehend vom Erfolg der Bearbeitung einer Aufgabe wird anhand fester Verzweigungsregeln
entschieden, welches Item als Nchstes vorgelegt wird.
Die individuelle Merkmalsausprgung am Ende des Tests wird dann entweder anhand der
Schwierigkeit des Items ermittelt, das als Nchstes vorgelegt worden wre, oder aus der
mittleren Schwierigkeit aller vorgelegten Items. (exklusive des ersten Items) zuzglich des
Items, das als Nchstes vorgelegt worden wre.
Hier wird das Fhigkeitsniveau (Personenparameter) mit jeder gelsten Aufgabe neu geschtzt.
Dabei wird das Item anhand seiner optimalen Eigenschaften unter der Bedingung von Ksi
gewhlt.
Beendet wird die Testung, wenn ein definiertes Ziel- oder Abbruchkriterium erreicht ist.
Diese Form kann aufgrund des Rechenaufwands allerdings nur bei computerbasierten
Verfahren eingesetzt werden.
Orientiert sich an der Erreichung eines Ziel- bzw. Erfllung eines Abbruchkriteriums.
Zielkriterien: z.B. bestimmte Anzahl von prsentierten Items oder die minimierte Schwankung
des Standardfehlers bei der Personenparameterschtzung.
Abbruchkriterien: z.B. Erreichung einer maximalen Testzeit oder das Ausschpfen aller
verfgbaren Items.
Diese Entscheidung hngt i.d.R. von der Testart (Einzel- oder Gruppentests) & den
Eigenschaften des Itempools ab.
77
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
78
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart
Quellen:
Pospeschill, M. (2010). Testtheorie, Testkonstruktion, Testevaluation: mit 77 Fragen zur
Wiederholung. Reinhardt.
Smtliche Materialien von Dr. Nicolas Becker aus dem Sommersemester des Studiengangs
Psychologie an der Universitt des Saarlandes 2015 (Testtheorie und Testkonstruktion)
79