Sie sind auf Seite 1von 79

Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

1.) Einfhrung
a.) Warum notwendig?

- Psychometrische Testverfahren kommen in allen psychologischen Disziplinen zum Einsatz.


(Klinische, ABO, Pdagogische-, Verkehrspsychologie, etc.)
- Von Ergebnissen dieser Tests hngt fr die Testpersonen viel ab. (Zuordnung zu Therapie,
Einstellung, Einschulung, Schuldfhigkeit, etc.)
- Ergebnisse mssen gegenber Testperson und Auftraggeber rechtfertigt werden.
b.) Was ist ein Test?

- Verfahren zur Untersuchung eines Persnlichkeitsmerkmals.


- Vorgang der Durchfhrung einer Untersuchung/Testung.
- Gesamtheit der zu Durchfhrung notwendigen Requisiten.
- Gewisse mathematisch-statistische Prfverfahren.
- Psychotests in Zeitschriften.

c.) Definition: psychometrischer Test

Ein psychometrischer Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines
oder mehrerer empirisch abgrenzbarer Persnlichkeitsmerkmale mit dem Ziel einer mglichst
quantitativen Aussage ber den relativen Grad der individuellen Merkmalsausprgung.

1.) Wissenschaftliches Routineverfahren

Test muss so aufgebaut sein, dass er von jedem Experten


ordnungsgem in gleicher Art und Weise durchgefhrt
werden kann.
Psychologische Tests mssen wissenschaftlichen Standards
gengen, um aussagekrftige Ergebnisse zu liefern.

2.) Untersuchung von Persnlichkeitsmerkmalen

Grundidee bei der Durchfhrung von psych. Tests ist es, dass
Persnlichkeitsmerkmale das Testverhalten beeinflussen und
aus diesem daher auf das Persnlichkeitsmerkmal
geschlossen werden kann.

3.) Quantitative Aussagen

Anhand der Ergebnisse muss es mglich sein, Aussagen ber


die individuelle Ausprgung des gemessenen Merkmals bei den
Probanden zu treffen.
blicherweise wird hierzu die Merkmalsausprgung des
Probanden in Relation zu einer Normstichprobe gesetzt.

d.) Definition: Testtheorie

Eine Testtheorie ist eine Theorie ber verschiedene Arten von Tests, ihrem Aufbau und ihren
Konstruktionsprinzipien. Sie beschftigt sich mit dem Zusammenhang von Testverhalten
(ausgedrckt in empirischen Testwerten) und dem zu erfassenden Merkmalen.

1
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

e.) Begriffe

- Testobjekte: Einzelpersonen, Gruppen, Kombi aus Personen & Situationen,


Zeitbereiche(Vernderungsmessung)

- Testitems: Einzelne zu bearbeitende Aufgaben eines Tests


- Testskala: Satz von Items die den gleichen Skalierungseigenschaften gengen
- Testbatterie: Kombination aus Einzeltests - zur Erhhung der Genauigkeit und Gte der
Messung.

- Testtheorie ist Theorie ber:



Verschiedene Arten von Tests, deren Aufbau und Konstruktionsprinzipien;
Zusammenhang von Testverhalten und dem zu erfassenden Merkmal;
Ableitung von Gtekriterien.

- Testmanual: bei wissenschaftlichen Tests sind hier die Testgtekriterien erlutert.


- Testgtekriterien: Instrument der Qualitts- und Wissenschaftlichkeitsprfung. (In Testmanual
erlutert)

2
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

2.) V1: Test- und Aufgabenarten, Konstruktionsstrategien


a.) Testplanung

Planung beginnt mit berlegungen, das zu messende Konstrukt mglichst genau zu definieren
bzw. seine Charakteristika festzulegen:

Im Idealfall auf Basis eines psychologischen Modells oder eine psychologischen Theorie.

Ist dies (noch) nicht mglich, reichen vorlufige Explikationen oder Arbeitsmodelle aus, welche
dann im weiteren Verlauf przisiert werden knnen.
Auch Befragungen von Experten oder Personengruppen, die besonders hohe oder niedrige
Ausprgungen der entsprechenden Fhigkeit oder Eigenschaft ausweisen, knnen wichtige
Hinweise liefern.
Zur weiteren Eingrenzung sollte Literatur aus vorhandenen Theorien, empirischen Befunden
und eigenen berlegungen eine Arbeitsdefinition des Konstruktes formuliert werden.

Festlegung der Erhebungsmerkmale:

Die Erhebungsmerkmale knnen aufgrund der Abhngigkeit von den psychologischen Theorien
und der Operationalisierbarkeit verschiedene Qualitten und Eigenschaften aufweisen.

Qualitative vs. Quantitative Merkmale:


1. Qualitative Merkmale unterteilen Personengruppen lediglich anhand einzelner
Kategorien. (z.B. Geschlecht, Familienstand, usw. also nominalskaliert)
2. Quantitative Merkmale erlauben graduell abgestufte Merkmalseinteilungen (z.B.
IQ, Punktzahl in Tests also ordinal- oder intervallskalierte Messung)

Mehrdimensionale vs. Eindimensionale Merkmale:


(Durch Exploratorische Faktorenanalyse (EFA) o.a. Korrelationsstatistiken)

1. Eindimensional (unidimensional)
2. Mehrdimensional (multidimensional) ist z.B. die Lebensqualitt, da materielle und
soziokulturelle Faktoren zusammengefasst werden. Sie werden in sogenannten
Subtests (Untertests) erfasst, die wiederum unidimensional sind.

Zeitlich stabile vs. vernderliche Merkmale:


1. Persnlichkeitsmerkmale (TRAITS)
2. Situationsabhngige Merkmale/Zustnde (STATES)

3
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

b.) Aufgabenarten

Aufgaben mit freiem Antwortformat

Es werden keine Antwortalternativen


vorgegeben, sondern von der Person
selbst formuliert/produziert.

Untertypen:

Kurzaufsatzaufgaben (z.B. Rorschach)


Ergnzungsaufgaben (z.B. HAWIK-III)
Hamburg-Wechsler-Intelligenztest fr Kinder III

Vorteile:

Raten und zuflliges Antworten sind nicht mglich, da Reproduktion von Wissen/Generierung
von Antworten gefordert.
Eigenstndige Leistung (Motivation, Interesse, Kreativitt, Sprachverstndnis, etc.)
Auswertungsobjektivitt durch eindeutige Vorgabe gewhrleistet.
Nachteile:

Hoher Zeitaufwand fr Proband, Testleiter & Auswerter.


Reduktion der Auswertungsobjektivitt durch mangelnde Eindeutigkeit der Antworten.
Fremde Muttersprachler benachteiligt.
Aufgaben mit gebundenem Antwortformat

Es werden mehrere Antwortalternativen vorgegeben. (kein Freiraum fr eigene Antworten)

1.) Ordnungs- bzw. Zuordnungsaufgaben (Bestandteile umordnen oder einander zuordnen)

Umordnungsaufgabe:

Verwendung von bildlichem Material, Nachweis


schlussfolgernden Denkens oder von Lsungen
zur Ursache und Wirkungsbeziehung.

Elemente sollen so in eine sinnvolle Reihenfolge


gebracht werden.

Zuordnungsaufgabe:

Bietet sich an bei Wissens- und Kenntnisprfung,


die ein korrektes Wiedererkennen testen sollen.

2 Elemente sollen einander korrekt zugeordnet


werden.

4
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Vorteile:

Umordnungsaufgaben sind sinnvoll, wenn die Ergebnisbeeintrchtigung durch Lesefhigkeit


ausgeschlossen werden soll. (Im Leistungsbereich sind Aspekte wie schlussfolgerndes Denken,
etc. gut zu erfassen)
Zuordnungsaufgaben sind einfach zu konstruieren, konomisch und hinsichtlich ihrer
Auswertung objektiv. (eignen sich also fr kompakte berprfung von Wissen)

Nachteile:

Materialentwicklung fr Umordnungsaufgaben ist aufwendig.


Verwendbarkeit fr Gruppentestung ist eingeschrnkt.
Da wissen nicht reproduziert oder angewendet werden muss, ist Raten mglich.
2.) Auswahlaufgaben (richtige bzw. zutreffende Antwortalternative bestimmen)

(KFT 4-12 + R d2)

Vorgabe mehrerer Alternativen.


Bei Leistungstests gibt es sogenannte Distraktoren (ablenkende bzw. zerstreuende Items) um
Ratewahrscheinlichkeit zu senken.
Es muss darauf geachtet werden, dass nur eine Antwort richtig ist (Disjunktion = Trennung)
Bei Persnlichkeitstests ist auerdem die Exhaustivitt (Vollstndigkeit = alle
Verhaltensvarianten sind abgebildet) wichtig.
Die Exhaustivitt gilt fr Leistungstests nicht, da die Menge falscher Antworten praktisch
unendlich ist.
Um die Ratewahrscheinlichkeit zu senken, kann in der Instruktion die Anzahl korrekter
Antworten vorgegeben, oder vom Probanden als zustzliche Aufgabe gefordert werden.
auerdem werden dichotome (2 Antwortalternativen, z.B. ja/nein) und Multiple-Choice-
Aufgaben (Mehrfachauswahl) unterschieden.

Vorteile:

Einfach, konomisch & objektiv.


Dichotome Antwortalternativen = kurze Bearbeitungszeit.
Ratewahrscheinlichkeit verringert sich mit der Anzahl der Antwortalternativen.
Nachteile:

Dichotome haben eine 50% Ratewahrscheinlichkeit und sind daher fr Leistungsbereich


ungeeignet und bietet eine nur eingeschrnkte statistische Auswertung.
Es wird generell nur eine Rekognitionsleistung erfasst, d.h. Kreativitt oder besondere
Problemlsefhigkeiten werden nicht erfasst.
Sind Diatraktoren leicht zu durchschauen, erhht das die Ratewahrscheinlichkeit.

5
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

3.) Beurteilungsaufgaben (inwiefern trifft eine Aussage zu oder nicht)

(Aus den Big 5 aufpassen mit Intro-/Extraversion Keine Varianz wenn alle nur 2 ankreuzen
wrden. Je mehr Auswahlmglichkeiten es gibt, desto mehr Varianz unter den Probanden.)

Werden hufig im Rahmen von Persnlichkeitstests oder Fragebgen eingesetzt.


Ein Statement (vorgegebene Aussage) soll mittels einer diskret gestuften Ratingskala
(Stufenskala) oder einer kontinuierlich verlaufenden Analogskala eingeschtzt werden.

Stufen einer Ratingskala:

Die optimale Anzahl von Skalenstufen hngt bei einer diskreten Ratingskala von der
Diskriminationsfhigkeit der Probanden bzw. der Differenzierbarkeit eines Urteils ab.
Grob werden bei einer einzelnen Ratingskala 9 2 Kategorien empfohlen, bei Itembatterien
5 2 Skaleneinheiten.
7 Skalenstufen habe sich als Optimal fr den Informationsgewinn herausgestellt
Eine geringere Anzahl von Antwortkategorien verhindert die Neigung, Extremurteile abzugeben.
Kontinuum einer Analogskala:

Ob die Angabe auch dem Urteil entspricht ist nicht in jedem Fall sichergestellt.
Analogskalen werden zunehmend im Bereich von computergesttzten Online-Erhebungen
verwendet.

Forcierung des Ratings: (gerade/ungerade Anzahl von Kategorien)

Ungerade Anzahl von Kategorien hat zwangslufig einen Mittelpunkt, der verschieden
interpretiert werden kann. (unforciertes Rating) Wird hufig als Ausweichoption verwendet oder
als typische oder normale Ausprgung missverstanden. (wei nicht Kategorie wird oft mit
angegeben um gerade dies zu verhindern und gleichzeitig ein verwertbares Datum zu liefern)
Gerade Kategorienanzahl zwingt Proband zu einem Urteil. (forciertes Rating)

6
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Polaritt der Skala:

Bipolare Skalen sind durch einen positiven und einen negativen Pol gekennzeichnet.
Unipolar Skalen besitzen einen Bezugspunkt geringster Intensitt und einen Pol grter
Intensitt. (Zustimmung/Ablehnung) Dabei steigt die Intensitt nur in eine Richtung

Symmetrie der Skala: (Balancierung einer Skala)

Bei einer balancierten Ratingskala ist die Anzahl der positiven & negativen Kategorien gleich.
Bei einer umbalancierten Ratingskala ist sie ungleich.
Beschriftung einer Skala: (Verankerung einer Ratingskala)

Numerische Verankerung = Kategorien mit Zahlen. (mathematisch prziser, stellt aber keine
Gleichabstndigkeit (quidistanz) der Zahlen sicher)
Verbale Verankerung = Kategorien mt Worten oder Stzen. (erleichtert die Beantwortung)
Eine kombinierte Ratingskala beschreibt nur die Extrempositionen verbal. (ergnzende
Funktion)

Symbolische Skalen und Marker:

Beurteilungen ohne semantische Interpretation von Skalenpunkten.


besonders geeignet fr Personen, die im Umgang mit Zahlen oder semantischen Kategorien
ungebt sind.

Gtekriterien einer Skala:

Reliabilitt & Validitt von Ratingskalen werden unterschiedlich beurteilt.


Hauptschlich werden 2 Methoden der Reliabilittsbestimmung verwendet:
Test-Retest-Methode & Inter-Rater-Methode

7
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Fazit:

Leistungstests lassen sich prinzipiell in jedem Format darstellen.


Persnlichkeitstests vorwiegend Auswahlaufgaben (dichotome oder Multiple-Choice-Aufgaben).
Aspekte zur Auswahl des passenden Aufgabentyps sind: gute Verstndlichkeit, konomische
Durchfhrbarkeit, kurze Lsungszeiten, geringer Testmaterialverbrauch, einfache & leichte
Anwendbarkeit, geringe Wahrscheinlichkeit fr Zufallslsungen, angemessener
Komplexittsgrad.

Vorteile:

Geringerer Zeitaufwand fr Proband, Testleiter & Auswerter.


Auswertung der Antworten ist objektiv, da eindeutig.
Nachteile:

Raten und zuflliges Antworten ist mglich, da eine (Re-)Produktion von Wissen/Antworten
gefordert wird.
Antwortalternativen mssen exhaustiv & disjunkt sein. (d.h. alle mglichen Ausprgungen
mssen erfassbar sein und drfen sich nicht berschneiden)

Aufgaben mit atypischem Antwortformat

Finger Maze (Barker, 1931)

Die Linien in Bild 1 wurden in eine Linoleum-Platte


geschnitzt.

Dem Probanden werden die Augen verbunden. Er soll


versuchen, die Linie von Anfang bis Ende ohne Fehler
nachzufahren, d.h. ohne in eine Sackgasse zu
geraten.

Der Test ist bestanden, wenn die Linie 3 mal ohne


Fehler nachgefahren wurde.

Der Test ist uerst reliabel, d.h. wenn man bei einer
Platte lange braucht, braucht man auch bei einer
anderen Platte lange (rtt zwischen .96 und .90) und
differenziert gut zwischen unterschiedlichen
Schwierigkeitsgraden (Anzahl von Kreuzungen)

c.) Testarten (Festlegung der Testart)

Es lassen sich 5 Arten von Tests unterscheiden

1. Leistungstests
2. Persnlichkeitstests
3. Projektive Verfahren
4. Apparative Verfahren
5. Objektive Tests

8
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Leistungstests

Sie verlangen den Probanden die Lsung von Aufgaben oder Problemen, die Reproduktion
von Wissen, das Unter Beweis stellen von Knnen, Ausdauer oder Konzentrationsfhigkeit
ab (Rost, 2004; S.43)

- Erfassung des maximalen Verhaltens
- Verflschung nur nach unten mglich

Es wird zwischen Speed- und Power-Tests unterschieden:




Speed: Aufgaben sind einfach und knnen von allen Probanden gelst
werden. Differenzierung erfolgt ber die Begrenzung der Bearbeitungs-
zeit.


Power: Aufgaben sind schwer und knnen auch bei unbegrenzter
Bearbeitungszeit nicht von allen Probanden gelst werden.
Differenzierung erfolgt ber Schwierigkeit der Aufgabe.

Leistungstests haben berlicherweise sowohl eine Speed- als auch eine Powerkomponente.

> Zur Bestimmung des Anteils der Varianz von Testwerten, die auf die Speed- bzw.
Powerkomponente eines Tests zurckgeht knnen Speed- bzw. Power-Indices berechnet
werden.

Persnlichkeitstests

Erfassen das fr den Probanden typische Verhalten in Abhngigkeit der Ausprgung von
Persnlichkeitsmerkmalen. (Verhaltensdisposition)
Die Messung erfolgt hierbei ber Selbstausknfte: (Fragebgen)
- Da es keine optimale Ausprgung von Persnlichkeitsmerkmalen gibt, werden
Antworten nicht im Sinne von richtig oder falsch bewertet.
- Bewertung erfolgt danach, ob Aussagen fr eine bestimmte Ausprgung eines
bestimmten Merkmals sprechen oder nicht.
- Simulation ist in beiden Richtungen, d.h. zugunsten niedriger als auch hoher
Merkmalsausprgungen mglich.
- Merkmalsbereiche sind z.B. aktuelle Zustnde, Symptome, Verhaltensweisen,
Motivation, Interessen, Meinungen, Einstellungen. (Bsp.: MMPI-2 Minnesota
Multiphasic Personality Investory-2)

9
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Projektive Verfahren

Erfassung qualitativer Aspekte der


Gesamtpersnlichkeit.
Mehrdeutiges Bildmaterial soll beschrieben
werden:

- In den Beschreibungen sollen sich


unbewusste oder verdrngte
Bewusstseinsinhalte wieder-spiegeln, die
auf das Bildmaterial projiziert werden.

Aufgrund unzureichender Erfllung von


Testgtekriterien sind projektive Verfahren in
Forschungskontexten als ungeeignet zu
bewerten.
Im Zusammenhang der klinischen Exploration
und der Bildung interventionsbezogener
Hypothesen kann ihnen jedoch eine gewisse
Berechtigung zugemessen werden.

(Bsp.: Holtzman Inkblot Technique)

Apparative Verfahren

Aufgaben bedienen sich bestimmter technischer Anordnungen zur Erfassung des relevanten
Merkmals.
Erfasst werden vor allem Merkmale, die fr andere Testarten nicht zugnglich sind (z.B.
sensorische oder motorische Merkmale)
Computerbasierte Tests stellen eine Unterklasse der Apparaten Verfahren dar, die momentan im
Zunehmen begriffen ist.

Interessant sind diese als Mglichkeit zur Verbesserung


der Durchfhrungs- und Auswertungsobjektivitt sowie als Mglichkeit
zur Reduktion des Aufwandes der Testdurchfhrung.

10
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Objektive Tests

Im Zusammenhang objektiver Persnlichkeitstests bedeutet der Objektivittsbegriff die


Begrenzung der Mglichkeiten subjektiver Verflschung:

- Probandenmerkmale werden nicht durch Selbstausknfte sondern ber das


Verhalten in einer standardisierten Testsituation erschlossen.
- Objektive Tests haben keine Augenscheinvaliditt, d.h. die Probanden wissen nicht,
welches Konstrukt durch die Testung erhoben werden soll.
- Zur Erfassung bieten sich die gleichen Merkmalsbereiche an, wie im Zusammenhang
anderer Persnlichkeitstests.

d.) Festlegung des Geltungsbereichs

Inhaltliche Vielfalt: Heterogenitt vs. Homogenitt von Aufgaben


- Mit anwachsen des Geltungsbereich eines Tests mssen auch mehr Informationen
erfasst werden.(damit die geforderten Kriterien mit ausreichender Genauigkeit
vorhergesagt werden knnen). > Erhht Heterogenitt der Aufgaben.
- Daher sollte der Geltungsbereich mglichst eng definiert werden, also nur gezielte
Aspekte zu erfassen. > Schrnkt Anzahl der Kriterien ein und Aufgaben gewinnen
damit an Homogenitt.
- Die notwendige Entscheidung hat Auswirkungen auf die Kriteriumsvaliditt, da mit
der Auswahl der Aufgaben auch die Kriterien festgelegt werden, die der Test
vorhersagen soll.

Zielgruppe: Analysestichprobe, Eichstichprobe und Personenkreis des Tests


- Analysestichprobe dient der Itemanalyse
- Eichstichprobe soll Validitt des Tests feststellen und eine Normierung der
Ergebnisse vornehmen.
- Beide sind unabhngig voneinander zu ziehen und sollten beide die gleichen Ein-
und Ausschlusskriterien erfllen, die auch fr den Personenkreis zutrifft.
- Ist die Zielgruppe eher breit, mssen Items ber greren Schwierigkeits- bzw.
Merkmalsbereich erstreckt werden und ggf. inhaltlich breiter die mglichen
Ausprgungen abdecken.

11
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Testlnge: Anzahl der Testaufgaben (Itemanzahl & Testinformation)


- Anzahl der Items ist von Homo- bzw. Heterogenitt der Merkmalsdimensionen
abhngig.
- Przision einer Messung steigt mit zunehmender Itemanzahl. Damit steig auch die
Reliabilitt.
- Vorsicht: keine unbeschrnkte Steigerung, da zu viele Items auch testfremde
Einflsse zulassen (z.B. nachlassende Motivation, etc.).
- Tests, die bereits eine sehr gute Reliabilitt besitzen, knnen durch eine
Testverlngerung nur geringfgig verbessert werden.

Testdauer: Zeit der Testbearbeitung


- Hngt von Testlnge & Testart ab.
- Verfahren die einer differenzierten Individualdiagnose dienen, bentigen mehr Zeit
als Screeningverfahren oder Kurztests.
- Auch die Zielgruppe bestimmt die zeitliche Erstreckung eines Tests. (z.B.
Erwachsene, Kinder, oder ltere Menschen)

e.) Konstruktionsstrategien

Rational-deduktive Konstruktion (Items werden entsprechend einer Theorie gebildet)

Items werden auf Basis einer bestehenden Theorie generiert. Hierbei sind folgende
Gesichtspunkte wichtig:

Theorien liefern Konstrukte, die erfasst werden sollen (z.B. Intelligenz, Motivation, Angst)
Theorien beschreiben, welche Verhaltensindikatoren bei der Erfassung des Konstrukts
herangezogen werden knnen (z.B. fr das Konstrukt schulische Leistungsfhigkeit:
rechnerische und sprachliche Fhigkeiten)
Theorien legen fest, welche Antwortformate sich zur Erfassung des Konstrukts eignen (z.B.
Verhaltensorientierte Persnlichkeitstheorien: Selbst- und Fremdbeschreibung;
tiefenpsychologische Persnlichkeitstheorien: projektive Verfahren)

Vorgehensweise bei rationaler Skalenkonstruktion:

1. Generierung der Items


2. Erhebung einer Validierungsstichprobe
3. Prfung von Reliabilittskennwerten (alpha, rsh, rtt)
4. Eliminierung ungeeigneter Items
5. berprfung der Validitt in Bezug auf externe Kriterien

External-kriteriumsbezogene Konstruktion (Items werden entsprechend eines Kriteriums ausgewhlt)

Voraussetzung ist das Vorliegen verschiedener Gruppen, die sich in Bezug auf das Kriterium
unterscheiden. (z.B. Alkoholiker vs. Nicht-Alkoholiker, Misshandler vs. Nicht-Misshandler)

Den Mitgliedern der Gruppen wird eine groe Zahl mglichst breit gefcherter Items vorgelegt
Es werden die Items ausgewhlt, die signifikant zwischen den Gruppen trennen knnen.
Mittels Diskriminanzanalyse wird eine Funktion bestimmt, mit der die Gruppen optimal getrennt
werden knnen.

Achtung: Die Schtzung der Diskriminanzfunktion ist stark von der verwendeten Stichprobe
abhngig. Eine Kreuzvalidierung ist notwendig. (anpassen an Stichprobe)

12
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Notwendigkeit von Kreuzvalidierung:

Werden viele Items in die Diskriminanzfunktion eingegeben, so befinden sich mit hoher
Wahrscheinlichkeit faule pfel darunter.

Ein Fauler Apfel ist ein Item, dass die beiden Gruppen nur in der
verwendeten Stichprobe trennt und in anderen Stichproben keine
Bedeutung besitzt.

In der verwendeten Stichprobe trennt das Item durch Zufall gut (mag pfel zufllig)

In der Population trennt das Item generell schlecht

Es gibt immer eine Irrtumswahrscheinlichkeit. z.B. das Item Ich mag pfel und die Stichprobe Depressiv & Nicht, und zufllig mag
einer der Nicht-Depr. pfel nicht

13
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Vorgehen:

1. Stichprobe in Konstruktions- und Validierungsstichprobe aufteilen.


2. Diskriminanzfunktion in Konstruktionsstichprobe bestimmen.
3. Diskriminanzfunktion aus Konstruktionsstichprobe in Validierungsstichprobe einsetzen.
4. Vergleich der korrekten Zuordnungen zwischen Konstruktions- und Validierungsstichprobe

Unterscheiden sich die korrekten Zuordnungen zwischen beiden Stichproben nicht,


so kann das Item auch in der Population trennen.

Induktive Konstrunktion (Items werden entsprechend korrelativer Analysen ausgewhlt - keine Theorie oder Kriteriumsgrpn)

Hier liegen weder eine Theorie noch bestimmte Kriteriumsgruppen vor. Vielmehr werden Items, die
hohe Korrelationen zeigen zu Skalen zusammengefasst. (zu Gruppen)

Diese Vorgehensweise wird als blind-analytisch (explorativ) bezeichnet, da bei der


Konstruktion keine Rcksicht auf inhaltliche Gesichtspunkte genommen wird.
Zur Konstruktion der Skalen werden zumeist explorative Faktorenanalysen durchgefhrt.
Items, die hohe Ladungen auf dem gleichen Faktor zeigen, werden zu einer Skala
zusammengefasst.

z.B.: Intelligenztests nach Thurstone (primary mental abilities), FPI, NEO-PI-R (NEO-FFI)

Freiburger Persnlichkeitsinventar (FPI-R Fahrenberg, Hampel & Selg, 1994)

(Die Autoren gehen von bestimmten psychologischen Konstrukten aus, die ihnen aufgrund ihrer
Erfahrungen und der Literatur interessant und wichtig erscheinen)

Prototypenansatz (Items werden bzgl. prominenter Vertreter bestimmter Klassen gebildet)

Konstrukte werden als natrliche Kategorien menschlicher Wahrnehmung aufgefasst (z.B.


Blumen). Ihre Mitglieder besitzen unterschiedliche Typikalitt (z.B. Rosen vs. Orchideen).
Prototypen sind hierbei die Mitglieder, die die hchste Typikalitt besitzen.

Vorgehensweise: Items werden hinsichtlich der Prototypizitt fr eine oder mehrere Kategorien
eingeschtzt, wobei die Items mit der hchsten Prototypizittseinschtzung beibehalten werden.

14
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Act Frequency Approach (Buss & Craik, 1980):

1. Probanden sollen an Personen aus Bekanntenkreis denken, die bestimmte Eigenschaft


besonders stark reprsentieren. (z.B. Unterwrfigkeit)
2. Probanden sollen konkrete Verhaltensweisen der Person nennen, die ihre Meinung nach
indikativ fr das Vorhandensein dieser Eigenschaft sind (z.B. Sie erhielt eine unfaire Note
und nahm es hin)
3. Verhaltensweise wird von anderen Probandengruppen hinsichtlich Prototypizitt eingeschtzt.
4. Items mit hchster Prototypizittseinschtzung werden als Grundlage der weiteren
Validierung des Verfahrens verwendet.

Alle Konstruktionsprinzipien sind in etwa gleicher Weise zielfhrend, und es wird im einzelnen von
Vorlieben oder Notwendigkeiten abhngen, fr welche Strategie man sich entscheidet.

Intuitive Konstruktion

- Items werden aus Annahmen & Erfahrungen des Konstrukteurs abgeleitet.


- Nur noch bei neuartigen Forschungsfragen mglich.

f.) Fehlerquellen bei der Beantwortung von Items

Fehler bei der Itembearbeitung sind dann zu bercksichtigen, wenn sie systematisch auftreten,
denn das fhrt zu konstruktirrelevanter Varianz.

Grnde Validittseinschrnkender Fehlerquellen:

- Konstruktionsmngel der Items


- Unerwnschte Kognitionen oder Emotionen
- Unterschiedliche Motive:

Wille sich zu bewhren & nicht zu versagen


Einstellung behilflich zu sein und den Erwartungen zu entsprechen
Erwartung eine Belohnung zu erhalten oder eine Bestrafung vermeiden

15
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Soziale Erwnschtheit

uern von Meinungen und/oder Einstellungen unter der Annahme, diese seien in
bereinstimmung mit gesellschaftlichen Werten & Normen (Normanpassungseffekt).

- Kommt hufig bei Testverfahren vor, die eine Selbstbeschreibung erwarten (social desirability)
- Das Vortuschen von Verhaltensweisen, die ein Proband sonst nicht zeigt, wird als
Simulation (fake good) bezeichnet.
- Das Verbergen von Verhaltensweisen die ein Proband normalerweise zeigt, nennt man
Dissimulation (fake bad).

Tuschungsarten:

1. Selbsttuschung (self-deceptive enhancement):

Vorteilhafte Selbstdarstellung ohne dies als Tuschung von anderen anzusehen.

2. Fremdtuschung (impression management):

Erzeugter Fehleindruck wird zur Steuerung und Kontrolle


anderer Menschen eingesetzt.

Wann?

- Unter besonderem Erfolgs- oder Vermeidungsdruck.


- Situationen mit direkter mndlicher Befragung sind anflliger als stark anonymisierte.
- Vorgetuschte Verhaltensweisen (fake good) sind dabei noch strker als die Effekte
verborgenen Verhaltens (fake bad), wenn die Testperson in einer Instruktion explizit dazu
aufgefordert wird.

Vermeidung: (kontrollieren oder unterbinden von sozial erwnschtem Verhalten)

1. Kontroll- oder Validittsskalen: (Lgenskalen)



Itemsets, die empfindlich auf Tendenzen sozialer Erwnschtheit reagieren oder auch
systematische Beantwortungen von Items aufdecken sollen.

Es werden dabei Eigenschaften, Einstellungen oder Verhaltensweisen abgefragt, die eine
spezifische Antwort als besonders unglaubwrdig erscheinen lassen. (z.B. sozial erwnschte
Aussagen, die aber eigentlich nicht vorkommen: Ich bin immer objektiv; oder sozial
unerwnscht, aber vorkommen: Manchmal bin ich auch ungerecht)

2. Ausbalancierung:

Antwortalternativen so gestalten, dass sie gleich attraktiv sind. Dadurch soll
Wahrscheinlichkeit erhht werden, dass diejenige Alternative gewhlt wird, die tatschlich
zutrifft. Jedoch ist die Entwicklung sehr aufwendig.

3. Objektive Persnlichkeitstests:

Testabsicht und Testziel verschleiern.
Keine Augenschein-Validitt.
berwiegend sachbezogene Inhalte (um Verflschungstendenzen vorzubeugen)

16
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Antworttendenzen:

Durch die Form der Datenerhebung knnen vor allem Antworttendenzen (response sets)
ausgelst werden, die Probanden zu einem stereotypen (gleichbleibenden) Antwortstil verleiten.
(Die dadurch reduzierte Itemvarianz verzerrt die Daten)

1. Tendenz zur Mitte (Milde-/Hrte-Effekt)



Unzureichend empfundenes Wissen oder Unsicherheit (motivational) fhrt zu:

Whlen einer neutralen Mittelkategorie einer Skala = Milde-Effekt
Tendenz zu Extremurteilen = Hrte-Effekt

Beiden Effekten kann nur indirekt vorgebeugt werden, indem man bei der Skalierung auf eine
Mittelkategorie oder extrem formulierte Beschriftungen verzichtet, oder eine
Ausweichkategorie einfhrt.

2. Akquieszenz (Ja-/Nein-Sage-Tendenz)

Wenn Aussagen nicht reflektiert werden (ohne Rcksicht auf erfragte Inhalte), kann eine
Zustimmungstendenz oder Ablehnungstendenz kann die Folge sein.

Vermeiden durch klare und eindeutige Itemformulierungen und ausbalancierte
Schlsselrichtung der Items. (gleiche Anzahl von bejahten und verneinten Items)

3. systematisch fehlende Werte:



unsystematisches berspringen oder Verndern von Items fhrt zu fehlenden Werten
(missing values), welche die sptere Auswertung erheblich erschwert und einschrnkt.

Erfolgt es allerdings bei bestimmten Items systematisch, knnte das ein Hinweis fr
fehlerhafte Itemformulierung sein.

(Zusammenfassung: Verhindern, Kontrollieren, Ignorieren)

17
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

3.) V2: Gtekriterien


Richtlinien der Auswertung/Testbeurteilung:

Standards for educational and psychological


testing

Wann ist ein Test gut oder schlecht?


(Amerikanischer Standard)

Guidelines on Test use

hnlich zum STANDARDS nur International

18
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

a.) Allgemeines

Entscheidungen, die auf der Basis von Ergebnissen psychologischer Tests getroffen werden,
sind oft mit weitreichenden Konsequenzen fr den Probanden verbunden.
(z.B. Einschulungsuntersuchungen, Personalauswahl, Schuldfhigkeitsbegutachtung)
Die Gtekriterien dienen somit der Einschtzung der Eignung eines Tests vor dem Hintergrund
einer gegebenen Fragestellung.
Obwohl eine weitgehende Einigkeit ber zu erfllende Spezifika besteht, wurde bisher kein
verbindlicher Katalog einschlgiger Kriterien definiert.

bersicht:

b.) Hauptgtekriterien

1.) Objektivitt

Objektivitt besteht fr einen Test dann, wenn das Testergebnis unabhngig von Untersuchungs-
leiter, vom Testauswerter und der Ergebnisinterpretation ist.

(Sie soll sicherstellen, dass die Ergebnisse eines Tests zwischen Personen vergleichbar sind.)

Durchfhrungsobjektivitt:

Soll sicherstellen, dass Testergebnis nicht vom Testleiter abhngig ist.


Dazu wird die Testsituation so standardisiert, dass nur die Testperson die einzige Quelle fr
Variationen in der Situation darstellt.

(Genau Anweisungen, Vorgaben & Bedingungen)

Diese Vorgaben knnen betreffen:



Testmaterial
Testinstruktion (einschlielich dadurch ausgelster Nachfragen durch die Testperson)
Testleiterverhalten (welche Interaktionen mit der Testperson ist zulssig)
Testumgebung (rumliche Gegebenheiten, zus. Materialien)
zeitliche Erstreckung (ggf. eine maximale Bearbeitungszeit)

Alle Strvariablen sollen kontrolliert, konstant gehalten, oder eliminiert werden.


19
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Bsp.: NEO-FFI

Testsituation:

Verhalten des Testleiters bei Rckfragen:

Auswertungsobjektivitt:

Antwortverhalten wird genau quantifiziert.


Und ist nicht von der Person abhngig, welche den Test auswertet. (Insbesondere bei
Aufgaben, deren Auswertung nicht anhand fester Auswertungsschablonen oder Schlssel
festgelegt ist, mssen Auswertungsregeln aufgestellt werden.)
Objektivitt kann verbessert werden durch:
Auswertung durch mehrere Personen
Konkordanzmae (Kendalls W oder Scotts Pi)
(Ermitteln des Ausmaes der bereinstimmung)

20
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Bsp.: NEO-FFI (Kreise htten verschiedene Farben (Rot = Extraversion, etc.))

Interpretationsobjektivitt:

Stellt sicher, dass Schlussfolgerungen aus Testergebnissen unabhngig vom Testanwender


sind.
Verschiedene Testanwender sollten also bei gleichen Testresultaten zu gleichen
Interpretationen kommen.
In den Testmanualen liegen dazu Skalenbeschreibungen vor, (z.B. ber arithmetische Mittel und
Standardabweichungen) die als Normtabellen zum Vergleich einzelner Testpersonen mit
adquaten Bezugsgruppen genutzt werden knnen.

Bsp.: NEO-FFI

21
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Zusammenfassung:

Das Hauptgtekriterium Objektivitt kann als erfllt gelten, wenn ein psychologischer Test
hinsichtlich seiner Handhabung, Auswertung und Interpretation so festgelegt ist, dass sein
Einsatz unabhngig von umgebenen Faktoren (wie Ort, Zeit, Testleiter und Auswerter)
vorgenommen werden kann und unterschiedliche Testauswerter bei den gleichen Personen immer
zu gleichen Ergebnissen kommen.

2.) Reliabilitt

Reliabilitt ist ein Ma fr die Przision, Zuverlssigkeit und Genauigkeit, mit der ein Test ein
Merkmal misst. Przise ist eine Messung dann, wenn sie mglichst frei von Messfehlern erfolgt.

(Mit Reliabilitt wird die Qualitt eines Tests bezeichnet, die auf seiner Zuverlssigkeit beim
Erheben von Merkmalen beruht.)

Wichtig: Umschlossen wird lediglich die Frage, ob irgendein Konstrukt fehlerfrei erfasst wird und
nicht, ob es wirklich das intendierte Konstrukt ist.

Reliabilittskoeffizient rtt drckt in den Extremen ein Testergebnis vollkommen ohne Messfehler
aus (= 1,0) oder eins, das nur durch Messfehler zustande gekommen ist (=0).

0 = Wiederholung eines Tests an der gleichen Person fhrt unter gleichen Bedingungen und
ohne Vernderung des Merkmals zu vllig unterschiedlichen Resultaten.

1 = Wiederholung eines Tests an der gleichen Person fhrt unter gleichen Bedingungen und
ohne Vernderung des Merkmals zu identischen Resultaten.

0,7 = akzeptabel 0,8/0,9 = gut

Mit diesem Koeffizienten wird der Grad der Genauigkeit einer Merkmalsmessung ausgedrckt.
(unabhngig davon, ob der Test dieses Merkmal auch zu messen beansprucht)
Realibilitt = Quotient von wahrer Varianz (ohne Messfehler) zur Gesamtvarianz (einschlielich
Messfehler)

22
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Reliabilittsmae knnen berechnet werden, indem berprft wird, ob einzelne Personen in 2


Testungen gleiche Werte aufweisen.

Zur Ermittlung der Werte stehen 2 Mglichkeiten zur Verfgung


Testung zu 2 Zeitpunkten & Testung mit 2 Testformen

(innere Konsistenz = Konsistenzanalyse oder Splithalf-Reliabilitt)

(Test)-Retest-Reliabilitt

Derselbe Test wird wiederholt zu 2 Zeitpunkten prsentiert und die


Ergebnisse korreliert.
Korrelation zwischen beidenTestwerten der Probanden wird als
Reliabilitt angenommen. (rtt)
Dabei wird unterstellt, dass das zu messende Merkmal konstant
und auch das Zeitintervall zwischen den Testungen ohne Einfluss
auf die Messung ist.

Die Wahl des optimalen Retest-Intervalls muss bei instabileren
Merkmalen krzer und bei stabileren lnger sein.

Problematisch sind Merkmalsvernderungen zwischen den


Testzeitpunkten, die zu einer Unterschtzung der Reliabilitt fhren.
(z.B. Depressionsmae vor und nach einer Psycho-Therapie)
Das Risiko der Vernderungen und Erinnerungseffekten ist dabei
stark von den Inhalten abhngig.
(Verbindung symbolisiert, dass es sich immer um 1 Testperson
handelt.)

Paralleltest-Reliabilitt

Um dem Problem mglicher Vernderungen zwischen Test und


Retest zu umgehen kann zu 1 Zeitpunkt mit 2 Testformen getestet
werden.
Bentigt werden dazu inhaltlich hnliche Items (Itemzwillinge) aus
2 Tests (A und B), deren beobachtete Testwerte zu gleichen
Mittelwerten und Varianzen fhren.
Die Korrelation zwischen den Testwerten in beiden Testformen wird
als Reliabilitt angenommen. (r tt)
Problematisch ist, dass die Erstellung paralleler Testformen
aufwndig und schwierig ist.
(t = paralleltest, soll dasselbe erfassen wie der erste, nur in einer
anderen Form)
Vorteile: bungs- und Erinnerungseffekte knnen ausgeschlossen
werden, Unsystematische Fehlervarianzen, die fr alle
unterschiedlich sind, sind unkritisch.

23
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Splithalf-Reliabilitt

In vielen Fllen ist die Berechnung von Retest- bzw. Paralleltest-Reliabilitt nicht durchfhrbar.
Aus diesem Grund wurden Verfahren entwickelt,mit denen die Reliabilitt auf der Basis von
Testungen zu 1 Zeitpunkt mit 1 Testform mglich ist.
Grundlegende Idee dabei ist, Teile eines Tests als parallele Testversionen aufzufassen und die
Reliabilitt als Zusammenhang der einzelnen Teile anzunehmen.

Einfachster Fall: Testhalbierung (Splithalf-Reliabilitt)


(korrelieren des Summenwerts beider Tests r = produkt moment korrelation , sh= splithalf)

Zur Aufteilung der Testhlften bieten sich verschiedene Strategien an. Gngig sind unter
anderem diese Vorgehensweisen:

Testhalbierung Teilung des Tests in der Mitte.
Odd-Even Items mit geraden Nummern werden zu einer Testhlfte zusammengefasst, bei
Items mit ungeraden zu der anderen.
Zufallsaufteilung Die Items werden zufllig zwei Testhlften zugeordnet.
Parallelisierung Aufteilung der Items nach Trennschrfe und Schwierigkeit, d.h. beiden
Testhlften sollen gleich schwierig und trennscharf sein. (Methode der Itemzwillinge)

Achtung: In Abhngigkeit der Aufteilungsstrategie knnen sich in gleichen Datenstzen


unterschiedliche Reliabilittsschtzungen ergeben.

Konsistenzanalyse/Interne Konsistenz

Probleme bei der Testhalbierung:

24
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Problematisch an der Berechnung von Split-Halt-Reliabilitten ist, dass die Testhlften relativ
willkrlich gebildet werden knnen.
Unterschiede zwischen Koeffizienten, die aus unterschiedlichen Aufteilungen hervorgehen sind
schwer zu interpretieren.
Einen Ausweg aus dieser Problematik bietet die Berechnung von Cronbachs Alpha ( ).
Dieser Koeffizient entspricht der mittleren Reliabilitt, die sich bei der Bildung aller mglichen
Testhalbierungen ergibt. (Mittelwert aller mglichen Testhalbierungen)
Sinnvoll knnen -Werte im Bereich zwischen 0 und 1 interpretiert werden.
Die Untergrenze, ab der eine Skala noch als hinreichend reliabel betrachtet werden kann wird
blicherweise bei 0,7 angenommen.

Zusammenfassung:

Verschiedene Zugnge zur Beurteilung der Reliabilitt eines Testverfahrens lassen sich
unterscheiden:

- Testhalbierung/interne Konsistenz (Zusammenhnge zwischen Testteilen/Items eines Tests).


- Test-Retest-Reliabilitt (zeitliche Stabilitt der Werte zwischen 2 Testungen).
- Paralleltest-Reliabilitt (Zusammenhnge zwischen parallelisierten Testformen).

Keiner der besprochenen Reliabilittskennwerte ist hierbei einem anderen generell vorzuziehen.
Wichtig ist die gleichzeitige Betrachtung aller geschilderten Kennwerte, um einen mglichst
umfassenden berblick ber die Reliabilitt des Verfahrens zu gewinnen.

3.) Validitt

Validitt bezieht sich auf die Frage, ob ein Test wirklich das Merkmal misst, was er messen soll
bzw. zu messen vorgibt. Die Validitt bezieht sich dabei auf die Gltigkeit verschiedener mglicher
Interpretationen von Testergebnissen.

(Damit soll festgestellt werden, ob zwischen dem was gemessen wird und dem was gemessen
werden soll, tatschlich bereinstimmung besteht.)

Gilt als wichtigstes Testgtekriterium.


Objektivitt & Reliabilitt gelten zwar als notwendige, aber nicht hinreichende Bedingungen fr
Validitt.

Ein Test, der eine niedrige Objektivitt und Reliabilitt besitzt, auch keine hohe Validitt erzielen
kann, dass aber eine hohe Validitt ber das reine Vorhandensein von Objektivitt & Reliabilitt
hinausgeht.

Bei gegebener Validitt berechtigen die Ergebnisse dazu, das in der Testsituation gezeigte
Verhalten auf beobachtbares Verhalten auerhalb dieser Testsituation zu generalisieren.
(Ein solcher Zusammenhang knnte z.B. durch Korrelation der Testwerte mit einem relevanten
Auenkriterium berprft werden.)

25
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Zur Bestimmung er Validitt eines Tests gibt es verschiedene Zugnge. Moosbrugger & Kerala
(2007b) veranschaulichen dies am Beispiel eines Schulreife- bzw. Schuleignungstests:

1. Inhaltsvaliditt: Items, die Bestandteil des Tests sind, sollen inhaltlich das Konstrukt
widerspiegeln, das der Test erfassen soll (z.B. Umgang mit Zahlen, Sprachverstndnis)
2. Kriteriumsvaliditt: Mit dem Test soll vorhergesagt werden, in wiefern Kinder eingeschult
werden knnen. Kinder mit hheren Testwerten sollten sich daher besser in der Schule
zurechtfinden als Kinder mit niedrigen Werten.
3. Konstruktvaliditt: Das durch den Test gemessene Konstrukt Schulreife soll mit hnlichen
Konstrukten (z.B. Intelligenz, Entwicklungsstand) zusammenhngen und unabhngig von
inhaltsfremden Konstrukten (z.B. Temperament, Persnlichkeit) sein.
4. Augenscheinvaliditt: Auch fr Laien besitzen Schuleignungstests eine gewisse
Glaubwrdigkeit, da aufgrund der inhaltlichen Gestaltung solcher Tests nahegelegt wird, dass
damit wirklich Schuleignung gemessen wird.

a.) Inhaltsvaliditt

Wird das Konstrukt durch die Items ausreichend reprsentiert?


Erfassen alle enthaltenen Fragen das zu messende Konstrukt?
Ist ein reprsentativer Ausschnitt aller denkbaren Items enthalten?

- Eine numerische Bestimmung der Inhaltsvaliditt ist eher unblich.


- Vielmehr wird hierbei auf auf Expertenurteile und Befunde aus der Literatur zurckgegriffen.
Entscheidend ist, dass das Konstrukt auf der Inhaltsebene eingehend beschrieben wird, dass die
Items den abzudeckenden Inhaltsbereich zugeordnet sind und dass die Struktur des Tests mit der
Struktur des Konstrukts bereinstimmt. (Das zu erhebende Merkmal kann operational - also im
Wesentlichen durch Testinhalte - oder theoretisch - also als theoretisches Konstrukt - definiert sein)

Bsp.: Rumliches Vorstellungsvermgen

26
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

b.) Kriteriumsvaliditt

Befasst sich mit der Frage, inwiefern aus den Testwerten Kriteriumswerte vorhergesagt werden
knnen.
Es geht um die praktische Anwendbarkeit eines Tests, um das Verhalten einer Person
auerhalb der Testsituation anhand der produzierten Daten in der Testsituation vorherzusagen.
Dazu wird die Korrelation der Testvariablen & der Kriteriumsvariablen bestimmt:









Liegt ein zeitgleiches Auenkriterium vor, resultiert eine konkurrente (bereinstimmungs-)
Validitt. (t = test c = Kriterium)

Ist eine Prognose hinsichtlich einer zuknftigen Merkmalsausprgung intendiert, wird eine
prognostische bzw. prdikative (Vorhersage-) Validitt angestrebt.


Soll die Vorhersage eines praktisch relevanten externen Kriteriums verbessert werden, indem
zustzliche Items oder Skalen hinzugefgt werden, kann eine inkrementelle Validitt bestimmt
werden.

Schlielich ist auch eine retrospektive Validitt zu unterscheiden, bei der Zusammenhnge mit
zuvor ermittelten Kriterien hergestellt werden.

(Regressionsgerade = linearer Zusammenhang zwischen den beiden Merkmalen)

27
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Arten von Kriterien:

c.) Konstruktvaliditt

Auf Basis der Konstruktvaliditt wird bestimmt, ob mit dem im Test gezeigten Verhalten auf
zugrunde liegende Fhigkeits- oder Persnlichkeitskonstrukte geschlossen werden kann. Die
Konstruktvaliditt erlaubt entsprechende Aussagen, wie angemessen ein Test das beanspruchte
Konstrukt misst.

(Kann so aussehen, dass theoriegeleitete Zusammenhnge


zwischen Konstrukten des vorliegenden Tests mit anderen Verfahren auf
hnlichkeiten bzw. Unhnlichkeitenverglichen werden)

Das Kriterium wird unterteilt in 2 Subaspekte:



1. konvergente Validitt: Test soll hoch mit anderen Tests korrelieren, die das gleiche Konstrukt
erfassen.
2. diskriminante Validitt: Ein Test soll niedrig mit anderen Tests korrelieren, die verschiedene
Konstrukte erfassen.

Eine Mglichkeit, um konvergente und diskriminante Validitt gleichzeitig zu bestimmen besteht


in der Multitrait-Multimethod-Analyse von Campbell und Fiske (1959)

-> Es werden mindestens 2 Tests bentigt, die die gleichen Konstrukte erfassen.
-> Eine Stichprobe bearbeitet beide Tests und die Korrelationen zwischen den Konstrukten
werden beachtet.

Konvergente Validitt: Gleiche Konstrukte in


unterschiedlichen Tests korrelieren hoch.

Diskriminane Validitt:
Unterschiedliche Konstrukte
in unterschiedlichen Tests
korrelieren gering.

(Validittsdiagonale)

28
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

d.) Augenscheinvaliditt

Offensichtliche Akzeptanz eines Tests durch Laien.


Sie besitzt hinsichtlich der Kommunizierbarkeit und Nachvollziehbarkeit der Ergebnisse eine
nicht unerhebliche Relevanz.
Wissenschaftlich betrachtet ist sie nicht immer gewollt, da sie insbesondere in der
Persnlichkeitsforschung bereits bei der Testbearbeitung Antworttendenzen verursachen kann.

4.) Zusammenhang der Hauptgtekriterien

Ein Test ohne Objektivitt wird keine optimale Reliabilitt erreichen knnen:

Entstehen Fehler bei der Ermittlung oder Interpretation der Daten, beeinflusst dies die
Messgenauigkeit.

Ist die Reliabilitt nicht gegeben, knnen keine gltigen Aussagen oder Vorhersagen getroffen
werden, da der Test das Merkmal nicht genau messen kann:

Ohne einen exakten Testwert lsst sich keine klare Beziehung zu einem Auenkriterium
herstellen.

Zusammenfassung:

Die Validitt eines Tests kann als perfekt gelten, wenn ein individuelle Testwert eine Person
eindeutig auf einer Merkmalsskala lokalisiert.
In diesem Fall erlaubt ein Testergebnis einen unmittelbaren Rckschluss auf den Ausprgungsgrad
des zu erfassenden Merkmals.

Dabei knnen verschiedene Aspekte der Validitt unterschieden werden:

Inhaltsvaliditt (die Testitems stellen das optimale Kriterium zur Erfassung des Merkmals dar)
Konstruktvaliditt (ein Test kann aufgrund theor. Erwgungen ein best. Konstrukt erfassen)
Kriteriumsvaliditt (das Ergebnis eines Tests korreliert mit unab. erhobenen Auenkriterien)

29
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

5.) Nebengtekriterien

a.) Normierung/Testeichung

Ziel: Dem Testanwender ein Bezugssystem aktueller Vergleichswerte (Normtabellen) von


solchen Personen bereitzustellen, die der getesteten Person anhand relevante Merkmale
mglichst hnlich sind.

(In diesem Fall wird von den Daten einer Eich- oder Normierungsstichprobe gesprochen.)

Anhand der Normdaten kann eingeordnet und interpretiert werden, ob die Ergebnisse einer
getesteten Person zur Norm gehrend (durchschnittlich), oberhalb der Norm
(berdurchschnittlich) oder unterhalb der Norm (unterdurchschnittlich) zu beurteilen sind.

Normierungsstichprobe:

Bei einer Normierungsstichprobe handelt es sich um einen groen, reprsentativen Datensatz


des Testergebnisse verschiedener Probanden.
Im Anschluss an die Testung eines einzelnen Individuums kann geprft werden, an welcher
Stelle der Verteilung des Datensatzes die Testwerte eines Probanden zu finden sind.
Die Abweichung des Probanden vom Mittelwert wird in Standardabweichungen ausgedrckt.
Hierfr haben sich verschiedene Normmastbe etabliert.

30
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

berfhrbarkeit von Normmastben:



Prinzipiell sind alle Normen mittels z-Transformation ineinander berfhrbar, d.h. Testwerte in
Form einer Norm (z.B. IQ, d.h. M = 100, SD = 15) knnen als Testwerte einer anderen Norm
(z.B. Stanine, d.h. M = 5, SD = 2) dargestellt werden.

(Bsp.: Bei einem Probanden wurde ein IQ von 115 festgestellt. In der Stanine Norm wre es 7)

Geltungsbereich einer Norm wird durch folgende Aspekte bestimmt:

- Reprsentativitt (Global zahlreiche Merkmale mit Population bereinstimmen, Spezifisch)


Hierbei schtzt eine groe Stichprobe keineswegs vor mangelnder Reprsentativitt.
- Normdifferenzierung (Konkretisierung der Repr.), passende Bezugsgruppe, etc.
- Aktualitt der Eichstichprobe (nicht lter als 8 Jahre) Evtl. Flynn Effekt
- Testbedingungen nuter denen Probanden in der Normstichprobe getestet wurden.
b.) Skalierung

Abstnde zwischen Punktwerten (Numerisches Relativ ) entsprechen der Merkmals-


ausprgung (empirisches Relativ).

Dadurch lassen sich Unterschiede adquat auch in empirischen Merkmalsrelationen abbilden.

Von Messinstrumenten wird allgemein erwartet, dass sie mit dem entsprechenden
Skalenniveau ausgestattet sind, d.h. mindestens Ordinal- (um strkere von schwcheren
Ausprgungen zu unterscheiden) besser aber Intervallskalenniveau (um Gre einer
Merkmalsdifferenz zu bestimmen).

c.) konomie/Wirtschaftlichkeit (Kosten vs. Erkenntnisgewinn)

Angestrebte Erkenntnisgewinn soll unter akzeptabler Aufwendung finanzieller & zeitlicher


Ressourcen stattfinden. (Aspekt der Wirtschaftlichkeit)

Kosten minimal - Nutzen mglichst hoch (Erkenntnisgewinn)

Computerbasierte oder Adaptive Testung frderlich auf konomie

d.) Ntzlichkeit/Utilitt (praktischer Nutzen)

Mehr Nutzen als schaden.


In der Eignungsdiagnostik sollten mglichst viele geeignete Personen ausgewhlt und
mglichst viele ungeeignete Personen nicht ausgewhlt werden.

e.) Zumutbarkeit (Beanspruchung durch einen Test)

Testnutzen vs. zeitliche, psychische & krperliche Belastung der Testperson


Belastung kann erheblich variieren
f.) Unverflschbarkeit (Verzerrung & Verschleierung)

Hufige Verflschung durch Soziale Erwnschtheit, welche durch hohe Augenscheinvaliditt -


leicht nachvollziehbare Messintention - begnstigt werden kann.
Daher wird die Testintention oft verschleiert und es wird indirekt auf das zu messende Merkmal
geschlossen. (durch Konstruktion wird Verzerrung verhindert)

31
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

g.) Testfairness (Bias von Tests)

Testwerte sollen zu keiner systematischen Benachteiligung oder Diskriminierung bestimmter


Personen oder Personengruppen aufgrund ihrer Zugehrigkeit zu [] fhren.
Liegt eine unsystematische Unfairness vor, besitzen die Items einen sogenannten Itembias.
Testfairness spielt oft bei Leistungstests eine grere Rolle.
h.) Vergleichbarkeit (validittshnliche Tests)

Intraindividuelle Reliabilittskontrolle durch vorhanden sein einer Parallelform oder Validitt-


hnlichkeit eines Tests. (vergleichbare Ergebnisse)
Intraindividuelle Validittskontrolle durch vorhanden sein einer Korrelation zwischen 2
validittshnlichen Tests.

i.) Transparenz (Verstndlichkeit)

Verstndlichkeit der Instruktion (Probleme ausschlieen durch Vortests).


Aufklrung der Messintention & des Ergebnisses nach Abschluss des Tests.

32
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

4.) v3: Testevaluation


Die gewonnenen Daten werden im Rahmen einer Itemanalyse evaluiert, die zur Beurteilung der
Items deskriptive Statistiken verwendet.
Fr diese psychometrische Aufbereitung der Daten gibt es verschiedene Analyse-Schritte zur
Qualittsbestimmung und Einhaltung von Normen.
Es wird von Intervallskalenniveau ausgegangen.
a.) Datenstruktur der Messungen

Items in Spalten, Probanden in Zeilen und Werte in Zellen (= Datenmatrix)


Nach diesem Schema werden Itemwerte (xvi) von insgesamt n Probanden gegen insgesamt m
Items abgetragen.
Ein beliebiger Proband erhlt den Index v und ein beliebiges Item den Index i
Bei Leistungstests knnte 0 fr eine falsche und 1 fr eine richtige Antwort stehen.
Bei Persnlichkeitstests knnte xvi fr einen Wert von 0 bis 6 Punkten stehen, der den Grad der
Zustimmung angibt.

b.) Itemschwierigkeit

Die Schwierigkeit eines Items bezeichnet den relativen Anteil aller Probanden, die ein Item
richtig (d.h. im Sinne hherer Merkmalsausprgungen) beantworten.

Bezeichnet den relativen Anteil der Probanden, die das Item lsen.

Bei der Konstruktion von Items ist es entscheidend, dass diese nicht von allen bejaht, richtig
beantwortet, gelst bzw. verneint, etc. werden.
Die Antwort also nicht immer dieselbe (Konstante) ist.
Die Itemkonstrukton soll also weder zu leicht, noch zu schwer sein, etc
Diese Schwierigkeit wird mittels eines Schwierigkeitsindex angegeben. (Fr
Fragebogenskalen auch Popularittsindex)

-> Anteil an Antworten, der von Probanden in Schlsselrichtung abgegeben wird.

Schwierigkeitsindex: (Pi)

- prozentualer Anteil richtiger Antworten fr das Item i in einer Stichprobe der Gre n.
- Ist der Wert von P hoch, ist die Aufgabe leicht.
- Ist der Wert niedrig, ist die Aufgabe schwierig.
Er errechnet sich fr ein beliebiges Item i aus dem Quotienten der tatschlich erreichten
Punktwerte und der maximal erreichbaren Punktsumme aller Probanden, multipliziert mit 100.
(Multiplikation fhrt zu Indizes zwischen 0 und 100 - eigentlich Leichtigkeitsindex, der umso
grer wird, je hufiger ein Item gelst wird - je leichter also ein Item ist, desto grer ist P)

- Beginnt der Wertebereich eines Items bei 1 oder hher (und nicht bei 0), muss der Minimalwert
eines Items von jeder Itemantwort und der maximalen Punktsumme subtrahiert werden.

(P = Schwierigkeitsindex, NR= richtig antwortende Probanden, N= alle Probanden)

33
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Beispiel: In einer Stichprobe von 360 Testpersonen haben 240 die Zahlenreihe 3-6-9-12-15-18-?
richtig fortgesetzt und die Zahl 21 eingesetzt. Welche Schwierigkeit ergibt sich fr das Item?

Geg.: NR = 240; N = 360


Ges.: P
Ls.:

Problem 1: (Ratekorrektur)

- Probanden knnen durch Zufall (d.h. Raten) die richtige Antwortalternative whlen. Hieraus folgt
eine artifizielle Verringerung der Itemschwierigkeit.
- Bercksichtigt, dass die Schwierigkeit unterschtzt wird, wenn Probanden raten.

> Schwierigkeit wird um die geschtzte Anzahl zufllig richtiger Antworten korrigiert.

(NF= falsch antwortende Probanden; m = Antwortalternativen)

Beispiel: Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. 360 Testpersonen
bearbeiten das Item, 240 whlen die richtige Antwortoption. Wie lautet die um
Ratewahrscheinlichkeit korrigierte Aufgabenschwierigkeit?

Geg.: NR = 240; N = 360; m = 5


Ges.: NF ; P
Ls.:

Problem 2: (Korrektur fr Inangriffnahme)

- Probanden, die Items nicht bearbeiten, knnen diese auch nicht richtig beantworten. Hieraus
folgt eine artifizielle Erhhung der Itemschwierigkeit.
- Bercksichtigt, dass die Schwierigkeit berschtzt wird, wenn Probanden nicht dazu kommen
das Item zu bearbeiten.

> Es werden lediglich die Probanden bercksichtigt, die das entsprechende Item auch
bearbeitet haben.

(NB = antwortende Probanden)

Beispiel: Ein Item hat 5 Antwortoptionen, von denen eine die richtige ist. Von 360 Testpersonen
bearbeiten 240 das Item, 140 whlen die richtige Antwortoption. Wie lautet die um
Ratewahrscheinlichkeit und Inangriffnahme korrigierte Aufgabenschwierigkeit?

34
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Bei Leistungstests:

- Bei Leistungstests ergibt sich eine typische Datenanordnung, bei denen wiederum die n
Probanden in den Teilen und die m Items in den Spalten abgetragen sind.

1. Speed-Tests:

Sind mit einer Zeitbegrenzung versehen.


Unterscheidung zwischen richtig & falsch und ausgelassen & unbearbeitet.
Ausgelassen: nur dieses Item wurde nicht beantwortet, danach folgende aber schon
(bersprungen)
Unbearbeitet: ab diesem Item wurde nicht mehr beantwortet (aufgrund der Zeitbegrenzung)
Bearbeitete Items setzen sich zusammen aus richtigen, falschen und ausgelassenen Antworten.
Schwierigkeitsindex:

(nR= richtig beantwortete Items; nB = bearbeitete Items = nR + nF + nA)

2. Power Tests:

Keine Zeitbegrenzung
Unterscheidung zwischen richtig & falsch & ausgelassen, unbeantwortet entfllt, da kein
Zeitlimit vorhanden ist.
Schwierigkeitsindex: Quotient aus richtigen und allen Antworten

Fr den Fall des Auftretens geratener Zufallslsungen Ratekorrektur der Indizes:

(nF = Anzahl der Probanden mit einer Falschantwort; k = Anzahl der Antwortalternativen)

Subtrahiert die zufllig richtig geratenen Antworten von den Richtig-Antworten.


Sollte dieser Index negativ werden, ist er nicht zu interpretieren.

Bei Persnlichkeitstests:

- Bei Persnlichkeitstests werden Items nicht nach richtig oder falsch, sondern nach
symptomatisch (hohe Werte) und unsymptomatisch (niedrige Werte) fr eine
Merkmalsausprgung bewertet.
- Bevor Schwierigkeitsindizes fr derart ausgeprgte Items ermittelt werden, ist die einheitliche
Kodieren zu berprfen.
- Dies gilt insbesondere fr inverse Items, die vor der Berechnung ggf. umkodiert werden
mssen.

35
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

1. Bei 2 Antwortkategorien: (dichotom)

Bei 2 Antwortkategorien (1 = sympt., 0 = unsymtp.): wie bei Powertest > Verhltnis


symptomatische und alle Antworten

2. Bei mehr als 2 Antwortkategorien:

Dichotomisierung > Werte in 2 Kategorien hoch & niedrig anhand eines Grenzwertes einteilen
> macht Skala grob (Informationsverlust)

Bei intervallskalierten Daten:

- Aufgrund des Informationsverlustes, ist ein Schwierigkeitsindex fr intervallskalierte Stufen


mglich: (Quotient aus i-ter Spaltensumme und maximal mglicher Spaltensumme)

(kann als arithmetisches Mittel der n Probanden auf einer


k-stufigen Antwortskala aufgefasst werden.)

- Mittlere Werte fr diesen Index (50): maximale Streuung > hohe Differenzierung zwischen
den Probanden (Lser werden von Nicht-Lsern unterschieden)
- Sucht man Differenzierung in den Extremen (P-Werte von 5-10 oder 90-95), also sehr schwer,
oder sehr leicht, wird eine breite Streuung der Schwierigkeitskoeffizienten angestrebt.

Bei Ratingskalen:

Ich gehe gerne auf Parties


(0= sehr ungern; 4 = sehr gern)

(Pm = mehrstufiger Schwierigkeitsindex; Xtemp = Summe der


Antworten; Xtmax = maximale Summe der Antworten)

36
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

c.) Itemvarianz (Var(x))

- Gibt an, wie stark die Leistungen einer Stichprobe bei einzelnen Items streuen.
- legt die Differenzierungsfhigkeit eines Items hinsichtlich der untersuchten Stichprobe fest.
Bei dichtomen Items:

Produkt der Wahrscheinlichkeit, das Item zu lsen (pi), und der Gegenwahrscheinlichkeit, das
Item nicht zu lsen (qi):

- Maximale Varianz bei mittlerer Itemschwierigkeit (meiste Differenzierung).


- Items, die zu leicht oder zu schwer sind, liefern keine Differenzierungen und besitzen
entsprechend eine Varianz von 0. (nimmt zu den Extremen kontinuierlich ab) = Items, die keine
Varianz erzeugen, differenzieren auch nicht.

Bei intervallskalierten Items:

- Fr zweistufige Items (gelst, nicht gelst) besteht quadratischer Zusammenhang zwischen


Itemschwierigkeit und Itemvarianz.

- Allgemein berechnet sich die Differenzierungsfhigkeit Var(xi) sich folgendermaen:

37
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

d.) Trennschrfe

Die Trennschrfe eines Items bezeichnet blicherweise die Korrelation zwischen


der Antwort auf ein Item und dem Summenwert einer Skala

Ein weiteres Ma der Itemanalyse ist entscheidend, wie substanziell die Korrelation zwischen
den einzelnen Itemwerten und dem gesamten Testwert ausfllt.
Korrelation zwischen Item- und Testwerten (Item-Test-Korrelation)
Korrelation einzelner Itemwerte mit dem Testwert smtlicher Items eines Tests.
Misst, inwieweit die Differenzierung erfolgreicher und erfolgloser Probanden durch ein Item der
Differenzierung durch den Test bereinstimmt.
Passt das Item zum Test?
(Korrelation zwischen Item & Summenwert sollte hoch sein, da Item die Skala/den Summenwert
dann gut reprsentiert. z.B: Item hoch - Item hoch - Item niedrig = Summenwert Hoch. Niedriges
Item erniedrigt Reliabilitt > aussortieren oder ggf. umpolen.)

- Durch Trennschrfe knnen verschiedene Itemgruppen getrennt werden. Items sollen mit
Summenwert der eigenen Gruppe hoch korrelieren & mit Summenwerten anderer niedrig.
- Korrelation Item mit eigenem Summenwert nie 0, da Item im Summenwert enthalten &
Korrelation des Items mit sich selbst = 1 > berschtzen der Korrelation des Items mit dem
Summenwert > Part-Whole-Korrektur.
- Was wenn alle Probanden 0 auf der Skala ankreuzen? Dann ist die Korrelation doch 0? Nein!

Zusammengefasst: Trennschrfe bezeichnet die Korrelation zwischen Item & Summenwert einer
Skala. Konvergente TS bezeichnet die Korrelation mit der eigenen Skala, diskriminante TS die
Korrelation mit einer anderen Skala.

Part-Whole-Korrektur:

- Bei der Berechnung der konvergenten Trennschrfe wird die


Korrelation zwischen den Antworten auf ein Item und den
Summenwerten der Skala ermittelt.
- Problem: Da die Werte des Items auch in die Skalensummen
eingehen, wird die Korrelation berschtzt. (Das zu korrelierende Item
sollte nicht beim Testwert dabei sein, um Trennschrfe nicht zu
berschtzen, da ansonsten Korrelation der Variablen mit sich selbst
eingeht.)
- Lsung: Bei der part-whole-korrigierten Trennschrfe wird das
jeweilige Item nicht in den Summenwert eingerechnet. (=Testwert wird
um zu korrelierendes Item bereinigt)
- Da der Summenwert in diesem Fall nicht durch das Item konfundiert
ist, kann diese Korrelation sinnvoller interpretiert werden.
- Die Korrektur verringert sich mit zunehmender Zahl an Items.

38
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Effekte der Part-Whole-Korrektur:

Generell ist die unkorrigierte


Trennschrfe eines Items nie niedriger,
als die part-whole-korrigierte
Trennschrfe. Dies ist darauf
zurckzufhren, dass der Summenwert
in letzterem Fall nicht durch den Einfluss
des Items konfundiert ist.

- Die Part-Whole-Korrektur hat vor allem dann einen starken Effekt, wenn die Skala aus wenigen
Items besteht oder wenn die Skala relativ geringe Trennschrfen aufweist (d.h. inhomogen ist)

Zusammengefasst: Da der Summenwert durch die Ausprgung des Items konfundiert ist, wird die
Trennschrfe als Korrelation zwischen dem Item und dem um das Item bereinigten Summenwert
berechnet. (Durch PWK wird die Trennschrfe geringer)

Berechnung:

- Zur Berechnung der Trennschrfe wird fr alle n Probanden der Zusammenhang eines Items i
mit dem Testwert xv bestimmt:

- Dabei wird unter dem Testwert xv eines Probanden v der Summenwert aller Itemwerte
verstanden:

- Bei wenigen Items ist es zu empfehlen, den Testwert als Summenwert ohne Item i zu
berechnen, um die Trennschrfe nicht zu berschtzen. (Part-Whole-Korektur)

Entsprechend ermittelt sich dann:

- Wichtig ist anzumerken, dass die Bildung eines Testwertes Itemhomogenitt voraussetzt, d.h.
alle Items sollten das gleiche Merkmal messen.
- Zudem wird eine hohe Trennschrfe zwar durch eine hohe Itemvarianz begnstigt, aber nicht
garantiert.
- In Abhngigkeit von der Skalierung der Items sind verschiedene Koeffizienten angemessen.

39
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Koeffizienten:

1. Produkt-Moment-Korrelation nach Pearson (intervallskalierte Items):

Anhand der Rohwerte ermittelt sich die Korrelation zwischen der Itembeantwortung und dem
Testscore nach:

Dabei sind xv der Skalen-(Summen-)Score und xvi der Itemscore, xv und xvi die Summen der
Skalen- bzw. Itemscores, xv2, xvi2 die Quadratsummen und xv xvi die Produktsumme.

Aus der unkorrigierten Item-Test-Korrelation rit kann die (part-whole) korrigierte Trennschrfe rit(i)
berechnet werden:

Dabei sind SD(x) die Standardabweichung der Testwerte, SD(xi) die Standardabweichung des
Items i und rit * SD(x) + SD(xi) die Kovarianz zwischen den Itemwerten xvi von Item i und den
Testwerten xv.

2. Punktbiseriale Korrelation rpbis (bei dichotomen Items):

Dabei sind xv0 und xv1 die Mittelwerte und n0 und n1 die Anzahl der Probanden, die in Item i
entweder eine 0 oder eine 1 als Antwort angegeben haben.

Aus der unkorrigierten Trennschrfe kann wiederum die (part-whole) korrigierte Trennschrfe
rpbis(i) berechnet werden:

Dabei sind SD(x) die Standardabweichung der Testwerte, p1 die Lsungswahrscheinlichkeit fr


Item i und q1 die Gegenwahrscheinlichkeit 1-pi.

40
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Diskriminationsindex D:

- Als vereinfachtes Ma zur Schtzung der Trennschrfe kann vor allem fr ordinale
Itemantworten auch der Diskriminationsindex D (D-index for item analysis) verwendet werden.
D wird in 6 Schritten ermittelt:

1. Rohwerte eines Tests werden ranggeordnet.


2. Der Stichprobenumfang n wird mit 0,27 multipliziert und das Ergebnis n zur nchsten ganzen
Zahl auf- bzw abgerundet.
3. Nun werden 2 Gruppen gebildet: eine Gruppe der leistungsstrksten Probanden (+) im Umfang
n und eine Gruppe der leistungsschwchsten Probanden (-) im Umfang n.
4. In beiden Gruppen wird nun der Quotient aus der Anzahl korrekter Antworten mR dividiert durch
n gebildet:


5. Beide Werte ergeben gemittelt den Schwierigkeitsgrad P:





6. Beide Werte ergeben subtrahiert den Diskriminationsindex D:

Interpretation von D:

- D kann Werte zwischen 0 und 1 annehmen


- Kleine Werte = geringe Trennschrfe und korrespondieren mit kleinen P-Werten (bei zu
leichten oder zu schwierigen Items).
- Bei mittlerer Aufgabenschwierigkeit (P=0,5) erreicht D sein Maximum.
Interpretation der Trennschrfe:

Werte zwischen 0,4 und 0,7 deuten auf eine angemessene bis ausgezeichnete Trennschrfe
hin.
Hoher Wert = Items sind homogen gegenber dem Gesamttest > Probanden mit hoher
Merkmalsausprgung lsen das Item.
Kleiner Wert = mangelnde Differenzierung durch ein Item in Zusammenhang mit der
Differenzierung des Gesamttests > Item fr Unterscheidung von Probanden ungeeignet.
Negative Werte: fehlerhafte Itemformulierung > Kodierung muss umgedreht werden >
Probanden mit niedriger Merkmalsausprgung lsen das Item.

Zu kleineren Werten:

- 0,30 bis 0,39: Items knnen durch Anpassung verbessert werden.


- 0,20 bis 0,29: muss auf jedenfall verndert werden.
- < 0,19: Item muss ausgeschlossen werden.

41
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Selektionskennwert:

Trennschrfe ist von den Interkorrelationen der Items abhngig.


Nur bei hohen Interkorrelationen (und damit hoher Homogenitt) knnen auch hohe
Trennschrfeindizes erzielt werden.
Demgegenber fhren aber Variationen der Schwierigkeitskoeffizienten zwischen den Items
einer Skala dazu, dass sich die Interkorrelationen reduzieren.
Um bei der Itemselektion sowohl die Trennschrfe, als auch die Aufgabenstreuung zu
bercksichtigen, ist der Selektioniert entwickelt worden. (= bergeordnetes Ma fr die Gte
der Items):

(rit = Trennschrfe, SD(xi) =Standardabweichung der Aufgabe)

- Bercksichtigung der Trennschrfe und der Aufgabenstreuung


- Geht man nur von Trennschrfe aus, selektiert man Items, die extreme Merkmalsausprgung
messen > entfernt man Items mit niedrigem Selektionskennwert, entgeht man der Gefahr, die
extremen zu verlieren.
- Liegen extreme Schwierigkeiten vor, resultieren hohe Werte fr S.
- Items mit extremen Schwierigkeiten haben eine grere Chance ausgewhlt zu werden als
Items mit mittlerer Schwierigkeit.

Zusammenfassend: Itemselektion

Simultane Bercksichtigung der Ergebnisse der Itemanalyse (Schwierigkeit, Varianz,


Trennschrfe)
Mittlerer Schwierigkeitsgrad: differenzieren zwischen hoher und niedriger Merkmalsausprgung.
Fr Erfassung der Extreme: hohe oder niedrige Schwierigkeit.
Items sollten immer gute Trennschrfe haben.
Idealerweise differenziert ein Test ber gesamten Schwierigkeitsbereich.
Items ohne oder mit negativer Trennschrfe sind zu entfernen.
Bei Items gleicher Schwierigkeit entscheidet die hhere Trennschrfe.

Zusammenhang von Schwierigkeit und Trennschrfe:

- Da besonders leichte und schwierige Items nur wenig Varianz erzeugen, wird die Trennschrfe
gemindert.
- Zur Differenzierung in Extrembereichen ist eine Aufnahme derartiger Items dennoch sinnvoll.

42
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

e.) Speed- und Powerkomponente (vgl. S.9)

Speed-Tests:

- Aufgaben sind einfach und knnen von allen Probanden


gelst werden.
- Differenzierung erfolgt ber die Begrenzung der
Bearbeitungszeit.

Test mit hoher Speedkomponente:

- Korrelationen unterschiedlicher Bedingungen klein.


- Korrelationen gleicher Bedingungen gro.
- Bruch klein
- Speedindex gro

Nachteil: Parallelformen mssen vorliegen und in jeweils 2 Bedingungen durchgefhrt werden.

Power-Tests:

- Aufgaben sind schwer und knnen auch bei unbegrenzter Bearbeitungszeit nicht von allen
Probanden gelst werden.
- Differenzierung erfolgt ber Schwierigkeit der Aufgabe.
Test mit hoher Powerkomponente:

- Viele Aufgaben werden in Angriff genommen.


- u tendiert gegen n
- Gleiche Werte ber und unter Bruchstich.
- Powerindex gro

Vorteil: Es wird nur eine Version bentigt, die in nur einer


Bedingung durchgefhrt wird.

(Leistungstests haben blicherweise sowohl Speed- als auch eine Powerkomponente)

"0,7 Power = 70% der Varianz der Testwerte gehen auf die
Powerkomponente zurck, 30% auf die Speedkomponente

=> beide Indizes sollten komplementr sein.


d.h. verrechnet man sie, sollte 1 rauskommen.

43
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

5.) v4: Klassische Testtheorie (Messfehler-Theorie)


Wiederholung: Was ist eine Testtheorie?

Testtheorien beinhalten Annahmen ber das Zustande kommen von Messwerten.



> Welchen Einfluss hat Disposition auf Testverhalten?
> Wie gut kann man von Testverhalten auf Disposition schlieen?

Es lassen sich 2 prominente Testtheorien feststellen:



1.) Klassische Testtheorie: wie stark fehlerbehaftet sind Messwerte? (Messfehlertheorie)
2.) Probalistische Testtheorie: Wie gut kann man das Testverhalten eines Probanden mit
algebraischen Funktionen vorhersagen?

(vom bergang Disposition > Verhalten passieren Fehler > unreines Verhalten)

Klassische Testtheorie:

- Grundlage fr die Testkonstruktion


- Konzept zur Behandlung von Messwerten von Personen

a.) Axiome der KTT:

Axiom = Setzungen oder Definitionen, die einfach ohne weitere Erklrung aufgestellt werden.
Sie erlauben es, logische Ableitungen aus ihnen zu ziehen.
Beziehen sich auf beobachteten Testwerte, die wahren Testwerte & einen Messfehler.

44
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

1. Axiom Existenzaxiom:

Der wahre Wert einer Person ist der Erwartungswert der Messung x
eines Probanden v in Item i, wenn man hufig genug misst.

(Aus einer bestimmten Anzahl von Messungen kann auf die tatschliche (wahre) Ausprgung des Merkmals geschlossen
werden. Der wahre Wert bezieht sich dabei zunchst auf ein einzelnes Item eines einzelnen Probanden.)

Der wahre Wert ist der Erwartungswert unendlich vieler Testungen eines Probanden

2. Axiom Verknpfungsaxiom:

Messwerte setzen sich aus wahren Werten (tau) und Fehlerwerten zusammen.

(Der Messfehler berdeckt den wahren Wert und fhrt zu Abweichungen vom wahren Wert.)
(Die Differenz zwischen dem wahren Wert und dem Ergebnis der Vp ist der Fehler.)

- Beide Axiome nehmen an, dass der Zufallsfehler einen Erwartungswert von 0 besitzt, d.h. wenn
man hufig genug misst, mittelt sich der Fehler weg.
- Vorausgesetzt wird also, dass die Wiederholungen unter konstanten Bedingungen stattfinden &
keine Messung von der vorherigen beeinflusst wird.

Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0:

3. Axiom Unabhngigkeitsaxiom:

Die Korrelation zwischen den wahren Werten & den Messfehlern ist 0.
Wre die Korrelation nicht 0, wre der Fehler systematisch.
(Keine spezifische Abhngigkeit zwischen wahren Werten & Messfehlern)

(Der Fehler ist unabhngig vom wahren Wert d.h. eine Zufallsvariable mit dem Erwartungswert 0)
Als Zufallsvariable ist der Messfehler von allen anderen Variablen unabhngig:

(immer wenn eine Variable zufllig ist, kann sie keine Korrelation zeigen)

Fazit:

- Beobachtbar ist nach den Axiomen nur die Messung xvi


- Wahrer Wert & Fehlerwert sind nicht beobachtbar & somit sind sie unbekannte Gren

> wahrer Wert & Fehlerwert ergeben sich aus Schtzungen.

45
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Zusatzannahmen der KTT: Unabhngigkeit der Messfehler

- Es wird angenommen, dass die Fehlervariablen zweier Items fr dieselbe Person unabhngig
sind, d.h. dass Erfolg bei einem Item unabhngig von anderen Items bei einer Person ist.
> Kein Lerneffekt. (unabhngige Items)
- Fehlervariablen zweier Personen bei dem selben Item sind unabhngig, d.h. die
Itembearbeitung muss von unabhngigen Personen erfolgen. (unabhngige Personen)

Bsp.: Der IQ eines Probanden soll mithilfe eines Intelligenztests gemessen werden. Mgliche
Fehlereinflsse auf das Testergebnis knnten u.s. sein, dass der Proband

- vom Banknachbar abschreibt


- einen Kater vom letzten Abend hat
- Leistungssteigernde Medikamente eingenommen hat
- durch eine hbsche Banknachbarin abgelenkt wird

46
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

b.) Fehlerwerte:

Messfehler = Zufallsvariable mit Erwartungswert 0 und einer Fehlervarianz, die fr alle


Personen gleich ist.
Aus den beiden ersten Axiomen resultiert, dass der Zufallsfehler einen Erwartungswert von 0
besitzt > wenn man hufig genug misst, mittelt sich der Fehler weg.
Korrelationen zwischen wahren Werten & den Messfehlern bei beliebigen Personen &
beliebigen Items ist 0.
Wenn r nicht 0 wre, wre der Fehler systematisch.
Schlussfolgerung, dass sowohl die Summe der Fehlerwerte einer Person bei unendlich vielen
Messungen, als auch die Summe der Fehlerwerte einer Messung bei unendlich vielen
Personen 0 ergeben muss.
Messfehler kommt folgendermaen zustande:

Einflsse, die sich im Zuge der Messung unkontrolliert auf das Testverhalten der
Probanden auswirken und damit das Messresultat kontaminieren knnen.
(Tageszeit des Experiments, Klima, Motivation, Versuchsleiter,)

Zusatzannahme der KTT: Unabhngigkeit der Messfehler.


Wahrer Wert & Fehlerwert:

Messfehler berdeckt den wahren Wert und fhrt zu Abweichungen von ihm > Messfehler
sorgt dafr, dass der wahre Wert schwankt.
Die beobachtbare Messung setzt sich aus einem wahren Wert und einem Fehlerwert
zusammen, die beide nicht beobachtbar sind > unbekannte Gren, die sich aus
Schtzungen ergeben.

c.) Bestimmung des wahren Testwertes:

- Hauptproblem: Zufallsfehler neutralisieren, der in jeder beobachteten Messung steckt.


- Wiederholte Messung scheidet dabei aus, da Lerneffekt.
- Lsung: Mehrere Messungen zu einem Merkmal verschiedene Items (die gleiches Merkmal
messen) zu einem Testwert (Rohwert) verrechnet. > neutralisieren des Zufallsfehlers.
- Gesucht: Erwartungswert von xv, was dem wahren Testwert entspricht.
- Die Messwertsumme kann als Punktschtzung des wahren Wertes einer bestimmten Person
verwendet werden.
- Voraussetzung: es wurde oft genug gemessen

(auch eine solche Schtzung kann fehlerbehaftet sein und ist daher um eine
Angabe zu ihrem Fehler zu ergnzen (dem sog. Standardmessfehler))

47
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

d.) Bestimmung der wahren Varianz & Fehlervarianz:

- Zerlegung der Gesamtvarianz (beobachtete Varianz) in wahre Varianz (ein Proband ist einfach
besser als ein andere > Unterschiede in wahren Merkmalsausprgungen der Probanden) und
Fehlervarianz (Messfehler der Probanden).
- Die Schtzung der Varianz wird in 2 Schritte unterteilt:

Varianzzerlegung:

Varianz einer Summe von Variablen ist gleich der Summe der Varianzen der einzelnen
Variablen + der zweifachen Summe der Kovarianz beider Variablen:

Da die Korrelation zwischen wahrem Wert & Messfehler laut Unabhngigkeitsaxiom aber 0 ist,
ist auch der Term Cov = 0. Daher ergibt sich:

Testwertevarianz Var(x) setzt sich zusammen aus:



wahrer Varianz Var(tau) = Unterschieden in den wahren Merkmalsausprgungen der Probanden
und Fehlervarianz Var(epsilon) = dem Messfehler epsilon der Probanden

Varianzschtzung:

Um die unbekannten Varianzen (tau & epsilon) schtzen zu knnen, werden Testwertevariablen
zweier Tests xp und xq herangezogen. Unter Anwendung des Verknpfungsaxioms wird dabei
die Kovarianz der Testwertevariablen xp und xq zweier Tests p und q betrachtet:

Da die Messfehler & wahre Werte untereinander unkorreliert sind, ist der Kovarianzterm
hinsichtlich der Fehlerwerte 0 und kann entfallen:

Stammen xp und xq aus 2 parallelen (sog. tau-quivalenten) Tests, dann gilt tp = tq = t, und die
wahre Testwertevarianz ergibt sich aus der Kovarianz zweier paralleler Tests:

Somit kann die wahre Testwertevarianz Var(tau) als Kovarianz zweier tau-quivalenter Tests
geschtzt werden. Dies ermglicht schlielich auch, die Fehlervarianz zu schtzen:

48
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

e.) Bestimmung der Reliabilitt:

Der Reliabilittsbegriff der KTT:

- Der Messwert (x) eines Probanden in


einer Testung (t1) setzt sich aus dem
wahren Wert (tau) des Probanden und
einem Fehlerwert (epsilon)
zusammen.
- Der Messwert (x) eines Probanden in
einer zweiten Testung (t2) in
demselben Test setzt sich aus
demnselben wahren Wert und einem
anderen Fehlerwert zusammen.

Die Grundlage der Korrelation zwischen 2 Messwerten des gleichen Probanden in 2 Testungen
ist, dass der wahre Wert der Gleiche bleibt.
Die Korrelation der Messwerte wird im Vergleich zur Korrelation der wahren Werte gemindert,
da die Messwerte sich wegen des Messfehlers unterscheiden.
Aus den Axiomen der KTT kann abgeleitet werden, dass die Korrelation der Messwerte (rtt)
dem Anteil der Varianz der wahren Werte (st2) an der Gesamtvarianz der Messwerte (sx2)
entspicht.

Reliabilitt:

- Ma der Zuverlssigkeit.
- Reliabilitt ist wahre Varianz geteilt durch beobachtete Varianz.
- Ist das Verhltnis der beiden Varianzanteile 1, dann gbe es keine Messfehler und die
Reliabilitt wre perfekt.
- Ist die Reliabilitt 0, misst der Test nur Messfehler.

- Quotient aus Anteil der wahren Varianz und dem Anteil der beobachteten Varianz:

- Das resultierende statistische Ma (Reliabilittskoeffizient) zeigt bei einem Maximalwert von 1,


dass eine messung frei von Fehlern ist und bei einem Minimalwert von 0 das Fehlen jeglicher
wahrer Varianz.
- Ein Test ist demnach umso reliabler, je grer der wahre Varianzanteil ist im Verhltnis zur
beobachteten Varianz ist.
- Ein Test ist demnach umso unreliabler, je kleiner der wahre Varianzanteil im Verhltnis zur
beobachteten Varianz ist.

Bei parallelen Tests kann der Anteil wahrer Varianz an der beobachteten Varianz zudem als Test-
Test-Korrelation rtt anhand der beobachteten Daten geschtzt werden:

(Die Retest-Reliabilitt wird als Anteil der Varianz wahrer Werte an der Gesamtvarianz der Messwerte verstanden)

49
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Hohe Reliabilitten entsprechen einem geringen Messfehleranteil


Niedrige Reliabilitten einem hohen Messfehleranteil

Die Testwerte eines Tests mit einer Reliabilitt von rtt = .70 gehen zu 70%
auf wahre Werte und zu 30% auf Fehlerwerte zurck.

(Kritik an KTT = unabhngigkeit, Korrelation ist nicht immer 1.


z.B. Testangst, er hat in allen Messungen Testangst - alle Tests > Messfehler wird in allen Tests grer sein)

f.) Standardmessfehler:

Wie wirkt sich der Messfehler auf die Streuung der Messwerte aus?

(Htte ich keinen Messfehler > wahrer Wert = Messwert > Reliabilitt = 1)

Standardmessfehler:

Unerklrter Fehlervarianzanteil der Testwertevarianz.


Bercksichtigt zustzlich zur Standardabweichung, wie genau ein Test ist (Przision des Tests)
Standardabweichung fr den Fehler = Standardabweichung multipliziert mit Wurzel der Unrel.
Unreliabilitt ist die Unzuverlssigkeit eines Tests.
Mit dem Standardmessfehler wird der Anteil an der Streuung eines Tests bestimmt, der auf
seine Ungenauigkeit zurckgeht.
Streuung, die sich bei unendlich hufiger Testung der gleichen Testperson aufgrund der
Unreliabilitt des Tests ergeben wrde.

50
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Er gibt denjenigen Anteil an der Streuung eines Tests wieder, der auf seine Ungenauigkeit
zurckzufhren ist.
Berechnet wird er aus der Standardabweichung der Messwerte multipliziert mit der Wurzel der
Unreliabilitt:

(set = Standardmessfehler; sxt = Streuung der Messwerte; rtt = retestreliabilitt)

bzw.

Ist rtt gro, wird Messfehler kleiner > je kleiner desto grer der Standardmessfehler.
Hat man einen groen Messfehler, streuen sie um den wahren Wert.

Wird ein Test eingesetzt, um die Ausprgung eines Kriteriums zu prognostizieren, kann ein
Standardschtzfehler ermitteln werden, der die Streuung um den wahren Kriteriumswert
eingrenzt:

(SD(c) = Standardabweichung des Kriteriums; corrtc = Korrelation zwischen Test & Kriterium)

Aus Berechnung des Standardmessfehlers kann zudem eine Gleichung abgeleitet werden, mit
der die Differenz zweier einzelner Testwerte auf Signifikanz geprft werden kann. Diese sog.
kritische Differenz berechnet sich wie folgt:

(rtt1 & rtt2 = Reliabilitten der beiden Tests)

Der Abstand zweier Testwerte wird dann signifikant, wenn dieser grer ist als diffcrit

Bsp.: Ein Proband erzielt in einem ersten Untertest einen Testwert von 115 (bei einer Reliabilitt
des Tests von 0,86), in einem zweiten Untertest einen Testwert von 102 (bei einer Reliabilitt von
0,90). Es stellt sich nunr die Frage ob dieser Abstand bei einem alpha = 0,05 signifikant ist:

Demnach ist die beobachtete Differenz von 13 gegenber


der kritischen Differenz von 9,6 signifikant abweichend.

51
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

g.) Konfidenzintervalle des wahren Testwertes:

Mit dem Standardmessfehler kann ein Konfidenzintervall berechnet werden, in dem der wahre
Wert einer Testperson mit einer bestimmten Wahrscheinlichkeit zu finden ist.
Zur Berechnung des Konfidenzintervalls wird die folgende Formel verwendet:

(Confidence Limit Messwert 1,96 Wert bei Irrtumsws. bei Standardnv Standardmessfehler)

Der Standardmessfehler wird dazu genutzt, die Messwertsumme der Punktschtzung um ein
Konfidenzintervall zu erweitern, in dem der wahre Wert liegt.
Vertrauensbereich, in dem 95% aller mglichen wahren Werte liegen, die den
Stichprobenschtzwert erzeugt haben knnen.
Groer Standardmessfehler = groes Konfidenzintervall
Voraussetzungen:
Test hat ausreichende Reliabilitt (> 0,80)
Fehler sind normalverteilt
Stichprobe > 60 bei kleineren kann t-Verteilung herangezogen werden.
Bsp.: Die Reliabilitt einer IQ-Tests (M=100; SD=15) betrgt rtt = 0,80. Ein proband erreicht einen
Messwert von 110. In welchem Intervall ist der wahre Wert des Probanden mit einer
Wahrscheinlichkeit von 95% zu erwarten?

Geg.: x = 110; IQ-Norm -> SD = 15; rtt = 0,80


Ges.: Set (Standardmessfehler), CL
Lsung: Set = Sxt*1-0,80 = 15*0,2 = 6,71
(Streuung um den wahren Wert von 6,71)
CLu = 110 - 1,96 * 6,71 = 96,84
CLo = 110 + 1,96 * 6,71 = 123,15

52
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

h.) Minderungskorrekturen:

Wie wirkt sich der Messfehler auf die maximale Hhe der Korrelation,
die ein Test zu anderen Variablen zeigen kann aus?

Ein gesondertes Problem bezieht sich auf die Frage, welche Auswirkungen Messfehler auf die
Hhe einer bivariaten Korrelation ausben.
ber die Minderungskorrektur kann dazu eine Schtzung abgegeben werden, welche
Korrelation zu erwarten ist, wenn die betrachteten Testverfahren vollkommen reliabel (frei von
Messfehlern) sind.
Korrelation zwischen den wahren Werten zweier Tests soll geschtzt werden.
Reliabilitten und die Korrelation der beiden Tests mssen bekannt sein.

> Minderungskorrektur fr die Korrelation

Mit Minderungskorrektur kann Schtzung der Korrelation zweier Variablen mit wahren Werten
vorgenommen werden, wenn deren Reliabilittskoeffizienten vorliegen.
Es lsst sich so der Korrelationskoeffizient fr den Fall korrigieren, wenn die beiden korrelierten
Werte fehlerbehaftet sind, wodurch deren Korrelation vermindert war.
Doppelte Minderungskorrektur: wenn Test t und Kriterium c eine unzureichende Reliabilitt
besitzen.

Mit der Minderungskorrektur kann berechnet werden, wie hoch die Korrelation von 2 Tests maximal
wre, wenn sie komplett reliabel wren (rtt = 1).

ACHTUNG:

- In dem Beispiel werden 2 unterschiedliche


Tests (A,B) durchgefhrt.
- Die Korrelation der Messwerte kann
maximal so hoch sein wie die Korrelation
der wahren Werte.
- Wenn die Tests fehlerbehaftet sind, ist die
Korrelation der Messwerte kleiner, als die
Korrelation der wahren Werte
(wahre Werte = Obergrenze)

53
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Beobachtet werden knnen nur die Korrelationen zwischen den Messwerten. Ist man an der
Korrelation der wahren Werte interessiert, kann man diese schtzen.
Aus den Axiomen der KTT lsst sich die Formel der Minderungskorrektur ableiten, die den
mindernden Einfluss des Messfehlers in der Korrelation der Messwerte korrigiert.

Doppelte MK

Es werden die Messfehler in beiden Tests


korrigiert.
Man erhlt die Korrelation der wahren Werte
beider Tests r(tauA,tauB).

(rtc = empirisch festgestellte Korrelation; durch Produkt aus den wurzeln der Reliabilitt)

In der Forschung sind wir an den wahren Werten interessiert, und nicht an den Testergebnissen.
Wir rechnen Messfehler heraus und kommen somit auf die wahren Werte. (hier werden die
Fehlerwerte herausgerechnet).

Einfache MK

Es werden die Messfehler in einem Test


korrigiert.
Man erhlt die Korrelation des wahren Werts
von Test A und dem Messwert von Test B
r(tauA,xB)

(aus Wurzel der Reliabilitt von EINEM Test)

Entwicklung neuer Tests. Man mchte wissen wie sie das Konstrukt operationalisieren. Man will
konvergente Validitt feststellen (die Korrelation mit einem Test mit anderen Tests die das selbe
Merkmal feststellen).

Wenn man in ein Testverfahren reinsieht und man sieht die Doppelte MK (Schulnoten = 0,6)
bedeutet das automatisch dass man damit gut Schulnoten vorhersagen kann?
Minderungskorrektur fhrt zu hherer Korrelation, da sie in Richtung wahrer Werte geht. man
teilt immer durch Werte kleiner 1 daher erhht sich die Korrelation.
Bringt uns in der Praxis aber nichts, da wir nur die Messfehler behafteten Messwerte haben. Auf
den wahren Wert kommt man nicht

54
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Bsp.: Test A weist eine Reliabilitt von rtt = 0,8 auf, Test B eine von rcc= 0,6. Die Tests zeigen
einen Zusammenhang von rtc = 0,3. Wie hoch wre der Zusammenhang maximal, wenn Test A
bzw. beide Tests perfekt reliabel wren?

geg.: rtt = 0,8; rcc = 0,6; rtc = 0,3


ges.: corr rtc(rtt); corr rtc (rtt; rcc)
Ls.: Test A = corr rtc(rtt) = (rtc)/(rtt) = 0,3/0,8 = 0,335
Beide Tests = corr rtc (rtt; rcc) = (rtt)/(rtt * rcc) = 0,3/(0,8*0,6) = 0,433

i.) Testverlngerung:

ACHTUNG:

In dem Beispiel geht es um mehrere Items


eines Tests.
Auch hier gilt: Die wahren Werte sind
Grundlage der Korrelation der Messwerte
Werden zustzliche Items in den Test
aufgenommen, nehmen die Korrelationen
der wahren Werte zu.
Da die Fehlerwerte der Items voneinander
unabhngig sind, kann es zwischen Ihnen
keine Korrelation geben

Wird ein Test um (gleich gut geeignete) Items verndert, so nimmt die Varianz
wahrer Werte strker zu, als die Varianz der Fehlerwerte, d.h. Test wird reliabler.

Merke: Testverlngerung fhrt zur Erhhung der Reliabilitt eines Tests.

Praktischer Bezug:

- Die Reliabilitt eines Testverfahrens kann somit gesteigert werden, wenn zustzliche Items
aufgenommen werden, die gleich gut geeignet sind, d.h. wenn er verlngert wird.
- Aus den Axiomen der KTT lsst sich eine Formel ableiten, mit der geschtzt werden kann, wie
hoch sich die Reliabilitt des Tests nach der Verlngerung ergibt:

(Spearman-Brown-Prophecy-Formula)

(mit k = Faktor der Verlngerung)

- Parallele Testteile: 2 Testteile p und q mit gleichen wahren Werten & gleicher wahrer Varianz.
- Verlngert man Test p um q, ist die gemeinsame Testvarianz die Summe der Einzelvarianzen +
der zweifachen Kovarianz beider Tests.
- Bei Verdopplung der Testlnge durch einen parallelen Testteil, resultiert die doppelte
Fehlervarianz, aber die vierfache wahre Varianz > Spearman-Brown-Formel
- k = Verlngerungsfaktor (K = 2 > Verdopplung, K = 3 > Verdreifachung)

55
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Bsp.: Ein Test besteht aus 10 Items und weist eine Reliabilitt von rtt = 0,5 auf. Wie hoch wre die
Reliabilitt, wenn man den Test um 5 Items verlngern wrde?

geg.: rtt = 0,5; n = 10; n+x = 15


ges.: corr rtt; k
Ls.: k = (10+5)/10 = 1,5
corr rtt = (1,5*0,5)/(1+(1,5-1)*0,5) = 0,6

(Testverlngerung eignet sich vor allem dann zur Reliabilittssteigerung,


wenn der Test unreliabel ist und aus wenigen Items besteht.)

Steigerungen der Reliabilitt lassen sich dann am effektivsten erzielen, wenn die
Ausgangsreliabilitt niedrig ist.
Die Gleichung kann zudem auch dann eingesetzt werden, um eine Reliabilittsminderung
infolge einer Testkrzung abzuschtzen. Dies kann z.B. notwendig sein, wenn infolge des
Entfernens von Skalen aus einem Test eine kritische Reliabilittsgrenze nicht unterschritten
werden soll.

Dabei ist der Faktor k zu ersetzen durch den Quotienten k = (Anzahl der Items nach der
Korrektur)/(Anzahl der Items vor der Korrektur)

Bsp.: Ein Test soll von 100 Items auf 60 Items gekrzt werden. Damit ergibt sich ein k = 100/60 =
0,6. Weist der ursprngliche Test eine Reliabilitt von rtt = 0,90 auf, resultiert fr die verkzte
Version:

Die Reliabilitt wrde demnach durch die Verkrzung um den


Faktor k = 0,6 auf rtt = 0,84 absinken.

56
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

j.) Kritik an der KTT:

Die KTT liefert einen bewhrten und konomischen Ansatz zur Ermittlung von Testwerten & zur
Beurteilung von Messgenauigkeiten bei psychometrischen Tests & Fragebgen.

Die KTT ist pragmatisch, aber umstritten, da sie viele starke Annahmen macht, die nicht empirisch
berprfbar oder fraglich sind:

1.) Schtzprobleme:

Addition eines Testwertes aus wahrem Wert & Fehlerwert: Dieses Axiom der KTT ist
empirisch nicht berprfbar, da es sich beim wahren Wert und Fehlerwert nur um theoretische
(nicht beobachtbare) und maximal schtzbare Gren handelt.
Nullkorrelation zwischen wahrem Wert & Fehlerwert: Ebenfalls nicht empirisch prfbar und
zudem im Falle abhngiger Messungen (wiederholte) nicht immer haltbar.
Konstanz der Werte: Wenn berhaupt nur fr kurze Zeitrume & spezifische Merkmale
vertretbar. Fr Vielzahl von Merkmalen muss hingegen angenommen werden, dass sie sich
ber die Zeit verndern.

2.) Skalierungsprobleme:

Intervallskalierung von Testwerten: Nicht alle Tests erfllen das Kriterium intervallskalierter
Daten. Zudem gelingt es mit den Mitteln der KTT nicht zu berprfen, welches Skalenniveau die
Testwerte aufweisen.

3.) Konstruktprobleme:

Annahmen ber Eigenschaften der untersuchten Merkmale: Die mit den statistischen
Verfahren verbundenen Implikationen sind nicht berprfbar. (z.B. dass Merkmale grundstzlich
Normalverteilt sein sollen ob alle physischen Merkmale Normalverteilt sind)
Annahmen ber Eigenschaften der verwendeten Items: Keine direkte Mglichkeit der
berprfung, ob verwendete Items hinsichtlich des untersuchten Merkmals homogen sind.
Eingeschtzt werden kann diese Forderung lediglich ber Angaben zur Trennschrfe und
Angaben zur internen Konsistenz.

Unabhngigkeit der Parameter: Die Parameter der KTT sind populations- bzw
Stichprobenabhngig. in Abhngigkeit von der Homo- oder Heterogenitt der untersuchten
Stichprobe verndern sich die Reliabilittskoeffizienten. Besonders das Auftreten oder Fehlen
extremer Werte nimmt dabei erheblichen Einfluss auf korrelative Beziehungen zwischen
Variablen.

4.) Stichprobenproblem:

Populationen und Stichproben: knnen in weitere Subpopulationen oder Substichproben


zerfallen, die hinsichtlich ihrer Messwerte unterschiedliche Reliabilitten & Validitten
aufweisen. Je nachdem, welcher Substichprobe dann die erzielte Merkmalsmessung einer
Person zugeordnet wird, verndern sich die Schtzungen der wahren Werte & Varianzen.
Mgliche Subpopulationen mit anderen Reliabilitten & Validitten werden nicht bercksichtigt.
Gruppenstatistiken und Einzelfall: Von Gruppenstatistiken - die ein Aggregat ber eine
Klasse von Elementen darstellen - kann nicht auf den Einzelfall geschlossen werden, wenn die
entsprechende Reliabilitt und/oder Validitt unter 1 liegt. Denn eine
Wahrscheinlichkeitsaussage gilt nur fr Elemente bestimmten Umfangs, kann aber nicht fr den
Grad einer Vorhersagegenauigkeit bezglich eines Einzelfalls verwendet werden.

57
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Positives:

Pragmatische Grnde
Die darauf basierenden Tests haben sich in der Praxis oft bewhrt
Es liegen inzwischen auch Erweiterungen der KTT vor

58
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

6.) v5: Probabilistische Testtheorie (PTT): (Item-Response-Theorie IRT)


Die PTT ist neben der KTT die zweite bedeutsame Testtheorie.
Alternativ wird sie auch als Item-Response-Theorie bezeichnet, oder
(flschlicherweise) als Rasch-Modell (nur ein Spezialfall der PTT).

a.) Grundidee:

- Theorie, die auf Wahrscheinlichkeiten basiert.


- Das Antwortverhalten von Probanden werden mittels algebraischer (logistischer) Funktionen
beschrieben.

- Bei der Validierung von Testverfahren wird geprft, ob die empirischen Daten durch
Modellgleichungen vorhergesagt werden knnen.
- Sofern diese Prfung erfolgreich ist, knnen dem Test bestimmte Eigenschaften
zugemessen werden, die in der psychodiagnostischen Praxis von Vorteil sind.

Wie verhlt sich die Schwierigkeit des Items zu dem, was der Proband kann

b.) 4 Grundannahmen der PTT: (Fisseni - 1990)

1. Jeder Proband besitzt eine Fhigkeit, Items zu lsen > Personenparameter


2. Jedes Item hat eine Schwierigkeit > Itemparameter
3. Personen- & Itemparameter lassen sich gemeinsam auf einer eindimensionalen Skala abbilden.
(sie mssen nicht zwischen Personen- & Itemparameter unterscheiden)
4. Die Wahrscheinlichkeit, dass ein bestimmter Proband ein bestimmtes Item lst, wird gleichsam
von Personen- und Itemparameter bestimmt. (Habe ich einen fhigen Probanden und ein
leichtes Item, ist die Wahrscheinlichkeit dieses zu lsen sehr hoch)

Beispiel:

Personenparameter: 62kg & 135kg Itemparameter: Sind sie schwerer als 40/60/ etc.?

Proband 1: Fhigkeit Items zu lsen ist hher als der Itemparameter, d.h. er Antwortet dann mit ja.
Bei 60 ebenfalls ja, bei 80 msste er nein sagen. (voraussgesetzt er antwortet immer ehrlich).
Proband 2: Bei 135kg sollte dieser mit nein antworten, davor nur mit ja.

59
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Die Antwort auf einem Item hngt gleichzeitig vom Itemparameter (wie schwer ist die Aufgabe?) & vom
Personenparameter (wie fhig ist die Person?) ab.

Verlauf der Lsungswahrscheinlichkeit in Abhngigkeit von Personen und Itemparameter (Itemcharakteristische Kurve)
Bis zu dem Punkt von 80kg ist sie 0 und springt ab dann auf 1 d.h. wenn ich jemanden habe der weniger als 80kg
wiegt, sagt er auf jeden Fall nein & bei jemandem mit 135kg auf jeden Fall ja

(Diese Guttman - Skala bezieht sich nur auf die frage, also das Item)

c.) Unterscheidung zweier Ebenen von Variablen:

1. Manifeste Variablen: (xvi)



- die beobachtbaren Antworten auf Testitems.
- Rckschluss von manifesten Variablen auf latente Variable.
- Indikatoren (Anzeiger) der latenten Variable, also das dahinterliegende Konstrukt.

2. Latente Variablen: (ksi)



- nicht beobachtbare Fhigkeits- & Persnlichkeitsmerkmale.
- nicht direkt messbar.
- manifeste Variablen werden genutzt um Ausprgung auf der latenten Variable zu finden.
- Ausprgung der latenten Variable kann nur erschlossen werden.
- Merkmal, das die Itemantworten zustande kommen lsst (l.v. verursacht die Itemkreuze)

- In diesem Sinne sollten Probanden mit einer hohen Ausprgung der latenten Variable
zugehrige Items auch in Schlsselrichtung beantworten (lsen) whrend Probanden mit einer
niedrigen Ausprgung in gegenlufiger Richtung antworten (nicht lsen).
- Dabei werden wechselseitige Korrelationen zwischen den manifesten Variablen angenommen
und auf den Einfluss der latenten Variable zurckgefhrt.

60
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

d.) Lokale stochastische Unabhngigkeit:

Wenn alle Items Indikatoren der latenten Variable sind, so sollten die Korrelationen zwischen den
Items verschwinden, wenn die latente Variable auf einer Stufe konstant gehalten wird.

(immer wenn das der Fall ist, ist es eindimensional, d.h. man misst nur 1 Konstrukt und kein anderes - also reliabel)

- In der Empirie lassen sich nur die manifesten beobachten.


- Ksi ist die Personenfhigkeit (latente Dimension - nicht beobachtbar, aber Verantwortlich fr
das Zustandekommen der Antworten)

Bei gegebener Eindimensionalitt verschwinden Zusammenhnge zwischen Items, wenn die


latente Variable auf einer Stufe konstant gehalten wird

Um von manifesten Variablen auf eine gemeinsame latente Variable schlieen zu knnen,
bedarf es einer Datenbasis mit korrelierten manifesten Variablen (xvi*).
Hinreichende Bedingung: Itemhomogenitt bezglich der latenten Variable, d.h. dass das
Antwortverhalten nur durch das latente Merkmal beeinflusst wird.
Itemhomogenitt, wenn die manifesten Variablen die Bedingung der lokalen stochastischen
Unabhngigkeit erfllen.

Feststellung der l.s.U.:

1. Die latente Variable wird auf einem bestimmten Wert konstant gehalten (Stichprobe von
Probanden, die alle die gleiche Ausprgung hinsichtlich des Merkmals haben)
2. Korrelationen der Antwortvariablen an den Personen mit dieser Ausprgung werden in der
latenten Variable (ksiv) untersucht.
3. Liegt Itemhomogenitt vor, verschwinden die Korrelationen zwischen den Antwortvariablen.

- Wenn alle Items homogen sind, mssen Personen mit gleicher Merkmalsausprgung der
latenten Variable bei einem Item die selben Werte erreichen.
- im idealen Fall ohne Fehlereinflsse gbe es also einen Datenpunkt in einem Streudiagramm,
bzw. mit Messfehlern eine enge kleine Punktwolke mit Nullkorrelation.
- Wre die Korrelation nicht 0, wren die Items nicht homogen und die Items wrden dann noch
etwas anderes messen als das Merkmal.

61
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

berprfung der Unkorreliertheit:

mithilfe des Multiplikationstheorems fr unabhngige Ereignisse: Wahrscheinlichkeit fr das


Auftreten zweier Ereignisse ist Produkt ihrer Einzelwahrscheinlichkeiten.
in unserem Fall: Wahrscheinlichkeit, dass man 2 Items i und j zustimmt, wenn man eine
bestimmte Merkmalsausprgung der latenten Variable hat.
Sind die Items unabhngig, ist die latente Variable der einzige Verursacher, was bedeutet, dass
die Items homogen sind > sie sind Indikator der latenten Variable.

e.) Modelltypen: (unterscheiden sich in der Definition der latenten Variable)

2 Basismodelle:

1. Latent-Class-Modelle: kategoriale latente Klassen zur Charakterisierung von


Personenunterschieden.
2. Latent-Trait-Modelle: (siehe Beispiel oben)

- verwenden quantitative, kontinuierliche latente Variablen


- Beziehung zwischen manifesten Testantworten & der Ausprgung der latenten Variable als
Itemcharakteristische Funktion (IC-Funktion).
- Abszisse: latente Variable (x-Achse); Ordinate: Lsungswahrscheinlichkeit (y-Achse)
- Items sind durch Schwierigkeitsparameter charakterisiert: wie leicht oder schwer das Item ist.
- Personenparameter: gibt an, wie fhig eine Person ist > welche Leistung jemand bringen
kann > Ausprgung der latenten Variable einer Person.
- fr jedes Item lsst sich bestimmen, welche Lsungswahrscheinlichkeit eine Person mit einem
bestimmten Personenparameter hat: Beziehung der Itemschwierigkeit und der
Lsungswahrscheinlichkeit in Abhngigkeit davon, welche Merkmalsausprgung jemand hat.
- Probabilistische & Deterministische Modelle sind Latent-Trait-Modelle, die sich nur in ihren IC-
Funktionen unterscheiden.

Deterministische Modelle:

Gehen davon aus, dass Antwortverhalten nur durch Item- und Personenparameter bestimmt
wird.

Guttmann-Modell: (Skalogramm-Modell)

(Bei dem Beispiel oben wurde die Guttman-Skala veranschaulicht)

Dieses Modell ist deterministisch, es gilt

- Wenn ein Proband ein Item lst, muss er alle leichteren auch gelst haben
- Wenn ein Proband ein Item nicht lst, darf er danach kein schwereres lsen.
Die relativ strengen Modellannahmen der Guttman-Skala werden in der
psychodiagnostischen Praxis blicherweise nicht erfllt.

Probabilistische Modelle haben weniger strenge Annahmen

- ist ein Proband fhig, lst er wahrscheinlich schwere Items.


- ist ein Proband weniger fhig, lst er schwere Items wahrscheinlich nicht. (d.h. es kann immer
mal vorkommen, dass ein fhiger Proband ein schweres Item nicht lst und umgekehrt)

62
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Zur Guttmann-Skala:

Items sind von links nach rechts nach ihrer Schwierigkeit abgetragen.
Eine Person mit einem bestimmten Fhigkeitsparameter kann, wenn er Item 2 lsen kann auch
Item 1 links davon lsen.
Items sind dichotom: es gibt nur gelst (1) und ungelst (0)
Fr jedes Item wird ein bestimmter Fhigkeitswert angenommen, ab dem es gelst wird.
Auswertung der Skala:

Reproduzierbarkeitskoeffizienten:
anhand dessen wird festgestellt, ob Modellkonformitt/Itemhomogenitt gegeben ist.
mageblich: Anzahl der Rangplatzvertauschungen, wenn schwierigere Items gelst,
leichtere nicht gelst werden (dies ist nmlich nicht modell-konform!).
Also berprfung, ob die Probanden sich Modellkonform verhalten.
Der Skalenwert/Testwert eines Probanden ist die Rangzahl des Items, auf das noch positiv
reagiert wird.

Kritik:

Es knnen nur
Ranginformationen abgelesen
werden (ordinale Information)
keine Aussagen zu Distanzen
(da nur Rangskalenniveau)

(Fhigkeit = Ksi Schwierigkeit = Sigma)

63
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Probabilistische Modelle:

Gehen von stochastischer Beziehung zwischen dem Antwortverhalten und dem Item- und
Personenparameter aus.
Verwendung monoton steigender IC-Funktionen (logistische Funktion).
Ordnet jeder Ausprgung der latenten Variable eine Wahrscheinlichkeit zu, mit der ein Proband
ein bestimmtes Item lst.
eine Funktion bezieht sich immer auf ein einzelnes Item.
Lsungswahrscheinlichkeit steigt mit Fhigkeit des Probanden.
je weiter rechts die Funktion liegt, desto schwieriger ist ein Item.
am Wendepunkt ist immer eine Lsungswahrscheinlichkeit von 0,5 > hier ist der
Personenparameter gleich der Itemschwierigkeit.
Gnstiger sind IC-Funktionen bei dichotomen Items

In Rasch-Modellen wird der Zusammenhang von Fhigkeit des Probanden, Schwierigkeit des
Items & der Lsungswahrscheinlichkeit durch die logistische Funktion beschrieben.

ICC im Rasch Modell


(Itemcharakteristische Kurve)

(p = probability; exp = Item von Testperson v in Item; Ist ein Item schwerer als die Fhigkeit eines
Probanden oder umgekehrt? Differenz)

bei 0 wre die Itemschwierigkeit identisch mit der Fhigkeit.


Rechts wre der Proband fhiger als das Item schwer ist.
(Diese Kurve gilt nur fr 1 Item!)

64
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

1.) Einparameter-Logistisches Modell: Rasch Modell (1PL-Modell)

Einfachster Fall: Annahme, dass fr alle Items die gleiche logistische IC-Funktion gilt.
Definition Itemcharakteristische Funktion (IC-Funktion)
Sie legt in Form einer mathematischen Gleichung fest, welche Annahmen ber den
Zusammenhang zwischen manifesten und latenten Variablen getroffen werden. Sie stellt dabei die
Grundlage fr die Schtzung der Personen- und Itemparameter dar.

Bei den 1PL-Modellen werden lediglich Unterschiede


in Schwierigkeit bercksichtig.
(1 Parameter)

(Dies wre die Kurve von 3 Items, welche sich nur in der
Schwierigkeit unterscheiden -5 bis 5)

Es gibt 2 Wahrscheinlichkeiten: Item gelst & Gegenwahrscheinlichkeit Item nicht gelst > 2
Verlufe der Funktion.
Gleichung ist wesentlich durch die Differenz von Merkmalsausprgung einer Person
(Personenparameter) minus Itemschwierigkeit bestimmt, da der Itemschwierigkeitsparameter
darber entscheidet, welche Anforderungen das Item an den Personenparameter stellt.

- beide Parameter gleich: Lsungswahrscheinlichkeit = 0,5 (Wendepunkt der Funktion)


> Item ist haarscharf daran, was jemand kann.
- Personenparameter > Itemschwierigkeit: Items von Fhigkeit einer Person bertroffen
> Lsungswahrscheinlichkeit steigt.
- Personenparameter < Itemschwierigkeit: Itemschwierigkeit bersteigt Fhigkeit des Probanden
> Lsungswahrscheinlichkeit sinkt.

Rasch-homogene Items:

- Unterscheiden sich nur in ihren Schwierigkeitsparametern, ansonsten sehen sie gleich aus.
> Unterscheiden sich also nur in der Lage (leichtere Items weiter links, schwierigere rechts)

Die IC-Funktionen knnen als einzelne Funktionen auf einer


gemeinsamen Skala abgebildet werden > Joint Scale

Parameterschtzung: (Schtzung der Modellparameter)

Ausdruck, der die Wahrscheinlichkeit aller beobachteten Daten angibt: Likelihoodfunktion L


Produkt der Wahrscheinlichkeiten der empirischen Werte und der gewhlten Parameter
(Probabilistisches Schtzverfahren = Likelihood)

65
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

fr alle Reaktionen wird je eine Wahrscheinlichkeit berechnet, die dann mit anderen
Wahrscheinlichkeiten pro Reaktion zu einem Wert multipliziert wird.
Ergebnis: Wahrscheinlichkeit fr eine Datenmatrix, in der fr n Personen und m Items alle
Reaktionen abgetragen sind.
mit passenden Parametern steigt die Wahrscheinlichkeit, mit unpassenden sinkt sie.
bester Schtzer fr die Parameter ist die fr die Funktion einen Maximalwert ergeben.
Summennormierung:
- Werte des Itemparameter in einem Intervall -3 bis +3 gewhlt, sodass deren
Summe 0 ergibt:
- leichte Items: negative Werte des Itemparameters
- schwere Items: positive
- geringe Merkmalsausprgung: negative Werte
fr den Personenparameter
- hohe Merkmalsausprgung: positive Werte

unbedingte ML-Methode: (maximum-Likelihood-Schtzung)


- wird Item 1 hufiger ausgelst als Item 2, ist Item 2 schwieriger als Item 1
- Item 1 bekommt niedrigen Schwierigkeitsparameter (-1) & Item 2 hohen (+1)
- Lst Person 1 beide Items, bekommt sie eine hohe Merkmalsausprgung (2), lst
Person 2 nur ein Item, bekommt sie eine mittlere Ausprgung (0), lst Person 3
kein Item, bekommt sie eine niedrige Ausprgung (-2).
- Die Parameter mssen sich immer zu 0 addieren.

Likelihood erreicht Maximum, wenn die geschtzten Item- und Personenparameter optimal sind.
Likelihood: Ermittlung aus den Zellen- und Spaltensummen der Datenmatrix > erschpfende
Statistik.

Bedingte ML-Methode: (Conditional Maximum Likelihood)


- Itemparameter lassen sich ohne Bercksichtigung der Personenparameter
schtzen.
- Separierbarkeit der Parameter.
- Rechentechnisch aufwendig.
- Itemparameter werden iterativ bestimmt, so dass sie optimal zu den empirisch
beobachteten Daten passen. (Lsungswahrschein. > 0,5 wre 1; < 0,5 wre 0)

66
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

(Schtzung der Itemparameter: Erfolgt mittels Maximum-Likelihood-Methode. Ist die Schtzung


erfolgreich, so sind die Modellannahmen in dem Validierungsdatensatz gegeben.)

Modellkonformitt:

Likelihoodschtzung sagt nichts darber aus, ob die getroffenen Modellannahmen auch


zutreffen.
Es muss also empirisch geprft werden, ob die empirischen Daten den Modellannahmen
entsprechen.

Wie gut passen Parameter zum Modell; wie konform sind die Daten zum Modell?

Es knnte sein, dass die optimal geschtzten Parameter nur zu verhltnismig geringen
Wahrscheinlichkeiten fr die Daten fhren.
Voraussetzung der Stichprobenunabhngigkeit durch die Aufteilung der Gesamtstichprobe in 2
Substichproben anhand eines relevanten Kriteriums.

- So knnen getrennte Itemparameter geschtzt werden, die bei ausreichender


Modellkonformitt nur zufllig variieren drfen.
- Grafischer Modelltest: in einem Streudiagramm sollten die Itemparameter
nahe der Hauptdiagonalen liegen.
- Nullhypothese: Modellkonformitt gegeben
- Prfung mit dem Likelihood-Quotienten-Test nach Anderson: nimmer fr jede
Stichprobe eine eigene CML-Schtzung vor und testet die Nullhypothese der
Gleichheit der Schtzungen > sollte nicht signifikant werden.

Liegen Itemparameter (kalibrierte Items) vor, und ist Modellkonformitt besttigt, muss nicht fr
jede Person der eigene Personenparameter geschtzt werden.

- Alle Personen mit gleichen Zeilensummenscore haben den gleichen Parameter.


- Wenn kein Item gelst: Zeilensummenscore = 0
- Alle Items gelst: Zeilensummenscore = m (Anzahl der Items)
- Nicht genau bestimmbar, wie der Personenparameter gegen - und +
strebt.
- Durch Normierung knnen aber plausible Parameter zugewiesen werden.

Ob sich Personen modellkonform verhalten kann mit Person-fit-indices festgestellt werden.


Es wird anhand des Antwortmusters eingeschtzt, ob die Testergebnisse plausibel sind.
Lsen die Probanden die Items so, wie sie es nach ihrer Schwierigkeit sollten.
Fllt der Person-fit-Index ungnstig aus, muss entschieden werden ob noch eine sinnvolle
Interpretation mglich ist.
Modellkonform kann auch sein, dass Personen einen abweichenden Arbeitsstil zur Mehrheit
besitzen.
Ist Modellkonformitt gegeben resultiert spezifische Objektivitt der Vergleiche
Spezifische Objektivitt:

Wenn IC-Funktionen aller Items die gleiche Form aufweisen und entlang der x-Achse parallel
verschoben sind.
Ermglicht Schwierigkeitsunterschied zweier Items unabhngig von Merkmalsausprgung einer
Person festzustellen.
Ebenso: Unterschiede zwischen Personenparameter knnen unabhngig von der
Itemschwierigkeit festgestellt werden.

67
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

(8 Items, 2 Personen Grn = Item gelst; Rot = nicht gelst Person 1 ist im gesamten Test fhiger.
Teilt man die Tests jedoch auf, ist es anders.)

Welche Antwortsequenzen
korrespondieren?
Welche knnen dargestellt
werden?

P5 und P6 darf nicht


vorkommen, da es
inkonformes Antwortverhalten
ist. Man kann nicht sagen ich
bin nicht schwerer als 60kg
und dann ich bin schwerer
als 100kg

(Spez. Obj. in der Guttman-Skala: Person 4 ist am fhigsten. Schneiden wir Item 4 raus, bleibt es so. Schneiden wir 3
und 4 raus, verndert sich schon die Rangreihe (Person 3 und 4 teilen sich den Platz). Schneiden wir 3 Items raus,
ndert sich wieder etwas. Die Rangreihe bleibt gleich, egal welche Items ich rausnehme)

68
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

(Spezifische Objektivitt: Rangreihe der Probanden verschiebt sich nicht, wenn unterschiedliche
Itemstichproben vorgegeben werden)

(Stichprobenunabhngigkeit: Schtzung der Kennwerte ist weitestgehend unabhngig von der


Validierungsstichprobe)

Testbeispiel: TIPI (Trierer Integriertes Persnlichkeitsinventar)

(Dieser Test entspricht der probabilistischen Testtheorie, dem


Rasch-Modell)

Iteminformation:

Definition:
Beschreibt den Beitrag eines Items zur Messung des entsprechenden Merkmals. Je hher der
Informationswert, desto mehr trgt das Item zur Messung eines Merkmals bei. Der Informationswert ist somit
das Pendant zum Standardmessfehler eines Tests aus der klassischen Testtheorie, der allerdings nicht als
konstantes Merkmal des Tests, sondern als Funktion der Personenkennwerte beschrieben wird.

zeigt an, wie viel Information ein Item in einem bestimmten Fhigkeitsbereich ber die
Unterschiedlichkeit der Probanden liefert.
(Differenz zwischen Probanden- und Itemschwierigkeit Maximale Information liefert das Item
auf dem Niveau seiner Schwierigkeit)
Je grer die Steigung der IC-Funktion, desto hher der Informationsgewinn durch Anwendung
des Items i bei einer bestimmten Person.
Jedes Item liefert unterschiedliche Informationen ber die Merkmalsausprgungen
verschiedener Personen.

(erste Ableitung aus der logistischen Funktion)

69
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

- In den Randbereichen wre die Lsungswahrscheinlichkeit 0 bzw. 1. In diesen Bereichen


werden Items gelst oder nicht, d.h. man bekommt dadurch kaum Information. Das Maximum
ist immer dort, wo die Lsungswahrscheinlichkeit genau 0,5 (50%) ist.
- Rot = Iteminformationsfunktion Da, wo sie hohe Werte hat, liefert sie viele Informationen.
(das Item liefert viele Informationen)

Der Verlauf des Informationsgewinns wird in der Iteminformationsfunktion I ausgedrckt.


- varriiert mit dem Grad der bereinstimmung zwischen Itemschwierigkeit und der
Fhigkeit.
- Erreicht ihr Maximum, wenn Itemschwierigkeit = Fhigkeit
- Bei zunehmender Differenz fllt sie zu beiden Seiten ab und strebt gegen 0
> Item-schwierigkeit weicht zunehmend von den Fhigkeiten ab.
- Entspricht dem Produkt aus bedingter Lsungswahrscheinlichkeit und
Nichtlsungswahrscheinlichkeit des Items bei gegebener Fhigkeit.
- Durch Addition der einzelnen Iteminformationsbeitrge kann fr einen bestimmten
Probanden die Testinformation additiv bestimmt werden.
- Bei Anstieg der Testinformation steigt die Testgenauigkeit fr den Probanden.
Fhigkeit, Schwierigkeit, Information

Iteminformation als Zahl getroffener Unterscheidungen:

Wenn man eine Person von der anderen unterschieden hat, gibt es einen Gewinner und einen
Verlierer (sie schtteln sich praktisch die Hand)

100 Probanden bearbeiten ein Item. Wie viele Unterscheidungen zwischen Probanden knnen
getroffen werden?

70
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

2.) Zweiparameter-Logistisches Modell: Birnbaum-Modell

zustzlich: Itemdiskriminationsparameter
Gibt an, wie stark sich die Lsungswahrscheinlichkeiten in Abhngigkeit von der
Merkmalsausprgung ndern.
Ma fr die Sensitivitt der Items fr Merkmalsunterschiede
Je kleiner der Parameter, desto geringer die Diskriminationsfhigkeit des Items.
Ein solches Item ist aber sensitiv im oberen oder unteren Bereich.
Entspricht etwa der Trennschrfe in der KTT

Bei den 2PL-Modellen werden zustzlich


Unterschiede in der Steigung der ICC
bercksichtigt.

(Die Steigung sagt uns, wie gut man zwischen fhigen


und weniger fhigen Probanden unterscheiden kann.)

71
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

3.) Dreiparameter-Logistisches Modell: Rate-Modell

Dritter Itemparameter: Rateparameter


Bei den 3PL-Modellen wird zustzlich die
Ratewahrscheinlichkeit der einzelnen Items
bercksichtigt.

(y Achsenabschnitt = Ratewahrscheinlichkeit)

Modellvergleich:

Das Rasch-Modell ist hinsichtlich seiner Gltigkeit mit Modelltests berprfbar.


Gltigkeit meint: erschpfende Statistiken, spezifische Objektivitt, Stichprobenunabhngigkeit,
Intervallskalierung
2PL und 3PL Modell nicht!
> obwohl umfassendere Modellierung des Probandenverhaltens
Es gibt hier nur Goodness-of-Fit-Mae
> keine Rckschlsse auf das Zutreffen der Modellimplikationen mglich
1PL Modell hat also vorteilhaftere Modelleigenschaften
> deshalb hufige Anwendung

Intervallskalenqualitt:

Profile eines Probanden. Einmal als Personenparameter (PTT - oben)


ausgewertet und einmal nach der KTT (unten) ausgewertet.

72
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Es geht immer in die gleiche Richtung, sowohl negativ als auch positiv.
berdurchschnittliche Fhigkeit = berdurchschnittliche Werte
Bei der PTT herrscht intervallskalenniveau (d.h. die Ausschlge sind strker/akzentuierter/
prziser. Hoher Personenparameter bei lsen von sehr schweren Items)
Bei der KTT herrscht rangskalenniveau (d.h. Abstnde knnen nicht interpretiert werden,
Rangreihe informiert nicht ber Details)

(Intervallskalenqualitt: Abstnde zwischen den Messwerten einzelner Probanden knnen


sinnvoller Interpretiert werden.)

Schlussfolgerung bei Modellgeltung:

Knnen die Modellparameter hinreichend genau geschtzt werden, so gelten die


Modellannahmen, die der Schtzung zugrunde liegen, als erfllt. (Modellparameter =
Itemschwierigkeit, Probandenfhigkeit, Steigung, Ratewahrscheinlichkeit umso mehr
Parameter, desto mehr Freiheitsgrade habe ich > 3PL = 3 df)

Es gelten damit:

- Rasch-Homogenitt: Die ICCs verlaufen entsprechend dem Schtzmodell (z.B. 1PL-,2PL-


oder 3PL-Modell)
- Lokale stochastische Unabhngigkeit: Alle Items erfassen die gleiche eindimensionale
latente Variable (im Prinzip die Reliabilittsprfung der PTT)
- Spezifische Objektivitt & Stichprobenunabhngigkeit: Die Parameterschtzung ist
unabhngig von der Itemstichprobe und der Personenstichprobe (egal welche Person oder
welche Items ich nehme, ich komme immer auf dieselben Schwierigkeiten)
- Intervallskalenqualitt: Unterschiede zwischen Probanden knnen als Abstnde interpretiert
werden und nicht nur als Rangreihe (Man darf also auch sagen doppelt so gro wie etc.
das gilt bei der KTT nicht.)

f.) Vergleich PTT und KTT:

KTT stellt keinen expliziten Bezug zwischen der Leistung einer Person und der Schwierigkeit
eines Items her.
Bei der PTT werden Fhigkeitsschtzungen & Itemschwierigkeiten auf einer joint scale
abgebildet.
Eindeutig ist die relative Lokalisation der Personenfhigkeit zu der Itemschwierigkeit nur dann,
wenn die IC-Funktionen aller Items parallel verlaufen.
KTT liefert als Messfehlertheorie Konzepte zur Reliabilittsschtzung
PTT expliziert Beziehungen zwischen Antworten von Probanden und dahinterstehenden
latenten Merkmalen.
Beide Anstze ergnzen sich daher.

Unterschiede KTT und PTT:

- Bei der KTT wird bei der Testwertbildung die Antwort auf die Items des Tests mit der Messung
des im Test erfassten Konstruktes gleichgesetzt.
- Bei der IRT hingegen wird das im Test gezeigte Verhalten (also die Antwort) auf eine Fhigkeit
oder Eigenschaft zurckgefhrt, die das Testverhalten verursacht.
- Somit ist das beobachtete Verhalten (manifeste Variable) bei der PTT lediglich ein Indikator fr
das dahinterliegende Konstrukt, dessen Messung nur indirekt erfolgen kann & die Ausprgung
der latenten Variable nur erschlossen werden kann.

73
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

g.) Adaptives Testen:

Tests, die den Modellansprchen der IRT (PTT) gengen, haben in der psychodiagnostischen
Praxis mit einem konomischen Vorteil die Mglichkeit, eingesetzt zu werden.
Aufgrund der spezifischen Objektivitt ist es nicht notwendig, dass alle Probanden alle Items
bearbeiten. (unabhngig von den Items die ich rausnehme, soll das selbe Ergebnis
rauskommen)
Vielmehr knnen den Probanden Teile der Skala vorgegeben werden, die maximal informativ fr
die Abschtzung der Ausprgung der latenten Variable sind.
Diese Vorgehensweise wird als adaptives Testen bezeichnet.

Soziale & sachliche Folgerichtigkeit (Subtest)

5 Karten mit Szenen, die man in die richtige Reihenfolge bringen soll.

74
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Realittssicherheit (Subtest)

Ein Bild wird vorgegeben, es fehlt immer eine Komponente. (Hier z.B. die Zgel und die 0)

Soziales Erfassen und sachliches Reflektieren (Subtest)

Adaptives Testen im AID-2 (Itemvorgabe - entsprechend der Fhigkeit des Probanden)

(Alter des Kindes)


(Nach Links einfacher, nach Rechts schwieriger bereinander = Gleichschwer)

75
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Bsp.: 10 Jahre 5 Monate.

Man startet bei Block 5


hat das Kind keine Aufgabe oder nur 1 richtig gelst, dann geht man zu leichteren Aufgaben
(Testblock 4) etc. ber.
das macht man 3 mal und dann ist der Test beendet. (Pfeile geben an wie viele man
mindestens richtig haben sollte um weiterzukommen)
Querpfeile > man sollte nicht mehr zu bereits bearbeiteten Blcken zurckgehen, da diese
Items bereits gelst wurden (oder nicht) - demnach also bekannt sind. Habe ich also bei 5 nicht
genug, gehe ich zu 4 lse ich dort viele, darf ich nicht wieder zurck zu 5 gehen.

(Adaptives Testen: Gilt spezifische Objektivitt, so knnen den Probanden lediglich die Items
vorgegeben werden, die fr die Erfassung der latenten Variable maximal informativ sind)

Allgemeines:

Das Adaptive Testen bietet sich besonders bei Testverfahren an, die auf der Grundlage der
Probabilistischen Testtheorie konstruiert werden.
Die Auswahl aus einem Itempool bzw. die Vorgabe einzelner Items orientiert sich am
spezifischen Antwortverhalten einzelner Probanden.
Erfolgt meist durch Anpassung der Itemauswahl hinsichtlich ihrer Schwierigkeit an die Fhigkeit
des Probanden.
Die angepasste Vorgabe von Items soll dabei mehr diagnostischen Nutzen bringen (mglichst
exakte Informationen zur individuellen Merkmalsausprgung) und gleichzeitig testkonomisch
sein.

Steuerung des psychometrisch orientieren Vorgehens:

Adaptiver Algorithmus.
Dieser regelt die Itemauswahl zu Beginn & whrend der Testung
sowie Kriterien zur Testbeendigung.

D.h. Probanden mit unterschiedlicher Merkmalsausprgung bekommen unterschiedliche Items


vorgelegt.
PTT Modelle erlauben es, vergleichbare Personenparameter zu bestimmten, wenn lokale
stochastische Unabhngigkeit fr die Items besteht.

Eine Sonderform stellt dabei das selbstadaptierte Testen dar:

- hier entscheidet nicht ein von auen regelnder Algorithmus, sondern die Probanden selber ber
die Schwierigkeit des nachfolgenden Items.

Strategien zur Vorgabe des ersten Items:

Vor dem Testen sind i.d.R. noch keine Informationen ber die Fhigkeit eines Probanden
vorhanden.
Daher wird hufig ein Item mittlerer Schwierigkeit (p=0,5) verwendet, oder ein leichteres Item
(p=0,8).
Sind Informationen vorhanden, knnen diese zu einer vorlufigen Schtzung der
Merkmalsausprgung herangezogen werden, um ein passendes Item mit der gewnschten
Schwierigkeit aus dem Itempool auszuwhlen.

76
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Strategien zur Vorgabe nachfolgender Items:

Durch einfache Regel gelst:


Lst der Proband das erste Item, wird als Nchstes ein schwierigeres vorgelegt.
Lst er das erste Item nicht, wird ein leichteres vorgelegt.

Bei dieser Strategie entscheidet jede Antwort des Probanden ber die Auswahl des
nachfolgenden Items.

1. Branched Testing: (siehe Beispiel AID2)

Ausgehend vom Erfolg der Bearbeitung einer Aufgabe wird anhand fester Verzweigungsregeln
entschieden, welches Item als Nchstes vorgelegt wird.
Die individuelle Merkmalsausprgung am Ende des Tests wird dann entweder anhand der
Schwierigkeit des Items ermittelt, das als Nchstes vorgelegt worden wre, oder aus der
mittleren Schwierigkeit aller vorgelegten Items. (exklusive des ersten Items) zuzglich des
Items, das als Nchstes vorgelegt worden wre.

2. Tailored Testung: (z.B. FAKT - Frankfurter Adaptive Konzentrations-Leistungstests)

Hier wird das Fhigkeitsniveau (Personenparameter) mit jeder gelsten Aufgabe neu geschtzt.
Dabei wird das Item anhand seiner optimalen Eigenschaften unter der Bedingung von Ksi
gewhlt.
Beendet wird die Testung, wenn ein definiertes Ziel- oder Abbruchkriterium erreicht ist.
Diese Form kann aufgrund des Rechenaufwands allerdings nur bei computerbasierten
Verfahren eingesetzt werden.

- Tailored Testing wird inzwischen vorrangig benutzt.


- Die Auswahl der Items, werden entweder an der maximalen Iteminformationsfunktion I orientiert
oder durch Minimierung des Standardfehlers in Abhngigkeit der gegebenen Antworten
geschtzt.
- Die Wahl nach der Iteminformationsfunktion garantiert, dass die Itemschwierigkeit die
bestmgliche bereinstimmung mit dem geschtzten Personenparameter aufweist jedoch
nur beim Rasch-Modell gewhrleistet.
- Beide Vorgehensweisen knnen dazu fhren, dass bestimmte Items sehr hufig oder selten zur
Bearbeitung ausgewhlt werden. Daher muss durch Hinzufgen einer stochastischen
Komponente das Item aus mehreren Alternativen ausgewhlt werden, bei denen die maximale
Iteminformation gleichermaen gegeben ist.
- Dies setzt einen hinreichend groen Itempool voraus.
Zur Schtzung des Personenparameters werden beim Tailored Testing entweder Maximum-
Likelihood-Schtzer oder Bayes-statistische Schtzer eingesetzt.

Strategien zur Beendigung eines adaptiven Tests:

Orientiert sich an der Erreichung eines Ziel- bzw. Erfllung eines Abbruchkriteriums.
Zielkriterien: z.B. bestimmte Anzahl von prsentierten Items oder die minimierte Schwankung
des Standardfehlers bei der Personenparameterschtzung.
Abbruchkriterien: z.B. Erreichung einer maximalen Testzeit oder das Ausschpfen aller
verfgbaren Items.
Diese Entscheidung hngt i.d.R. von der Testart (Einzel- oder Gruppentests) & den
Eigenschaften des Itempools ab.

77
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Vorteile adaptiven Testens:

- Erhhte Durchfhrungs- und Auswertungsobjektivitt durch einen standardisierten Testablauf.


- Fehlerfreie Testwertbestimmung.
- hhere Individualisierbarkeit der Testgeschwindigkeit.
- Verwendung interaktiver Items.
- Besonders da gut, wo eine hohe Messeffizienz angestrebt wird.
- positive Auswirkungen auf die konvergente und diskriminante Validitt.

Nachteile adaptiven Testens:

- eingeschrnkte Testfairness bei computerbezogenen Personenmerkmalen.


- hhere Kosten in der Testentwicklung, da hufig groer Itempool bentigt wird.

78
Testtheorie & Testkonstruktion Skript 2015 Maximilian Bungart

Quellen:
Pospeschill, M. (2010). Testtheorie, Testkonstruktion, Testevaluation: mit 77 Fragen zur
Wiederholung. Reinhardt.
Smtliche Materialien von Dr. Nicolas Becker aus dem Sommersemester des Studiengangs
Psychologie an der Universitt des Saarlandes 2015 (Testtheorie und Testkonstruktion)

79