Testtheorie Skript

Vorlesung 1 – Einführung
--------------------------------------------------------------------------
Was ist Diagnostik?
Diagnostik = theoriegeleitete, systematische Sammlung hochwertiger Informationen über ein diagnostisches
Objekt
Ziele:
 Beschreibung relevanter Merkmale des Objekts
 Vorhersage künftig relevanter Merkmale des Objekts (z.B. Vorstellungsgespräch)
 Bestimmung von Maßnahmen, um erwünschte Merkmale des Objekts zu verhindern/ beseitigen
Anwendungsbezug der Diagnostik: Diagnostisches Urteil als Entscheidungsgrundlage
Diagnostik in der Praxis

 Diagnostik ist wichtiger Bestandteil in fast jedem psychologischen Tätigkeitsbereich
(vgl. https://www.bdp-verband.de/bdp/archiv/berufsbild-psychologie.pdf)
 Beispiele
- Klinische Psychologie: Diagnostik von klinischen Störungen
- Pädagogische Psychologie: Diagnostik von Entwicklungsstand, Intelligenz, Kompetenzen–
Wirtschaftspsychologie: Personaldiagnostik
Diagnostik in Wissenschaft und Praxis

Was ist ein psychologischer Test?
Ein Test ist ein wissenschaftliches Routineverfahren zur Erfassung
eines oder mehrerer empirisch abgrenzbarer psychologischer
Merkmale mit dem Ziel einer möglichst genauen quantitativen Aussage über den Grad der individuellen
Merkmalsausprägung.
Test vs. Fragebogen
 Der Begriff „Test“ ist mit klaren Qualitätsanforderungen verbunden (s. nächste Sitzung)
 Der Begriff „Fragebogen“ ist uneinheitlich definiert
- Wenn aus dem Englischen übersetzt, häufig vergleichbar mit „Test“ (vgl. englische Begriffe
questionnaire, scale)
- Im Deutschen auch Sammelausdruck für schriftliche Befragungen
Eine kurze Geschichte der psychologischen Diagnostik
Eignungsdiagnostik in China (ca. 300 v. Chr. bis 1905)
 Testprogramm für den öffentlichen Dienst
Ab 7. Jh. n. Chr.: Entwicklung eines objektiven, mehrstufigen Selektionsprogramms
 Schriftliche Leistungsprüfung
 Recht
 Militärische Angelegenheiten
 Finanzen
 Geographie etc.
 Praktische Leistungsprüfung
 Reiten
 Musizieren
 Bogenschießen
 Testdaten wurden von zwei unabhängigen Beurteilern bewertet → Objektivierung
Anfänge der modernen Diagnostik

Charles Darwin (1809-1882): Bedeutung individueller Unterschiede für die Selektion
Gustav Theodor Fechner (1801-1887):
 Psychophysik: Psychische Merkmale lassen sich messen!
 Beispiel: Fechners Gesetz S = k ∙ log(R) (Sinnesempfindung * Reizstärke)
 Moderne Anwendung: Messung der Lautstärke in Dezibel
Seite 1 von 65
Sir Francis Galton
• Wichtigste Ideen
 Menschen unterscheiden sich in ihrer Intelligenz
 Intelligenz ist normalverteilt
• Messung der Intelligenz
 Intelligenz = Fähigkeit, große Mengen an Sinneseindrücken zu verarbeiten
 Operationalisierbar über Reaktion auf sensorische Reize
 Reaktionszeiten, Hörvermögen, Sehvermögen, etc.
Beginn der Intelligenzdiagnostik

James McKeen Cattell (1860-1944): 1890: Publikation des „Mental Tests“
Wissler (1901): Interkorrelationen verschiedener Tests:
 Physical Tests korrelieren untereinander hoch
 Mental Tests korrelieren untereinander hoch
 Physical Tests korrelieren nur schwach mit Mental Tests
 Mental Tests korrelieren nur schwach mit Zeugnisnoten etc.
→Bisher entwickelte Tests waren wenig brauchbar
Albert Binet (1857-1911):
 Erkannte, dass komplexe Aufgaben wie Rechnen, moralisches Urteilen und Schlussfolgern besser
zwischen hoch und niedrig intelligenten Kindern trennen
 Entwicklung des ersten Intelligenztests mit dem Ziel der Platzierung von Kindern in Schulen (Binet-
Simon-Test, 1905, 1908)
 Aufgaben waren zunehmend schwieriger→Messung des Intelligenzalters
William Stern (1871-1938):
 Intelligenzdiagnostik Intelligenzalter ist proportional zum Lebensalter
eines Kindes
• Intelligenzquotient (1912):
 In modernen Intelligenztests wird der Intelligenzquotient als Abweichungswert definiert, nicht als
tatsächlicher Quotient
Beginn der Persönlichkeitsdiagnostik

Robert S. Woodworth (1871-1938): Personal Data Sheet (Woodworth, 1918)
 Einer der ersten modernen Persönlichkeitstests
 Entwickelt für die Erfassung der psychischen Konstitution von Rekruten im 1. WK
 Aufbau: 116 Items; ja/nein
 Grundlage für viele weitere Persönlichkeitstests
Projektive Persönlichkeitstests
 Projektion
– Psychodynamisches Konzept
– Unbewusste Konflikte werden in andere Objekte projiziert
– Wissenschaftlich wenig fundiert
 Rorschach-Test (1921)
– Reaktion auf unstrukturierte Tintenklekse
– Formales Auswertungsschema
Vorlesung 2 – Gütekriterien
-----------------------------------------------------------------------
Überblick
1. Objektivität 2. Reliabilität 3. Validität 4. Skalierung 5. Normierung (Eichung)
6. Testökonomie 7.Nützlichkeit 8. Zumutbarkeit 9. Unverfälschbarkeit 10. Fairness
Seite 2 von 65
1. Objektivität
„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig von Testleiter und
Testauswerter misst. Außerdem müssen klare und anwenderunabhängige Regeln für die
Ergebnisinterpretation vorliegen.“
 Durchführungsobjektivität
- Testdurchführung ist unabhängig vom Testleiter
- Dann gegeben, wenn der Test möglichst standardisiert ist
- Gleiche Durchführungsbedingungen für alle (z.B. Gleiche Instruktion, Gleiche Zeitvorgabe, Gleiche
Rahmenbedingungen)
 Auswertungsobjektivität
- Testergebnis ist unabhängig vom Testauswerter
- Einfacher zu erreichen bei geschlossenen Antwortformaten als bei
offenen Antwortformaten
- Erfordert genaue Anweisungen im Testmanual
- Überprüfung durch Messung des Grads der Übereinstimmung zwischen verschiedenen Auswertern
 Interpretationsobjektivität
- Verschiedene Testanwender kommen bei Testpersonen mit demselben Testergebnis zu denselben
Schlussfolgerungen
- Beispiele: Ist eine bestimmte Therapie indiziert? Ist die Bewerberin für die Stelle geeignet?
- Hilfestellungen: Genaue Anleitungen im Testmanual; Normentabellen aus Eichstichproben
2. Reliabilität
 Messgenauigkeit: Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt
(messfehlerfrei) misst
 Wird ausgedrückt im Reliabilitätskoeffizienten
0 = Testergebnis ist nur auf Messfehler zurückzuführen
1 = Testergebnis ist völlig frei von Messfehler
 Bestimmung der Reabilität

1. Retest-Reliabilität 2. Paralleltest-Relibilität
3. Testhalbierungs-Rel. 4. Innerer Konsistenz
3. Validität
 Ein Test gilt dann als valide („gültig“), wenn er das Merkmal, das er messen soll, auch wirklich misst und
nicht irgendein anderes
 Objektivität und Reliabilität sind notwendige, aber keine hinreichende Voraussetzungen für Validität
 4 Validitätsaspekte
1.Augenscheinvalidität
- Validität des Tests ist aus Sicht eines Laien gegeben
- Wichtig für Akzeptanz von Tests
- Beispiele: Fehlende Augenscheinvalidität im Vorstellungsgespräch; Fehlende
Augenscheinvalidität bei impliziten Verfahren
2.Inhaltsvalidität
- Test oder Testitem ist repräsentativ für das zu erfassende Merkmal
- Kein numerischer Kennwert, sondern logische und fachliche Überlegungen durch Experten
- Beispiel: Situative Fragen im Vorstellungsgespräch
3.Konstruktvalidität
- Theoretische Fundierung der gemessenen psychologischen Merkmale
- Beispiel: Misst der Test wirklich Intelligenz oder doch eher Aufmerksamkeit?
- Struktursuchendes Vorgehen (z.B. Exploratorische Faktorenanalyse; Nomologisches Netzwerk
(konvergente und diskriminante Validität))
Seite 3 von 65
- Strukturprüfendes Vorgehen (z.B. Konfirmatorische Faktorenanalyse; Multitrait-Multimethod-
Analysen mit Strukturgleichungsmodellen)
4.Kriteriumsvalidität
- Testergebnis korreliert angemessen mit einem „Kriterium“ (= Verhalten außerhalb der
Testsituation)
- Konkurrente Validität (Übereinstimmungsvalidität)
 Korreliert das Testergebnis mit einem zeitgleich gemessenen Kriterium?
 Beispiel: Korrelation zwischen dispositioneller Extraversion und extravertiertem Verhalten
- Prognostische Validität (Vorhersagevalidität)
 Korreliert das Testergebnis mit einem in der Zukunft gemessenen Kriterium?
 Beispiel: Korrelation zwischen Abinote und Studienerfolg
4. Skalierung
 Die Testwerte sollen die empirischen Merkmalsrelationen adäquat abbilden
- Unterschiede zwischen Personen (interindividuelle Unterschiede)
- Unterschiede innerhalb Personen (intraindividuelle Unterschiede)
 Abhängig vom Skalenniveau
- Mindestens Ordinalskalenniveau
- Besser Intervallskalenniveau
 Kann im Rahmen der Item-Response-Theorie untersucht werden
5. Normierung bzw. Eichung

 Eichstichprobe liefert Vergleichswerte für die Einordnung der Testergebnisse einer Person
 Eichstichprobe ist den zu testenden Personen in relevanten Merkmalen ähnlich (z.B. Alter, Geschlecht,
Bildung)
 Statistische Kennwerte zur Einordnung von Personen
- Prozentrang: Wie viel Prozent der Eichstichprobe haben diesen oder einen schlechteren
Testwerterreicht?
- Standardnormen, z.B. z-Wert, IQ-Wert, T-Wert
 Normen können sich über die Zeit verändern und müssen daher regelmäßig überprüft und aktualisiert
werden (Bsp. Flynn-Effekt)
6. Testökonomie
 Testökonomie bezieht sich auf: Finanziellen Aufwand & Zeitaufwand
 Oft Widerspruch zwischen Ökonomie und Reliabilität/Validität
7. Nützlichkeit
 Das durch den Test gemessene Merkmal ist praktisch relevant
 Durch den Test wird mehr Nutzen als Schaden erwartet
8. Zumutbarkeit
 Testpersonen sollten zeitlich, psychisch und physisch möglichst geschont werden
 Belastung durch Test wird in Relation zum Nutzen des Tests gesetzt
 Bezieht sich auf Testpersonen, nicht auf Testleiter!
9. Unverfälschbarkeit
 Testpersonen können das Testergebnis nicht gezielt verzerren
 Faking = absichtliches Verzerren der Testergebnisse
 Besonders begünstigt bei Tests mit hoher Augenscheinvalidität
 Erschwert bei: Leistungstests & „Objektiven Tests“
10. Fairness
 Bestimmte Personengruppen werden nicht systematisch benachteiligt
 Beispiele für Personengruppen
Seite 4 von 65
o Ethnische Gruppen
o Soziokulturelle Gruppen
o Geschlechtsspezifische Gruppen
 Beispiele
o kulturfaire Intelligenztests
o Durchführungsfairness
o Testroutine
Vorlesung 3 – Itemkonstruktion
-----------------------------------------------------------------
Schritte in der Testplanung und -entwicklung
Wichtige Entscheidungen bei der Testplanung

1. Eingrenzung des zu messenden Konstrukts
 Welche(s) psychologische(n) Merkmal(e) soll(en) gemessen werden?
 Merkmal sollte klar definiert sein (Literaturrecherche zu Theorien, empirischen Studien und ggf.
vergleichbaren Tests)
 Merkmalsarten
o Qualitativ vs. quantitativ
o Unidimensional vs. multidimensional
o Zeit stabil (Trait) vs. zeitlich veränderbar (State)
2. Festlegung der Testart | Testarten:

a. Leistungstest
 Erfassen verschiedene Facetten der kognitiven Leistungsfähigkeit
 Antworten können richtig oder falsch sein
 Erfordern maximales Leistungsverhalten
- Können nur nach unten verfälscht werden (Dissimulation,
faking bad)
 Zwei Arten von Leistungstests
Seite 5 von 65
- Speed- oder Geschwindigkeitstests: Differenzierung durch Begrenzung der Bearbeitungszeit (d2
= b vs p)
- Power- oder Niveautests: Differenzierung durch unterschiedliche Aufgabenschwierigkeiten Auch
Mischformen möglich (z.B Matrizentests)
b. Persönlichkeitstest
 Selbstauskunft über typisches Verhalten
 Keine richtigen oder falschen Antworten
 Verfälschung in beide Richtungen möglich
- Simulation: Merkmalsausprägung wird höher als eigentlich wahr dargestellt (faking good)
- Dissimulation: Merkmalsausprägung wird niedriger als eigentlich wahr dargestellt (faking bad)
3. Eingrenzung von Geltungsbereich und Zielgruppe

 Geltungsbereich
- In welchem Kontext soll der Test angewendet werden?
- Je enger der Geltungsbereich, desto homogener die Aufgaben
- Bsp. Personaldiagnostik: Excel-Kompetenz vs. Führungskompetenz
 Zielgruppe
- Wer soll diesen Test bearbeiten?
- Je breiter die Zielgruppe, desto heterogener müssen die Aufgaben sein
 Unterschiedliche Schwierigkeiten
 Unterschiedliche Inhaltsbereiche
 Jetzt schon: Planung der Analysestichprobe und der Eichstichprobe
4. Entscheidungen zu Struktur, Umfang und Art der Administration

 Struktur
- Unidimensionaler Test
- Multidimensionaler Tests mit mehreren Subtests(Testbatterie)
 Umfang bzw. Testlänge
- Anzahl Items
- Benötigter Zeitaufwand
 Testadministration
- Format: Paper-Pencil-Test vs. computerunterstützter Test vs. Interview, oder Mischformen (z.B.
CATI –computerassistedtelephoneinterview; CAPI –computerassistedpersonal interview)
- Form der Testung: Einzeltestung vs. Gruppentestung
Konstruktionsstrategien
1. Intuitive Konstruktion
 Bei geringem theoretischem Kenntnisstand
 Intuition und Erfahrung des Testkonstrukteurs leiten die Testkonstruktion
 Beispiel: Unser gemeinsamer Test
2. Rationale Konstruktion
 Bei Vorhandensein einer elaborierten Theorie zu dem Merkmal
 Schritte
1. Definition und Spezifikation des Konstrukts anhand der Theorie
2. Einteilung des Konstrukts in Teilbereiche oder Unterkonstrukte
3. Sammeln von Verhaltensindikatoren zu jedem Teilbereich
 Formulierung als Testitems
 Beispiel: Test zur Erfassung der momentanen Stimmung
3. Externale bzw. kriteriumsorientierte Konstruktion

 Personen unterscheiden sich in Bezug auf ein bestimmtes Kriterium
 Items sollen möglichst gut zwischen diesen Personen differenzieren können
Seite 6 von 65
 Schritte
- Entwicklung eines sehr großen Itempools
- Statistische Auswahl derjenigen Items mit besonders guter Vorhersagekraft (z.B.
regressionsanalytische Verfahren)
 Keine theoretische Erklärung für Vorhersagekraft einzelner Items notwendig
 Beispiele:
- Frühe Intelligenztests (Binet)
- Kurzversionen von Tests
- Vorhersage von Persönlichkeitseigenschaften anhand von Facebook-Likes
4. Internale bzw. faktorenanalytische Konstruktion

 Annahme: Merkmal setzt sich aus mehreren Dimensionen zusammen
 Schritte
 Entwicklung von Items zu verschiedenen Merkmalsdimensionen
 Analyse der Items mit Faktorenanalyse
 Zwei faktorenanalytische Methoden
 Exploratorische Faktorenanalyse (EFA): Faktorenstruktur ist nicht a priori festgelegt, sondern wird
durch die EFA „entdeckt“
 Konfirmatorische Faktorenanalyse (CFA): Faktorenstruktur ist a priori festgelegt und wird durch die
CFA überprüft
 Beispiel: Big Five
Aufgabentypen und Antwortformate

1. Aufgabenstamm
2. Antwortformat
a. Aufgaben mit freiem Antwortformat

 Keine vorgegebenen Antwortalternativen
 Antwort wird von der Person selbst produziert
 Beispiele
- Projektive Verfahren
- Kurzaufsatzaufgaben
- Ergänzungsaufgaben (z.B. Lückentext)
 Auswertung durch Kodierung der Antworten
- Überführung der Antworten in Zahlen
- Kodierschemamuss klar vorgegeben sein (Auswertungsobjektivität)
b. Aufgaben mit gebundenem Antwortformat
 Mehrere Antwortalternativen sind vorgegeben
 Auswertung ist ökonomisch und objektiv
 Besonders geeignet für Leistungstests
 Beispiele
Seite 7 von 65
- Ordnungsaufgaben
- Auswahlaufgaben
- Beurteilungsaufgaben
3. Ordnungsaufgaben: Umordnungsaufgaben
4. Auswahlaufgaben
 Aus mehreren Antwortalternativen muss die richtige bzw. zutreffende Antwort ausgewählt werden
 Geeignete Distraktoren
 Disjunktheit der Antwortmöglichkeiten
 Exhaustivität(Vollständigkeit) der Antwortmöglichkeiten
 Besonders relevant bei Leistungstests: Geeignete Distraktoren und

 Besonders relevant bei Persönlichkeits- und Einstellungstests: Exhaustivität
 Anzahl der Antwortalternativen
- Dichotome Aufgaben: zwei Antwortalternativen
- Multiple-Choice-Aufgaben: mehr als zwei Antwortalternativen
 Besondere Formate
- Forced Choice (bei Einstellungstests): es muss die Antwort gewählt werden, die am ehesten
zutrifft, auch wenn keine Antwort genau zutrifft
- Mehrere richtige Antworten (bei Leistungstests): verringert die Ratewahrscheinlichkeit, höhere
Anforderungen an Probanden
5. Beurteilungsaufgaben
 Antwort = Grad der Zustimmung oder Ablehnung zu einem Statement
 Antwortformat ist meistens nicht aufgabenspezifisch, sondern gilt für den gesamten Test
 Unterscheidungen
- Ohne vs. mit Skalenstufen
- Unipolare vs. bipolare Antwortskala
- Bezeichnung der Skalenpunkte
- Mit vs. ohne neutrale Mittelkategorie
Seite 8 von 65
- Mit vs. ohne „Weiß nicht“-Kategorie
- Symmetrisch vs. asymmetrisch
1) Skalenstufen
 Ohne Skalenstufen: Kontinuierliche Analogskala
- Beispiel: Visuelle Analogskala
 Mit Skalenstufen: diskret gestufte Rating-Skala

- Auch Stufenantwortskala oder Likert-Skala genannt
 Kontinuierliche Analogskala
- Mittlerweile einfache Auswertung durch computergestützte Verfahren
- Differenziertheit der Messung > Differenziertheit des Urteils
- Werden deshalb selten verwendet
 Diskret gestufte Rating-Skala
- Kein Informationsgewinn bei mehr als 7 Skalenstufen
- Anfällig für Antworttendenzen (s.u.)
2) Polarität
 Bipolare Skala
- Negativer Pol = Ablehnung
- Positiver Pol = Zustimmung
 Unipolare Skala
- Nullpunkt bzw. Bezugspunkt = geringste Zustimmung
- Positiver Pol = maximale Zustimmung
 Entscheidung abhängig vom Iteminhalt bzw. von zu erfassendem Merkmal
3) Bezeichnung der Skalenpunkte
4) Neutrale Mittelkategorie
 Beispiel
 Warum wählt jemand die mittlere

Kategorie?
- Mittlere Kategorie beschreibt die Merkmalsausprägung am besten (valide Antwort)
- Wortlaut der Frage war unpassend
- Frage wurde nicht verstanden
- Will die Frage nicht beantworten
- Kann die Frage nicht beantworten
Seite 9 von 65
5) „Weiß nicht“-Kategorie
 Beispiel

 Bezeichnungen für die „Weiß nicht“-Kategorie

- Nicht zutreffend (z.B. „Welche Automarke fahren Sie?“)
- Kann ich nicht beurteilen (z.B. „Wie gut kann Fr. Luhmann kochen?“)
- Möchte ich nicht beantworten (z.B. „Bitte geben Sie Ihr Geschlecht an.“)
- Ich habe die Frage nicht verstanden (z.B. „Alaaf oder Helau?“)
 Vermindert die Probleme der neutralen Mittelkategorie
 Aber kann unvollständiges Bearbeiten des Tests begünstigen
6) Symmetrie vs. Assymetrie

 Die meisten Antwortskalen sind symmetrisch
 Gründe für den Einsatz von asymmetrischen Antwortskalen
- Probanden schöpfen die symmetrische Antwortskala nicht voll aus
- Der Test soll in einem Extrembereich des Merkmals differenzieren (z.B. bei klinischen Störungen)
 Häufig bei itemspezifischen Antwortformaten
6. Atypische Antworteformate
 Fazit zu Antwortformaten
 Jedes Antwortformat ist mit Vor- und Nachteilen verbunden (nachlesen –klausurrelevant!)
 Kriterien für die Auswahl des Aufgabentyps und Antwortformats
- Leichte Verständlichkeit
- Einfache Durchführbarkeit
- Kurze Lösungszeit
- Geringer Material-bzw. Papierverbrauch
- Leichte Auswertbarkeit
- Geringe Häufigkeit von Zufallslösungen
Fehlerquellen bei der ITEM-Beantwortung

1. Kognitive Prozesse und Fehlerquellen bei der Itembeantwortung
Seite 10 von 65
2. Optimizingund Satisficing
 Optimizing
- Probanden haben einen positiven Grund, den Test gründlich zu bearbeiten
- Beispiele: Selbsterkenntnis, Hilfestellung für andere, Belohnung
 Satisficing (aus satisfying und sufficing)
- Probanden nehmen beiläufig oder nur aus Verpflichtung teil
- Beispiele
 Verpflichtende Mitarbeiterbefragungen
 Teilnahme an Studien für Vpn-Stunden–
- Strategien
 Schwaches Satisficing: alle kognitiven Stadien werden nur oberflächlich durchlaufen
 Starkes Satisficing: Antwort ist unabhängig von tatsächlichen Einstellungen
3. Soziale Erwünschtheit
 Probanden stellen sich selbst im besten Licht dar
 Zwei Varianten der sozialen Erwünschtheit
- Selbsttäuschung (self-deceptive enhancement)
- Fremdtäuschung (impression management)
 Kontrolle oder Verringerung des Sozialen Erwünschtheit-Effekts
- Aufklärung über den Untersuchungsgegenstand–Zusicherung der Anonymität
- Kontrollskalen („Lügenskala“) zur Messung der Tendenz zur sozialen Erwünschtheit
 Beispiel-Item: „Als Kind habe ich manchmal gelogen“
- Objektive Persönlichkeitstests
4. Antworttendenzen
 engl. Response Sets
 Tendenz zur Mitte
- Bevorzugung der mittleren Antwortkategorie
- Bewusst oder unbewusst
- Führt zu einer verringerten Itemvarianz und zu Verzerrungen
- Kontrolle durch Vermeidung einer mittleren Antwortkategorie
 Tendenz zum extremen Urteil
- Bevorzugung von extremen Antwortkategorien
- Relativ selten
 Akquieszenz
- Tendenz, den Fragen oder Statements unabhängig vom Inhalt zuzustimmen
(Zustimmungstendenz)
- Besonders häufig bei Ja/Nein-Fragen
- Auch häufiger bei Müdigkeit, schwierigen Aufgaben, unpersönlichen Befragungen
- Führt zu Verzerrungen der Messung
 Maßnahmen gegen Akquieszenz
- Mischung von positiv und negativ gepolten (invertierten) Items
 Ich gehe gerne auf Menschen zu.
 Mit anderen Menschen bin ich eher zurückhaltend. (-)
- Positive und negative Items laden häufig auf unterschiedlichen Faktoren, selbst wenn das
Merkmal eigentlich eindimensional gemessen wird
ITEMFORMULIERUNG
Itemarten
 Direkt vs. indirekt
 Hypothetisch vs. biographiebezogen
Seite 11 von 65
 Konkret vs. Abstrakt
 Personalisiert vs. depersonalisiert
 Kategorisierung nach Stimulusqualität
 Kategorisierung nach Aufgabeninhalt
- Selbstbeschreibung
- Fremdbeschreibung
- Motivationale Fragen
- Etc.
Sprachliche Verständlichkeit
 Items möglichst positiv formulieren
- Verneinungen vermeiden
- Doppelte Verneinungen unbedingt vermeiden!
 Klare Satzkonstruktionen
 Keine Abkürzungen
 Keine Fachbegriffe
 Intensitätsangaben im Item können problematisch sein
Eindeutigkeit des Iteminhalts

 Universalausdrücke vermeiden: „Immer“ – „nie“ – „alle“
 Schwieriges definieren, z.B. in der Instruktion
 Mehrdeutigkeit vermeiden
 Item sollte nur eine Aussage enthalten
 Antwort darf nicht von Vorwissen abhängig sei
 Zeitpunkt bzw. Zeitspanne, auf die sich das Item bezieht, sollte klar sein
Varianz erzeugen
 Tests sind nur dann aussagekräftig, wenn sie Unterschiede zwischen Personen auch tatsächlich erkennen
 wir wollen Varianz
 Zu leichte und zu schwierige Items vermeiden
- Leichte Items: (Fast) alle Personen antworten zustimmend
- Schwierige Items: (Fast) alle Personen antworten ablehnend
 In Leistungstests: leichte und schwierige Items kombinieren
Weitere Aspekte
 Items sollten aktuell sein
 Items sollten keine Wertungen enthalten
 Items sollten nicht suggestiv sein
 Antwortformat muss zum Item passen
Vorlesung 4 – Itemanalyse
------------------------------------------------------------------------
= Beurteilung der Qualität von Items mit Hilfe von deskriptivstatistischen Verfahren
Ziel: Auswahl und Verbesserung von Items
SCHWIERIGKEITSANALYSE
Schwierigkeitsindex
 Ziel von Tests: interindividuelle Unterschiede abbilden
 Nicht alle Personen dürfen dieselbe Antwort geben
- Items dürfen nicht zu leicht sein (alle lösen das Item bzw. alle stimmen zu)
- Items dürfen nicht zu schwierig sein (keiner löst das Item bzw. keiner stimmt zu)
Seite 12 von 65
 Itemschwierigkeit im Schwierigkeitsindex ausgedrückt:
Notation der Datenmatrix
Allgemeine formale Definition des Schwierigkeitsindex:

 Wenn der Wertebereich bei 0 beginnt:
 Wenn der Wertebereich nicht bei 0 beginnt: (Transformation
einzelner Werte muss stattfinden)
Interpretation des Schwierigkeitsindex:
 Wertebereich von 0 bis 100

- 0 = Alle Probanden haben 0 Punkte
- 100 = Alle Probanden haben die maximale Punktzahl
 Je größer der Schwierigkeitsindex, desto mehr Probanden
- haben das Item gelöst (bei Leistungstests)
- haben das Item „symptomatisch“ bzw. zustimmend beantwortet (bei Persönlichkeitstests)
 Je größer der Schwierigkeitsindex, desto „leichter“ ist das Item  eigentlich ein Leichtigkeitsindex
 Konventionen für die Interpretation
- 5 ≤ Pi ≤ 20 schwer
- 20 ≤ Pi ≤ 80 mittelschwer
- 80 ≤ Pi ≤ 95 leicht
Schwierigkeitsindex bei Speedtests

 Speedtest = Leistungstest mit Zeitlimit
 Mögliche Antworten
- R-Antworten = Richtig
- F-Antworten = Falsch
- A-Antworten = Ausgelassen (eine Aufgabe überspringen)
- U-Antworten = Unbearbeitet (nicht so weit gekommen)
Seite 13 von 65
(Beispiel)
Schwierigkeitsindex bei Niveautests

 Niveautest = Leistungstest ohne Zeitlimit
Schwierigkeitsindex mit Ratekorrektur

 Problem: Manche der richtigen Antworten können zufällig durch Ratenentstanden sein 
Schwierigkeitsindex wird überschätzt
 Annahme 1: Beim Raten sind alle Antwortmöglichkeiten kgleich wahrscheinlich
- Wahrscheinlichkeit für eine beliebige Antwort durch Raten = 1 / k
 Beispiel:
- k= 4 Antwortoptionen: A1 (richtig), A2 (falsch), A3 (falsch), A4 (falsch)
- 4 Personen raten: jede Antwortoption wird genau einmal geraten
 Richtig geraten: A1 = 1
 Falsch geraten: A2 + A3 + A4 = 3
- Die Anzahl der falsch geratenen Antworten ist dreimal (k–1) so groß wie die Anzahl der richtig
geratenen Antworten
 Annahme 2: Alle falschen Antwortmöglichkeiten sind geraten
- Anzahl der F-Antworten ist (k–1) mal so groß wie Anzahl der geratenen R-Antworten
 Grundidee der Ratekorrektur: Subtrahiere Anzahl der richtig geratenen Antworten von der Gesamtzahl der
richtigen Antworten
 Anzahl der richtig geratenen Antworten = Anzahl der falschen Antworten geteilt durch (k–1)
 Schwierigkeitsindex mit Ratekorrektur:
Schwierigkeitsindex bei Persönlichkeitstests

 Leistungstests: Antworten sind richtig oder falsch
 Persönlichkeitstests: Antworten sind symptomatisch oder asymptomatisch für hohe Ausprägung des zu
messenden Merkmals (Gewissenhaftigkeit  symptomatisch: fleißig; asymptomatisch: nicht fleißig)
Seite 14 von 65
 Items sollten so kodiert sein, dass hohe Werte symptomatisch für Merkmal sind
 Beispiel: Zwei Items zur Messung von Extraversion
 Dichotomes Antwortformat: k= 2
- Kodierung: Symptomatische Antwort = 1;
asymptomatische Antwort = 0
- Formel wie bei Niveautests
 Polytomes Antwortformat mit intervallskalierten Stufen: k> 2
- Nie dichotomisieren!
- Kodierung: von 0 bis k–1
- Beispiel: 5 Antwortstufen werden mit 0, 1, 2, 3, 4 kodiert
- Schwierigkeitsindex:
Umpolen von invertierten Items

 Invertierte Items = Items, bei denen hohe Werte
asymptomatisch für das zu messende Merkmal
sind
 Werden formuliert, um Einfluss von
Antworttendenzen zu minimieren
 Müssen vor weiteren Analysen umkodiert
(umgepolt) werden
ITEMVARIANZ
Itemvarianz
 Itemvarianz drückt die Differenzierfähigkeit eines Items aus
 Itemvarianz = 0  alle haben denselben Wert  Item ist nutzlos
 Je größer die Itemvarianz, desto besser
Berechnung der Itemvarianz

Formel für Itemvarianz
(Summe der quadrierten Abweichungen durch
Anzahl der Personen)
Zusammenhang zwischen Itemvarianz und Itemschwierigkeit
TRENNSCHÄRFEANALYSE
 Drückt aus, wie gut ein einzelnes Item zwischen den Testwerten aller Probanden
differenzieren (trennen) kann
 Berechnung über Korrelation zwischen Itemwerten x vi und Testwerten xv
Interpretation der Trennschärfe

 Trennschärfe ist nur interpretierbar, wenn die Items homogen sind
 Hohe Trennschärfe wird durch hohe Itemvarianz begünstigt
 Interpretation
Seite 15 von 65
ITEMSELEKTION UND REVISION DES TESTS
Kriterien für die Itemselektion
Simultane Berücksichtigung aller deskriptivstatistischen Kennwerte

 Itemschwierigkeit  sollten das gesamte Spektrum zwischen5 und 95 abdecken
 Itemvarianz  möglichst hoch, aber nicht um jeden Preis (siehe Zusammenhang mit Itemschwierigkeit)
 Trennschärfe  möglichst hoch (aber nur bei eindimensionalen Tests –siehe exploratorische
Faktorenanalyse)
TESTWERTE
Testwertermittlung
 Allgemeine Formel: Testwert = Zeilensumme aller Antworten
 Besonderheiten bei Leistungstests
- Evtl. Gewichtung der einzelnen Aufgaben (z.B. nach Schwierigkeit)
- Evtl. Korrektur um falsch gelöste Aufgaben (z.B. um zwischen ausgelassenen und falschen
Antworten zu unterscheiden)
- Evtl. Ratekorrektur
 Besonderheiten bei Persönlichkeitstests
- Bei k> 2 Antwortoptionen wird vorausgesetzt, dass die Antwortoptionen intervallskaliert sind
(gleiche Abstände zwischen Werten)
- Testwert= Summe oder Mittelwert aller erzielten Punkte
Verteilung der Testwerte

 Die Verteilung der Testwerte kann über die bekannten deskriptiven Kennwerte beschrieben werden
- Maße der zentralen Tendenz: Arithmetisches Mittel, Median, Modalwert
- Streuungsmaße: Varianz, Standardabweichung, Range, Interquartilsabstand
- Schiefe und Exzess (bzw. Kurtosis)
 Ursachen für Abweichungen von der Normalverteilung
- Mangelhafte Testkonstruktion: Items sind insgesamt zu leicht oder zu schwer  Selektion von
Items mit mittlerer Schwierigkeit oder Normalisierung der Testwertverteilung
- Heterogene Stichprobe
- Merkmal ist in der Population nicht normalverteilt
Normalisierung
 Normalisierung = nicht-lineare Transformation der Testwerte, so dass die Testwertverteilung annähernd
normalverteilt ist (Normalisierung ≠ Normierung)
 Sollte nur durchgeführt werden, wenn das Merkmal in der Population normalverteilt ist
 Verschiedene Möglichkeiten
- Logarithmierung(für rechtsschiefe
Verteilungen)
- Flächentransformation ( Sitzung zu
Normierung)
Seite 16 von 65
Logarithmierung
ITEMANALYSE IN R
Je niedriger der Mittelwert, umso schwieriger ist das Item
Je höher der Mittelwert, umso leichter ist das Item. ( zu viel Zustimmung)  Mittel ist am besten!!!!
Cronbachs a ist raw alpha; wenn ein Item ein niedrigeres a hat, dann maybe rausnehmen?
Plot (Korrelations Grafik): je blauer, desto positiver der Zusammenhang
r.drop = korrelierte Trennschärfe = sollte bei 0.5(?) liegen
Histogram  rechts oder links verschoben  zu leichte oder schwere Items!
Vorlesung 5 –Klassische Testtheorie

------------------------------------------------------------
 Testtheorien erklären, wie bestimmte Merkmalsausprägungen zu einem bestimmten Verhalten in
Testsituationen führen
 Zwei Ansätze
- Klassische Testtheorie (KTT)
- Item-Response-Theorie (IRT)
(auch: probabilistischeTesttheorie)
Grundidee der Klassischen Testtheorie

 KTT ist eine Messfehlertheorie
 Grundannahme: Jede Messung ist mit einem
zufälligen Messfehler behaftet
 Die KTT formalisiert die Eigenschaften dieses
Messfehlers
Messfehler
 Keine Messung ist perfekt
 Alle Messungen werden durch einen unsystematischen Messfehler beeinflusst
 Je geringer der Einfluss des Messfehlers, desto reliabler(messgenauer) ist ein Test.
Messfehler und wahrer Wert

 Wahrer Wert = vom Messfehler befreite Merkmalsausprägung
einer Person
 Entspricht dem Erwartungswert (d.h. Mittelwert) wiederholter
Messungen desselben Merkmals
Grundgleichung der Klassischen Testtheorie

 Jeder Messwert xvi einer Person v für Item i setzt sich aus dem wahren Wert (true
score) Ԏvi und dem zufälligen Messfehler Ԑvi zusammen
 Formal:
Eigenschaften der Messfehler- und True-Score-Variablen

 Die Messfehlervariable Ԑvi hat den Erwartungswert 0 (Weil sie sich ausmitteln)
Formal:
Seite 17 von 65
 Deshalb gilt auch: Der Erwartungswert der Messungen x vi eines Probanden v in Item i entspricht dem
wahren Wert τvi dieser Person
Formal:
 Messfehler und wahre Werte sind unkorreliert
Formal:
 Die Fehlerwerte zweier Messungen mit beliebigen Items i und j sind bei derselben Person
unkorreliert
 Testkonstruktion und -durchführung: Antwort auf ein Item darf nicht von Antwort auf ein anderes
Item beeinflusst sein
 Die Fehlerwerte zweier Messungen mit demselben Item bei beliebigen Personen v und w sind
unkorreliert
 Testkonstruktion und -durchführung: Antwort einer Person darf nicht von Antwort einer anderen
Person beeinflusst sein
SCHÄTZUNG DES WAHREN WERTS

Testwert
 Der Testwert einer Person wird häufig als Summenwert berechnet
= Zeilensumme aller Itemantworten pro Person 
 Manche Tests nutzen stattdessen den Mittelwert = Mittelwert aller
Itemantworten pro Person 
 Laut KTT sind diese Testwerte Punktschätzer für die wahren Werte
Testwert als Schätzer des wahren Werts

 Erwartungswert des Testwerts und wahrer Wert
 Der Erwartungswert des Testwerts xv entspricht
dem wahren Wert einer Person τv
 Deshalb kann xv als Punktschätzer für den wahren
Wert einer Person verwendet werden:
VARIANZZERLEGUNG UND RELIABILITÄT
Rechenregeln für Varianzen und Kovarianzen
 Die Kovarianz einer Variablenmit sich selbst entspricht der Varianz dieser Variablen
 Die Kovarianz zweier addierter Variablen ist
Messwertzerlegung
 Messwertzerlegung in Form der
individuellen Messwerte
 Messwertzerlegung in Variablenform
Varianzzerlegung
 Messwertzerlegung in Variablenform
 Varianzzerlegung
Bestimmung der wahren Varianz und Fehlervarianz
Seite 18 von 65
 Wahre Varianz und Fehlervarianz sind
unbekannt.
 Aber die wahre Varianz kann über die
Kovarianz von zwei Tests p und q desselben
Merkmals geschätzt werden.
 Die Kovarianz von zwei Tests p und q ist gleich der Kovarianz ihrer wahren Werte.
 Wenn beide Tests dasselbe Merkmal auf diese Art messen (parallele oder τ-
äquivalente Tests, s. Sitzung 6), gilt τp  τq  τ und
 Die wahre Varianz schätzen wir aus der Kovarianz der Messwerte zweier Tests
 Wenn die wahre Varianz bekannt ist, können wir die Fehlervarianz berechnen:
Reliabilität
 Reliabilität = Anteil der wahren Varianz an der Gesamtvarianz
 Reliabilitätskoeffizient
 Wertebereich des Reliabilitätskoeffizienten: [0; 1] niedrig – hoch (0,
wenn Varianz wahrer Werte(t) = 0, 1, wenn Var der Messfehler = 0)
 Methoden zur Schätzung der Reliabilität: s. nächste Sitzung
Unreliabilität
 Unreliabilität = Anteil der Fehlervarianz an der Gesamtvarianz
 Unreliabilitätskoeffizient
 Wertebereich des Unreliabilitätskoeffizienten: [0; 1]
 Reliabilitätskoeffizient und Unreliabilitätskoeffizient addieren sich zu 1, deshalb wird nur ein Koeffizient
berichtet.
STANDARDMESSFEHLER UND KONFIDENZINTERVALL FÜR τV

Unsicherheit bei der Punktschätzung
 Der Testwert ist ein Punktschätzer für den wahren Wert
 Bei Punktschätzungen können wir aber immer daneben liegen
o Standardmessfehler: Wie stark vermessen wir uns im Durchschnitt?
o Konfidenzintervall: Bereich, in dem 1 – α (z.B. 95% oder 99%) aller wahren Werte liegen, die
den Testwert erzeugt haben können
Standardmessfehler
 Formale Definition des Standardmessfehlers
 Eigenschaften des Standardmessfehlers
- Wertebereich: [0; ∞]
- Je größer die Reliabilität, desto kleiner der Standardmessfehler
- Bei normalverteilten Fehlerwerten liegen die beobachteten Werte mit einer Wahrscheinlichkeit
von 68% in dem Bereich τ ± SD(Ԑ)
Konfidenzintervall für einen Testwert

 In der (seriösen) angewandten Diagnostik wird die Unsicherheit bei der Schätzung des wahren Werts
berücksichtigt
 Zusätzlich zum Testwert (Punktschätzung) wird ein Konfidenzintervall (Intervallschätzung) ausgegeben
 Beispiel: „Der IQ der Testperson A liegt mit einer 95% Wahrscheinlichkeit zwischen 110 und 122.“
 Berechnung des Konfidenzintervalls für einen Testwert
Seite 19 von 65
- Für N≥ 60: Konfidenzintervall beruht auf z-Verteilung (sonst t-Verteilung)
- Annahme: Fehlerwerte sind normalverteilt
 In das Konfidenzintervall fließt der Standardmessfehler ein
 Deshalb ist auch die Breite des Konfidenzintervalls abhängig von der Reliabilität
- Je größer die Reliabilität, desto kleiner der Standardmessfehler, desto schmaler das
Konfidenzintervall
 Je schmaler das Konfidenzintervall, desto präziser wird das Merkmal gemessen
Standardmessfehler vs. Reliabilitätskoeffizient

 Standardmessfehler und Reliabilitätskoeffizient sind beide Indikatoren für die Messgenauigkeit
 Standardmessfehler
- Wird in der Originalmetrik des Tests interpretiert
- Kann zu Berechnung des Konfidenzintervalls für einen einzelnen Testwert verwendet werden
- Unabhängig von der Varianz der wahren Werte
- Ist standardisiert
- Kann zum Vergleich verschiedener Tests verwendet werden
- Abhängig von der Varianz der wahren Werte
BEWERTUNG DER KLASSISCHEN TESTTHEORIE
Stärken der KKT

 Leicht praktisch umzusetzen  die meisten Tests beruhen auf der KTT
 Zahlreiche Erweiterungen –Bsp.: Weitere Zerlegung der Varianz, z.B. Berücksichtigung von
Methodeneffekten
Grenzen der KKT
 Grenzen bezüglich der Skalierung

- Annahme, dass der Messwert in wahren Wert und Fehlerwert zerlegt werden kann, kann nicht
empirisch geprüft werden (Axiom)
- Setzt Intervallskalenniveau der Items voraus, diese Annahme kann jedoch nicht überprüft werden
 Grenzen bezüglich der Konstruktvalidität
- Keine direkte Überprüfung der Itemhomogenität (messen die Items wirklich dasselbe Konstrukt
auf dieselbe Weise?)
- Kennwerte der KTT (Itemschwierigkeit, Trennschärfe, Reliabilität) sind stichprobenabhängig und
können nicht verallgemeinert werden  müssen in jeder neuen Stichprobe erneut berechnet
werden
 Diese Probleme können mit der Item-Response-Theorie gelöst werden
Vorlesung 6 – Reliabilitätsbestimmung
--------------------------------------------------------
Reliabilität
 Reliabilität = Anteil der wahren Varianz an der Gesamtvarianz
 Wertebereich des Reliabilitätskoeffizienten: [0; 1]
Methoden der Reliabilitätsschätzung
Seite 20 von 65
 Retest-Reliabilität Paralleltest-Reliabilität
 Testhalbierungs-Reliabilität Interne Konsistenz
 Ob diese Methoden tatsächlich die Reliabilität schätzen, hängt vom zugrundeliegenden Messmodell ab.
MESSMODELLE
Regressionsanalytische Darstellung
ti = Achsenabschnitt + Steigung * Wahre

Merkmalsausprägung
Regressionsgeraden für drei Items

 Alle Items haben dieselbe
Steigung: λ = 1
 Item 1 unterscheidet sich zu
Items 2 und 3 im
Achsenabschnitt:
 Items
3 unterscheidet sich zu Items 1 und 2 in der Fehlervarianz:
Messmodelle im Überblick
Essentielle -Äquivalenz
Gleichung für vorhergesagte Werte: i = ai + η
Gleichung für beobachtete Werte: xi = αi+ η + i
Fehlervarianzen: Var(i) ≠ Var(j)
(Grafik: beide Graphen unterschiedliche Achsenabschnitt)
Essentielle -Äquivalenz
Gleichung für beobachtete Werte: xi = ai+ 1 ∙ η + 
 Testmodellgleichung: i = ai + η
 Variablen unterscheiden sich nicht bezüglich
- Steigungskoeffizienten bzw. Faktorladungen: λ = 1
 Variablen unterscheiden sich bezüglich
- Achsenabschnitte ai
- Fehlervarianzen Var(i)
 Achsenabschnitte ai geben die Itemschwierigkeit einer Variablen an
- Je größer ai, desto leichter ist das Item, d.h. desto größer ist i für einen bestimmten Wert auf η
 Spezifische Objektivität
Seite 21 von 65
- Die Differenz der wahren Werte zweier Personen ist unabhängig davon, mit welchem
Messinstrument sie gemessen wurden
- Die Differenz der wahren Werte zweier Items ist unabhängig von der Merkmalsausprägung η
-Äquivalenz
 Gleichung für vorhergesagte Werte: i= α + η

 Gleichung für beobachtete Werte: x i= α + η + i
 Fehlervarianzen: Var(i) ≠ Var(j)
 Testmodellgleichung: i= α + η
- Achsenabschnitte: αi = αj  α
- Fehlervarianzen Var()
 Reliabilität wird wie im Modell essentiell -äquivalenter Variablen bestimmt (s.u.)
Essentielle -Parallelität

 Fehlervarianzen: Var(i) = Var(j) = Var()
 Testmodellgleichung: i = α i + η
- Achsenabschnitte: αi
 Nur in diesem Modell ist die Korrelation zweier Variablen ein Schätzer für die Reliabilität (s.u.)
-Parallelität

 Fehlervarianzen: Var(i) = Var(j) = Var()
 Testmodellgleichung: i = α + η
- Achsenabschnitte: αi = αj = α
 Reliabilität wird wie im Modell essentiell -paralleler Variablen bestimmt (s.u.)
-Kongenerität
 Gleichung für vorhergesagte Werte: i = αi + λi∙ η

 Gleichung für beobachtete Werte: x i= α + λi∙ η + i
 Fehlervarianzen: Var(i) ≠ Var(j)
 Gleichung für beobachtete Werte: x i= α + λi∙ η + i
 Testmodellgleichung: : i = αi + λi ∙ η
Seite 22 von 65
- Achsenabschnitte αi
- Steigungskoeffizienten bzw. Faktorladungen λ i
- Fehlervarianzen Var(i)
 Ursachen für Unterschiede in den Steigungskoeffizienten λ i
- Unterschiedliche Metrik der Items
- Unterschiede in der Diskriminationsfähigkeit der Items: Je größer λi, desto besser kann ein
Item zwischen Personen unterscheiden (diskriminieren)
 Die Differenz der wahren Werte zweier Personen ist abhängig davon, mit welchem Messinstrument sie
gemessen wurden
 Die Differenz der wahren Werte zweier Items ist abhängig von der Merkmalsausprägung η
Reliabilität in verschiedenen Messmodellen

 Modell essentiell -äquivalenter Variablen:
 Vereinfachung im Modell essentiell -paralleler Variablen mit Var(xi) = Var(xj):

(Standardisieren um zu
korrelieren)
Überblick über Methoden der

Reliabilitätsschätzung
1) Retest-Reliabilität
 Test wird denselben Probanden zweimal vorgelegt
 Korrelation der Testwerte = Schätzer für die Reliabilität
 Annahmen:
- Die wahren Werte sind unverändert: 1= 2= 
- Die Fehlervarianzen sind unverändert
(Modell -essentieller Variablen): SD(1) =
SD(2)
- Daraus folgt: Auch die Varianz der Testwerte
ist unverändert: SD(x1) = SD(x2) = SD(x)
(Herleitung nicht relevant!!; Wahre Varianz durch Gesamt)
Bewertung
 Wiederholte Testung ist nicht immer möglich oder sinnvoll
‒ Bsp. Übungseffekte bei Leistungstests
 Wiederholte Testung kann aufwändig und teuer sein
 Wiederholte Testung ist für Probanden nicht immer nachvollziehbar oder zumutbar
Seite 23 von 65
 Retest-Intervall muss sinnvoll gewählt werden
‒ Zu kurz: Erinnerungseffekte möglich
‒ Zu lang: Merkmalsveränderungen möglich
‒ Keine allgemeingültige Regel für Länge des Retest-Intervalls, sondern abhängig vom Merkmal und
vom Testverfahren
Systematische Veränderungen der wahren Werte Unsystematische Veränderungen der wahren Werte
2) Paralleltest-Reliabilität
 Parallele Tests = Tests, die das gleiche Merkmal mit der gleichen Genauigkeit messen
 Gegeben bei gleichen wahren Werten und gleichen Fehlervarianzen (essentielle -Parallelität)
 Beide Tests werden denselben Probanden vorgelegt
 Paralleltest-Reliabilität = Korrelation zwischen den beiden Tests (zur Herleitung s. Retest-Reliabilität)
Prüfung der Parallelität

 Deskriptive Prüfung
‒ Gleiche Mittelwerte
‒ Gleiche Streuungen
‒ Falls andere Reliabilitätsschätzungen für beide Testformen vorliegen: Paralleltest-Reliabilität ist
genauso hoch
 Prüfung des Messmodells (bevorzugt!)
‒ Gleichgesetzte Ladungen
‒ Gleichgesetzte Fehlervarianzen
‒ Prüfung des Modellfits über konfirmatorische Faktorenanalyse
‒ Bei gutem Modellfit sind quadrierte Faktorladungen = Schätzungen der Reliabilität der beiden
parallelen Testformen
Bewertung
 Erinnerungseffekte spielen keine Rolle (Vorteil gegenüber Retest-Reliabilität)
 Parallelität ist in der Praxis schwer herzustellen
‒ Etwas einfacher bei Leistungstests als bei Persönlichkeitstests
‒ Schon kleine Unterschiede in den Items können Parallelität beeinträchtigen
 Reliabilität wird unterschätzt
 Intervall zwischen der Darbietung beider Testformen sollte nicht zu lang sein (vgl. Retest-Reliabilität)
 Testformen sollten ausbalanciert dargeboten werden
‒ Gruppe 1: Version A, Version B
‒ Gruppe 2: Version B, Version A
3) Testhalbierungs-Reliabilität
 Engl. Split half reliability  Items werden in zwei möglichst parallele Testhälften aufgeteilt
Seite 24 von 65
 Jede Testhälfte ist nur halb so lang wie vorgesehen  Korrelation der beiden Testhälften unterschätzt die
Reliabilität
 Korrektur durch Spearman-Brown-Formel
Reliabilität bei Verdopplung der Testlänge

 Annahme: Testhälften p und q sind parallel
- Die wahren Werte sind gleich: p= q= 
- Die Varianzen sind gleich: Var(xp) = Var(xq) = Var() +
Var()
 Veränderung der Testwertevarianz durch Verdopplung der
Testlänge:
 Konsequenzen der Verdopplung der Testlänge
- Verdopplung der Fehlervarianz
- Vervierfachung der wahren Varianz
 Reliabilität bei Verdopplung der Testlänge ℓum Faktor 2
Spearman-Brown-Korrektur
 Reliabilität bei Verdopplung der Testlänge ℓum Faktor k
 Testhalbierungs-Reliabilität
Methoden der Testhalbierung

 Odd-Even-Methode
‒ Items werden durchnummeriert
‒ Testhälfte 1: alle Items mit ungeraden (odd) Nummern
‒ Testhälfte 2: alle Items mit geraden (even) Nummern
‒ Geeignet für Aufgaben mit aufsteigender Schwierigkeit
 Zeitpartitionierungsmethode
‒ Bearbeitung beider Testhälften dauert gleich lange
‒ Bei prinzipiell gleichartigen Items, z.B. Konzentrationstests
 Methode der Item-Zwillinge

‒ Aufteilung nach Schwierigkeit und Trennschärfe
‒ Bildung von Itempaaren mit jeweils gleicher Schwierigkeit und Trennschärfe
‒ Aufteilung der Itempaare in Testhälften
Bewertung
 Testhälften sind in der Praxis selten parallel
 Sehr viele Kombinationen von Items zu Testhälften möglich
 Reliabilität wird unterschätzt, wenn
‒ Testhälften nicht perfekt parallel sind
‒ Testhälften heterogen sind und nicht exakt dasselbe messen
4) Interne Konsistenz
Cronbachs’s α
 = Verallgemeinerung der Testhalbierungs-Reliabilität auf beliebig viele Testteile
 Test mit m Items wird in m Testteile zerlegt
 Interne Konsistenz drückt die Höhe der Korrelationen der Items untereinander aus
 Voraussetzung: essentielle τ-Äquivalenz
‒ Gleiche Steigungen (Faktorladungen)
Seite 25 von 65
‒ Unterschiedliche Schwierigkeiten
‒ Unterschiedliche Fehlervarianzen
 Falls essentielle τ-Äquivalenz nicht gegeben ist, ist Cronbach’s α die untere Grenze der Reliabilität
Cronbach’s α für zwei Items (m= 2)

 Zerlegung der Gesamtvarianz zweier Items x 1 und x2
Bewertung
 Vorteile
‒ Test muss nur einmal durchgeführt werden
‒ Lediglich essentielle τ-Äquivalenz erforderlich
 Reliabilität wird unterschätzt bei heterogenenen Merkmalen
 Hohe Retest-Reliabilität trotz geringer interner Konsistenz möglich
 Kein Maß für Eindimensionalität ( Faktorenanalyse)
 Invertierte Items (= negativ formuliertes Item) können zu Verzerrungen der Relabilitätsschätzung führen
Bedingung der essentiellen τ-Äquivalenz häufig nicht gegeben
 Negatives Cronbach’s α?  einige Items korrelieren negativ mit den übrigen Items
 Je länger der Test, desto höher wird das Cronbachs Alpha
RELIABILITÄT BEI -KONGENERISCHENVARIABLEN
Reliabilität im Modell -kongenerischerVariablen

 -kongenerischeVariablen unterscheiden sich hinsichtlich
‒ Fehlervarianzen und somit auch beobachteten Varianzen
‒ Itemschwierigkeiten
‒ Diskriminationsparametern λ
 Varianz der wahren Werte:
 Reliabilität einzelner Variablen im Modell -kongenerischer Variablen:
McDonalds Omega
 Reliabilitätsschätzung für die Summenvariable S:
ZUSAMMENFASSUNG UND EMPFEHLUNGEN
Vorteile und Probleme im Überblick
Seite 26 von 65
Interpretation der Reliabilitätsschätzungen
 Alle Verfahren liefern nur Schätzungen der Reliabilität, nicht die Reliabilität!
 Wie hoch sollte der Reliabilitätskoeffizient ausfallen?
 abhängig von
‒ Art des Merkmals und Vergleich zu konkurrierenden Verfahren: z.B. Leistungs-vs.
Persönlichkeitstests
‒ Individual- vs. Kollektivdiagnostik: Reliabilität muss für Individualdiagnostik höher sein als für
Kollektivdiagnostik
‒ Einsatzbedingungen des Testverfahrens: z.B. Einsatz langer Tests aus ökonomischen Gründen nicht
möglich
‒ Kosten-Nutzen-Abwägung
‒ Objektivität als Voraussetzung für Reliabilität
‒ Homogenität vs. Heterogenität des Tests
 Daumenregeln: Rel ≥ .70 ist akzeptabel, Rel ≥.90 ist exzellent
Einschränkungen des Geltungsbereichs

 Reliabilität ist abhängig von der zugrundeliegenden Population
‒ Bsp. Varianzeinschränkung bei Gymnasialschülern vs. Realschülern
 Reliabilität ist ein Maß für ein gesamtes Testverfahren
‒ Keine Aussagen über Reliabilität individueller Messungen möglich
‒ Reliabilität häufig geringer bei extremen Werten (Decken-bzw. Bodeneffekte)
‒ Keine Aussagen über Reliabilität einzelner Items in Abhängigkeit von Itemschwierigkeit und
Merkmalsausprägung möglich  mit Item-Response-Theorie möglich
Abschließende Empfehlungen
 Testkonstruktion
‒ Mehrere Methoden zur Reliabilitätsschätzung verwenden
‒ Möglichst heterogene Stichproben
‒ Gültigkeit der Messmodelle prüfen
 Anwendung von Tests in empirischen Studien
‒ Reliabilität immer anhand der aktuellen Stichprobe schätzen
‒ Immer Cronbach‘s α berichten
‒ Wenn möglich, auch weitere Reliabilitätsschätzungen berichten
 Vorher Gültigkeit der essentiellen -Parallelität prüfen
Vorlesung 7 – Exploratorische
Faktorenanalyse----------------------------------------------
Seite 27 von 65
Grundidee der Faktorenanalyse
 Items sind korreliert, weil sie eine oder mehrere gemeinsame
Ursachen haben (= Faktoren)
 Korrelationen zwischen den Items verschwinden, wenn alle
Faktoren auspartialisiert wurden
Grundgleichung der Faktorenanalyse

 Beobachtete Variable als Linearkombination der
Faktoren und der Residualvariablen (Achsenabschnitt =
Schwierigkeit eines Items)
Beispiele für Forschungsfragen

 Wie viele Faktoren (Subskalen) gibt es?
 Was bedeuten die Faktoren (Subskalen) inhaltlich?
 Wie gut beschreiben die Faktoren die gesamte Varianz der Items?
 Folgen die Items einer theoretisch erwarteten Struktur?
Ziele der Faktorenanalyse

 Datenreduktion
‒ Information einer großen Anzahl an Variablen wird durch eine kleinere Anzahl an Faktoren
zusammengefasst
 Beschreibung der Gemeinsamkeiten und Unterschiede von Variablen
Faktorenanalyse vs. Hauptkomponentenanalyse

 Faktorenanalyse: Latente Variablen als Ursache für Gemeinsamkeiten zwischen Variablen
‒ Varianz der Variablen wird unterteilt in gemeinsame Varianz und spezifische Varianz
‒ Faktoren erklären die gemeinsame Varianz der Faktoren, aber nicht die spezifische Varianz (=
Residualvarianz, Unreliabilität)
‒ Typischer Fall für psychologische Variablen (z.B. Extraversion)
 Hauptkomponentenanalyse: Datenreduktion
‒ Extraktion von Hauptkomponenten statt Faktoren
‒ Komponenten erklären die Gemeinsamkeit zwischen Variablen
vollständig (KEIN MESSFEHLER!)
‒ Annahme: Alle Variablen werden perfekt reliabel gemessen
‒ Typisch für zusammengesetzte Konstrukte wie sozioökonomischer Status
‒ Früher häufig eingesetzt wegen geringerer Rechenkapazitäten, heute nicht mehr
Seite 28 von 65
Exploratorische vs. konfirmatorische Faktorenanalyse
Exploratorische Faktorenanalyse
 Datenbasierter Ansatz
 Keine Vorannahmen über
‒ Die Anzahl der Faktoren
‒ Die Beziehungen zwischen Indikatoren und Faktoren
 Ziel
‒ Explorativ, deskriptiv
‒ Bestimme die angemessene Zahl an Faktoren
‒ Eingesetzt im frühen Stadium der Testkonstruktion und
Konstruktvalidierung
Konfirmatorische Faktorenanalyse
 Theoriebasierter Ansatz
 Konkrete Vorannahmen über
‒ Die Anzahl der Faktoren
‒ Die Beziehungen zwischen Indikatoren (beobachtete Variablen) und Faktoren
 Ziel
‒ Bestätige („confirm“) eine spezifische Faktorenstruktur
‒ Eingesetzt im späten Stadium der Testkonstruktion und Konstruktvalidierung
Verschiedene Arten der exploratorischen Faktorenanalyse

 Hauptachsenanalyse
‒ Variante der Hauptkomponentenanalyse
 Maximum-Likelihood-Methode
‒ Variante der konfirmatorischen Faktorenanalyse
 Grundsätzliches Vorgehen ist bei beiden Methoden gleich
GRUNDIEE DER EXPLORATORISCHEN FAKTORENANALYSE

Numerische Darstellung der Gemeinsamkeiten zwischen Variablen
Geometrische Darstellung der Zusammenhänge zwischen Variablen

 Einzelne Variablen lassen sich als Vektoren in einem mehrdimensionalen Personenraum
darstellen
 Je kleiner der Winkel zwischen zwei Vektoren, desto ähnlicher (= höher korreliert) sind
diese Variablen
 Dabei gilt:
o 0°  r= 1.00
o 90°  r= .00
o 180°  r= -1.00
Extraktion des ersten Faktors

 Faktoren werden als Vektoren dargestellt
 Erster Faktor versucht, alle Variablen so gut wie möglich zu
repräsentieren
(Prinzip der Varianzmaximierung)
 Je geringer der Winkel zwischen dem Vektor einer Variablen und dem Faktor, desto besser wird diese
Variable durch den Faktor repräsentiert
Extraktion des zweiten Faktors

 Zweiter Faktor = zweiter Vektor, der die Gemeinsamkeiten zwischen Variablen abbilden soll
Seite 29 von 65
 Orthogonal (unkorreliert) zum ersten Faktor (r= .00)
Rotation
 Problem: Der erste Faktor versucht die
Gemeinsamkeiten aller Variablen zu beschreiben; ABER
Faktoren können besser interpretiert werden, wenn
jeder eine eigene Gruppe von Variablen beschreibt
 Lösung: Faktoren rotieren
GRUNDBEGRIFFE
Mustermatrix für die Serienkonsum-Items
Faktorladung
 Ein Wert für jede Faktor-Variablen-Kombination
 Gibt an, wie viel die Variablen und der Faktor gemeinsam
haben
 Variablen mit höheren Faktorladungen sind
repräsentativer für einen Faktor als
 Variablen mit niedrigeren Faktorladungen
 Häufig werden Faktorladungen < .30 nicht interpretiert
 Zwei Arten von Faktorladungen

‒ Korrelation zwischen Faktor und Variable 
Darstellung in der Strukturmatrix
‒ Partielles standardisiertes Regressionsgewicht für
eine Variable, kontrolliert für alle anderen
Variablen  Darstellung in der Mustermatrix
 Bei orthogonalen Faktoren:
‒ Strukturmatrix = Mustermatrix
‒ Faktorladung = Korrelation zwischen Faktor und Variable
‒ Quadrierte Faktorladung = Anteil der Varianz der Variablen, der durch einen bestimmten Faktor
erklärt wird
 Bei obliquen Faktoren:
‒ Strukturmatrix ≠ Mustermatrix
Kommunalität und Uniqueness

 Je ein Wert pro Variable
 Kommunalität h²
‒ Anteil der Varianz einer Variablen, der durch alle Faktoren gemeinsam erklärt wird
‒ Bei orthogonaler Rotation: Summe der quadrierten Faktorladungen einer Variablen über alle
Faktoren hinweg
‒ Kommunalität ändert sich Rotation nicht
 Einzigartigkeit (engl. uniqueness)
‒ 1 –h2
‒ Anteil der Varianz einer Variablen, der nicht durch die Faktoren erklärt wird  einzigartige Varianz
Eigenwert
 Summe der quadrierten Faktorladungen aller Variablen für einen bestimmten Faktor
 Maß für die „Wichtigkeit“ eines Faktors
 Theoretischer Wertebereich:
Seite 30 von 65
‒ Minimum: 0
‒ Maximum: k (k = Anzahl der Variablen)
 Anteil der durch einen bestimmten Faktor erklärten Varianz der Variablen = Eigenwert / k
Eigenwert vs. Kommunalität

 Eigenwert gibt an, wie gut ein bestimmter Faktor durch alle Variablen repräsentiert ist  Wert für 1
Faktor
 Kommunalität gibt an, wie gut eine bestimmte Variable durch alle extrahierten Faktoren repräsentiert ist
 Wert für 1 Variable
 Beide basieren auf addierten quadrierten Faktorladungen
 Beide sollten so hoch wie möglich sein
 Schritte in der exploratorischen Faktorenanalyse
Einfachstruktur vs. komplexe Struktur

 Einfachstruktur: jede Variable hat eine hohe
Faktorladung auf genau einem Faktor und auf allen
anderen Faktoren geringe Ladungen (< .30)  meist
gewünscht
 Komplexe Struktur: Variablen haben auf mehr als einem
Faktor hohe Faktorladungen
WIE VIELE FAKTOREN SOLLEN EXTRAHIERT WERDEN?

Die „optimale“ Anzahl an Faktoren
 Maximale Anzahl Faktoren = Anzahl Variablen
 Ziele:
‒ Erkläre so viel gemeinsame Varianz der Variablen wie möglich mit so wenigen Faktoren wie nötig
‒ Faktoren sollten interpretierbar sein
‒ Einfachstruktur wird bevorzugt
Traditionelle Methoden zur Bestimmung der Faktorenzahl

Kaiser-Kriterium
 Faktoren mit Eigenwerten > 1 erklären mindestens so viel Varianz in den Variablen wie jede einzelne
Variable
 Faktoren mit Eigenwerten < 1 sollten nicht extrahiert werden, da sie weniger Varianz aufklären als
einzelne Variablen
 Durchführung
‒ Führe eine Faktorenanalyse ohne Rotation durch und extrahiere so viele Faktoren wie möglich
(d.h. so viele Faktoren wie Variablen)
‒ Interpretiere nur Faktoren mit Eigenwerten > 1
 Probleme:
‒ Faktoren mit Eigenwerten knapp unter 1 werden nicht extrahiert, unterscheiden sich aber nur
geringfügig von Faktoren mit Eigenwerten knapp über 1
‒ Bei großer Anzahl an Variablen haben häufig sehr viele Faktoren Eigenwerte > 1  Gefahr der
Überfaktorisierung; Bei kleiner Anzahl an Variablen Gefahr der Unterfaktorisierung
Scree-Test
 Nacheinander extrahierte Faktoren erklären immer weniger Varianz der
Variablen
 Screeplot = graphische Darstellung des Eigenwertverlaufs
Seite 31 von 65
 Interpretation
o Suche den „Knick“ = die Stelle, an der die Kurve flach wird
o Nur Faktoren links vom Knick werden extrahiert
 Problem: kann sehr subjektiv sein
Bessere Methoden zur Bestimmung der Faktorenzahl

Parallelanalyse
 Vergleich der Eigenwerte aus zwei Datensätzen
‒ Beobachtete Daten
‒ Simulierte Daten mit zufälligen Korrelationen
 Graphischer Vergleich der Eigenwertverläufe
 Faktoren, deren Eigenwerte größer als die zufälligen Eigenwerte sind,
werden extrahiert
 Weniger subjektiv als Scree-Test  empfohlen!
 Empfehlung: Parallelanalyse mit Hauptkomponentenanalyse
durchführen, auch wenn später eine Faktorenanalyse durchgeführt
werden soll
 Parallelanalyse für die Serienkonsum-Items
FAKTORENEXTRAKTION
Verschiedene Methoden für Faktorenextraktion
 Es stehen sehr viele verschiedene Methoden zur
Verfügung
 In der Psychologie am häufigsten eingesetzt
‒ Hauptachsenanalyse
‒ Maximum-Likelihood-Methode: erfordert
multivariate Normalverteilung und größere
Stichproben
 Ergebnisse sollten über verschiedene Methoden hinweg
stabil sein
Rotation
Rotationsmethoden
 Ziel der Rotation: Einfachstruktur
‒ Jede Variable lädt auf nur einem Faktor hoch und auf allen anderen Faktoren niedrig
 Orthogonale Rotationsmethoden
‒ Die Faktoren bleiben unkorreliert
‒ Beispiele : Varimax, Quartimax, etc.
 Oblique Rotationsmethoden
‒ Faktoren dürfen korreliert sein  bei psychologischen Konstrukten meist eine sinnvolle Annahme
‒ Beispiele: Promax, Oblimin, etc.
INTERPRETATION
Inhaltliche Bedeutung der Faktoren
 Welche Variablen laden auf demselben Faktor?
 Interpretation ist einfacher wenn
‒ Jede Variable nur eine einzige hohe Faktorladung hat (Einfachstruktur)
‒ Auf jeden Faktor mindestens zwei Variablen stark laden
Seite 32 von 65
‒ Die meisten Ladungen entweder hoch oder niedrig sind und wenige Variablen mittlere
Faktorladungen haben
 Interpretation wird durch Rotation erleichtert
Benennung von Faktoren

 Für die bessere Interpretation werden Faktoren meistens benannt
‒ Aber Vorsicht: Die Existenz eines Namens belegt noch nicht, dass diese Items tatsächlich das
entsprechende Konstrukt messen!
 Zwei Überlegungen bei Benennung von Faktoren
 Theoretisch erwartete Faktoren (z.B. bei Big Five)
 Items mit den höchsten Ladungen einbeziehen
(Mustermatrix für die Serienkonsum-Items
Was sind Faktorwerte?
 Faktorenanalyse wird häufig zur Identifikation von Subskalen eingesetzt

 Antworten zu Items einer Subskala können auf verschiedene Weisen aggregiert werden
 Mittelwerte–Jedes Item wird gleich gewichtet–Neue Variablen haben denselben Wertebereich wie die
Ausgangsvariablen
 Faktorwerte–Items werden mit der jeweiligen Faktorladung gewichtet–Spiegelt wider, dass manche
Items die zugrundeliegende latente Variable besser repräsentieren
)))
PRAKTISCHE EMPFEHLUNGEN
Welche Methoden sollte man verwenden?
 Bestimmung der Faktorenzahl: Parallelanalyse
 Extraktion der Faktoren: Hauptachsenanalyse oder Maximum-Likelihood-Faktorenanalyse
Seite 33 von 65
 Rotation: oblique Rotationsmethoden
(Stichprobengröße
 Stichprobengröße ist abhängig von
o Anzahl von beobachteten Variablen pro Faktor
o Höhe der Kommunalitäten
 Daumenregeln
o Mindestens 4 beobachtete Variablen pro (erwarteten) Faktor
o Bei Kommunalitäten> .70: n= 100
o Bei Kommunalitäten> .40: n= 200
Das Müllproblem
 GIGO = Garbage In –Garbage Out
o Die Faktorenlösung kann nur so gut sein wie die zugrundeliegenden Variablen
o Variablen müssen substantiell miteinander korreliert sein
 Kaiser-Meyer-Olkin-Test
 Bartlett-Test
 Variablen müssen inhaltsvalide und theoretisch plausibel sein)
Das Subjektivitätsproblem
 Bei der exploratorischen Faktorenanalyse müssen sehr viele Entscheidungen durchgeführt werden
 Gefahr, dass die Ergebnisse in die gewünschte Richtung „gelenkt“ werden
‒ Vgl. Kriterium der Interpretationsfähigkeit der Faktoren
 Daher:
‒ Strategie vorher festlegen und dokumentieren
‒ Faktorenstruktur in einer anderen Stichprobe replizieren  konfirmatorische Faktorenanalyse
Ergebnisdarstellung
 Wichtige Entscheidungen
 Kriterien zur Bestimmung der Faktorenzahl
 Faktorenextraktions-Methode
 Rotationsmethode
 Tabelle mit Faktorladungen
 Für jeden Faktor: Anteil der erklärten Varianz
 Korrelationen zwischen den Faktoren
 Inhaltliche Interpretation der Faktoren
Vorlesung 8 – Konfirmatorische Faktorenanalyse

------------------------------------------
Zwei zentrale Fragestellungen
 Passt ein bestimmtes Faktorenmodell auf die beobachteten Daten?
‒ Modell ist a priori spezifiziert
‒ Modellgüte wird mit verschiedenen Fit Indices evaluiert
‒ Bsp.: Modellgüte eines Modells mit 5 Faktoren für die Big Five
 Passt ein bestimmtes Faktorenmodell besser als ein alternatives
Faktorenmodell?
‒ Vergleich von geschachtelten Modellen
Seite 34 von 65
‒ Relative Modellgüte wird mit statistischem Test geprüft
‒ Bsp.: τ-kongenerisches vs. essentiell τ -äquivalentes Modell (Achsenabschnitte auf 1 gesetzt)
Modellgleichung für Item 1
Messtheoretische Interpretation der Modellparameter

 Faktorladung λ = Diskriminationsparameter; Je größer die Faktorladung, desto besser diskriminiert das
Item zwischen Personen mit niedrigen und hohen wahren Werten (vgl. Trennschärfe)
 Achsenabschnitt α = Leichtigkeitsparameter
Je höher der Achsenabschnitt, desto „leichter“ ist es, hohe Werte auf diesem Item zu wählen
 Residualvarianz Var(Ԑ) = Unreliabilität
Je kleiner die Residualvarianz relativ zur Gesamtvarianz des Items, desto besser können individuelle
Unterschiede durch die latente Variable erklärt werden, d.h. umso reliabler ist das Item
Schritte bei der Schätzung eines Strukturgleichungsmodells
MODELLSPEZIFIKATION
Anzahl der Faktoren
 Exploratorische Faktorenanalyse:
‒ Anzahl der Faktoren wird empirisch bestimmt
‒ (Kaiser-Kriterium (Eigenwert > 1); Scree-Plot; Parallelanalyse)
‒ Alle Indikatoren laden auf allen Faktoren
 Konfirmatorische Faktorenanalyse
‒ Anzahl der Faktoren wird durch Forscher festgelegt
‒ Beziehungen zwischen Indikatoren und Faktoren werden durch Forscher festgelegt
Weitere Spezifikationen
 Spezifikationen können sich auch auf einzelne Modellparamater beziehen, z.B.
‒ Faktorladungen
‒ Kovarianzen zwischen Faktoren
‒ Residualvarianzen (Fehlervarianzen)
‒ Kovarianzen zwischen Residuen
‒ Achsenabschnitte
 Möglichkeiten der Spezifikation einzelner Modellparameter
‒ Freisetzen: Modellparameter wird frei geschätzt
‒ Gleichsetzen: Zwei oder mehr Modellparameter werden auf denselben Wert gesetzt,
z. B. λ1= λ2
‒ Fixieren: Ein oder mehrere Modellparameter werden auf einen festen Wert fixiert, z. B. λ1= 1
MODELLSCHÄTZUNG UND IDENTIFIKATION

Grundidee
 Wo kommen die Zahlen für die Modellparameter her?
o Achsenabschnitte, Faktorladungen, Residualvarianzen
 Regressionsanalyse: Methode der kleinsten Quadrate

o Versucht die beobachteten Daten möglichst gut zu reproduzieren
o Beobachtete Daten = individuelle Messwerte
Seite 35 von 65
o Modell-implizierte Werte = vorhergesagte Werte
 Konfirmatorische Faktorenanalyse: Schätzung über eine Fit-Funktion

o Versucht die beobachteten Daten möglichst gut zu reproduzieren
o Beobachtete Daten = beobachtete Varianzen und Kovarianzen (+ Mittelwerte) der Variablen
o Modell-implizierte Werte = durch geschätzte Modellparameter berechnete Varianzen und
Kovarianzen (+ Mittelwerte)
Modellschätzung
 Ziel: Finde Werte für die Modellparameter, mit denen die Varianz-Kovarianz-Matrix in der Population Σ
reproduziert werden kann
 Wir kennen Σ nicht, daher nutzen wir die beobachtete Varianz-Kovarianz-Matrix S als Schätzer für Σ
 Alle Fit-Funktionen minimieren die Diskrepanz zwischen
‒ Der beobachteten Varianz-Kovarianz-Matrix S und
‒ Der modell-implizierten Varianz-Kovarianz-Matrix Σ ()
F: S –Σ ()  min
 Häufig eingesetzte Fit-Funktionen: Maximum Likelihood, Full Information Maximum Likelihood
Die beobachtete Varianz-Kovarianz-Matrix

 Varianz-Kovarianz-Matrix für drei beobachtete Variablen
Die modell-implizierte Varianz-Kovarianz-Matrix

 Modell-implizierte Varianz-Kovarianz-Matrix = Varianzen und
Kovarianzen, die erwartet würden, wenn das Modell korrekt
wäre
 Können aus Modellparametern berechnet werden (hier nicht vertieft)
 Bedingung: Modell muss identifiziert sein
 Jedes Element der Varianz-Kovarianz-Matrix muss aus den Modellparametern eindeutig geschätzt werden
können
Identifikation
 Ein Modell ist identifiziert, wenn
1. Anzahl der Varianzen und Kovarianzen ≥ Anzahl der unbekannten Modellparameter (Freiheitsgrade
df)  notwendige, aber nicht hinreichende Bedingung
2. Jede latente Variable skalierti st  notwendige aber nicht hinreichende Bedingung
3. Alle Modellparameter als Funktion der beobachteten Varianzen und Kovarianzen dargestellt werden
können  empirische Identifikation, hinreichende Bedingung
Mögliche Identifikations-Ergebnisse
 Freiheitsgrade (df): Anzahl Informationen/Beobachtungen minus Anzahl unbekannter Modellparameter
 Drei mögliche Fälle
‒ df < 0: Modell ist nicht identifiziert (under-identified)
‒ df = 0: Modell ist genau identifiziert (just-identified)
‒ df > 0: Modell ist überidentifiziert (over-identified)
Analogien für df < 0

 Welche ist die korrekte Regressionsgerade?
1.
Seite 36 von 65
2.
Genau-identifiziertes vs. überidentifiziertes Modell

 Genau identifiziertes Modell
‒ Eine eindeutige Lösung
‒ Beobachtete Daten werden perfekt reproduziert
 Überidentifiziertes Modell
‒ Eine eindeutige Lösung, die durch ein zusätzliches Kriterium gefunden wird
‒ Beobachtete Daten werden nicht perfekt reproduziert
 Nur mit überidentifizierten Modellen können wir testen, wie gut das Modell auf die Daten passt!
Ist dieses Modell identifiziert?
Anzahl der Beobachtungen

 Beobachtete Werte = alle Varianzen und Kovarianzen (und Mittelwerte)
 Für p Variablen ist die Summe der Varianzen und Kovarianzen
p ∙ (p+ 1) / 2
Anzahl der Beobachtungen
Beispiel für drei Indikatoren:

3 Varianzen+ 3 Kovarianzen= 6 Beobachtungen
Anzahl der Modellparameter

Zu schätzende Modellparameter bei der konfirmatorischen Faktorenanalyse
 Varianzen der latenten Variablen
 Faktorladungen
 Residualvarianzen der beobachteten Variablen
 Evtl. Achsenabschnitte für jede beobachtete Variablen
Freiheitsgrade
 Freiheitsgrade df:
o Anzahl der Beobachtungen minus Anzahl der Modellparameter
o Hier: 6 Beobachtungen -7 Modellparameter  df = -1
 Dieses Modell ist nicht identifiziert
Was nun?
 Unter-Identifizierung ist eine Eigenschaft des Modells, nicht der Daten  modifiziere das Modell
 Anzahl der Freiheitsgrade muss erhöht werden  verringere die Anzahl der unbekannten Parameter
o Fixiere Parameter auf einen bestimmten Wert
Seite 37 von 65
 Beispiel: Fixiere die Faktorladung auf den Wert 1
o Setze Parameter gleich
 Beispiel: Setze alle Faktorladungen gleich
Skalierung der latenten Variablen

 Latente Variablen haben keine „natürliche“ Metrik
o Wo ist der Nullpunkt?
o Was bedeutet eine Einheit?
 Die Skalierung der latenten Variablen wird durch den Forscher festgelegt
 Auch dann, wenn das Modell schon identifiziert ist!
Skalierung der latenten Variablen

 Option 1: Fixiere die Faktorladung eines Indikators auf 1
o Latente Variable hat dieselbe Metrik wie dieser Indikator
o Übliche Vorgehensweise und Standardeinstellung in den meisten Statistikprogrammen
 Option 2: Fixiere die Faktorvarianz auf einen positiven Wert (meistens 1)
o Latente Variable hat einen Mittelwert von 0 und eine Standardabweichung von 1 (vgl.
Standardnormalverteilung)
o Empfohlen, wenn Unterschiede in den Faktorladungen von Interesse sind, z.B. bei Faktormodellen
höherer Ordnung
Fixiere eine Faktorladung auf 1

Freiheitsgrade
o Hier: 6 Beobachtungen –6 Modellparameter  df= 0
 Dieses Modell ist genau identifiziert  saturiertes Modell
o Eindeutige Lösungen für jeden Modellparameter
o Beobachtete Daten werden perfekt reproduziert
o Kein Test der Modellgüte möglich
Gleichsetzen von 2 Faktorladungen

Freiheitsgrade
o Hier: 6 Beobachtungen
o 5 Modellparameter  df= 1
 Dieses Modell ist überidentifiziert
o Beobachtete Daten werden nicht perfekt reproduziert
o Aber Modellgüte kann getestet werden
Modell-implizierte Varianz-Kovarianz-Matrix
 Elemente der Varianz-Kovarianz-Matrix werden aus den
Modellparametern berechnet
 vgl. vorhergesagte Werte bei Regression
Datenbeispiel
Seite 38 von 65
BEURTEILUNG DER MODELLGÜTE
Der c2-Test
 Einziger Signifikanztest für Modell-Fit
 H0: Σ= Σ(θ)
o Alle Elemente in der Residual-Varianz-Kovarianz-Matrix sind gleich 0 in der Population
o Alle Abweichungen von 0 können durch Stichprobenfehler erklärt werden
 H1: Σ≠ Σ(θ)
 Wir wollen die Nullhypothese beibehalten
 Prüfgröße berechnet sich aus der Fit-Funktion
 Freiheitsgrade s. Identifikation
 (Problem: Abhängig von Stichprobe!)
Approximative Fit-Statistiken
 Root MeanSquare Error of Approximation (RMSEA):
‒ Wie nahe kommt das geschätzte Modell dem wahren Modell?
‒ Interpretation: < .08 ist akzeptabel, < .05 ist gut
 Standardisiertes Root MeanSquare Residual (SRMR)
‒ Standardisiertes Maß für das durchschnittliche Residuum
‒ Interpretation: < .08 ist akzeptabel
 Inkrementelle Fit-Indices
- Wie viel besser ist unser Modell als das Baseline-Modell (= Modell, in dem alle Variablen
unabhängig sind)
- Beispiele: Comparative Fit Index (CFI), Tucker-Lewis-Index (TLI)
- Interpretation: > .95 ist akzeptabel, > .97 ist gut
Konfirmatorische Faktorenanalyse in R
 Paket: lavaan(latent variable analysis)
‒ Auch für Strukturgleichungsmodelle; Mehr Info unter lavaan.ugent.be
 Vorgehen
1. Modell spezifizieren  Modellgleichungen angeben
2. Modell schätzen
3. Verschiedene Ausgaben anfordern
4. Ggf. Modellvergleich
Unsere Daten: τ-kongenerisches Modell für 5 Items zum Serienkonsum

 Modellspezifikation
o Anzahl der df min.0?
o Ist die latente Variable skaliert?
o Ist das Modell empirisch identifiziert?
 Modellschätzung
Seite 39 von 65
 Ausgabe: Fit-Statistiken/Modellgüte
 Ausgabe: Modellparameter (oben Faktorladungen unten Residualvarianzen, ganz unten Faktorvarianz)
Modellvergleiche
 Zwei unvereinbare Ziele:
‒ Finde das Modell mit der besten Passung
‒ Finde das sparsamste Modell
 Unterschiedliche Verfahren für
‒ Geschachtelte Modelle
‒ Nicht-geschachtelte Modelle
Geschachtelte Modelle
 Ein Modell ist ein Spezialfall eines anderen
Modells
χ2-Differenzentest
 Die Differenz der χ2-Werte von zwei geschachtelten Modelle ist χ2-verteilt:
χ2diff = χ2B- χ2A
dfdiff = dfB - dfA
 Interpretation
‒ Test ist nicht signifikant: Das restriktivere Modell (B) passt nicht signifikant schlechter als das
allgemeinere Modell (A), Modell B wird bevorzugt
‒ Test ist signifikant: Das restriktivere Modell (B) passt signifikant schlechter als das allgemeinere
Modell (A), Modell A wird bevorzugt
Vergleich nicht-geschachtelter Modelle

 Informationskriterien (IC)
‒ Akaike Information Criterion(AIC)
‒ Bayesion Information Criterion (BIC)
‒ Sample-size adjusted BIC
 Keine standardisierten Maße, d.h. kein festgelegter Wertebereich
 Das Modell mit dem niedrigsten Wert wird bevorzugt
 Belohnen sparsame Modelle, besonders BIC
 Nur deskriptiv, keine Signifikanztests
Modellvergleich mit unseren Daten
Seite 40 von 65
 t-kongenerisches Modell:
 Essentiel t-äquivalentes Modell:
 Modellvergleich (weil B signifikant, allgemeines Modell nehmen!!)
Vorlesung 9 – Item-Response-Theorie Teil 1

-------------------------------------------------
Itemcharakteristik für eine kontinuierliche Variable
 τ1 = wahrer Wert für Item 1
 Gleichung für vorhergesagte Werte: τi = αi + λi ∙ η
 Gleichung für beobachtete Werte: xi = τi + Ԑi = αi + λi ∙ η + Ԑi
Itemcharakteristiken für drei verschiedene Items

 Alle Items haben dieselbe Steigung: λ= 1
 Item 1 unterscheidet sich zu Items 2 und 3 im Achsenabschnitt: a1= 1, a2= 2, a3= 2
 Items 3 unterscheidet sich zu Items 1 und 2 in der Fehlervarianz:
Var(e1) = Var(e2) < Var(e3)
Messmodelle für kontinuierliche Variablen im Überblick
Das Problem
 Messmodelle der klassischen Testtheorie beziehen sich immer auf
kontinuierliche Variablen
 Aber: viele (die meisten?) Items sind nicht kontinuierlich, sondern diskret
‒ Dichotom bzw. binär: zwei Antwortmöglichkeiten
‒ Polytom: mehrere diskrete Antwortmöglichkeiten
 Klassische Testtheorie kann nicht auf diskrete Items angewandt werden
 Item-Response-Theorie: Messmodelle für diskrete Items
Itemcharakteristiken für kontinuierliche und dichotome Items
Item-Response-Theorie (IRT)
Seite 41 von 65
 Item-Response-Theorie (IRT) = Modelle zur Beziehung zwischen Merkmalsausprägung und Itemantwort
(item response)
 Beziehung wird formuliert als Item-Response-Funktion(Itemcharakteristik)
 Klassische Testtheorien als Spezialfall der Item-Response-Theorie
‒ KTT: Beziehung zwischen Merkmalsausprägung und Itemantwort ist linear (Item kontinuierlich) )
‒ IRT (im engeren Sinne): Beziehung zwischen Merkmalsausprägung und Itemantwort ist nichtlinear
(Item diskret)
Dichotome vs. Polytome Items

 Dichotome Items haben zwei mögliche Ausprägungen
‒ 0 = Item ist nicht gelöst bzw. nicht im Sinne der Merkmalsausprägung beantwortet
‒ 1 = Item ist gelöst bzw. im Sinne der Merkmalsausprägung beantwortet
 Polytome Items haben mehrere mögliche Ausprägungen (Bsp: Likert Skala)
 Item Response wird immer als Lösungsw.keit modelliert
‒ Dichotome Items: bedingte W.keit, das Item zu lösen
‒ PolytomeItems: bedingte W.hkeit, eine bestimmte Antwortoption zu wählen
 Diese Sitzung: Fokus auf Messmodelle für dichotome Items
Logistische Funktion
Logistische Testmodelle
 Merkmalsausprägung und Lösungsw.keit stehen in
einer logistischen Beziehung
 Allgemeine logistische
Funktion (vgl. logistische
Regression):
 Logistische Funktion kann nur Werte zwischen 0 und 1
annehmen
Begriffe und Notation für logistische Testmodelle

 Lösungsw.keit eines Items als Funktion von
‒ Personparameter
‒ Itemparameter
 Personparameter
‒ Individuelle Ausprägung des Merkmals
‒ Bezeichnet mit θ („theta“)
‒ Entspricht η bei der KTT
 Itemparameter
‒ Eigenschaften des Items
‒ Beispiele: Schwierigkeit bj, Diskrimination aj, Anfälligkeit für Ratetendenz cj
‒ KTT: Schwierigkeit = Achsenabschnitt α, Diskrimination = Faktorladung λ
Anmerkung zur Literatur

 Prüfungsliteratur für IRT kommt aus Krohne& Hock
 In Folien zu IRT wird Notation aus Krohne& Hock verwendet
 Laufindex für Items ist hier nicht i, sondern j
 Begriff „Faktorenmodell“ bezieht sich auf τ-kongenerische Modelle
Drei grundlegende logistische Testmodelle

 1PL-Modell bzw. Rasch-Modell
‒ Items unterscheiden sich nur in den Schwierigkeiten bj
‒ Nur 1 Itemparameter  Ein-Parameter Logistisches Modell (1PL-Modell)
Seite 42 von 65
 2PL-Modell bzw. Birnbaum-Modell
‒ Items unterschieden sich in den Schwierigkeiten bj und in den Diskriminationsparametern aj
‒ 2 Itemparameter  Zwei-Parameter Logistisches Modell (2PL-Modell)
 3PL-Modell
‒ tems unterschieden sich in Schwierigkeiten bj, Diskriminationsparametern aj und Rateparametern
cj
‒ 3 ItemparameterDrei-Parameter Logistisches Modell (3PL-Modell)
DAS 1PL-MODELL
Modellgleichung des 1PL-Modells
Personenparameter wird am Schwierigkeitsparameter zentriert!
Itemcharakteristikkurvendes 1PL-Modells
 Je höher die Merkmalsausprägung θ, desto höher die Lösungsw.keit
 Je höher der Schwierigkeitsparameter bj, desto niedriger die Lösungsw.keit
 Wendepunkt der Kurve ist die Stelle, an der θ = bj
 Schwierigkeitsparameter bj drückt hier tatsächlich die Schwierigkeit aus, nicht die
Leichtigkeit des Items (vgl. KTT)
Äquivalente Darstellungen der Itemcharakteristiken

 S-förmige Kurve
 Wertebereich der Y-Achse: 0 bis 1
 Y-Achse = bedingte Wahrscheinlichkeit
Äquivalente Darstellungen der Itemcharakteristiken

 Exponentialfunktion
 Wertebereich der Y-Achse: 0 bis ∞
 Y-Achse = bedingter Wettquotient (Odds Ratio)
Alternative Darstellungen der Itemcharakteristiken

 Lineare Funktion / Gerade
 Wertebereich der Y-Achse: -∞bis ∞
 Y-Achse = bedingter Logit
 Vorteil: lineare Beziehung zwischen Merkmalsausprägung q und
(transformierter) Itemantwort
Beziehung zwischen Wahrscheinlichkeit, Wettquotient und

Logit
Spezifische Objektivität
 Messungen sind spezifisch objektiv, wenn
‒ Vergleiche zwischen den gemessenen Objekten nicht
davon abhängen, welche Instrumente zur Messung herangezogen werden
‒ Vergleiche zwischen Instrumenten nicht von den Objekten abhängen, die für den Vergleich
verwendet werden (Wann sinnvoll? Wenn viele Menschen, aber nicht immer neuen Test)
 Etwas ganz anderes als Objektivität als Testgütekriterium!
 Spezifische Objektivität ist nur beim 1PL-Modell gegeben,
nicht 2PL-& 3PL-Modell.
 Zwei rasch homogene Items
Seite 43 von 65
‒ Items unterscheiden sich nur im Achsenabschnitt bj
‒ Items unterscheiden sich nicht in der Steigung aj
‒ Der Abstand der Logit-Werte der beiden Items ist für alle θ -Werte gleich
‒ Der Unterschied der bedingten Logits zweier θ-Werte ist für beide Items gleich
DAS 2PL-MODELL
Das 2PL-Modell (Birnbaum-Modell)
 Erweiterung des 1PL-Modells
 Zweiter Itemparameter: Diskriminationsparameter a j
 Modellgleichung:
 Wenn aj für alle Items gleich ist, geht das 2PL-Modell in das 1PL-Modell
über
Itemcharakteristikkurvendes 2PL-Modell
Interpretation der Itemdiskrimination

 Steigung der Kurve beim Wendepunkt
 Trennschärfe des Items: Wie gut diskriminiert dieses Item zwischen
Personen mit niedriger und Personen mit hoher Merkmalsausprägung?
 Vgl. Faktorladung bei Messmodellen für kontinuierliche Variablen
Keine spezifische Objektivität beim 2PL-Modell

 Kurven können sich auch im nicht-extremen Bereich überschneiden
 Rangfolge der Lösungsw.keiten ist nicht für jeden θ-Wert gleich 
spezifische Objektivität ist nicht gegeben
DAS 3PL-MODELL
Rateparameter
 Bei Leistungstests kann eine korrekte Lösung durch Raten zustande kommen
 Auswirkung auf Messmodell: Die Lösungsw.hkeit nähert sich nicht 0 an, sondern einem größeren Wert
o Bsp.: Ratew.keit bei 5 Antwortoptionen: 20 %  S-Kurve nähert sich nach unten dem Wert 0.20 an
 Im 3PL-Modell wird die Ratewahrscheinlichkeit als Rateparameter cj berücksichtigt
Herleitung des Rateparameters cj
Modellgleichung des 3PL-Modells
Anmerkungen zum 3PL-Modell

 Wenn die Ratewahrscheinlichkeit für alle Items gleich 0 ist, geht das 3PL- Modell
in das 2PL-Modell (Birnbaum-Modell) über
 Der Rateparameter wird nicht vorgegeben, sondern aus den Daten geschätzt
Seite 44 von 65
 Keine spezifische Objektivität (vgl. 2PL-
Modell)
Drei logitistische Testmodelle
Vorlesung 10 – Item-Response-Theorie Teil 2

-----------------------------------------------
Wiederholung: Drei logistische Testmodelle
LOKALE UNABHÄNGIGKEIT
Lokale Unabhängigkeit
 Zusammenhänge unter den Items lassen sich vollständig durch das Modell erklären
‒ Modell = Personparameter + Itemparameter
 Dann gegeben, wenn innerhalb merkmalshomogener Subpopulationen (lokal) (mehrere Personen mit
gleicher Merkmalsausprägung ) keine Abhängigkeiten (unabhängig) zwischen Items existieren
 Wird auch als lokale stochastische Unabhängigkeit bezeichnet
 Vgl. Faktorenmodelle
Grundidee der Faktorenanalyse

 Items sind korreliert, weil sie eine oder mehrere
gemeinsame Ursachen haben (= Faktoren)
 Korrelationen zwischen den Items verschwinden, wenn alle
Faktoren auspartialisiert wurden
Zwei Formen der lokalen Unabhängigkeit

1. Schwache lokale Unabhängigkeit
 auch: bivariatelokale Unabhängigkeit
 Items sind paarweise unabhängig in merkmalshomogenen Subpopulationen
 W.keit, zwei Items j und k zu lösen ist identisch mit dem Produkt der einzelnen Lösungsw.keiten
2. Starke lokale Unabhängigkeit

 auch: vollständige lokale Unabhängigkeit
 Antwortmuster aller Items wird betrachtet
 Wahrscheinlichkeit, alle Items zu lösen ist identisch mit dem Produkt aller einzelnen
Lösungswahrscheinlichkeiten
 Strengere Annahme als schwache lokale Unabhängigkeit
 Wenn starke lokale Unabhängigkeit gegeben ist, gilt auch die schwache lokale Unabhängigkeit, aber nicht
umgekehrt
Seite 45 von 65
Voraussetzungen und Verletzungen der lokalen Unabhängigkeit
 Lokale Unabhängigkeit ist gegeben, wenn alle Items eindimensional sind
 Dimensionalität eines Tests = Zahl der zugrundeliegenden Merkmale, die mit diesem Test gemessen
werden
‒ Bsp. 1D-er Test: Ein Merkmal (Dimension) reicht aus, um lokale Unabhängigkeit zu erreichen
 Ist lokale Unabhängigkeit nicht gegeben, müssen zusätzliche Dimensionen berücksichtigt werde
‒ Vgl. zusätzliche Faktoren bei der Faktorenanalyse
 Alle hier besprochenen Testmodelle sind eindimensionale Modelle
PARAMETERSCHÄTZUNG: ITEMPARAMETER
Parameterschätzung
 Itemparameter und Personparameterwerden nicht direkt berechnet, sondern aus den Daten geschätzt
 Voraussetzungen der Schätzung
‒ Modellgleichung ist gültig
‒ Lokale Unabhängigkeit
 Folgende Erläuterungen beziehen sich auf das 1PL-Modell (Rasch-Modell)
‒ Vorteil: spezifische Objektivität
Schätzung der Itemparameter im 1PL-Modell

Problem (Teil 1)
 Wir möchten jedem Item einen Wert für den Schwierigkeitsparameter b j
zuweisen
 Es gilt: bj = Wert für  beim Wendepunkt der Kurve = die Stelle, an der die
bedingte Wahrscheinlichkeit genau .50 ist.
 Aber  hat ist nicht normiert (hat keine Metrik) –wir wissen nicht, welchen Wert
wir nehmen sollen
Lösungsansatz (Teil 1)
 Wir wissen, dass Item 4 schwieriger ist als alle anderen Items
 Item 4 müsste daher den höchsten Wert für den Schwierigkeitsparameter bj erhalten
 Die Schwierigkeitsparameter der anderen Items müssen die relativen Abstände zueinander wiedergeben
 Die Abstände können wir aus den bedingten Wahrscheinlichkeiten berechnen
 Differenz der Schwierigkeitsparameter zweier Items j und k entspricht

dem logarithmierten W.keitsverhältnis dieser Items:
 Lösungsw.keiten werden aus den relativen Häufigkeiten

geschätzt
 Maximum Likelihood-Schätzung
 Interpretation der Differenzen der Schwierigkeitsparameter
‒ Negativ: Item j ist leichter als Item k
‒ Positiv: Item j ist schwieriger als Item k
‒ Null: Item j und Item k sind gleich schwer
 Durch die Berechnung der paarweisen Differenzen aller Items
können wir die Position aller Itemcharakteristiken relativ
zueinander bestimmen
Seite 46 von 65
Problem (Teil 2)
 Wir kennen jetzt die relative Position der Items zueinander
 Aber wir müssen immer noch die Metrik von  festlegen
 Die Einheiten ergeben sich aus den Abständen der Itemcharakteristiken zueinander
 Aber wo ist der Nullpunkt?  völlig arbiträr, welchen Nullpunkt wir wählen, aber wir
müssen einen Nullpunkt festlegen
Normierung der Itemparameter

 Problem: Differenzen der Schwierigkeiten sind nicht normiert
 Lösung: Skala der Schwierigkeitsparameter normieren
‒ Festlegung eines Referenzwerts / Nullpunkts
 Möglichkeit 1: Festlegung eines Referenzitems
‒ Schwierigkeit aller anderen Items wird immer relativ zu demselben Referenzitem ausgedrückt
‒ Schwierigkeit des Referenzitems wird auf 0 fixiert
‒ Aber welches Item soll man als Referenzitem nehmen?
 Möglichkeit 2: Summennormierung
‒ Summe aller Itemparameter ergibt den Wert 0
‒ Item mit durchschnittlicher Lösungswahrscheinlichkeit erhält den Wert 0
PARAMETERSCHÄTZUNG: PERSONPARAMETER
Schätzung der Personparameter im 1PL-Modell
 Itemparametermüssen bereits geschätzt sein
 Gesucht: der Wert , für den das gegebene Antwortmuster einer Person am wahrscheinlichsten ist
 maximum likelihood
 Beispiel: Vier Items mit
‒ b1= –1
‒ b2= 0
‒ b3= 1
‒ b4= 2
 Antwortmuster: (1,1,0,0)
Schätzung der Personparameter im 1PL-Modell

 Antwortmuster: (1,1,0,0)
 Notation
‒ Pj(): W.keit, dieses Item zu lösen
‒ Qj(): W.hkeit, dieses Item nicht zu lösen: 1 –P j()
 Bei lokaler Unabhängigkeit ist die Likelihood L() für das Antwortmuster (1, 1, 0, 0):
Grundidee der Maximum Likelihood-Schätzung

 Für jeden beliebigen Wert des Personparameters lässt sich eine Likelihood berechnen
 Formel für die Berechnung der Likelihood ergibt sich aus dem Modell (Itemparameter) und den Daten
(Antwortmuster)
 Vorgehen
‒ Setze einen beliebigen Wert für den gesuchten Parameter (hier: Personparameter) ein und
berechne die Likelihood
‒ Wiederhole dies für einen anderen Wert und berechne erneut die Likelihood
‒ Wiederhole dies solange, bis die Likelihood ihr Maximum erreicht hat
Likelihood für unser Beispiel

Seite 47 von 65
 Likelihood-Funktion:
 Erster Versuchsballon:
Likelihood-Funktionen für andere Antwortmuster

 Alle Items mit durchgezogenen Linien haben denselben Testsummenwert (2)
 Für diese Items ist der geschätzte Personwert  derselbe, unabhängig davon, welche spezifischen Items
gelöst wurden  Testsummenwert ist eine erschöpfende Statistik
Besonderheiten des 1PL-Modells

 Nur beim 1PL-Modell (Rasch-Modell) gilt:
‒ Spezifische Objektivität
‒ Testsummenwert als erschöpfende Statistik
 Bei 2PL-und 3PL-Modell sind die Testsummenwerte dagegen keine erschöpfenden Statistiken
‒ Testsummenwerte können nicht alleine verwendet werden, um den Personparameterzu schätzen
‒ Diskrimination und Rateparameter müssen berücksichtigt werden
ITEMINFORMATION UND TESTINFORMATION

Iteminformation
 Maß für die Messgenauigkeit in der KTT: Standardmessfehler
 Maß für die Messgenauigkeit in der IRT: Iteminformation
‒ Beschreibt den Beitrag eines Items zur Messung des interessierenden Merkmals
‒ Je höher die Iteminformation, desto stärker reduziert ein Item den Messfehler des gesamten Tests
‒ Besonderheit bei IRT: Iteminformationhängt von der Merkmalsausprägung  ab
Informationsfunktionen
 Iteminformation im 1PL-Modell: Ij() = Pj() ∙ Qj()
 Iteminformation im 2PL-Modell: Ij ) = a²∙ Pj() ∙ Qj()
 Iteminformation im 3PL-Modell: Zu kompliziert für Folien und Buchkapite
Informationsfunktionen
Seite 48 von 65
Testinformation
 Informationsfunktion eines Tests =
Summe aller
Iteminformationsfunktionen:
 Liefert Information darüber, welcher

Bereich der Merkmalsausprägung
besonders gut oder nicht so gut
gemessen wird
‒ Anwendung: Itemauswahl
Standardschätzfehler
 Standardschätzfehler berechnet sich aus Testinformation:
 Je größer der Standardschätzfehler, desto ungenauer ist die Messung (vgl.
Standardmessfehler in der KTT)
 Kann genutzt werden, um ein Konfidenzintervall für einen Personwert zu bestimmen
 Hängt von der Merkmalsausprägung ab (anders als beim Standardmessfehler)
(IRT IN R
Empfohlene R-Pakete für IRT
 1PL-Modell (Rasch-Modell)
‒ Paker: eRM (und andere)
‒ Beispiel: > rm1 <-RM(data)
> summary(rm1)
 2PL-Modell (Birnbaum-Modell)
‒ Paket: ltm (und andere)
‒ Funktion: lmt
 3PL-Modell
‒ Paket: ltm
‒ Funktion tpm
Outputs für das 1PL-Modell: Itemparameter
Seite 49 von 65
Outputs für das 1PL-Modell: Personparameter
Outputs für das 1PL-Modell:

Itemcharakteristiken
)))))
IRT-MODELLE FÜR POLYTOMEITEMS

Das Partial-Credit-Modell
 Erweiterung des Rasch-Modells auf polytomeItems (auch: ordinalesRasch-Modell)
 Beispiel:
 Abhängige Variablen:
‒ Raschmodell: Lösungsw.keit  bedingte Wahrscheinlichkeit, das Item zu lösen P(X j= 1| )
‒ Partial-Credit-Modell: Schwellenwahrscheinlichkeit bedingte Wahrscheinlichkeit, die obere
Kategorie c im Vergleich zur darunterliegenden Kategorie zu wählen P(X j= c| )
 Modellgleichung für das Rasch-Modell
 Modellgleichung für das

Partial-Credit-Model
Das Partial-Credit-Modell:
Darstellung der Schwellenw.keiten Darstellung der Kategorienw.keiten
Seite 50 von 65
Partial-Credit-Modell: Geordnete vs. Ungeordnete Schwellenparameter
 Geordnete Schwellenparameter
‒ Reihenfolge der Schwellenparameter = Reihenfolge der Antwortkategorien
‒ Für jede Antwortkategorie gibt es einen Bereich auf , für den diese Antwortkategorie am
wahrscheinlichsten ist
 Ungeordnete Schwellenparameter
‒ Reihenfolge der Schwellenparameter ≠ Reihenfolge der Antwortkategorien
‒ Für manche Antwortkategorien gibt es keinen Bereich auf , für den diese Antwortkategorie am
wahrscheinlichsten ist
Person-Item-Karte 
Spezialfälle des Partial-Credit-Modells

 Ratingskalenmodell
‒ Differenz zwischen zwei benachbarten Schwellenparametern ist
für alle Items gleich groß
‒ Beispiel: Sprung von 2 auf 3 ist für alle Items gleich schwierig
 Äquidistanzmodell
‒ Differenz zwischen zwei benachbarten Schwellenparametern ist
für alle Schwellenparameter innerhalb eines Items gleich groß
‒ Beispiel: Der Sprung von 1 auf 2 ist gleich schwierig wie der Sprung
von 2 auf 3
Erweiterungen des Partial-Credit-Modells

 Generalisiertes Partial-Credit-Modell
‒ Erweiterung des 2PL-Modells (Birnbaum-Modell) auf polytome Items
‒ Items dürften sich zusätzlich in den Diskriminationsparametern (Steigung) unterscheiden
 IRT-Modelle für andere Skalenniveaus
‒ Items sind nominalskaliert  Nominal-Response-Modell
‒ Items sind absolutskaliert  Binomial-Trials-Modell und Poisson-Counts-Modell
Vorlesung 11 – Validität
---------------------------------------------------------------------------
Validität
 Validität = Gültigkeit (engl. validity)
 Ein Test ist valide, wenn er das misst, was er messen soll
 Validität bezieht sich auf die Gültigkeit von Interpretationen und Maßnahmen
‒ Bewertung des Ergebnisses
‒ Verallgemeinerung des Ergebnisses
‒ Extrapolation des Ergebnisses auf einen anderen Bereich
‒ Erklären des Ergebnisses (im kausalen Sinn)
‒ Entscheidung über weiterführende Maßnahmen
 Wichtigstes Testgütekriterium
Seite 51 von 65
 Voraussetzung: Merkmal muss hinreichend definiert sein
OPERATIONALE UND THEORE-TISCHE MERKMALSDEFINITIONEN
Operationale Merkmalsdefinition
 Merkmal wird über Testinhalte definiert

 Keine theoretische Fundierung/Erklärung notwendig
 „Intelligenz ist das, was der Intelligenztest misst“ (Boring, 1923)
 Bsp. Leistungstests
‒ Wissenstest: Test misst Wissen über den Wissensbereich, der im Test abgefragt wird
 Bsp. Einstellungstests
‒ Lebenszufriedenheit im Sozioökonomischen Panel (SOEP)
Theoretische Merkmalsdefinition
 Test soll ein vorher definiertes theoretisches Konstrukt erfassen

 Theorie macht Aussagen dazu
‒ warum sich Menschen im Merkmal unterscheiden
‒ wie sich diese individuellen Merkmalsunterschiede im Testergebnis ausdrücken
 Bsp. Persönlichkeitseigenschaften
INHALTSVALIDITÄT
Inhaltsvalidiät
 Erfassen die Inhalte des Tests wirklich das zu interessierende Merkmal?

 Inhalte umfassen
‒ Stimulusmaterial / Items / Aufgaben
‒ Antwortmöglichkeiten
 Keine statistischen Kriterien, sondern Beurteilung der Iteminhalte anhand Theorie und durch Experten
Inhaltsvalidität bei operational definierten Merkmalen
 Lassen sich die Testergebnisse verallgemeinern?

 Items sollten das zu erfassende Merkmal umfassend abdecken
 sollen repräsentativ für alle möglichen Aufgaben sein (Itemuniversum)
 Repräsentationsschluss = von den bearbeiteten Aufgaben wird auf die Gesamtzahl aller möglichen
Aufgaben geschlossen
 Inhaltsvalidität kann nur beurteilt werden, wenn das Itemuniversum präzise definiert ist
 meist durch Experten
 Bsp.: Decken Klausuraufgaben das Fach in seiner Breite ab?
Seite 52 von 65
Inhaltsvalidität bei theoretisch definieren Merkmalen
 Auch hier: Aufgaben müssen repräsentativ für Itemuniversum sein  Verallgemeinerbarkeit

 Zusätzlich: erklärende Interpretation muss valide sein
‒ Itemantworten müssen Schluss auf zugrundeliegendes Merkmal erlauben
 Evidence-centered assessment design
‒ Theoretisch fundierte Itemkonstruktion
‒ Für jedes Item muss begründet werden, warum aus der Antwort auf dieses Item auf das
zugrundeliegende Merkmal geschlossen werden kann
Zusammenfassung zu Inhaltsvalidität
KONSTRUKTVALIDITÄT
Grundidee der Konstruktvalidität
Definition
Konstruktvalidität umfasst die empirischen Befunde und Argumente, mit denen die Zuverlässigkeit der
Interpretation von Testergebnissen im Sinne erklärender Konzepte, die sowohl die Testergebnisse selbst als
auch die Zusammenhänge der Testwerte mit anderen Variablen erklären, gestützt wird.
Nomologisches Netz
 Unterscheidung zwischen
‒ Bereich der Theorie: nicht beobachtbare (latente)
Variablen
‒ Bereich der Beobachtung: beobachtbare Variablen
(Indikatoren)
 Axiome = mathematische Beschreibungen der
Zusammenhänge der latenten Variablen untereinander
 Korrespondenzregeln = Verbindungen zwischen latenten
Variablen und beobachteten Variablen
Seite 53 von 65
 Empirische Gesetze = aus den Axiomen abgeleitete Vorhersagen zu den Zusammenhänge der
beobachteten Variablen untereinander
Konstruktvalidierung
 Ziel der Konstruktvalidierung: schrittweise Prüfung der Korrektheit des nomologischenNetzes

 Prüfung der empirischen Gesetzes mittels empirischer Beobachtungen
‒ Übereinstimmung zwischen Theorie und Beobachtung: Bestätigung der Theorie und Testwerte
können als Merkmalsausprägungen interpretiert werden
‒ Keine Übereinstimmung zwischen Theorie und Beobachtung: Untersuchter Teil des
nomologischenNetzes muss modifiziert oder verworfen werden
 Ein nomologischesNetz kann nie verifiziert, nur falsifiziert werden
 Kein einzelner Kennwert für Validität, sondern Zusammenfassung verschiedener empirischer
Ergebnisse  nie fertig
Starke vs. schwache Konstruktvalidierung
 Starke Konstruktvalidierung
‒ Prüfung des nomologischen Netzes wie oben beschrieben
‒ Erfordert präzise, formalisierte Theorien über Zusammenhänge zwischen Variablen
 oft nicht gegeben
 Schwache Konstruktvalidierung
‒ Keine oder vage theoretischen Annahmen über Zusammenhänge zwischen Variablen
‒ Alle beobachteten Zusammenhänge mit anderen Variablen werden als relevant gesehen
‒ Explorativer Ansatz, Gefahr des blinden Empirismus
Empirische Prüfung der Konstruktvalidität
 Experimenteller Ansatz
‒ Theoretische Annahmen: eine Variable (UV) hat einen kausalen Effekt auf das zu messende
Merkmal (AV)
‒ Unabhängige Variable wird experimentell manipuliert
‒ Testwerte als abhängige Variable
‒ Signifikante Unterschiede in der AV = Beleg für Konstruktvalidität
 Korrelativer Ansatz
‒ Untersucht Korrelationen der Testwerte mit anderen Variablen
‒ Theoretische Annahmen über Richtung und Höhe der Korrelationen müssen vorliegen
‒ Konvergente vs. diskriminante Validität
Konvergente Validität
 Konvergente Validität = hohe Korrelation zwischen zwei Tests, die dasselbe oder eng verwandte
Konstrukte messen
 Problem 1: Untere Grenze der Korrelation

‒ Konvergente Validität ist nur dann gegeben, wenn die beobachtete Korrelation signifikant
höher ist als ein vorher festgelegter Vergleichswert
Seite 54 von 65
‒ Signifikanztest: Korrelation wird nicht gegen 0 getestet (Standardeinstellung), sondern gegen
einen anderen Wert
‒ Höhe des Vergleichswerts ist abhängig vom Forschungsgebie
 Problem 2: Obere Grenze der Korrelation

‒ Selbst wenn zwei Tests dasselbe Konstrukt messen, wird die beobachtete Korrelation nie
perfekt sein wegen Unreliabilität
‒ Bsp.: Korrelation der latenten Variablen ist 1, Korrelation der beobachteten Variablen ist < 1
 Lösungen
‒ Modelle für latente Variablen (lineare Strukturgleichungsmodelle)
‒ Doppelte Minderungskorrektur: korrigiert die beobachtete Korrelation um die Unreliabilität
der beiden Testverfahren
Diskriminante Validität
 Diskriminante (divergente) Validität = niedrige Korrelation zwischen zwei Tests, die unterschiedliche
Konstrukte messen
 Diskriminante Validität ist nur dann gegeben, wenn die beobachtete Korrelation nicht größer ist als ein
vorher festgelegter Vergleichswert  Nullhypothese
 Problem: Nullhypothese soll belegt werden, dies ist aber beim Nullhypothesen - Test nicht möglich
 Lösungen
‒ Fehler 2. Art (b-Fehler) bei der Stichprobenumfangsplanung berücksichtigen
‒ Bayesianischer Ansatz
Faktorielle Validität
 Faktorielle Validität = Items folgen der theoretisch erwarteten Faktorenstruktur

 Methoden für kontinuierliche Items
‒ Exploratorische Faktorenanalyse: keine Vorannahmen zu Anzahl der Faktoren und
Zugehörigkeit der Items zu Faktoren
‒ Konfirmatorische Faktorenanalyse: Anzahl der Faktoren und Zugehörigkeit der Items zu
Faktoren ist vorher festgelegt
 Methoden für diskrete Items
‒ Modelle der IRT erlauben die Prüfung der Dimensionalität
 Faktorielle Validität als Voraussetzung der Konstruktvalidität
MULTITRAIT-MULTIMETHOD-ANALYSEN
Grundbegriffe
 Trait = Merkmal bzw. Konstrukt

 Methode= Testverfahren–Messinstrument (z.B. Fragebogen vs. Beobachtung, Test A vs. Test B)–
Beurteiler bzw. Informant (z.B. Selbstratings vs. Fremdratings)–Kontext (z.B. Wetter, sozialer Kontext)
 Trait-Methoden-Einheit
Seite 55 von 65
Methodeneffekte
 Methodeneffekte = Effekte der Methode auf die Messung

 Bestimmte Methoden können bestimmten Verzerrungen (engl. bias) unterliegen
 können Korrelationen verschiedener Merkmale verzerren
‒ Bsp. positiv verzerrte Beurteilung der Persönlichkeit durch den Partner/die Partnerin
 Verschiedene Arten von Bias bzw. von Methodeneffekte
‒ Messmethodenspezifischer Bias
‒ Beurteilerspezifischer Bias
‒ Kontextspezifischer Bias
 Um das Ausmaß des Methodeneffekts einschätzen zu können, muss das Merkmal mit verschiedenen
Methoden gemessen werden
Multitrait-Multimethod-Analyse
 Abgekürzt MTMM
 Messung mehrerer Merkmale (multitrait) mit jeweils mehreren Methoden (multimethod)
 Oberbegriff für
‒ Multitrait-Multimethod-Analyse im engeren Sinn: Vergleich verschiedener Messmethoden
‒ Multitrait-Multiinformant-Analyse: Vergleich verschiedener Beurteiler
‒ Multitrait-Multioccasion-Analyse: Vergleich verschiedener Messzeitpunkte
 Erlaubt es, konvergente und diskriminanteValidität simultan zu untersuchen
Multitrait-Multimethod-Matrix
Seite 56 von 65
Koeffizienten der MTMM-Matrix
 Monotrait-Monomethod-Koeffizienten
‒ Reliabilitätskoeffizienten für eine Trait-Methoden-Einheit
 Monotrait-Heteromethod-Koeffizienten
‒ Messungen desselben Merkmals mit verschiedenen Methoden
‒ Indikatoren für die konvergente Validität
 Heterotrait-Monomethod-Koeffizienten
‒ Messungen unterschiedlicher Merkmale mit derselben Methode
‒ Indikatoren für die diskriminante Validität
 Heterotrait-Heteromethod-Koeffizienten
‒ Messungen unterschiedlicher Merkmale mit unterschiedlichen Merkmale
‒ Indikatoren für die diskriminante Validität
KRITERIUMSVALIDITÄT
Seite 57 von 65
Kriteriumsvalidität
 Bezieht sich auf die Validität von extrapolierenden Interpretationen

 Validität diagnostischer Entscheidungen aufgrund des Testergebnisses
 Korrelation mit Kriterien außerhalb der Testsituation
‒ Bsp. Studiumseingangstest  Studiumserfolg
‒ Bsp. Personaldiagnostik  beruflicher Erfolg
 Kriteriumsvalidität bezieht sich auf die praktische Relevanz eines Tests
Auswahl der Außenkriterien
 Merkmale guter Außenkriterien

‒ Relevant für die zu treffende diagnostische Entscheidung
‒ Können reliabel gemessen werden
 Zeitliche Verfügbarkeit der Außenkriterien
‒ Außenkriterium existiert zeitlich parallel  Übereinstimmungsvalidität
‒ Außenkriterium wird in der Zukunft gemessen  prognostische Validität
 Inkrementelle Validität = Ausmaß, in dem ein Test die Vorhersage des Außenkriteriums über andere
Tests hinaus verbessern kann
Consequential Validity
 Kann man mit dem Test das praktisch relevante Ziel erreichen?
‒ Bsp. Durchführung eines Studiumseignungstest mit dem Ziel der Verringerung der
Abbrecherquote
 Bezieht sich auf individuelle und soziale Konsequenzen eines Tests
‒ Bsp. Teaching to the test
 Kann sich über die Zeit verändern
 Vgl. Testgütekriterien der Nützlichkeit, Testfairness
Varianten der Validität
 Augenscheinvalidität (s. Sitzung zu Testgütekriterien)

 Inhaltsvalidität  Gültigkeit des Repräsentationsschlusses
 Konstruktvalidität  Gültigkeit des nomologischen Netzes
‒ Konvergente Validität
‒ Diskriminante Validität
‒ Faktorielle Validität
 Kriteriumsvalidität  Korrelation mit Außenkriterium
‒ Übereinstimmungsvalidität
‒ Prognostische Validität
‒ Inkrementelle Validität
 Consequential validity
Welche Validität soll ich bestimmen?
 Bewertung des Ergebnisses  Inhaltsvalidität, Konstruktvalidität
Seite 58 von 65
 Verallgemeinerung des Ergebnisses  Inhaltsvalidität, Konstruktvalidität
 Extrapolation des Ergebnisses auf einen anderen Bereich  Konstruktvalidität
 Erklären des Ergebnisses (im kausalen Sinn)  Konstruktvalidität
 Entscheidung über weiterführende Maßnahmen  Kriteriumsvalidität
Vorlesung 12 – Normierung & Testung

--------------------------------------------------------
Interpretation von Testwerten

 Testwert = numerisches Testresultat einer Person
‒ Wird anhand vorgegebener Regeln gebildet
‒ Rohwert
 Problem bei der Interpretation von Rohwerten: Bezugsrahmen bzw. Vergleichsmaßstab ist unklar
 Zwei Ansätze zur Interpretation von Testwerten
‒ Normorientierte Testwertinterpretation: Interpretation in Bezug zu einer Vergleichsgruppe
‒ Kriteriumsorientierte Testwertinterpretation: Interpretation in Bezug zu einem bestimmten
inhaltlichen Kriterium
NORMORIENTIERTE TESTWERT-INTERPRETATION
Normorientierte Testwertinterpretation
 Testwert (Rohwert) wird in einen Normwert transformiert

 Normwert gibt die Merkmalsausprägung relativ zu einer bestimmten Bezugsgruppe an
 Zwei Ansätze
‒ Prozentrangnormen: nicht-lineare Transformation
‒ Standardisierte z-Normwerte: lineare Transformation
Bildung von Prozentrangnormen
 Prozentrang = Anteil der Bezugsgruppe, die diesen oder einen niedrigeren Testwerterreichen
 Nicht-lineare Testwerttransformation bzw. Flächentransformation
‒ Transformation anhand der Häufigkeitsverteilung der Bezugsgruppe
‒ Abstände zwischen Prozenträngen sind nicht proportional zu den Abständen zwischen den
Testwerten  nur Ordinalskalenniveau
 Erstellen der Prozentrangnorm
 Erfassung der Häufigkeiten der einzelnen Testwerte freq(xv)
 Berechnung der kumulierten Häufigkeiten der einzelnen Testwerte freqcum(xv) in aufsteigender
Reihenfolge
 Relativierung an Stichprobengröße und Umrechnung in %
Seite 59 von 65
Normtabelle
 Normtabelle = Tabelle mit Testwerten und korrespondierenden Prozentwerten
 Perzentil= der Testwert x , dem ein bestimmter Prozentrang zugeordnet wird
‒ Beispiel: 9. Perzentil = 2
 Quartile
‒ Q1 = 25. Perzentil
‒ Q2 = 50. Perzentil = Median
‒ Q3 = 75. Perzentil
Eigenschaften von Prozentrangnormen

 Keine Verteilungsannahmen
 Testwerte können ordinal- oder intervallskaliert sein
 Prozentränge sind immer ordinalskaliert
 Prozentrangdifferenzen dürfen nicht interpretiert werden
Bildung von standardisierten z-Normwerten
 Lineare Transformation der Testwerte
 Testwerte müssen intervallskaliert sein
 z-Transformation:
 Eigenschaften von z-transformierten Variablen

‒ Mittelwert = 0
‒ Standardabweichung = 1
 z-Werte drücken den Unterschied zum Mittelwert in Standardabweichungseinheiten aus
 Abstände zwischen z-Werten sind proportional zu Abständen zwischen Testwerten
(Intervallskalenniveau)
Weitere Transformation von z-Werten
 Schönheitsfehler von z-Werten

‒ Teilweise negative Vorzeichen
‒ Dezimalstellen
 Die z-Werte können weiteren Lineartransformationen unterzogen werden
‒ Nur positive Vorzeichen
‒ Möglichst ganzzahlige Werte
 Beispiel Intelligenzquotient (IQ)
Seite 60 von 65
Standardnormen
Stanine-Normwerte
 Stanine= Standard Nine(9)
 Werte werden in 9 Abschnitte aufgeteilt
1. 4 %
2. 7 %
3. 12 %
4. 17 %
5. 20 %
6. 17 %
7. 12 %
8. 7 %
9. 4 %
 Bei normalverteilten Variablen ist jeder Abschnitt genau 0.5 Standardabweichungen breit
KRITERIUMSORIENTIERTETESTWERTINTERPRETATION
Kriteriumsorientierte Testwertinterpretation
 Beurteilung des Testwerts anhand eines vorher festgelegten Kriteriums
‒ Ein oder mehrere Schwellenwerte
 Verteilung der getesteten Personen ist uninteressant
‒ Theoretisch können alle oder niemand das Kriterium erreichen
 Beispiele für kriteriumsorientierteTestwertinterpretation
‒ Inventare in der klinischen Diagnostik (z.B. Depression)
‒ Klausuren an deutschen Universitäten (meistens)
Bezug des Testergebnisses auf ein externes Kriterium

 Vier mögliche Ausgänge bei der kriteriumsorientierten Diagnostik
Fehler bei der kriteriumsorientierten Diagnostik
Seite 61 von 65
Sensitivität und Spezifität
 Sensitivität = Trefferquote
‒ Anteil der richtig positiven Diagnosen (RP)
‒ Wahrscheinlichkeit, einen Fall, der das Kriterium erfüllt, korrekt zu klassifizieren
‒ 1 – Sensitivität = Verpasserquote (Wahrscheinlichkeit für FN)
 Spezifität = Quote korrekter Ablehnungen
‒ Anteil der richtigen negativen Diagnosen (RN)
‒ Wahrscheinlichkeit, einen Fall, der das Kriterium nicht erfüllt, korrekt zu klassifizieren
‒ 1 – Spezifität = Quote falscher Alarme (FP)
Sensitivität und Spezifität
Seite 62 von 65
ROC-Analyse
 ROC = Receiver Operating Characteristic

 Suche den Schwellenwert, der optimales Gleichgewicht zwischen Sensitivität und Spezifität herstellt
‒ Summe von Sensitivität und Spezifität soll maximal sein
‒ D.h. die grüne Fläche soll maximal sein und die rote Fläche soll minimal sein
 Analyse von Daten von Personen, deren Merkmals-ausprägung bezüglich des Kriteriums bekannt ist–
Bsp.: Personen, über die durch andere diagnostische Methoden bekannt ist, ob sie depressiv sind oder
nicht
 Vorgehen
‒ Berechne für jeden möglichen Schwellenwert jeweils Spezifität und Sensitivität
‒ Je größer die Summe von Spezifität und Sensitivität, desto besser trennt der Schwellenwert
zwischen den Gruppen
 Darstellung
‒ ROC-Kurve: zeigt das Verhältnis von Spezifität und Sensitivität für verschiedene
Schwellenwerte
‒ Youden-Index: Spezifität + Sensitivität –1 (je höher, desto besser)
ROC-Analyse: ROC-Kurve
 Wenn der Test gar nicht zwischen Personen trennt, entspricht die ROC-
Kurve genau der Diagonalen
 Je stärker die ROC-Kurve von der Diagonalen abweicht, umso besser
trennt der Test zwischen Personen
 Optimaler Trennwert = der Punkt der ROC-Kurve, der den größten
Abstand zur Diagonalen hat (Tangente ist hier parallel zur Diagonalen)
ROC-Analyse: Anmerkungen
 ROC-Analyse ist verteilungsfrei
Seite 63 von 65
 Gruppengrößen können frei gewählt werden
‒ Müssen nicht den tatsächlichen Anteilen in der Bevölkerung entsprechen
 ROC-Analyse kann für verschiedene Optimierungsverhältnisse verwendet werden
‒ Youden-Index: Optimale Balance zwischen Sensitivität und Spezifität
‒ Evtl. Sensitivität wichtiger als Spezifität–Evtl. Spezifität wichtiger als Sensitivität
Bezug des Testwerts auf Aufgabeninhalte
 Schwellenwert = bestimmte Anzahl an gelöster Aufgaben

 Dann möglich, wenn Testaufgaben eine repräsentative Stichprobe aller möglichen Aufgaben sind
 Anwendung im pädagogischen Bereich: Definition des Schwellenwerts anhand bestimmter Lernziele
‒ Bsp.: Mindestens 50 % der Aufgaben müssen korrekt bearbeitet sein, damit Lernziel erreicht
ist
Integration norm- und kriteriumsorientierter Diagnostik
 In bestimmten Fällen werden beide Ansätze integriert

 Beispiel 1: Definition des Schwellenwerts anhand des normorientierten Ansatzes
‒ Anteil der Noten unter 4,0 bzw. über 2,0 darf jeweils nur 10% betragen
 Beispiel 2: Testwertinterpretation berücksichtigt sowohl Kriterien als auch Normen
‒ Zeugnisse mit Noten (kriteriumsorientiert) und Prozentrang (normorientiert)
TESTEICHUNG
Testeichung
 Testeichung = Durchführung des Tests in einer repräsentativen Stichprobe zur Gewinnung von
Normwerten
 Eichstichprobe muss repräsentativ für die Zielpopulation sein, für die der Test entwickelt wurde–
Problem der Normdifferenzierung (s.u.)
 Zwei Arten der Repräsentativität
‒ Globale Repräsentativität = Stichprobe stimmt mit der Zielpopulation in allen möglichen
Faktoren überein
‒ Spezifische Repräsentativität = Stichprobe stimmt nur in Bezug auf die Faktoren mit der
Zielpopulation überein, die mit der Merkmalsausprägung korrelieren
Normdifferenzierung
 Normdifferenzierung = Normen unterscheiden sich für bestimmte Gruppen, z.B. nach

‒ Alter, Geschlecht, Bildung
 Vorteil differenzierter Normen: fairer Vergleichsstandard
‒ Bsp. Einschätzung der Deutschkenntnisse unter Flüchtlingskindern
 Nachteil differenzierter Normen: Überanpassung (over-adjustment)
‒ Bsp. Mindestanforderungen im Gymnasium
Seite 64 von 65
Normierungsstichprobe
 Stichprobenarten
‒ Geschichtete Stichproben bzw. Quotenstichproben: Stichproben werden so gezogen, dass die
prozentuale Verteilung der merkmalsrelevanten Faktoren in Stichprobe und Population
identisch sind  spezifische Repräsentativität
‒ Zufallsstichprobe: völlig zufällige Auswahl der Personen aus der Zielpopulation
 globale Repräsentativität
‒ ad-hoc-Stichprobe: zur Verfügung stehende Personen werden in Stichprobe einbezogen
 häufig nicht repräsentativ
 Stichprobe muss umso größer sein…
‒ ... je feinstufiger die Normen erstellt werden sollen
‒ ... je heterogener die Zielpopulation ist
Dokumentation der Normen im Testmanual
 Geltungsbereich der Normen

‒ Zielpopulation
 Grad der Repräsentativität der Eichstichprobe
 Stichprobenumfang und -zusammensetzung
 Deskriptivstatistiken
 Jahr der Datenerhebung
‒ DIN 33430: Normen sollten alle 8 Jahre überprüft und ggf. aktualisiert werden
‒ Vgl. Flynn-Effekt
Exkurs: DIN 33430
 „Anforderungen an berufsbezogene Eignungsdiagnostik“

 Initiiert durch den Berufsverband Deutscher Psychologinnen und Psychologen (BDP)•Legt Standards
fest für die Auswahl, Durchführung und Interpretation von berufsbezogener Eignungsdiagnostik
 Angebot von Fortbildungen mit Zertifizierungen
 Mehr Informationen: http://www.bdp-verband.org/bdp/politik/din.shtml
Seite 65 von 65

Testtheorie Skript

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Testtheorie Skript

Hochgeladen von

Copyright:

Verfügbare Formate

Vorlesung 1 – Einführung

Diagnostik in der Praxis

Diagnostik in Wissenschaft und Praxis

Anfänge der modernen Diagnostik

Beginn der Intelligenzdiagnostik

Beginn der Persönlichkeitsdiagnostik

 Bestimmung der Reabilität

5. Normierung bzw. Eichung

Wichtige Entscheidungen bei der Testplanung

2. Festlegung der Testart | Testarten:

3. Eingrenzung von Geltungsbereich und Zielgruppe

4. Entscheidungen zu Struktur, Umfang und Art der Administration

3. Externale bzw. kriteriumsorientierte Konstruktion

4. Internale bzw. faktorenanalytische Konstruktion

Aufgabentypen und Antwortformate

a. Aufgaben mit freiem Antwortformat

 Disjunktheit der Antwortmöglichkeiten

 Exhaustivität(Vollständigkeit) der Antwortmöglichkeiten

 Besonders relevant bei Leistungstests: Geeignete Distraktoren und

 Mit Skalenstufen: diskret gestufte Rating-Skala

 Entscheidung abhängig vom Iteminhalt bzw. von zu erfassendem Merkmal

3) Bezeichnung der Skalenpunkte

 Warum wählt jemand die mittlere

 Bezeichnungen für die „Weiß nicht“-Kategorie

6) Symmetrie vs. Assymetrie

Fehlerquellen bei der ITEM-Beantwortung

Eindeutigkeit des Iteminhalts

Notation der Datenmatrix

Allgemeine formale Definition des Schwierigkeitsindex:

Interpretation des Schwierigkeitsindex:

 Wertebereich von 0 bis 100

Schwierigkeitsindex bei Speedtests

Schwierigkeitsindex bei Niveautests

Schwierigkeitsindex mit Ratekorrektur

Schwierigkeitsindex bei Persönlichkeitstests

Umpolen von invertierten Items

Berechnung der Itemvarianz

Zusammenhang zwischen Itemvarianz und Itemschwierigkeit

Interpretation der Trennschärfe

Simultane Berücksichtigung aller deskriptivstatistischen Kennwerte

Verteilung der Testwerte

Histogram  rechts oder links verschoben  zu leichte oder schwere Items!

Vorlesung 5 –Klassische Testtheorie

Grundidee der Klassischen Testtheorie

Messfehler und wahrer Wert

Grundgleichung der Klassischen Testtheorie

Eigenschaften der Messfehler- und True-Score-Variablen

SCHÄTZUNG DES WAHREN WERTS

Testwert als Schätzer des wahren Werts

VARIANZZERLEGUNG UND RELIABILITÄT

Rechenregeln für Varianzen und Kovarianzen

Bestimmung der wahren Varianz und Fehlervarianz

STANDARDMESSFEHLER UND KONFIDENZINTERVALL FÜR τV

Konfidenzintervall für einen Testwert

Standardmessfehler vs. Reliabilitätskoeffizient

BEWERTUNG DER KLASSISCHEN TESTTHEORIE

Stärken der KKT

Grenzen der KKT

 Grenzen bezüglich der Skalierung

Methoden der Reliabilitätsschätzung

ti = Achsenabschnitt + Steigung * Wahre

Regressionsgeraden für drei Items

Gleichung für beobachtete Werte: xi = ai+ 1 ∙ η + 

 Gleichung für vorhergesagte Werte: i= α + η