Sie sind auf Seite 1von 12

B1 | Einführung in die Testtheorie

Einführung in die Testtheorie


1 Was ist ein psychologischer Test?
• Wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch
abgrenzbarer Persönlichkeitsmerkmale
o Wissenschaftlich: Baut auf einer Theorie auf, gewisse Gütekriterien sind gegeben
o Routineverfahren: Durchführung ist standardisiert
• Ziel
o Messung der absoluten oder relativen Ausprägung einer Eigenschaft, Fähigkeit oder eines
Zustands bei einer oder mehrerer Personen
▪ Messen: Konstrukt oder Merkmal einer Zahl zuordnen
▪ Bei uns meistens relativ (d. h. im Verhältnis zu anderen)
o oder eine qualitative Aussage zu treffen, welcher Personenklasse Personen zugeordnet
werden
• Tests basieren auf der klassischen oder probabilistischen Testtheorie, sind theoretisch fundiert
und genügen genau definierten Gütekriterien

2 Einteilung psychodiagnostischer Verfahren


• Leistungstests
o Realisierung von Verhalten (Performanz), das in Zusammenhang mit dem zu messenden
Merkmal steht
o Verfälschung ist nur „nach unten“ möglich
▪ Bsp. Intelligenztest (Schuldunfähigkeit)
• Psychometrische Persönlichkeitstests
o Formalisierte Selbstbeschreibung (Deskription), die typisches Verhalten, Denken, Fühlen
usw. wiedergibt
o Annahme: Person kennst sich am besten selber
o Wichtig: Jeder sollte mit den Test klarkommen (daher oft Ankreuzaufgaben)
o Problem der sozialen Erwünschtheit
▪ Unterscheidet sich in verschiedenen Kontexten
▪ Lösungen: Thema des Test nicht nennen, „Lügenskalen“, forced-choice-Format
[Auswahlmöglichkeiten zwischen mehreren (un)erwünschten Items]
o Evtl. verzerrte Selbstwahrnehmung
• Persönlichkeits-Entfaltungsverfahren bzw. projektive Verfahren
o Relativ unstrukturiertes Material, das beim Pb „Projektionen“ hervorrufen soll
▪ Projektionen (Abwehrmechanismen von Freud): Bestimmte Bedürfnisse stehen mit
dem Über-Ich oder Normen in Konflikt, sind mir daher unbewusst
▪ Projektive Verfahren erheben der Person Unbewusstes
o Sind ursprünglich nicht nach einer Testtheorie entwickelt worden
▪ Unstrukturiertes Verfahren, wenig vergleichbar
o Verhalten wird meist qualitativ interpretiert
o Antworten bieten einen Zugang zur Persönlichkeit des Pb
• Tests im engeren Sinn sind Leistungstests und psychometrische Persönlichkeitstests
B1 | Einführung in die Testtheorie

2.1 Leistungstests
2.1.1 Konzentrations-Leistungs-Test
• Jede der Formen des KLT enthält Aufgaben des folgenden Typs:

• Die Pb müssen zunächst pro Zeile das Ergebnis ausrechnen und jeweils im Kopf behalten. (Bsp. A:
15 bzw. 4; Bsp. B: 1 bzw. 17)
• Im Anschluss daran ist mit den Teilergebnissen nach folgender Vorschrift zu verfahren:
o das untere vom oberen abziehen, wenn es kleiner ist als dieses (Bsp. A Lösung = 11)
o das untere zum oberen hinzuzählen, wenn es größer ist als dieses (Bsp. B Lösung = 18)
• Bei der Schwierigkeitsstufe C muss immer das niedrigere Teilergebnis vom höheren subtrahiert
werden.
• Nur das Endergebnis ist in das Kästchen einzutragen (keine Zwischennotizen)
• Langzeitanstrengung ist wichtig
• Kritik: Test misst nicht nur Konzentration (z. B. auch Gedächtnis, Mathe)
o Zusätzlich noch einen Rechentest durchführen
o Ergebnissen dann vergleichen (über Gruppen korrelieren); sollte hohe Korrelationen zu
anderen Konzentrationstest, niedrige Korrelationen zu Rechentest aufweisen

2.1.2 Frankfurter Aufmerksamkeits-Inventar (FAIR)


• 2 von 4 Itemarten sind Zielitems: z.B. Kreis mit 3 Punkten und Quadrat mit 2 Punkten
• Test: 2 Bögen mit 16 Zeilen à 20 Items (alle Itemarten werden dargestellt)
• Aufgabe: Durch unterschiedliche Markierungen sollen Zielitems von Nicht-Zielitems
unterschieden werden (vollständiges Markierungsprinzip)
• Kulturfairer Test aufgrund der Formen
o Aber nicht ganz kulturfair, weil diese Formen in unserem Schulunterricht häufig
vorkommen
o Besser: Formen aus der Natur
B1 | Einführung in die Testtheorie
2.1.3 Beispielaufgaben aus dem Wechsler Intelligenztest für Erwachsene (WIE)
Verbaler Teil
Allgemeines Wissen Wie viele Monate hat 1 Jahr?
Zahlennachsprechen Folgen von 2-9 Ziffern sind vorwärts und rückwärts nachzusprechen
Wortschatz Was bedeutet BEENDEN?
Sie haben 3 Bücher und verschenken eines davon.
Rechnerisches Denken
Wie viele Bücher haben Sie dann übrig?
Allgemeines Verständnis Wozu braucht man Geld?
Gemeinsamkeiten finden Was ist das Gemeinsame bei GABEL und LÖFFEL?

Handlungsteil
Bilderergänzen Fehlende Details von Zeichnungen benennen
Bilder ordnen Bilder in eine logisch richtige Reihenfolge umordnen
Mosaiktest Zweidimensionale Muster mit Klötzchen nachbauen
Figurenlegen Zerschnittene Figuren zusammensetzen
Zahlen Symbol Test Zuordnung von vorgegeben Ziffern zu bestimmten Zeichen

2.1.4 Grundintelligenztest Skala 2 CFT 20-R (Culture Fair Test)


• Zielt auf fluide Intelligenz ab (logisches Denken, abstrakt relationale Problemlösung)
• Es gibt auch einen Zusatztest zu kristalliner Intelligenz (mehr Faktenwissen)
• Kritik: Sind auch nicht ganz Culture-Fair – z.B. sind Dreiecke und Quadrate bei uns in der Schule
sehr präsent
B1 | Einführung in die Testtheorie

2.2 Psychometrische Persönlichkeitstests


2.2.1 NEO-FFI (Fünf-Faktoren-Inventar)
„Wenn ich unter starkem Stress stehe, fühle ich mich manchmal, als ob ich
Neurotizismus
zusammenbräche.“

Extraversion „Ich habe gerne viele Leute um mich herum."

Offenheit für
„Poesie beeindruckt mich wenig oder gar nicht.“ (R)
Erfahrung
„Ich würde lieber mit anderen zusammen- arbeiten, als mit ihnen zu
Verträglichkeit
wetteifern.“
„Ich versuche, alle mir übertragenen Aufgaben sehr gewissenhaft zu
Gewissenhaftigkeit
erledigen.“

2.2.2 HEXACO PI-R


• Ergänzung der Big-5 um den Faktor Ehrlichkeit-Bescheidenheit
• Beispielitems
o „Wenn ich von jemandem etwas will, lache ich auch noch über dessen schlechteste
Witze.“ (R)
o „Ich würde in die Versuchung geraten, Falschgeld zu benutzen, wenn ich sicher sein
könnte, damit durchzukommen.“ (R)

2.2.3 Unterschied zwischen Leistungstest und Fragebogen – Realisation gegenüber Deskription


Leistungstest Fragebogen
Beispielitem aus dem Subtest „Rechnerisches Item eines (fiktiven) Persönlichkeitstests zum
Denken“ des WIE rechnerischen Denken
„Eine Person wiegt 60 kg und nimmt 15 Prozent „Ich finde es leicht, Dreisatzaufgaben zu lösen“
ihres Gewichts ab. Wie viel wiegt Sie?“ (51kg) (Ja/Nein)
Rechenoperation muss ausgeführt werden Es ist nur eine Beschreibung / Ankreuzen nötig

2.3 Persönlichkeitsentfaltungsverfahren/projektive Verfahren


2.3.1 Verbal-thematische Thematic Apperception Test (TAT)

• Pb soll 5 Minuten eine Geschichte zu der Bildtafel erzählen (freie Assoziation), diese wird mit den
Bedürfnissen der Person in Verbindung gebracht
• Kritik: Unstrukturiert, keine Objektivität, keine Validität
• Auswertung basiert stark auf Erfahrung
• Auf Leistungsmotivation fokussierter TAT passt besser (bessere Auswertungsschlüssel im Manual
gegeben)
B1 | Einführung in die Testtheorie
2.3.2 Formdeuteverfahren nach Rorschach

• Was könnten die Tintenklekse sein?


• Explorationsverfahren, dann aber eher ein Wahrnehmungstest

2.3.3 Familie in Tieren

• Kinder werden gebeten, ihre Familie als Tiere zu malen


• Mythen und Redewendungen werden zur Interpretation herangezogen
o Bsp. Schlange = Böse und klug
• Als diagnostisches Verfahren ungeeignet
o Gütekriterien eigentlich nicht gegeben
o Keine richtigen Auswertungsstrategien
• Als exploratives Verfahren oder Einstieg ins Gespräch eher sinnvoll

3 Genese eines klassischen Tests


Hier anhand der deduktiven Strategie
1. Entwurf

• Sichtung theoretischer Ansätze und empirischer Befunde zum Thema


• Konzeptualisierung der Fragestellung
• Festlegung der Merkmale, die erfasst werden sollen
• Befragung von Experten
• Itemgenerierung

2. Erprobung (Pretest)

• Vorlage der Testvorform bei einer Stichprobe, die der Zielgruppe ähnlich ist
o zur Ermittlung missglückter Itemformulierungen
o zur Analyse der Testaufgaben (Itemanalyse)
• Auswertung
B1 | Einführung in die Testtheorie

3. Revision

• Selektion, Elimination oder Überarbeitung der Items aufgrund der Erprobungsergebnisse


• Gegebenenfalls Wiederholung der Erprobung
• Erstellung eines revidierten Tests

4. Endfassung

• Ziehung einer angemessenen Stichprobe der Zielgruppe


• Vorlage und Auswertung des revidierten Tests
• Bestimmung von Standardisierung (Objektivität), Messgenauigkeit (Reliabilität) und
Gültigkeit (Validität)
• Interpretation der Ergebnisse unter Berücksichtigung der methodischen Beschränkungen
(Limitationen)
• Vergleich mit Ergebnissen, die auf ähnlichen oder andersartigen Methoden beruhen

4 Konstruktionsstrategien
Rationale (deduktive) Methode Ableitung des Tests aus einer Theorie
Externale (kriteriumsorientierte) Ziel ist ein Test, der bestmöglich zwischen Personengruppen
Methode trennt (z. B. Alkoholiker vs. Nicht-Alkoholiker)
Induktive Methode (z. B. lexikalischer Entwicklung von (faktorenanalytischen) Dimensionen auf
Ansatz wie bei den Big 5) Basis großer Itemmengen
Prototypenansatz Die prototypischen Vorstellungen verschiedener Personen
von bestimmten Eigenschaften werden gesammelt (z. B.
Kreativität)

5 Was bedeutet Testtheorie?


• Ziel einer Testung: Schlussfolgerung vom Antwortverhalten im Test auf das psychische Merkmal
o Personenmerkmal ist latent (z. B. Intelligenz)
▪ Latente Merkmale werden mit einem Kreis dargestellt
o Testverhalten ist beobachtbar
▪ Bsp.: Intelligente Personen lösen im Intelligenztest viele Aufgaben richtig
o Testauswertung: Rückschluss auf Merkmal
• Testtheorie beschäftigt sich mit dem Zusammenhang von Testverhalten und dem zu erfassenden
Merkmal
o Wann ist die Schlussfolgerung gerechtfertigt?
o Welchen Anforderungen muss ein Test genügen?
o Ist mein Test fähig, das Merkmal zu erfassen?
o Sind die Gütekriterien gegeben?
B1 | Einführung in die Testtheorie

6 Gütekriterien

6.1 Objektivität
= Ausmaß, in dem die Testergebnisse unabhängig von der Person des Untersuchungsleiters sind
• Testergebnis sind unabhängig von jeglichen Faktoren außerhalb der Testperson
• Vollständige Objektivität, wenn jeder Testleiter oder -auswerter bei der Person zu genau den
gleichen Ergebnissen kommt
• Objektivität wird durch Standardisierung erhöht (da kein Handlungsspielraum gegeben ist)
• 3 Facetten
o Durchführung
▪ Ergebnis nicht abhängig vom Testleiter
− Z.B. könnte Einfluss haben, ob der Testleiter leise ist oder andauernd hustet
▪ Genaue Vorgabe der Durchführung (Instruktionen, Zeitbegrenzung, Umgang mit
Fragen) von Seiten der Testautoren wichtig
▪ Personen mit unterschiedlichen Ausgangsbedingungen sollen ein gleiches
Instruktionsverständnis erhalten
− Z. B. lauteres Vorlesen bei Schwerhörigen
▪ Hohe Durchführungsobjektivität ist oft bei computerbasierter Durchführung
gegeben
o Auswertung
▪ Wenig Spielraum bei der Auswertung → Alle Personen sollen zum gleichen
Punktwert kommen
▪ Bei Multiple Choice eher kein Problem (außer z. B. Verzählen), bei offenen Fragen
schon deutlich schwieriger (benötigt detaillierte Auswertungsregeln)
o Interpretation
▪ Verschiedene Testanwender kommen bei denselben Testwerten zu denselben
Schlussfolgerungen
▪ Z. B. durch Normtabellen (ermöglichen Vergleich mit Bezugsgruppe)
B1 | Einführung in die Testtheorie

6.2 Reliabilität
= Test misst das Merkmal exakt (d. h. ohne Messfehler)
• Ausmaß der Reliabilität wird vom Anteil des Messfehlers an der Messung bestimmt
o Niedriger Messfehler = Hohe Reliabilität
• Man spricht auch von der Zuverlässigkeit des Tests (Messgenauigkeit)
• Wiederholbarkeit der Messung
o Bei wiederholter Messung unter gleichen Bedingungen soll immer dasselbe Ergebnis
herauskommen
o Ist unabhängig davon, was der Test genau misst; es geht lediglich darum, dass der Test
ohne Messfehler misst

6.3 Validität
= Test misst auch wirklich das Merkmal, das er messen soll, und nicht irgendein anderes
• Kontent- bzw. Inhaltsvalidität
• Augenscheinvalidität
• Kriteriumsvalidität
o Konkurrente Validität
o Prädiktive Validität
• Konstruktvalidität
o Konvergente/diskriminante Validität (MTMM-Analyse)
o Internale/externale Validität

6.3.1 Kontent- bzw. Inhaltsvalidität


= Test erfasst das zu messende psychologische Merkmal repräsentativ
• Repräsentativ: Alles, was im Konstrukt enthalten ist
• Repräsentationsschluss: Sind die Testitems eine repräsentative Stichprobe aus dem
Itemuniversum des interessierenden Merkmals?
• Einschätzung basiert auf logischen und fachlichen Überlegungen von Experten
• Bsp.: Item erfassen nur Additionsfähigkeit und keine anderen Rechenfähigkeiten

6.3.2 Augenscheinvalidität
= Validität erscheint einem Laien vom bloßen Augenschein her gerechtfertigt
• Transparenz des Tests im Mittelpunkt
o Transparenz ist wichtig für die Akzeptanz
o Aber: Es ist vom Kontext abhängig, ob Transparenz eher zu Akzeptanz oder
Verfälschungen führt
▪ Leistungstests kann man nicht so gut verfälschen → Akzeptanz
▪ Persönlichkeitsfragebogen → Person durchschaut, worum es geht → Verfälschung
• Unterschied zur Inhaltsvalidität: Einschätzung von Laien (Augenschein) vs. Experten (Inhalt)
• Kennt ein Laie das Konstrukt sehr gut, kann es sein, dass Inhalts- und Augenscheinvalidität mehr
oder weniger zusammenfallen
B1 | Einführung in die Testtheorie
6.3.3 Kriteriumsvalidität
= Von einem Testergebnis kann auf ein relevantes Außenkriterium (d. h. Verhalten außerhalb
der Testsituation) geschlossen werden
• Gibt es eine Korrelation zwischen dem Testwert und einem relevanten Außenkriterium?
o Kein Kausalitätsschluss bei Korrelationen (Störvariablen etc.)
• Prädiktive (prognostische) Validität
o Vorhersage: Kriterium liegt in der Zukunft vor
o Bsp.: Korrelation zwischen Intelligenztest und späteren Berufserfolg
o Kriterium muss für den Einsatzbereich des Tests relevant sein
• Konkurrente Validität
o Konkurrente Übereinstimmung: Kriterium liegt zeitgleich vor
o Bsp.: Beanspruchungsrating und gleichzeitig objektive Datenerfassung (z. B. Pulsmessung)

6.3.4 Konstruktvalidität
= Schluss vom Testergebnis auf zu Grunde liegende psychologische Merkmale (Fähigkeiten,
Dispositionen, Charakterzüge oder Einstellungen) kann anhand empirischer Belege
(Korrelationen → Keine Kausalität!) aufgezeigt werden
• A priori werden Erwartungen über Zusammenhänge zu konstruktnahen und fremden Variablen
formuliert
• Konvergente vs. diskriminante Validität
o Konvergente Validität
▪ Verfahren erfassen dasselbe Merkmal → Hohe Korrelation
▪ Korrelation wird allein durch das gemeinsam gemessene Merkmal bedingt, nicht
durch gemeinsame Messmethoden
o Diskriminante/divergente Validität
▪ Verfahren erfassen unterschiedliche Merkmale → Niedrige Korrelation
▪ Nicht konstruktferne, sondern ähnliche (≠ identische) Merkmale nehmen
− Ziel: Konstruktnahe Merkmale abgrenzen (z. B. Intelligenz und
Konzentrationsfähigkeit)
▪ Korrelation wird weder durch gemeinsame Messmethoden überschätzt noch
durch niedrige Reliabilitäten unterschätzt
− Niedrige Korrelationen sollen ja durch das Messen unterschiedlicher
Merkmale zustande kommen; nicht durch das Messen von Messfehlern
• Wird oft mit einer Multi Trait Multi Method Analyse (MTMM) durchgeführt
o 3 unabhängige Traits (T1, T2, T3)
▪ z. B. Extraversion, Gewissenhaftigkeit, Verträglichkeit
o 3 unabhängige Methoden (M1, M2, M3)
▪ z. B. Selbstbeschreibung und 2 Fremdbeschreibungen
o Mithilfe der Testwerte kann man Korrelationen berechnen; diese schaut man sich dann in
der Tabelle an
B1 | Einführung in die Testtheorie

• Methoden sind mit Buchstaben, Merkmale mit Zahlen benannt


• Konvergente Validität (gelb) sollte hoch sein, die anderen Validitäten sollten niedriger sein
o Monotrait-Heteromethod-Korrelation (konvergente Validität) > Heterotrait-Monomethod-
Korrelation > Heterotrait-Heteromethod-Korrelation
• Monotrait-Monomethod: Reliabilitäten (rot)
o Das gleiche Konstrukt wird mit dem gleichen Verfahren gemessen
o Soll möglichst hoch sein
o Sind in der Diagonalen angegeben
• Monotrait-Heteromethod: Konvergente Validität (gelb)
o Gleiches Konstrukt wird mit unterschiedlichen Methoden gemessen
▪ Bsp.: Extraversion einmal durch Selbst- und einmal durch Fremdbeschreibung
o Messungen sollten hoch miteinander zusammenhängen
o Kann nicht größer als die Reliabilität werden
▪ Validität kann nur so groß werden wie die Wurzel der Reliabilität
• Heterotrait-Monomethod: Methodeneffekte als Indikator der diskriminanten Validität (grau)
o Verschiedene Konstrukte werden mit derselben Methode gemessen
o Korrelationen sollen niedrig sein
• Heterotrait-Heteromethod: Indikator der diskriminanten Validität (grün)
o Unterschiedliche Traits und unterschiedliche Methoden
o Korrelationen sollten möglichst niedrig sein
B1 | Einführung in die Testtheorie

6.4 Normierung
= Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu
den Merkmalsausprägungen einer repräsentativen Stichprobe von Testteilnehmern eindeutig
eingeordnet und interpretiert werden können
• Rohwerte lassen sich oft schwer interpretieren
o Rohwert wird in einen anderen Wert umgewandelt
o Bezugssystem ermöglicht Vergleiche (zwischen den verschiedenen Personen und zwischen
den verschiedenen Merkmalen)
• Äquivalentnormen: Zuordnung des Testwerts zu einer bestimmten Referenzgruppe
o z. B. Intelligenzwert zu einer Altersgruppe
• Variabilitäts- oder Abweichungsnormen: Mit Hilfe der Streuung einer Eichstichprobe wird der
Abstand eines Testwerts vom Mittelwert bestimmt
o Alle außer Prozentränge
o Vorteil: Intervallskalenniveau→ Interpretation von Abständen
o Nachteil: Vernünftige Interpretation nur bei Normalverteilung
• Prozentränge: Prozentuale Anteil von Pb, deren Wert auf oder unterhalb eines Testwerts liegen
o Angabe bei Neugeborenen, auf welchem Prozentrang die Größe liegt
▪ 95. Prozentrang: 95% der Neugeborenen sind kleiner
o Prozentrang von 75 im Intelligenztest: 75% der Personen schneiden schlechter ab
• Empfehlung vor Normierung: Prüfen, ob von einer Normalverteilung ausgegangenen werden kann
→ Ausnahme: Prozentränge (und Stanine; hier werden Ausprägung in 9 Kategorien eingeordnet,
dafür erst Prozentränge bilden)
o Interpretation auch ohne Normalverteilung möglich
o Aber: Sind nur ordinalskaliert, d. h. Abstände sind nicht gleichmäßig
▪ Nur Aussage, wer besser oder schlechter ist; keine Interpretation von Abständen
− Im Mittelbereich ist die Differenzierung feiner, an den Enden grober
▪ Interpretation nur in Bezug auf die Gesamtheit der Verteilung möglich
▪ In Manualen werden manchmal unterschiedlich viele Rohwerte unterschiedlich
vielen Prozenträngen zugeordnet
B1 | Einführung in die Testtheorie

6.5 Nützlichkeit
= Anwendung eines Tests erbringt mehr positive als negative Konsequenzen
• Oft praktische Relevanz im Vordergrund
o Häufig geht es um die Anzahl von korrekt klassifizierter Personen
• Beispiele: Assessment Center, Studieneignungstests, Corona-Schnelltest

6.6 Fairness
= Testergebnisse führen zu keiner systematischen Benachteiligung bestimmter Personen auf
Grund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen
• Durchführungsfairness (z. B. PC-Tests bei Älteren weniger gegeben)
• CFT - culture fair test
• Lösungsideen
o Test in Muttersprache
o Testroutine (Probanden bekommen alle Übungen schon mitgegeben, um alle auf
denselben Stand zu bringen)
• Validität spielt ein bisschen rein, weil nur das Konstrukt und nicht die Gruppenzugehörigkeit
erfasst werden soll
• Unterscheidung: Gruppenzugehörigkeit (Benachteiligung) oder Unterschied im Konstrukt

Das könnte Ihnen auch gefallen