Sie sind auf Seite 1von 38

Diagnostik Tutorium

6. Gütekriterien III – Validität


Jan Schmieder

1
Validität

Validität – Was ist das?

Reliabilität Validität
Misst der Test sehr genau? Misst der Test, das was er zu
(egal, was er misst)
messen vorgibt?
(Misst ein IQ-Test Intelligenz?)

Eine hohe Reliabilität ermöglicht Eine hohe Validität ermöglicht uns


uns Schlüsse über den Score einer Schlüsse über das Verhalten oder
Person, wenn sie den Test Eigenschaft einer Person.
nochmal macht. (Verhalten/Eigenschaft =
empirisches Relativ)

2
Validität

Validität
Validität ist sehr vielfältig und eigentlich nicht ausreichend mit
einer Zahl 0-1 zu beschreiben.

Die 3 „Über“-Validitäten

1) Kriteriumsvalidität
2) Inhaltsvalidität
3) Konstruktvalidität
3
Kriteriumsvalidität

Kriteriumsvalidität
Kann der Test Verhalten vorhersagen?
Ein Kriterium ist ein bestimmtes Verhalten in der Realität. Das kann quasi alles sein. Es
muss nur Sinn machen. Autoren geben begründet an, warum sie Kriterium XYZ gewählt
haben.

Kann der IQ-Test Schulerfolg vorhersagen?


Kann der Integritätstest Krankheitstage vorhersagen?
Kann der Depressionstest die Tage in der Klinik vorhersagen?

Streng genommen darf ein Kriterium darf kein Konstrukt wie zB Impulsivität oder
Extraversion oder Intelligenz sein. (später: Konstruktvalidität!)

4
Kriteriumsvalidität

Kriterien I
Es gibt unendlich viele Kriterien. Und genauso viele Validitäten. Dennoch kann man sie
untergliedern

Echte Kriterien
1) Kriterium stimmt mit dem theoretischen Fundament des Tests überein
2) UND ist verlässlich und entscheidungsrelevant (hoher Status)
> Bsp: „echte“ Gewalttätigkeit als Kriterium für Aggressionstest

Quasi-Kriterien
1) Kriterium stimmt mit dem theoretischen Fundament des Tests überein
2) UND ist verlässlich und entscheidungsrelevant
> Aggressivitätsfragebogen mit Aggressivitätsfragebogen
(Das Buch sagt soetwas ist ein sehr schwacher Validitätsbeleg)
5
Kriteriumsvalidität

Kriterien II
Target-Variable
1) Kriterium stimmt mit dem theoretischen Fundament des Tests überein
Die Target-Variable hat auf Theoriebasis nichts mit dem Test zu tun, kann aber
dennoch pragmatische Informationen enthalten
> zB Drogenkonsum als Kriterium für Straffälligkeitstendenz

Die Korrelation zwischen Test und Target-Variable nennt man Effektivität.


Da der Test in keinster Weise erstellt wurde um diese Variablen zu messen, spricht
man hier nicht von Validität.

6
Kriteriumsvalidität

Kriterien III – ultimative Kriterien


Ultimative „eigentliche“ Kriterien
Das eigentliche Vorhersageziel von Tests
> Berufserfolg
> Psychopathologische Krankheitsgeschichte
> Straffälligkeit

Diese Kriterien werden fast nie bestimmt, da sie oft sehr komplex sind und einen
viel zu großen Aufwand darstellen um längsschnittlich erhoben zu werden.

Daher verwendet man:

7
Kriteriumsvalidität

Kriterien IV – Aktuelle Kriterien


Aktuelle Kriterien
Leichter verfügbarere Kriterien als die ultimativen Kriterien
Quasi kleiner Bruder der ultimativen Kriterien
> aktuelle Stellung für „ultimativen“ Berufserfolg
> bis-dato Krankheitsgeschichte
> bereits begangene Straftaten für „ultimative“ Straffälligkeit

8
Kriteriumsvalidität

Kriterien - Beziehungen
Kriteriumsdefizienz
Elemente des ultimativen Kriteriums, die durch das aktuelle Kriterium
nicht erfasst werden
> zB letztendliche Position im Unternehmen für ultimativen Ultimatives
Berufserfolg ist im aktuellen Kriterium nicht erfasst Kriterium

Kriteriumsrelevanz
Außmaß, in dem das aktuelle Kriterium das ultimative Kriterium Aktuelles
bestimmen kann Kriterium

Kriteriumkontamination Das AK
Alle Elemente, die ein aktuelles Kriterium beeinflussen, aber nichts mit beeinflussende
dem ultimativen Kriterium zu tun haben Faktoren
> zB Standort, Dividendenzahlungen,… beeinflussen Einkommen
als aktuellen Kriterium für ultimativen Berufserfolg
9
Kriteriumsvalidität

Kriterien - Beziehungen
Diese Hewig-Folie wirkt viel komplizierter als sie ist

Auf den Punkt gebracht:


1) Es kann Korrelationen (also Validitäten) geben
zwischen Test und Kriterium, obwohl sie ganz
andere Konstrukte messen (links)
z.B. „echtes Kriterium“
2) Es kann aber auch keine Korrelation geben
obwohl Test und Kriterium zum Teil das gleiche
Konstrukt messen (rechts)

10
Kriteriumsvalidität

Kriteriumsvalidität - Bestimmung
Um die Kriteriumsvalidität zu bestimmen muss das Kriterium gemessen werden.
Das kann geschehen:

- zur gleichen Zeit wie der Test → Übereinstimmungsvalidität


konkurrente Validität

- nach einem gewissen Zeitraum → Vorhersagevalidität


prädiktive Validität

Anschließend wird Test mit Kriterium korreliert.

Da meistens Kriterien vorhergesagt werden sollen ist die Angabe einer


Vorhersagvalidität von viel größerem Wert.

11
Kriteriumsvalidität

Minderungskorrektur - doppelt
Wie wäre die Validität bzw. Vorhersagekraft meines Tests, wenn Test
und Kriterium perfekt reliabel wären?
Denn wenn bei Y = τ + ε der Messfehler komplett zufällig ist, dann kann er ja auch nicht mit
dem Kriterium korrelieren?
Testwert
Hierbei hilft uns die doppelte Minderungskorrektur: Kriterium

𝑲𝒐𝒓 Y𝟏 , Y𝟐
𝑲𝒐𝒓 τ𝟏 , τ𝟐 =
Validität
𝑹𝒆𝒍(𝒀𝟏) 𝑹𝒆𝒍(𝒀𝟐)

Reliabilität Reliabilität des


des Tests Kriteriums 12
Kriteriumsvalidität

Minderungskorrektur - einfach
Wie wäre die Validität bzw. Vorhersagekraft meines Tests, wenn Test
und Kriterium perfekt reliabel wären?
Häufig wird entweder angenommen, dass das Kriterium perfekt reliabel gemessen wurde.
(z.B Einkommen)
Oder die Autoren denken sich, dass eine unzuverlässige Messung des Kriteriums nicht
ihrem Test anzulasten sei!!!!
Nun nimmt man die einfache Minderungskorrektur:
Reliabilität
𝑲𝒐𝒓 Y𝟏 , Y𝟐 des Kriteriums
𝑲𝒐𝒓 τ𝟏 , τ𝟐 =
Validität 𝑹𝒆𝒍(𝒀𝟏) 𝑹𝒆𝒍(𝒀𝟐)
Kriteriumsvalidität

Minderungskorrektur

Seht euch die Hewig-Folien mit den Beispielen zur


Berechnung der Minderungskorrektur an!

Das kommt so gut wie sicher in der Klausur.


(und sehr ähnlich wie auf den Folien)

14
Inhaltsvalidität

Inhaltsvalidität
Wie repräsentativ sind die Items für das zu messende Merkmal?

Konstruktionsprinzip (zB induktive Methode)


Items
geben die Items das Konstrukt überhaupt inhaltlich wieder?

In der Regel belegen die Autoren die Inhaltsvalidität ihres Test, indem sie angeben wie sie
die Items konstruiert haben. Wenn das Sinn macht wird das i.d.R. akzeptiert.

Sie kann aber auch berechnet werden. Siehe auch Hewig-Folie 7 & 8.
(macht normalerweise niemand. Man findet auch Quellen, die sagen, dass man die Inhaltsvalidität nicht berechnen kann.)

15
Konstruktvalidität

Konstruktvalidität
Erfasst der Test das Konstrukt, das er erfassen möchte?
(und auch bitte kein anderes?)

Psychologisches Wissen ist ein großes „nomologisches Netzwerk“ aus Konstrukten


Der Test ist konstruktvalide, wenn das Konstrukt des Tests:
- in ähnliche Konstrukte gut eingebettet (konvergente Validität)
- und von entfernteren gut abgegrenzt ist (diskriminante Validität)

16
Konstruktvalidität

Konstruktvalidität
Psychologisches Wissen ist ein großes Netz aus Konstrukten

Persönlichkeit Aggressivität

Neurotizismus
Aufmerksamkeit
Extraversion
Impulsivität

Inhibitionsfähigkeit
17
Konstruktvalidität

Konstruktvalidität
Erfasst der Test das Konstrukt, das er erfassen möchte?
(und auch bitte kein anderes?)

Es gibt nicht DIE Methode, Konstruktvalidität zu bestimmen.


(Im Buch werden ein paar aufgelistet)
Ein korrelativer Ansatz ist die Multitrait-Multimethode-Analyse
Sie betrachtet einen kleinen Teil des nomologischen Netzwerks und analysiert zwei
(oder mehr) Konstrukte anhand von Korrelationen.

18
Konstruktvalidität

Multitrait-Multimethod-Analyse
2 (oder mehr) Traits werden mit 2 (oder mehr) verschiedenen Methoden gemessen.
Diese Traits sind aus einem kleinen Teil des nomologischen Netzwerks.

Bsp: - Extraversion und Neurotizismus aus dem Teil Persönlichkeit


- Fremd- und Selbsteinschätzung als 2 verschiedene Methoden

Grundlage dieser Berechnungen sind die Annahmen:


1) Unterschiedliche Konstrukte sollten niedrig korrelieren (Stichwort Eindimensionalität)
2) Bei Erhebungen mit gleicher Methode wird die Korrelation überschätzt
-> zur Validitätsbestimmung ist also die Verwendung 2 verschiedener Methoden wichtig

19
Konstruktvalidität

Multitrait-Multimethod-Analyse
Beispiel:

E (Selbst) E (Fremd) N (Selbst) N (Fremd)

E (Selbst) -

E (Fremd) .80 -

N (Selbst) .20 .10 -

N (Fremd) .10 .20 .80 -

20
Konstruktvalidität

MMA – Konvergente Validität


Beispiel:
E (Selbst) E (Fremd) N (Selbst) N (Fremd)

E (Selbst) -

E (Fremd) .80 -
N (Selbst) .20 .10 -
N (Fremd) .10 .20 .80 -

Misst man ein Konstrukt mit zwei verschiedenen Methoden, und sie
korrelieren hoch nennt man das konvergente Validität

21
Konstruktvalidität

MMA – Konvergente Validität


Beispiel:
E (Selbst) E (Fremd) N (Selbst) N (Fremd)

E (Selbst) -

E (Fremd) .80 -
N (Selbst) .20 .10 -
N (Fremd) .10 .20 .80 -

Misst man verschiedene Konstrukte mit zwei verschiedenen Methoden, und


sie korrelieren niedrig nennt man das diskriminante Validität

22
Konstruktvalidität

MMA – Konvergente Validität


Beispiel: E (Selbst) E (Fremd) N (Selbst) N (Fremd)

E (Selbst) -

E (Fremd) .80 -
N (Selbst) .20 .10 -
N (Fremd) .10 .20 .80 -

Misst man verschiedene Konstrukte mit derselben Methode, und sie


korrelieren möglichst niedrig nennt man das geringe Methodenspezifität.
Hohe Methodenspezifität würde bedeuten, dass Korrelation aufgrund von Effekten der Methodik
entstehen
23
KonstruktV vs InhaltsV

Konstruktvalidität vs Inhaltsvalidität
Was ist der Unterschied zwischen Konstrukt- und Inhaltsvalidität?

Es gibt Quellen die sehen die Inhaltsvalidität als Teilaspekt der Konstruktvalidität. Sie
scheinen also etwas zu verschwimmen.

Vielleicht wird an einem Beispiel eine mögliche Unterscheidung klar:


Ein perfekter Mathematik-Schulleistungstest der 7. Jahrgangsstufe bildet laut Lehrern und
Kultusministern perfekt inhaltlich ab, was in dem Jahr gelehrt wurde. Was gelehrt wurde ist
das zu messende Merkmal.
Dennoch kann dieser Test im „nomologischen Netzwerk“ keine oder kaum eine Einbettung
finden. Evtl. noch Konstrukt Intelligenz.

Dieser Test wäre inhaltsvalide, aber nur beschränkt konstruktvalide.

24
KonstruktV vs InhaltsV

Konstruktvalidität vs Inhaltsvalidität
Was ist der Unterschied zwischen Konstrukt- und Inhaltsvalidität?

Konstruktvalidität Inhaltsvalidität
Wird das Konstrukt (Intelligenz)
Misst der Test das definierte
erschöpfend in den Items des Tests
Konstrukt (Intelligenz)?
abgebildet?

25
Rel-Val-Dilemma

Reliabilitäts – Validitäts - Dilemma


Generell:
Ein Test muss genau messen, damit man eine Vorhersage treffen kann
Er muss reliabel sein um valide zu sein.

26
Rel-Val-Dilemma

Reliabilitäts – Validitäts - Dilemma


Ein Beispiel:
Sigmund hat einen neuen Intelligenztest entwickelt. Leider lässt die Reliabilität mit .80 noch zu
wünschen übrig. Beim Tiefblick sieht er bei einigen Items niedrige Trennschärfen und
beschließt diese hinauszuwerfen. Zackbum, die Reliabilität ist .90.

Nach der Veröffentlichung seines Tests erfährt er eine Welle an Kritik.


„Warum beinhaltet der Test keine figurale Komponente im Mathematik-Teil? Der Test ist doch
gar nicht inhaltsvalide und auch nicht konstruktvalide“

Bei seinem Weg, die Reliabilität anhand von Trennschärfewerten zu erhöhen hat
Sigmund unwissentlich in Kauf genommen, dass die Validität darunter leidet.

27
Rel-Val-Dilemma

Reliabilitäts – Validitäts - Dilemma


Generell:
Ein Test muss genau messen, damit man eine Vorhersage treffen kann
Er muss reliabel sein um valide zu sein.

Dennoch:
Je reliabler, desto (meistens) enger das Konstrukt.
Je enger das Konstrukt, desto geringer sind Vorhersagemöglichkeiten mit anderen
Kriterien/Konstrukten. Der Test ist weniger valide.

Dilemma

28
Diagnostik Tutorium

MC - Fragen
Jan Schmieder
MC-Fragen

Welche der Validitäten ist keine der drei „Über“-Validitäten?

a. Diskriminante Validität
b. Konstruktvalidität
c. Augenscheinvalidität
d. Inhaltsvalidität
MC-Fragen

Welche der Validitäten ist keine der drei „Über“-Validitäten?

a. Diskriminante Validität
b. Konstruktvalidität
c. Augenscheinvalidität
d. Inhaltsvalidität
MC-Fragen

Was hiervon ist ein echtes Kriterium?

a. Drogenkonsum für Straffälligkeit


b. Verhaltensbeobachtung streitlustigen Verhaltens für Agressivität
c. Neurotizismusfragebogen für Emotionale-Stabilität
d. Aktuelle Position im Unternehmen für Berufserfolg
MC-Fragen

Was hiervon ist ein echtes Kriterium?

a. Drogenkonsum für Straffälligkeit


b. Verhaltensbeobachtung streitlustigen Verhaltens für Agressivität
c. Neurotizismusfragebogen für Emotionale-Stabilität
d. Aktuelle Position im Unternehmen für Berufserfolg
MC-Fragen

Welche Aussagen zur Minderungskorrektur sind wahr?

a. Grundlage des Problems ist der Messfehler


b. Grundlage des Problem sind Reliabilitäten
c. Benutzt werden die einfache, doppelte und dreifache
Minderungskorrektur
d. Nennt man im normalen Sprachgebrauch auch Spearman-Brown-
Formel
MC-Fragen

Welche Aussagen zur Minderungskorrektur sind wahr?

a. Grundlage des Problems ist der Messfehler


b. Grundlage des Problem sind Reliabilitäten
c. Benutzt werden die einfache, doppelte und dreifache
Minderungskorrektur
d. Nennt man im normalen Sprachgebrauch auch Spearman-Brown-
Formel
MC-Fragen

Die Multitrait-Multimethod-Analyse…..

a. Wird genutzt um diskriminante Validität zu bestimmen


b. Wird genutzt um Vorhersagevalidität zu schätzen
c. Beinhaltet mindestens 2 verschiedene Messmethoden
d. Wird genutzt um Konstruktvalidität zu bestimmen
e. Verwendet man in der Hoffnung stets geringe Korrelationen zwischen
den Messmethoden und Konstrukten zu finden
MC-Fragen

Die Multitrait-Multimethod-Analyse…..

a. Wird genutzt um diskriminante Validität zu bestimmen


b. Wird genutzt um Vorhersagevalidität zu schätzen
c. Beinhaltet mindestens 2 verschiedene Messmethoden
d. Wird genutzt um Konstruktvalidität zu bestimmen
e. Verwendet man in der Hoffnung stets geringe Korrelationen zwischen
den Messmethoden und Konstrukten zu finden
Over