Sie sind auf Seite 1von 166

Psychologische Tests

und mehrwertige Logik


Matthias Buntins

Psychologische Tests
und mehrwertige Logik
Ein alternativer Ansatz zur Quantifi-
zierung psychologischer Konstrukte
Matthias Buntins
Bamberg, Deutschland

Zgl. Dissertation an der Technischen Universität Carolo-Wilhelmina zu Braunschweig,


2013

Titel der Dissertation: Die Quantifizierung psychologischer Konstrukte mittels mehr-


wertiger Logik

ISBN 978-3-658-05506-6 ISBN 978-3-658-05507-3 (eBook)


DOI 10.1007/978-3-658-05507-3

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Natio-


nalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de
abrufbar.

Springer VS
© Springer Fachmedien Wiesbaden 2014
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung,
die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zu-
stimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Über-
setzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen
Systemen.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in die-


sem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass
solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu be-
trachten wären und daher von jedermann benutzt werden dürften.

Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier

Springer VS ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe
Springer Science+Business Media.
www.springer-vs.de
Ronja & Katja
Inhaltsverzeichnis

1 Einleitung 11

I Der psychometrische Ansatz – Tests als Messinstru-


mente 13
2 Messen und Testen in der Psychologie 15

3 Der Begriff der Messung 17


3.1 Etymologie und Geschichte des Messbegriffs . . . . . . . . . 17
3.2 Repräsentationale Messtheorie . . . . . . . . . . . . . . . . . 21
3.2.1 Formalismus der repräsentationalen Messtheorie . . 23
3.2.2 Messung und Operationalisierung . . . . . . . . . . . 27

4 Der Begriff des Testens 29


4.1 Etymologie und Geschichte des Testbegriffs . . . . . . . . . . 29
4.2 Geschichtliche Entwicklung des psychologischen Testens . . 31
4.3 Arten psychologischer Tests . . . . . . . . . . . . . . . . . . . 34
4.4 Praktische Bedeutung psychologischer Tests: Diagnostik . . 35
4.5 Naturwissenschaftliche Bedeutung psychologischer Tests:
Theorieüberprüfung . . . . . . . . . . . . . . . . . . . . . . . 36

5 Tests als Messinstrumente 39


5.1 Klassische Testtheorie . . . . . . . . . . . . . . . . . . . . . . . 39
5.1.1 Messtheoretische Evaluation der KTT . . . . . . . . . 41
5.2 Strukturgleichungsmodelle . . . . . . . . . . . . . . . . . . . 42
5.2.1 Messtheoretische Evaluation von SEM . . . . . . . . . 44
5.3 Item Response Theory . . . . . . . . . . . . . . . . . . . . . . 45
5.3.1 Messtheoretische Evaluation der IRT . . . . . . . . . . 47
8 Inhaltsverzeichnis

6 Fazit 49

II Jenseits der Psychometrie – Ein sprachlich-logischer


Ansatz 53
7 Nichtpsychometrische Testtheorie 55

8 Psychologische Konstrukte und ihre Bedeutungen 57


8.1 Psychologische Konstrukte als latente Variablen . . . . . . . 57
8.2 Erklärung vs. Bedeutung . . . . . . . . . . . . . . . . . . . . . 60
8.3 Begriffliche Vagheit in der Psychologie . . . . . . . . . . . . . 61
8.4 Formale Modellierung abstrakter Konstruktbedeutungen . . 63
8.4.1 Fuzzy-Mengen . . . . . . . . . . . . . . . . . . . . . . 63
8.4.2 Anwendung auf psychologische Konstrukte . . . . . 71
8.4.3 Andere Ansätze zur Modellierung semantischer Un-
schärfe mittels Fuzzy-Mengen . . . . . . . . . . . . . 76

9 Tests als Mittel logischer Inferenz 81


9.1 Aussagenlogische Formalisierung klinischer Tests . . . . . . 82
9.1.1 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . 82
9.1.2 Testtheoretische Anwendung – ICD-Diagnosen I . . . 86
9.2 Prädikatenlogische Formalisierung klinischer Tests . . . . . 88
9.2.1 Prädikatenlogik . . . . . . . . . . . . . . . . . . . . . . 89
9.2.2 Testtheoretische Anwendung – ICD-Diagnosen II . . 94

10 Testtheoretische Anwendung mehrwertiger Logiken 97


10.1 Motivation und Geschichte mehrwertiger Logiken . . . . . . 98
10.2 Modellierung von Unbestimmtheit mittels dreiwertiger Aus-
sagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
10.2.1 Dreiwertige Aussagenlogik Ł3 . . . . . . . . . . . . . 101
10.2.2 Testtheoretische Anwendung – ICD-Diagnosen mit
unbestimmter Symptomlage . . . . . . . . . . . . . . 103
10.3 Quantifizierung scharf definierter Konstrukte durch konti-
nuierliche Wahrheitswerte . . . . . . . . . . . . . . . . . . . . 105
10.3.1 Kontinuumwertige Aussagenlogik Łℵ . . . . . . . . . 105
10.3.2 Testtheoretische Anwendung – Quantifizierung von
ICD-Diagnosen . . . . . . . . . . . . . . . . . . . . . . 107
Inhaltsverzeichnis 9

11 Testtheoretische Anwendung unscharfer Logiken 113


11.1 Einführung in die Fuzzy-Logik . . . . . . . . . . . . . . . . . 114
11.2 Quantifizierung unscharf definierter Konstrukte mittels
Fuzzy-Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
11.2.1 Fuzzy Aussagenlogik . . . . . . . . . . . . . . . . . . 115
11.2.2 Fuzzy Prädikatenlogik . . . . . . . . . . . . . . . . . . 123
11.2.3 Testtheoretische Anwendung – Quantifizierung un-
scharf definierter Konstrukte . . . . . . . . . . . . . . 126

12 Diskussion 145
12.1 Übersicht und Vergleich der vorgestellten Ansätze . . . . . . 145
12.2 Empirische Anwendungsmöglichkeiten . . . . . . . . . . . . 147
12.2.1 Anwendungsgebiete . . . . . . . . . . . . . . . . . . . 147
12.2.2 Testkonstruktion . . . . . . . . . . . . . . . . . . . . . 148
12.2.3 Testauswertung . . . . . . . . . . . . . . . . . . . . . . 152
12.2.4 Interpretation von Testwerten . . . . . . . . . . . . . . 155
12.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

A Anhang 161

Symbolverzeichnis 165

Literaturverzeichnis 167
1 Einleitung

Psychologische Tests bilden eins der wichtigsten Standbeine der modernen


Psychologie. Es gibt unzählige Fragebögen, Testbatterien und Skalen, die
zur Erfassung der unterschiedlichsten psychologischen Variablen verwen-
det werden. Intelligenztests, Persönlichkeitsfragebögen, Motivationsinven-
tare usw. spielen nicht nur in der Forschung, sondern auch in verschie-
densten sozialen und politischen Kontexten eine Rolle. Ein großer Teil der
Leistungsdiagnostik, der Personalauswahl sowie die Evaluation psycholo-
gischer und pädagogischer Interventionen stützen sich auf die Ergebnisse
psychologischer Erhebungsverfahren. So werden in Bewerbungsverfahren
nicht selten Intelligenztests oder Persönlichkeitsfragebögen eingesetzt. Ein
anderer Anwendungsbereich ist das Bildungswesen. Hier werden zum Bei-
spiel Fähigkeitstests durchgeführt – ein hohes Testergebnis in einem Test
zum Textverständnis wird im Sinne einer hohen Lesekompetenz interpre-
tiert, ein gutes Ergebnis in einem Rechentest im Sinne eines hohen Zahlen-
verständnisses. Derartige Testergebnisse können erheblichen Einfluss auf
die öffentliche Meinung und auf politische Entscheidungen nehmen.
Auch psychologische Grundlagenforschung greift in vielen Bereichen
auf Tests und Fragebögen zurück. Wie in der angewandten Psychologie
bilden psychologische Testpraktiken den Ausgangspunkt für weitreichende
Schlüsse: Die Formulierung, Überprüfung und Revidierung psychologi-
scher Theorien geschieht stets auf Basis der verwendeten Erhebungsverfah-
ren. Die Bedeutung psychologischer Tests kann daher kaum überschätzt
werden.
Angesichts der Wichtigkeit psychologischer Testverfahren überrascht es
nicht, dass im Laufe der Zeit mehrere formale Ansätze entwickelt wurden,
um den Vorgang des psychologischen Testens zu beschreiben und zu op-
timieren. Die bestehenden Ansätze gehen dabei allesamt davon aus, dass
Tests in der Psychologie die Rolle von Messverfahren einnehmen sollten,
analog zu etablierten Messverfahren in der Physik, beispielsweise einem
Thermometer oder einem Maßband.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_1, © Springer Fachmedien Wiesbaden 2014
12 1 Einleitung

Teil I widmet sich diesem als Psychometrie bezeichneten Ansatz der for-
malen Modellierung psychologischer Testverfahren. Dabei geht es zunächst
um eine Analyse der Begriffe „Messen“ und „Testen“ (Kapitel 3 und 4). Dies
geschieht zum einen historisch-etymologisch, zum anderen aber auch in
formaler Weise. Im Anschluss werden die gängigsten psychometrischen Me-
thoden kurz vorgestellt und hinsichtlich ihrer Eignung für die Etablierung
psychologischer Messinstrumente evaluiert (Kapitel 5). Kapitel 6 zieht ein
Zwischenfazit. Dabei liegt der Fokus zum einen auf der Frage, inwieweit die
Begriffe „Messen“ und „Testen“ sprachlich und konzeptionell voneinander
abgrenzbar sind, und zum anderen, ob die psychometrische Betrachtungs-
weise geeignet ist, um die Auswertung und Interpretation von Tests formal
zu begründen.
In Teil II wird eine von der psychometrischen Sichtweise radikal verschie-
dene Betrachtungsweise psychologischer Tests vorgestellt. Dafür wird in
Kapitel 8 eine Interpretation psychologischer Konstrukte im Sinne sprach-
licher Abstraktionen vorgenommen und formalisiert. Dabei wird auf den
Formalismus der Fuzzy-Mengenlehre zurückgegriffen. Die Kapitel 9 bis 11
ergänzen diesen Formalismus um Methoden der formalen Logik, welche
zur Inferenz des Wahrheitsgehalts bestimmter Aussagen aus Prämissen
mit bekanntem Wahrheitsgehalt verwendet werden kann. Durch die Ein-
führung mehrwertiger Logiken zur Modellierung von Testantworten und
Konstruktausprägungen wird es möglich, quantitative Aussagen über den
Wahrheitsgehalt von Eigenschaftszuschreibungen zu treffen, ohne dass auf
ein Messmodell zurückgegriffen werden muss. Die Ergebnisse der Formali-
sierung von Tests im Rahmen formal-logischer Inferenz werden schließlich
in Kapitel 12 hinsichtlich ihrer praktischen Implikationen und Relevanz
diskutiert.
Teil I

Der psychometrische Ansatz –


Tests als Messinstrumente
2 Messen und Testen in der Psychologie

Inhalt der Psychometrie ist die Entwicklung und Anwendung von Me-
thoden zur Etablierung psychologischer Erhebungen als Messinstrumente.
Die zu diesem Zweck entwickelten Verfahren sind vielfältig und ständi-
gen Neuerungen unterworfen. Kaum ein Gebiet der psychologischen For-
schungsmethodik hat in den letzten Jahren so viele Neuentwicklungen
verzeichnet wie die Psychometrie. Vor allem die Bereiche der Strukturglei-
chungsmodelle und der Item Response Theory stellen äußerst lebendige
Forschungsfelder dar. Trotz unterschiedlicher methodischer Vorgehens-
weisen werden diese Ansätze vereint durch das, was in dieser Arbeit die
„Kernthese der Psychometrie“ genannt werden soll: Psychologische Tests
sollen (i.d.R. nicht direkt beobachtbare) Personeneigenschaften messen.
Diese These kann sowohl a priori als wahr angesehen werden (wie et-
wa im Falle der Klassischen Testtheorie) oder als empirisch zu prüfende
Hypothese (wie im Falle der Item Response Theory). So verschieden psycho-
metrische Ansätze auch sein mögen, letztlich basieren sie auf der Annahme,
Tests seien als Messinstrumente zu betrachten.
Diese Kernannahme ist jedoch nicht unproblematisch. So ist beispiels-
weise oft nicht klar, was genau mit den Begriffen „Messung“ und „Test“
gemeint ist. Daraus resultieren eine ganze Menge theoretischer Fragen be-
züglich der Anwendung und Interpretation psychometrischer Techniken:
Sind alle Tests automatisch Messinstrumente? Handelt es sich dabei um
eine Interpretationsfrage? Kann man empirisch überprüfen, ob ein Test
etwas misst? Welche Konsequenzen ergeben sich, wenn ein Test kein Mess-
instrument ist?
Aufgrund der zentralen Rolle, welche die Begriffe „messen“ und „testen“
für diese Fragen spielen, sollen selbige im Folgenden einer ausgiebigen
begrifflichen Analyse unterzogen und in Hinblick auf ihre Relevanz für die
Psychometrie untersucht werden.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_2, © Springer Fachmedien Wiesbaden 2014
3 Der Begriff der Messung

3.1 Etymologie und Geschichte des Messbegriffs


Die etymologischen Wurzeln des Begriffs „messen“ liegen laut Pfeifer (1993)
in der indogermanischen Wurzel „*me-(d)-“, welche für die Begriffe „wan-
dern, abschreiten, abstecken“ steht. Dies ist der gleiche Stamm, der auch
den Begriffen „Mond“ (ursprünglich vermutlich „Wanderer“) und „Mal/-
Mahl“ (Zeitpunkt, Mahlzeit) zugrunde liegt. Im Griechischen finden sich
verwandte Begriffe wie „medimos“ (lat. „modius“, Scheffel) und „metron“
(lat. „modus“, Maß) (Kluge, 1995). Allerdings findet sich derselbe Wort-
stamm auch in den griechischen Begriffen „medesthai“ (überlegen, für etwas
sorgen, auf etwas bedacht sein) und „medon“ (Herrscher), sowie im lateini-
schen „meditari“ (überlegen, nachdenken), „medicus“ (Arzt, Heiler) und
„modestus“ (bescheiden) (Bluhme, 2005). Neben der Bedeutung des Ab-
schreitens einer Strecke kommen hier zwei weitere Bedeutungen hinzu – die
des Nachdenkens und die des Zuteilens (welche sich in „Herrscher“ und
„bescheiden“ finden lässt). Es bleibt dabei unklar, ob sich die Konnotation
„Nachdenken“ aus der Bedeutung „zuteilen“ herleitet, wie Grimm und
Grimm (2004) vermuten, oder ob sich möglicherweise die Bedeutung des
Nachdenkens direkt aus dem Stamm „wandern, abschreiten“ ableitet. Diese
Bedeutungserweiterungen finden sich auch im modernen Deutsch, etwa in
„beimessen“ oder „ermessen“.
Die etymologische Herkunft des Messbegriffs legt nahe, dass Messun-
gen ursprünglich als das Ergebnis ganz konkreter Operationen verstanden
wurden. Längenmessung wäre demnach nichts anderes als das Abschreiten
einer Strecke oder das Aneinanderlegen gleichlanger Bänder oder Stöcke.
Volumenmessung bestünde schlichtweg darin, ein Gefäß wiederholt bis
zum Rand zu füllen, und Gewichtsmessung wäre schlicht das Austarie-
ren einer Waagschaale mittels gleichschwerer Steine oder Metallstücke. In
diesem frühen Stadium wurde Messung mutmaßlich als konkrete Handlung
verstanden (Schlaudt, 2009).

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_3, © Springer Fachmedien Wiesbaden 2014
18 3 Der Begriff der Messung

Die genannten Operationen haben trotz großer Unterschiede eine grund-


legende Gemeinsamkeit: Ein Objekt wird hinsichtlich einer bestimmten
Eigenschaft mit einem standardisierten Objekt (der so genannten Einheit)
verglichen. Dieses Standardobjekt kann eine Schrittlänge, ein bestimmter
Stock, ein Gefäß oder ein Stein sein. Die grundlegende Frage der Messung
war somit: Wie vielen Standardobjekten entspricht die Eigenschaftsausprä-
gung des zu messenden Objekts? Eine Entfernung von 7 Schritt war somit
keine abstrakte Eigenschaftsausprägung, sondern entsprach dem Ergebnis
einer ganz konkreten Tätigkeit – der Strecke, die man mit 7 Schritten zu-
rücklegt. Ebenso waren 18 Scheffel Weizen nichts weiter als das Volumen
Weizen, welches 18 Gefäße einer standardisierten Größe fassen konnten.
Das Ergebnis dieser Vergleichsoperationen ist mathematisch gesehen ein
einfaches Verhältnis: Die Eigenschaftsausprägung des zu messenden Objekts
geteilt durch die Eigenschaftsausprägung des Standardobjekts.
Im modernen Sprachgebrauch begegnet uns der Begriff der Messung
vor allem im psysikalisch-technischen Bereich. Für den messtechnischen
Kontext ist er durch die Norm DIN 1319 festgelegt. Demnach bezeichnet
Messen das Ausführen von geplanten Tätigkeiten zu einer quantitativen
Aussage über eine Messgröße durch Vergleich mit einer Einheit (Deutsches
Institut für Normung, 1999). Dies entspricht auch der Alltagsauffasung von
Messung, zum Beispiel als das Anlegen eines Zollstocks mit Ablesen der
Länge. Dabei können durchaus auch ganz individuelle Einheiten Gebrauch
finden. Oft „kennt“ man die Länge häufig zurückgelegter Wege, die Größe
bestimmter Gegenstände oder die Dauer oft wiederholter Tätigkeiten. Wann
immer man im Alltag einen Vergleich anstellt zwischen einer Objekteigen-
schaft und der Eigenschaftsausprägung eines bekannten Objekts, entspricht
dies der Durchführung einer Messoperation im ursprünglichen Sinne – als
Vergleich mit einem Standardobjekt.
Messungen und Messergebnisse begegenen uns im Alltag immer wieder
– sei es in Form von Mengenangaben auf Produktverpackungen, als Größen-
angaben in Möbelgeschäften oder in Form von Zeitdauern. Oft hantieren
wir ganz selbstverständlich mit den vorgefundenen Größen. Wir verglei-
chen Produktpreise, berechnen, ob bestimmte Möbel in einen Raum passen,
führen einen Terminkalender etc.
Bei alledem ist uns in der Regel nicht bewusst, dass die angestellten
Berechnungen nur deshalb zu sinnvollen Ergebnissen führen, weil die Er-
gebnisse der durchgeführten Messoperationen ganz bestimmten mathema-
tischen Gesetzmäßigkeiten folgen. Tatsächlich gab es keine mathematische
Theorie messbarer Größen, bevor Hölder (1901) seine Arbeit zur additiven
3.1 Etymologie und Geschichte des Messbegriffs 19

Natur quantitativer Größen1 vorlegte. In Form von sieben Axiomen gibt er


notwendige und hinreichende Bedingungen an, unter welchen eine Mes-
sung im klassischen Sinne theoretisch möglich ist. Hölder fordert zunächst,
dass Eigenschaftsausprägungen immer entweder größer, kleiner oder gleich
einem beliebigen Referenzpunkt auf der Eigenschaftsskala sind (Axiom 1)
und dass es für jede Eigenschaftsausprägung eine größere und kleinere
gibt (Axiom 2). Die Axiome 3 bis 6 beschreiben eine wesentliche Eigen-
schaft, die alle im klassischen Sinne messbaren Eigenschaften aufweisen
müssen: Additivität. Konkret bedeutet dies, dass Eigenschaftsausprägungen
addierbar sind (Axiom 3), dass die Summen von Eigenschaftsausprägungen
stets größer sind als als die einzelnen Ausprägungen (Axiom 4), dass es
stets Eigenschaftsausprägungen gibt, welche den Differenzen beliebiger Ei-
genschaftsausprägungen entsprechen (Axiom 5), sowie dass aufsummierte
Eigenschaftsausprägungen kommutativ sind (Axiom 6). Schließlich fordert
Hölder, dass die Skala kontinuierlich ist (Axiom 7) (Hölder, 1901).
Hölders Axiome können leicht in dem Sinne verstanden werden, dass
es für sie direkte empirische Entsprechungen geben müsse, damit eine Ei-
genschaft messbar sei (z.B. Nagel, 1931). Man spricht in diesem Fall von
extensiven Größen (vgl. Abschnitt 3.2.1). Die Auffassung, nur extensive
Größen seien messbar, führte unter Anderem dazu, dass die Messung psy-
chologischer Größen lange für unmöglich gehalten wurde (Ferguson et
al., 1938, 1940). Begründet wurde diese Annahme damit, dass psychische
Eigenschaften nicht zusammengefügt werden können – sprich, dass es keine
empirische Entsprechung für die von Hölder geforderte Additivität geben
könne.
Laut Michell (1999) handelt es sich bei dieser Interpretation jedoch um ein
Missverständnis, da Hölder keine Relationen zwischen empirischen Objek-
ten, sondern zwischen Eigenschaftsausprägungen beschreibt. Die Forderung
der Additivität beziehe sich somit nicht auf die tatsächliche Zusammenfü-
gung von Objekten mit verschiedenen Eigenschaftsausprägungen, sondern
darauf, dass die Eigenschaftsausprägungen selbst in den entsprechenden
Relationen zueinander stehen. Folgt man dieser Interpretation von Höl-
ders Axiomen, gibt es zumindest theoretisch die Möglichkeit, auch nicht
extensive Größen im klassischen Sinne zu messen.
Die bis heute wohl einflussreichste Lösung des Messproblems in der
Psychologie folgt hingegen einer völlig anderen Rationale: Der Begriff der
1 Mit„quantitativen Größen“ sind Eigenschaften gemeint, welche durch den Vergleich mit ei-
nem Standardobjekt messbar sind – heutzutage würde man von verhältnisskalierten Größen
sprechen
20 3 Der Begriff der Messung

Messung wurde einfach neu definiert. Dieser Ansatz geht auf Stevens (1946)
zurück, welcher bemüht war, die bis dahin gängigen Praktiken der Psy-
chophysik mit dem Konzept der naturwissenschaftlichen Messung über-
einzubringen. In seinem Artikel über Skalenniveaus definiert er Messung
folgendermaßen:
. . . measurement, in the broadest sense, is defined as the as-
signment of numerals to objects or events according to rules.
(Stevens, 1946; S.677)
Diese Definition beinhaltet sowohl die traditionelle Auffassung von Mes-
sung als Vergleich mit einer Einheit als auch sämtliche in der Psychologie
üblichen Testpraktiken. Allerdings werden ebenfalls Prozeduren mit ein-
geschlossen, welche üblicher Weise nicht als Messung bezeichnet werden,
zum Beispiel das Ablesen von Zellennummern im Gefängnis oder das Zu-
ordnen von Postleitzahlen zu Orten. Da die Zahlenzuordnung lediglich
„regelhaft“ sein muss (und nicht replizierbar oder theoretisch begründet),
wären sogar das Notieren von KFZ-Kennzeichen oder das Lesen von Zah-
len im Kaffeesatz als Messungen zu betrachten. Stevens verabschiedet sich
somit vom Konzept der Eigenschaft, die in Messwerte überführt wird und
setzt an seine Stelle eine beliebige Regel, welche Zahlenwerte generiert.
Letztere sind dementsprechend im Hinblick auf Eigenschaftsausprägungen
nicht bedeutungstragend.
Ein alternativer Ansatz beruht auf der Idee der numerischen Eigenschafts-
abbildung. Er geht auf Suppes (1951) zurück, der die Ideen Hölders aufgriff
und zur repräsentationalen Theorie der Messung weiterentwickelte. Die re-
präsentationale Messtheorie fordert, dass Messwerte mehr als regelhaft
zugeordnete Zahlenwerte sind – sie sollen Eigenschaftsausprägungen wider-
spiegeln, welche auf empirisch beobachtbaren Vergleichsoperationen basieren.
Diese Vergleichsoperationen werden in Form mathematischer Relationen
beschrieben. Dementsprechend wird „Messung“ als numerische Abbildung
empirischer Relationen definiert. Diese Definition ist allgemeiner als die klas-
sische Auffassung von Messung, da sie auch die numerische Abbildung
nicht additiver Größen mit einbezieht. Gleichzeitig beinhaltet sie jedoch
eine strukturelle Beziehung zwischen Messwerten und entsprechenden Ei-
genschaften. Nur wenn für eine Eigenschaft ganz bestimmte Bedingungen
erfüllt sind, lässt sie sich auch bedeutungsvoll in Zahlenwerte abbilden
(Finkelstein & Leaning, 1984). Interessanter Weise ermöglicht der formale
Rahmen der repräsentationalen Messtheorie auch die Abbildung quantitati-
ver Strukturen (im Sinne Hölders), die ohne eine empirische Entsprechung
3.2 Repräsentationale Messtheorie 21

der Addition auskommen. Als Beispiele seien Additiv-Verbundene Struk-


turen (Luce & Tukey, 1964), Differenzstrukturen (Suppes, Krantz, Luce &
Tversky, 1989) oder Bisektionsstrukturen (Pfanzagl, 1968) genannt. Durch
diese Neuentwicklungen wurde es nunmehr möglich, auch für psycholo-
gische Variablen (die in aller Regel nicht ohne Weiteres zusammenfügbar
sind) Messprozeduren zu entwickeln.
Die repräsentationale Messtheorie stellt somit einen konsistenten theore-
tischen Rahmen für die Konzeptionalisierung des Messbegriffs dar, welcher
allgemein genug ist, um in der Psychologie angewandt zu werden. Dabei
werden die wesentlichen Aspekte des klassischen Messbegriffs beibehalten.
Daher soll dieser Ansatz als Ausgangspunkt für die in Kapitel 5 vorzuneh-
mende Bewertung psychometrischer Methoden dienen. Zu diesem Zweck
wird die repräsentationale Messtheorie im Folgenden ausführlicher darge-
stellt.

3.2 Repräsentationale Messtheorie


Ausgehend von den mathematischen Vorarbeiten Hölders schlug Suppes
(1951) vor, quantitative Variablen in Form empirischer relationaler Strukturen
zu spezifizieren. Statt den Messvorgang mit seinen dazugehörigen konkre-
ten Operationen zu fokussieren, lenkte er somit das Augenmerk auf die theo-
retische Verbindung zwischen (numerischen) Messergebnissen und (qualita-
tiven) empirischen Phänomenen. Als formalen Rahmen wählte Suppes den
Weg der mengentheoretisch basierten Axiomatisierung. „Axiome“ sind dabei
nicht im Sinne ungeprüft vorausgesetzter Grundannahmen zu verstehen,
sondern als eine Menge (möglichst logisch unabhängiger) Aussagen, aus
welchen sich alle weiteren Aussagen einer Theorie ableiten lassen. Axiome
in diesem Sinne werden nicht einfach als wahr angenommen, im Gegenteil,
sie stellen die elementaren Hypothesen empirischer Theorien dar. Mengen-
theoretisch sind Axiomensysteme dann, wenn die Axiome sich auf die
Bedingungen beziehen, die für bestimmte Mengen und deren Elemente
gelten sollen.
Auf diese Weise wollte Suppes die Lücke zwischen empirischen Struktu-
ren (welche von Natur aus keine Zahlen enthalten) und Messergebnissen
schließen. Messergebnisse sollten numerische Repräsentationen empiri-
scher Strukturen darstellen. Diese sollten in Form mengentheoretischer
Axiomensysteme beschrieben werden, welche notwendige und hinreichen-
de Bedingungen für die angestrebte numerische Repräsentation bereitstel-
22 3 Der Begriff der Messung

len sollten. Im Idealfall sollten die Axiome darüber hinausgehend empirisch


überprüfbar sein. Aufgabe der Messtheorie sei es nun, mathematisch zu zei-
gen, wie empirische Systeme beschaffen sein müssen, damit sie numerisch
repräsentierbar (und in diesem Sinne messbar) sind.
Suppes begriff Messung als Abbildung empirischer Strukturen in nume-
rische Strukturen und kann somit als erster Vertreter der repräsentatio-
nalen Messtheorie angesehen werden. Gleichzeitig setzte er mit seinem
mengentheoretisch-axiomatischen Ansatz einen bis heute erhaltenen Stan-
dard zur Formulierung messtheoretischer Arbeiten.
Suppes initiierte einige Beiträge zur konkreten Anwendung des neuen
messtheoretischen Programms, indem er möglicherweise relevante empi-
rische Strukturen axiomatisierte und mathematisch zeigte, in welche Art
numerische Repräsentation sie sich einbetten lassen (Suppes, 1951; Suppes
& Winet, 1955; Scott & Suppes, 1958). Nach Luce und Narens (1994) lässt
sich das grundsätzliche Vorgehen dabei in vier Schritte unterteilen:
1. Es muss ein empirisches System festgelegt werden, welches sich durch
mindestens eine nichtleere Menge empirischer Objekte und mindes-
tens eine empirische Relation beschreiben lässt.
2. Die Eigenschaften dieses empirischen Systems werden in Form (mög-
lichst direkt testbarer) Axiome spezifiziert.
3. Es muss eine Menge numerischer Strukturen identifiziert werden, in
welche eine homomorphe Abbildung des beschriebenen empirischen
Systems möglich ist. Die Existenz einer derartigen numerischen Ab-
bildung wird in Form eines so genannten Repräsentationstheorems for-
muliert, welches mathematisch beweisbar sein muss.
4. Es muss spezifiziert werden, wie sich die Elemente der im Repräsenta-
tionstheorem beschriebenen Menge an Homomorphismen zueinander
verhalten. Dies wird mittels eines Eindeutigkeitstheorems bewerkstel-
ligt, welches die Klasse der mathematischen Funktionen spezifiziert,
durch die die Homomorphismen ineinander überführt werden kön-
nen. Auch das Eindeutigkeitstheorem muss mathematisch beweisbar
sein.
Eine Messung liegt dann vor, wenn eine Prozedur existiert, die eine empiri-
sche Struktur homomorph in eine numerische Struktur abbildet. Anders als bei
der traditionellen Auffassung von Messung werden in der repräsentatio-
nalen Messtheorie empirisch testbare Bedingungen („Axiome“) angegeben,
3.2 Repräsentationale Messtheorie 23

die es ermöglichen, darüber zu entscheiden, ob eine bestimmte Prozedur


eine Messung darstellt oder nicht. Der traditionelle Fall, dass Messen im
Vergleich mit einer Einheit besteht, lässt sich als Spezialfall des repräsenta-
tionalen Messbegriffs auffassen, bei welchem die abgebildete empirische
Struktur quantitativ (im Sinne Hölders) ist. Gleichzeitig stellt die repräsenta-
tionale Messtheorie einen theoretischen Hintergrund bereit, vor dem sich
Stevens’ „Skalenniveaus“ explizieren und begründen lassen – unter der
Voraussetzung, dass eine Messprozedur in einer homomorphe Abbildung
resultiert, entsprechen die „zulässigen Skalentransformationen“ der Klas-
se von Funktionen, welche im Eindeutigkeitstheorem spezifiziert wurden.
Skalenniveaus können vor diesem Hintergrund als Klasse von Homomor-
phismen definiert werden, welche über äquivalente Eindeutigkeitstheoreme
verfügen.

3.2.1 Formalismus der repräsentationalen Messtheorie


Um ein tieferes Verständnis für die oben genannten Konzepte zu gewinnen,
ist es notwendig, sich mit dem formalen Rahmen der repräsentationalen
Messtheorie zu befassen. Dieser soll im Folgenden vorgestellt werden. Die
Darstellung orientiert sich dabei an Gigerenzer (1981). Es sei an dieser
Stelle darauf hingewiesen, dass der Formalismus der repräsentationalen
Messtheorie auf deterministischen Strukturen basiert, was die Behandlung
fehlerbehafteter Messergebnisse nicht ohne Weiteres ermöglicht. Ansätze zu
entsprechenden probabilistischen Erweiterungen finden sich zum Beispiel
bei Falmagne (1976, 1979); Heyer und Mausfeld (1987); Heyer (1990), sowie
bei Heyer und Niederée (1992). Da diese Erweiterungen nicht essentiell für
die Bedeutung des Messbegriffs sind, wird an dieser Stelle nicht näher auf
sie eingegangen.
Die zentralen Begriffe der repräsentationalen Messtheorie sind die des
empirischen bzw. numerischen Relativs sowie der homomorphen Abbil-
dung.
Definition 1. Ein System  B, Q1 , . . . , Qn , bestehend aus genau einer Menge nu-
merischer Objekte B (z.B. Zahlen oder Vektoren) und mindestens einer numerischen
Relation Qi auf dieser Objektmenge, heißt numerisches Relativ.
Numerische Relative werden auch numerische Strukturen, numerische
Systeme oder numerische Relationensysteme genannt. Einige Beispiele für
numerische Relative sind die Menge der reellen Zahlen mit der Größer-
Gleich-Relation (Schwache-Ordnungs-Relation), Addition und Division
24 3 Der Begriff der Messung

R, ≥, +, ÷, oder die Menge der natürlichen Zahlen mit Größer-Gleich-
Relation und Addition N, ≥, +.
Analog dazu lässt sich ein empirisches Relativ definieren:
Definition 2. Ein System  A1 , . . . , As , R1 , . . . , Rm , bestehend aus mindestens
einer2 Menge empirischer Objekte Ai (z.B. Bäume oder Menschen) und mindestens
einer empirischen Relation R j auf dem kartesischen Produkt mindestens einer
dieser Objektmengen, heißt empirisches Relativ.
Synonym zum Begriff des empirischen Relativs sind die Bezeichnungen
empirische Struktur, empirisches System oder empirisches Relationensystem.
Ein empirisches Relativ ist zum Beispiel die Menge der erlernbaren Berufe
B mit einer empirischen Dominanzrelation , die darin besteht, dass eine
bestimmte Person einen Beruf bi lieber erlernen will als einen Beruf b j .
Das resultierende empirische Relativ wäre dann  B, . Im Gegensatz zur
Größer-Relation > bezeichnet  keine Relation zwischen Zahlen, sondern
zwischen empirischen Objekten. Es geht also nicht darum, ob bestimmte
den Objekten zugeordnete Zahlen größer sind, sondern – im obigen Fall –
um das direkte (qualitative) Urteil einer bestimmten Person. Empirische
Relationen beziehen sich in der repräsentationalen Messtheorie auf ganz
konkrete, elementare Beobachtungseinheiten, welche einem geordneten
Paar empirischer Objekte entweder zukommt oder nicht.
Als nächstes zentrales Konzept soll der Begriff der Abbildung und des
Homomorphismus eingeführt werden.
Definition 3. Eine linkstotale, rechtseindeutige Relation A → B auf A × B wird
Abbildung der Objektmenge A in die Objektmenge B genannt.
„Linkstotal“ bedeutet, dass jedem Objekt aus A ein Objekt aus B zu-
geordnet wird, jedoch nicht unbedingt jedem Objekt aus B eines aus A.
„Rechtseindeutig“ steht für den Sachverhalt, dass jedem Objekt aus A genau
ein Objekt aus B zugeordnet wird. Davon abzugrenzen sind so genannte
eineindeutige Abbildungen, welche sowohl rechtseindeutig als auch linksein-
deutig sind.
Messung soll nun darin bestehen, dass die empirischen Objekte in A
auf numerische Objekte (i.d.R. Zahlen) abgebildet werden, und zwar so,
dass die relationale Struktur erhalten bleibt. Konkret bedeutet dies, dass em-
pirischen Objekten (z.B. zwei Berufen), die in einer bestimmten Relation
2 Empirische Relationen treten im Gegensatz zu numerischen Relationen auch zwischen
verschiedenen Objekttypen auf (z.B. zwischen Personen und Fragebogenitems). Daher
wird die Definition an dieser Stelle etwas weiter gefasst als beim numerischen Relativ.
3.2 Repräsentationale Messtheorie 25

zueinander stehen (z.B. Beruf A wird gegenüber Beruf B bevorzugt), nu-


merische Objekte (z.B. reelle Zahlen) zugeordnet werden, so dass zwischen
den Zahlen Relationen bestehen, die dieselben Eigenschaften aufweisen
wie die empirischen (z.B. weist die numerische Größer-als-Relation diesel-
ben Eigenschaften auf wie eine empirische Dominanzrelation). Um dieser
Forderung zu genügen, müssen das abzubildende empirische Relativ und
das entsprechende numerische Relativ die gleiche Anzahl Relationen der-
selben Stelligkeit aufweisen (eine Relation ist n-stellig, wenn sie auf einem
A1 × · · · × An fachen kartesischen Produkt definiert ist) – man sagt auch,
sie müssen vom gleichen Typ sein.
Definition 4. Wenn zwei Systeme  A1 , . . . , As , R1 , . . . , Rn  und  B, Q1 , . . . , Qn 
vom gleichen Typ sind und für alle Objekte a, b ∈ A und für alle i = 1, 2, . . . , n
gilt Ri ( a, b) → Qi ( f ( a), f (b)), so heißt eine Abbildung f : A → B Homomor-
phismus.
Homomorphismen werden auch homomorphe Abbildungen oder strukturer-
haltende Abbildungen genannt. Dem bisher eingeführten Formalismus fol-
gend, kann nunmehr eine explizite Definition des Messbegriffs gegeben
werden:
Definition 5. Ein Homomorphismus aus einem empirischen Relativ A in ein
numerisches Relativ B heißt Messung. Man sagt in diesem Fall auch: A wird
durch B repräsentiert.

Beispiel: Extensive Messung


Zur Veranschaulichung der obigen Ausführungen soll im Folgenden eine
illustrative Anwendung der repräsentationalen Messtheorie beschrieben
werden – die Repräsentation extensiver empirischer Relative. Extensive
Relative sind Bestandteil des täglichen Lebens und deshalb vergleichsweise
einfach vorstellbar. Sie liegen einer Vielzahl physikalischer Messungen (z.B.
Länge, Zeit, Masse) zu Grunde und weisen formale Ähnlichkeiten mit den
Axiomen von Hölder (1901) auf. Daher sollen sie als einführendes Beispiel
für das von Luce und Narens (1994) beschriebene Vorgehen dienen. Die
Axiomatisierung folgt dabei Krantz, Luce, Suppes und Tversky (1971).

1. Zunächst muss ein empirisches Relativ definiert werden. Es sei dies


eine Menge von Steinen S, welche in die Schalen einer Balkenwaage
gelegt werden können. Als empirische Relationen sei das Vergleichen
der Steine mittels der Balkenwaage (dies sei eine Dominanzrelation
26 3 Der Begriff der Messung


auf S × S) festgelegt, sowie das „Zusammenfügen“ von Steinen,
indem sie gemeinsam in eine der Waagschalen gelegt werden (dies
sei als Operation ⊕ auf S × S → S spezifiziert)3 .
2. Als nächstes werden die vermuteten Charakteristika des obigen empi-
rischen Relativs S,
, ⊕ in Form eines Axiomensystems formuliert.
Dabei wird statt ( a
b) ∧ (b
a) die Kurzschreibweise a ∼ b ver-
wendent. ( a
b) ∧ ¬ (b
a) wird als a  b abgekürzt.
a)
ist reflexiv: ∀ a ∈ S : a
a.
b)
ist transitiv: ∀ a, b, c ∈ S : ( a
b) ∧ (b
c) → ( a
c).
c)
ist verbunden: ∀ a, b ∈ S : ( a
b) ∨ (b
a).
d) ⊕ ist schwach assoziativ: ∀ a, b, c ∈ S : a ⊕ (b ⊕ c) ∼ ( a ⊕ b) ⊕ c.
e) S,
, ⊕ ist monoton:
∀ a, b, c ∈ S : ( a
b) ↔ ( a ⊕ c)
(b ⊕ c) ↔ (c ⊕ a)
(c ⊕ b).
f) S,
, ⊕ ist positiv: ∀ a, b, c ∈ S : ( a ⊕ b)  a.
g) S,
, ⊕ ist archimedisch: ( a
b) → ∀c, d ∈ S : ∃n ∈ N, so
dass (na ⊕ c)
(nb ⊕ d) mit n definiert als: 1a = a, (n + 1) a =
na ⊕ a.
3. Aus den genannten Axiomen wird nun folgendes Repräsentationstheo-
rem hergeleitet: Gelten die Axiome 2a bis 2g für ein empirisches Relativ
S,
, ⊕, so existiert eine reellwertige Funktion Φ auf S (Φ : A → R ), so
dass gilt ∀ a, b ∈ S :
a) a
b → Φ ( a) ≥ Φ (b);
b) Φ ( a ⊕ b) = Φ ( a) + Φ (b).
4. Schließlich wird folgendes Eindeutigkeitstheorem abgeleitet: Gelten die
Axiome 2a bis 2g für ein empirisches Relativ S,
, ⊕, so erfüllt eine Funk-
tion Φ ebenfalls die Bedingungen 3a und 3b, dann und genau dann, wenn
∃α > 0, so dass Φ = αΦ.
Die ersten drei Axiome beschreiben die Eigenschaften der empirischen
Dominanzrelation. Sie soll reflexiv, transitiv und verbunden sein und stellt
3 Operationen sind Abbildungen aus dem kartesischen Produkt einer Menge mit sich selbst
in die ursprüngliche Menge – das heißt jedem geordneten Paar aus S × S wird genau ein
Objekt aus S zugeordnet. Da Abildungen gemäß Definition 3 lediglich eine spezielle Art
der Relation sind, kann die Zusammenfügeoperation ⊕ auch als dreistellige Relation auf
S × S × S charakterisiert werden.
3.2 Repräsentationale Messtheorie 27

somit eine schwache Ordnung dar. Das bedeutet, dass alle Objekte in S sich
in eine eindeutige Rangfolge hinsichtlich der verglichenen Eigenschaft brin-
gen lassen müssen, wobei es jedoch nicht ausgeschlossen ist, dass mehrere
Objekte auf der gleichen Stufe dieser Rangordnung stehen. Diese Charakte-
risierung allein würde bereits ausreichen, um einen Homomorphismus des
empirischen Systems S,
 in die reellen Zahlen zu ermöglichen, welcher
eindeutig bis auf monotone Transformationen ist. Die Schwache-Ordnungs-
Axiome garantieren somit eine Messung auf Ordinalskalenniveau.
Um eine Abbildung der Struktur auf Intervallskalenniveau zu ermög-
lichen, werden in den folgenden Axiomen bestimmte Eigenschaften für
die Zusammenfügeoperation ⊕ formuliert. Die empirische Zusammenfü-
geoperation soll schwach assoziativ sein, das heißt, es muss egal sein, in
welcher Reihenfolge man Objekte zusammenfügt, das Resultat muss stets
gleich sein. Ferner wird Monotonie gefordert. Das bedeutet, dass die Rang-
folge von Objekten nicht verändert wird, wenn man zu jedem Objekt der
Rangfolge ein konstantes Objekt hinzufügt. Positivität bedeutet schlichtweg,
dass ein Objekt niemals größer sein kann als die Kombination dieses Ob-
jekts mit einem beliebigen anderen. Schließlich wird gefordert, dass die
gesamte Struktur S,
, ⊕ archimedisch ist. Dieses Axiom bezieht sich auf
eine Eigenschaft so genannter Standardsequenzen (das sind Abfolgen von
Eigenschaftsausprägungen mit identischem Abstand, welche durch das
wiederholte Zusammenfügen eines Objekts mit sich selbst gebildet werden
– also z.B. ein Zollstock). Es bedeutet, dass egal, wie groß der Unterschied
zwischen zwei Objekten ist, er stets durch die Zusammenfügung mit zwei
Standardsequenzen identischer Objektzahl ausgeglichen werden kann. Dies
ist genau dann der Fall, wenn alle streng begrenzten Standardsequenzen
endlich sind (Krantz et al., 1971).
Extensive Messstrukturen finden sich in vielen empirischen relationalen
Systemen, die physikalischen Größen zugrunde liegen (z.B. Länge, Gewicht,
Zeitdauer). In der Psychologie ist diese Art Struktur eher selten, da es
mit großen Schwierigkeiten verbunden ist, für psychologische Variablen
empirische Zusammenfügeoperationen zu definieren.

3.2.2 Messung und Operationalisierung


Die vorangehenden Abschnitte haben beschrieben, wie messtheoretisch
begründet werden kann, dass bestimmte empirische relationale Systeme in
numerische relationale Systeme abbildbar sind. Die Frage nach der mess-
theoretischen Begründung ist jedoch nicht identisch mit der konkreten
28 3 Der Begriff der Messung

Umsetzung der resultierenden Messung. Oft gibt es mehr als eine Mög-
lichkeit, Objekten Zahlen zuzuordnen, welche die empirischen Relationen
erhalten. Diese reichen vom direkten Vergleich mit einer Einheit über den
Gebrauch von Standardsequenzen bis hin zur direkten Konstruktion der
numerischen Abbildung aus einem System empirischer Ungleichungen.
Die konkrete Umsetzung der Zahlenzuordnung wird Operationalisierung
genannt. Eine Operationalisierung besteht in einer konreten Handlungsan-
weisung, die im gewünschten Homomorphismus resultieren muss. Ope-
rationalisierung in diesem Sinne muss abgegrenzt werden vom Konzept
der „operationalen Definition“, welches die Operation als Definition eines
abstrakten Begriffs versteht. Diese Unterscheidung ist insbesondere für
die folgende Abgrenzung zwischen psychologischen Tests und psychologi-
schen Messungen von Bedeutung.
4 Der Begriff des Testens

4.1 Etymologie und Geschichte des Testbegriffs


Der Begriff „Test“ geht laut Wermke, Klosa, Kunkel-Razum und Scholze-
Stubenrecht (2001) auf den indogermanischen Stamm *ters- (in etwa „dör-
ren“) zurück. Dieser findet sich beispielsweise im lateinischen „testum“
(Geschirr, Schüssel) mit dem Stamm „testa“ (Platte, Deckel, Tonschale) wie-
der. Daraus leitet sich das altfranzösische „test“ ab, welches „irdener Topf,
Tiegel“ bedeutet (Wermke et al., 2001; Pfeifer, 1993; Bluhme, 2005)1 . Das
altfranzösische Wort „test“ hatte in der Sprache der Bergleute noch eine
übertragende Bedeutung, nämlich das Prüfen der Qualität von Edelmetal-
len durch eine Schmelzprobe (wofür der entsprechende Tiegel verwendet
wurde). Diese ursprüngliche Bedeutung findet sich bis ins neunzehnte
Jahrhundert auch im deutschen Sprachgebrauch (Pfeifer, 1993). Aus der
Qualitätsprüfung mittels Schmelztiegel wurde im englischen Wort „test“
das Prüfen durch einen Eignungsversuch und schließlich allgemein eine
Zustands- oder Qualitätsprüfung. Anfang des zwanzigsten Jahrhunderts
wurde der Begriff „Test“ in eben dieser Bedeutung ins Deutsche übernom-
men (Wermke et al., 2001). Diese Grundbedeutung findet sich bis heute im
Alltagsgebrauch des Begriffs, zum Beispiel wenn von „Produkttests“ oder
„Schwangerschaftstests“ die Rede ist.
In der psychologischen Fachsprache wird das Wort „Test“ heutzutage mit
einer etwas anderen Bedeutung verwendet. Gregory (2004) definiert Tests
sehr allgemein als standardisierte Prozedur zur Verhaltenserhebung und de-
ren Beschreibung mittels Kategorien oder Zahlenwerten. In ähnlicher Weise
beschreibt Friedenberg (1995) psychologische Tests als spezifische Proze-
duren, um Informationen über Personen zu erhalten und in Zahlen oder
Kennwerte zu überführen. Während diese Definitionen sich ausschließlich

1 Einealternative etymologische Herleitung findet sich bei Bluhme (2005), welcher den alt-
französischen Begriff „test“ auf das lateinische „testis“ (Zeuge) zurückführt.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_4, © Springer Fachmedien Wiesbaden 2014
30 4 Der Begriff des Testens

auf die formale Beschaffenheit von Tests beziehen, bezieht Krauth (1995)
eine inhaltliche Komponente mit ein, indem er Tests als bestehend aus
einer Menge von Reizen und einer Vorschrift, die den Reaktionsmustern
Ausprägungen latenter Variablen zuordnet, konzeptionalisiert. Noch expli-
ziter werden Lienert und Raatz (1998), welche einen psychologischen Test
definieren als „. . . wissenschaftliches Routineverfahren zur Untersuchung
eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit
dem Ziel einer möglichst quantitativen Aussage über den relativen Grad
der individuellen Merkmalsausprägung“ (S.1). J. Rost (2004) ergänzt diese
Definition um den Aspekt der Erhebung qualitativer Merkmale.
All diesen Definitionen ist gemeinsam, dass sie Tests als Mittel zur stan-
dardisierten Informationsgewinnung über Personen betrachten, deren Er-
gebnis in der Regel Zahlenwerte sind. Diese können entweder als bloße
Beschreibung verstanden werden oder als Merkmalsausprägungen. Auffällig
ist die Veränderung der Grundbedeutung „Prüfung“ in Richtung „Quantifi-
zierung“. Es geht nicht mehr in erster Linie um das Überprüfen bestimmter
Qualitäts- bzw. Eignungskriterien, sondern um die Generierung von Zahlen
oder Kennwerten. Die Definitionen von Lienert und Raatz (1998), Krauth
(1995) und J. Rost (2004) fügen darüber hinaus den Aspekt der Merkmalser-
fassung in das Konzept des Testens ein. Dadurch wird das Anwendungsge-
biet psychologischer Tests beschränkt auf solche standardisierte Prozeduren,
welche zu Messungen führen.
Es ist fraglich, wie sinnvoll die Vermischung des Testkonzeptes mit dem
des Messens ist. Würde man dieser Auffassung folgen, wären Tests, deren
Ergebnisse keine Messungen darstellen, per Definition keine Tests mehr.
Wenn sich zum Beispiel für einen Intelligenztest herausstellt, dass er dem
entsprechenden Messmodell nicht genügt (wie etwa die Matrizentests von
Raven (1965), welche laut Formann (1979) nicht raschskalierbar sind), dürfte
man ihn fortan nicht mehr als Intelligenztest bezeichnen.
Dies entspricht nicht dem tatsächlichen Sprachgebrauch praktizierender
und forschender Psychologen (es existiert nicht einmal ein Wort für „Tests,
bei denen sich herausgestellt hat, dass sie keine Messinstrumente sind“).
Deshalb soll im Folgenden den rein formalen Definitionen gefolgt werden,
die Tests unabhängig vom Konzept der Messung beschreiben. Ein Test ist
ein Test allein aufgrund seiner formalen Beschaffenheit als standardisierte
Erhebungsprozedur zur Gewinnung von personengebundenen Zahlenwer-
ten. Ob es sich dabei um theoretisch begründete Messwerte oder lediglich
um beschreibende Kennwerte handelt, ist demnach keine definitorische,
sondern eine empirische Frage.
4.2 Geschichtliche Entwicklung des psychologischen Testens 31

4.2 Geschichtliche Entwicklung des


psychologischen Testens
Die Ursprünge des modernen psychologischen Testens lassen sich bis ins
Ende des 19. Jahrhunderts zurückverfolgen. Eine der ersten Abhandlungen
über Methoden zur Intelligenzprüfung stammt von Rieger (1888). Rieger
gibt in seiner Arbeit Anweisungen zur Überprüfung von Wahrnehmnung,
Gedächtnis, Kombinationfähigkeit etc. – ohne dabei jedoch eine Anzahl
spezifischer Aufgaben zusammenzustellen. Auch wird die Beurteilung der
Leistung als „normal“ bzw. „abnormal“ der Einschätzung des Testenden
überlassen. Auch Ebbinghaus (1897) beschäftigte sich bereits ausgiebig mit
der Prüfung geistiger Fähigkeiten, vor allem im schulischen Kontext.
Etwa zur gleichen Zeit promovierte McKeen Cattell bei Wilhelm Wundt
zum Thema „Psychometrische Untersuchungen“ (Lamberti, 2006). Wäh-
rend bei Rieger ein klinisch motiviertes diagnostisches Interesse vorlag,
verfolgte McKeen Cattell (1890), geprägt durch Wundts experimentelle
Psychologie, ein naturwissenschaftliches Ziel: die Quantifizierung und den
objektiven Vergleich kognitiver Fähigkeiten. Er schlug eine Reihe von Kenn-
werten vor, die unter standardisierten Bedingungen gewonnen werden.
Größtenteils handelt es sich bei den Testbestandteilen um basale Wahrneh-
mungsaufgaben und Reaktionszeiten, aber auch der Händedruck und die
Anzahl der nach einmaligem Hören behaltenen Buchstaben wurden in ihrer
Funktion als psychologische Messwerte untersucht.
Eher diagnostisch motiviert ging Ziehen (1908) vor. Er kritisierte das zu
wenig standardisierte Vorgehen früherer Intelligenztestungen und schlug
stattdessen konkrete Aufgaben mit vorgegebenem Auswertungsschema
vor. Das Interesse, intelligenzgeminderte Kinder zu identifizieren und zu
selektieren, war ebenfalls Triebfeder für Binet und Simon, welche 1904 den
ersten wirklichen Intelligenztest der Welt herausbrachten (Gregory, 2004;
Lamberti, 2006). Binet und Simon orientierten sich am normalen Entwick-
lungsverlauf von Kindern in Bezug auf bestimmte kognitive, verbale und
teilweise auch motorische Fähigkeiten, welche sie in Bezug auf schulische
Leistungen für relevant hielten. Die Aufgaben des Binet-Simon-Tests wa-
ren nach Schwierigkeit gestaffelt, wobei davon ausgegangen wurde, dass
es eine allgemeine Aufgabenschwierigkeit in Abhängigkeit vom Alter der
Kinder gebe. Ferner handelte es sich um klar definierte konkrete Handlungs-
aufgaben mit genau vorgegebenen Instruktionen. Damit wurde erstmals
die Art von Standardisierung und Objektivierung gewährleistet, die mo-
32 4 Der Begriff des Testens

derne psychologische Tests auszeichnet. Ebenfalls eine Neuerung stellte


die Verwendung von Altersnormen dar. Es wurde nicht mehr das absolute
Testergebnis zu interpretieren versucht, sondern die relative Plazierung
eines Kindes in Bezug zum Durchschnitt seiner Altersgruppe. Dies wurde
durch Errechnen des so genannten „Intelligenzalters“ bewerkstelligt – die
Altersgruppe, in welcher die erbrachte Leistung zu erwarten wäre. Auch
diese Art der Auswertung hat sich bis heute gehalten.
Der Binet-Simon-Test wurde bereits 1908 in einer stark überarbeiteten
Version neu aufgelegt (Binet & Simon, 1908). Eine Übersetzung ins Deutsche
folgte wenige Jahre später (Bobertag, 1911, 1912). In den USA wurde eine
übersetzte Version von Goddard (1910) eingeführt und großflächig einge-
setzt. Eine theoretische Aufarbeitung findet sich bei Stern (1912), welcher
unter anderem die Auswertung des Binet-Simon-Tests nachhaltig beeinfluss-
te, indem er vorschlug, das „Intelligenzalter“ am Lebensalter zu relativieren
und das Ergebnis mit 100 zu multiplizieren. Den so berechneten Wert nannte
er „Intelligenzquotient“. Mit der Überarbeitung von Terman (1916), wur-
de der Binet-Simon-Test unter dem Namen Stanford-Binet-Intelligence-Scale
sehr populär und ist seitdem weit verbreitet. Ernsthafte Konkurrenz kam
erst mit den Wechsler Intelligence Scales auf (Wechsler, 1949). Terman passte
auch die Definition des Intelligenzquotienten an, so dass sie für Erwach-
sene verwendbar wurde. Dazu ließ er die ursprüngliche Konzeption des
Intelligenzalters fallen und führte stattdessen die relative Abweichung vom
durchschnittlichen Testscore einer Bezugspopulation ein, welche – entspre-
chend transformiert – für Kinder ähnliche Werte erreicht wie der Sternsche
IQ (Amelang & Bartussek, 2006).
Neben diesen diagnostisch motivierten Ansätzen entwickelte sich von
Seite der Differentiellen Psychologie ein verstärktes naturwissenschaftli-
ches Interesse an der Intelligenztestung und Intelligenzforschung. Ein ers-
ter Entwurf der bis heute populären Generalfaktor(g)-Theorie wurde von
Spearman (1904) vorgelegt. Nach dieser Theorie liegt allen kognitiven Leis-
tungen eine allgemeine Intelligenzkomponente zu Grunde (der g-Faktor).
Dieser Generalfaktor wird jeweils ergänzt durch eine spezifische Fähigkeits-
komponente, so dass sich in jeder kognitiven Leistung sowohl spezifische
Fähigkeiten als auch generelle Intelligenz widerspiegeln. Spearman verwen-
dete für seine Untersuchungen eine eigens entwickelte statistische Methode
– die Faktorenanalyse. Als Alternative zur g-Faktor-Theorie entwickelte
Thurstone (1938) eine komponentielle Intelligenztheorie, welche mehrere
domänenspezifische Primärfaktoren postuliert. Der Versuch einer Annä-
herung beider Modellvorstellungen wurde schließlich von Cattell (1963)
4.2 Geschichtliche Entwicklung des psychologischen Testens 33

unternommen, welcher die multiplen Komponenten Thurstones in einem


hierarchischen Modell der Intelligenz mit zwei Primärfaktoren – der fluiden
(entspricht inhaltlich in etwa dem g-Faktor) und der kristallinen Intelligenz
– mit einbezog. Trotz einiger Neuentwicklungen im Bereich der Intelligenz-
forschung (z.B. Jäger, 1984) bilden diese Modelle bis heute die theoretische
Basis der meisten Intelligenztests (vgl. P. Kline, 2000).
Die ersten Gruppentests wurden von Terman eingeführt, was die Durch-
führung von Tests deutlich ökonomischer machte (Lienert & Raatz, 1998).
Das machte psychologische Tests unter anderem für Zwecke der Eignungs-
untersuchungen im Rahmen der militärischen Musterung interessant. Dies
leitete die Entwicklung verschiedener Armee-Eignungstests ein, zum Bei-
spiel den Alpha-Test von Otis (1918), welcher in den USA eingesetzt wurde.
Im Kontext der Soldatenauswahl wurde mit dem Personal Data Sheet auch
der erste Persönlichkeitstest entwickelt (Woodworth, 1919). Er bestand aus
116 Fragen, welche die getesteten Personen mit „Ja“ oder „Nein“ beantwor-
ten konnten und entspricht somit dem noch heute verwendeten Schema des
Selbstbericht-Tests. Die Fragen bezogen sich fast ausschließlich auf eindeu-
tig problematische Verhaltensweisen und Symptomatiken (z.B. „Haben Sie
das starke Verlangen, Selbstmord zu begehen?“). Das Personal Data Sheet
kann als Vorreiter des Minnesota Multiphasic Personality Inventory betrachtet
werden (Hathaway & McKinley, 1940, 1942), welches ebenfalls versucht,
durch eine große Anzahl von Fragen möglicherweise pathologische oder
problematische Tendenzen zu prognostizieren. Neben diesen diagnostisch
motivierten Verfahren entwickelten sich ebenfalls theoretisch begründe-
te Ansätze zur psychologischen Testung der Persönlichkeit. Dabei fand
auch die von Spearman entwickelte Faktorenanalyse zunehmend Gebrauch.
In dieser Tradition sind die Persönlichkeitstheorien von Eysenck (1967)
und Cattell (1943) anzusiedeln. Die wohl bekanntesteste Entwicklung aus
der faktorenanalytischen Persönlichkeitspsychologie stellt das so genannte
Big-Five-Modell dar, welches als theoretische Basis einiger der heutzutage
verbreitetsten Persönlichkeitstests dient, in Deutschland dem NEO-PI-R,
bzw. NEO-FFI (Ostendorf & Angleitner, 2004).
Von dieser Entwicklung weitgehend unabhängig ist die Einführung so ge-
nannter projektiver Testverfahren durch Rorschach und Oberholzer (1923) zu
betrachten. Vor dem Hintergrund psychoanalytischer Theorien dienen diese
Verfahren als diagnostisches Werkzeug, welches Einblick in nicht direkt
zugängliche Bereiche der Psyche ermöglichen soll (vgl. auch Murray, 1943).
Im klinischen Kontext sind – teilweise als Alternative, teilweise ergänzend –
zunehmend symptombasierte Tests entwickelt worden, welche als Screening-
34 4 Der Begriff des Testens

instrument für das Vorliegen psychischer Erkrankungen verwendet werden


(z.B. Feuerlein, 1979; Franke, 2002; Jansen, 2002).
Heutzutage werden psychologische Tests vor allem in den Kontexten
Leistungsdiagnostik/Leistungsprognose, Störungsdiagnostik und Persön-
lichkeitsdiagnostik verwendet sowie in einem breiten Bereich psychologi-
scher Forschungsfelder (z.B. Sozialpsychologie, Motivationspsychologie,
Sportpsychologie etc.). Die Praxis des Testens hat sich im Laufe ihrer ver-
gleichsweise kurzen Entstehungszeit als fester Bestandteil des psychologi-
schen Methodenrepertoires etabliert und ist als solcher kaum mehr aus der
Psychologie wegzudenken.

4.3 Arten psychologischer Tests


Es gibt verschiedene Möglichkeiten, psychologische Tests zu klassifizieren.
Lienert und Raatz (1998) beispielsweise unterscheiden auf inhaltlicher Ebe-
ne zwischen Intelligenztests, Leistungstests und Persönlichkeitstests. Bei
den Intelligenztests differenzieren sie weiter zwischen speziellen und allge-
meinen Intelligenztests, wobei sie letztere mit Begabungstests gleichsetzen.
P. Kline (2000) hingegen betrachtet Begabungstests als eigene Kategorie
und sieht Intelligenz als speziellen Fall von Fähigkeitstests an. Zu diesen
zählt er zum Beispiel auch Tests zur Motorik, zur Musikalität und zur
Wahrnehmungsgeschwindigkeit. Sensorische und motorische Tests wer-
den von Lienert und Raatz wiederum gemeinsam mit kognitiven Tests zur
Kategorie der Leistungstests gezählt. Im Bereich der Persönlichkeitstests
unterscheiden sie weiterhin zwischen Eigenschaftstests, Interessentests, Ein-
stellungstests, Charaktertests und Typentests. Dabei bleibt unklar, wie sich
letztere voneinander abgrenzen lassen. P. Kline führt als zusätzliche Klasse
Motivationstests ein, welche den Fokus auf situationale Zustände legen.
Auf formaler Ebene lassen sich laut Friedenberg (1995) Schnelligkeitstests
von Niveautests abgrenzen. Erstere nehmen als Testscore die Bearbeitungs-
zeit der Aufgaben, letzere die Anzahl der richtig gelösten Aufgaben. Auf
Ebene der Aufgabentypen wird darüber hinaus zwischen freiem Format
und offenem Format sowie verbalen und nonverbalen (z.B. piktoralen) Tes-
titems unterschieden. Ebenso werden direkte Verfahren von projektiven
und objektiven Verfahren abgegrenzt. Objektiv bedeutet dabei, dass für die
getesteten Personen nicht unmittelbar erkennbar sein soll, worauf der Test
abzielt, so dass sozial erwünschte oder durch Lügen verfälschte Antworten
vermieden werden. Die Erhebungsmethode kann zwischen Einzeltestung
4.4 Praktische Bedeutung psychologischer Tests: Diagnostik 35

und Gruppentestung variieren, wobei letztere auf pen and paper sowie
computergestütze Erhebungsmethoden angewiesen sind. Lienert und Raatz
ergänzen Abgrenzungskriterien bezüglich der Auswertung, indem sie nor-
morientierte und kriteriumsorientierte Tests abgrenzen. Normorientierte
Verfahren vergleichen die Testrohwerte mit der entsprechenden Verteilung
einer Bezugspopulation, Kriteriumsorientierte Verfahren setzen ein externes
Bewertungskriterium ein, mit welchem die Rohwerte verglichen werden.
Auch wenn die vorgeschlagenen Kategorisierungsversuche psycholo-
gischer Tests sich teilweise unterscheiden und an einigen Stellen sogar
widersprüchlich sind, geben sie einen guten Überblick über das Methoden-
repertoire der Psychometrie. Dabei ist hervorzuheben, dass insbesondere
Fragebögen eine herausragende Stellung in der psychologischen Testpraxis
einnehmen. Abgesehen von sensumotorischen Fähigkeitstests, objektiven
Persönlichkeitstests und den meisten projektiven Verfahren beziehen sich
die genannten Kategorien durchweg auf Erhebungen mit Fragebögen. Da-
her wird der Begriff des psychologischen Tests im Folgenden in aller Regel
als synonym zu standardisierten psychologischen Fragebögen gebraucht.

4.4 Praktische Bedeutung psychologischer Tests:


Diagnostik
Sowohl bei McKeen Cattels und Galtons Mental Tests als auch bei Binets
Intelligenztest oder den frühen Armee-Eignungstests standen eindeutig
diagnostische Interessen im Vordergrund. Binets erster Intelligenztest hatte
das erklärte Ziel, Schüler mit besonderem Förderbedarf zu identifizieren
(Lamberti, 2006). Ebenso ging es im Persönlichkeitstest von Woodworth
um die Auswahl für die Armee geeigneter Soldatenanwärter. Die ersten
Ansätze psychologischen Testens waren dementsprechend weitgehend theo-
rielos. Die Aufgaben für Binets Intelligenztest wurden zum Beispiel induktiv,
also durch Beobachtung bestimmter Fähigkeiten von Kindern, gewonnen.
Von Münsterbergs (Münsterberg, 1913) Testverfahren für angehende Stra-
ßenbahnfahrer bestanden zu großen Teilen aus Reaktionszeiten in relativ
realitätsnahen Standardsituationen. Im Wesentlichen stellten diese Verfah-
ren daher standardisierte Arbeitsproben dar.
Der diagnostische Aspekt psychologischer Tests spielt auch heute noch
eine entscheidende Rolle. Eine große Zahl derzeitiger Tests wird in ers-
ter Linie zum Zweck der Personalauswahl verwendet, zum Beispiel im
Rahmen von Assessmentcentern (Fisseni & Fennekels, 1995; Kleinmann,
36 4 Der Begriff des Testens

2003). Auch im pädagogischen Bereich spielen Intelligenztests noch immer


eine Rolle, wenn es um die Feststellung besonderer Fördermaßnahmen
für minder-, aber auch hochbegabte Kinder geht (Büttner, 1984; Langfeldt,
Tent & Stelzl, 1999; D. Rost, Sparfeldt & Schilling, 2006). Am stärksten tritt
der diagnostische Zweck psychologischer Tests im Bereich der klinischen
Psychologie hervor. Hier werden Tests vielfältig als Screeninginstrumente
eingesetzt oder um im Rahmen einer Therapieevaluation den Grad einer
psychischen Störung zu quantifizieren. Im Kontext klinischer Evaluations-
studien werden Tests oft sogar an Stelle von klinischen Diagnosen verwen-
det (Michalak, Kosfelder, Meyer & Schulte, 2003). Darüber hinaus werden
auch nichtklinische Tests (wie z.B. Persönlichkeitstests) zu Beginn einer
Psychotherapie eingesetzt, um sich einen ersten Eindruck vom Patienten zu
verschaffen. Psychologische Diagnosen und psychologische Tests sind so
eng miteinander assoziiert, dass zuweilen sogar die Ergebnisse von Tests
zur Definition einer Störung herangezogen werden (z.B. im Bereich der
Lese-Rechtschreib-Störung oder der Minderbegabung). Es ist fraglich, ob es
die moderne Psychodiagnostik ohne psychologische Tests überhaupt gäbe.
Es sei an dieser Stelle bereits darauf hingewiesen, dass die Verwendung
psychologischer Tests zu Diagnosezwecken im Prinzip ohne theoretischen
Hintergrund auskommt. Solange es lediglich um die Klassifikation oder
Quantifizierung bestimmter psychologisch relevanter Aspekte von Perso-
nen geht, kann ein Feststellungsverfahren auch komplett „aus dem Bauch
heraus“ konstruiert werden. Gibt es darüber hinaus ein unabhängig feststell-
bares Außenkriterium (z.B. das Vorliegen eines Gendefekts), können sogar
inhaltlich zusammenhanglos erscheinende Fragen oder Leistungsproben
verwendet werden – solange das Kriterium mit dem Testwert vorhergesagt
werden kann. Die erfolgreiche Verwendung von Tests zu Diagnosezwecken
impliziert somit nicht das Vorliegen von Messergebnissen, sondern lediglich
einen standardisierten Ablauf der Testprozedur, der in einem gewissen
Maße replizierbare Ergebnisse garantiert.

4.5 Naturwissenschaftliche Bedeutung


psychologischer Tests: Theorieüberprüfung
Neben dem praktischen Interesse der Psychodiagnostik spielen Tests eine
zentrale Rolle in der psychologischen Grundlagenforschung. Sie dienen in
diesem Kontext häufig der Operationalisierung theoretischer Begriffe. Unter
Operationalisierung versteht man die Übersetzung theoretischer Begriffe in
4.5 Naturwissenschaftliche Bedeutung psychologischer Tests: Theorieüberprüfung 37

empirisch umsetzbare Operationen (Bortz & Döring, 1995). Das abstrakte


Vokabular einer Theorie wird auf diese Weise übersetzbar in konkrete Be-
obachtungssprache. In den klassischen Naturwissenschaften besteht eine
Operationalisierung darin, dass die verwendete Erhebungsmethode für eine
Variable festgelegt wird. So kann die Länge eines Objekts sowohl mit einem
Maßband als auch mit einem Zollstock oder aber nach Augenmaß erfasst
werden. Analog wird in psychologischen Studien stets angegeben, welche
Methode zur Erhebung der betrachteten psychologischen Größen verwen-
det wurde. „Intelligenz“ kann beispielsweise über den HAWIE (Tewes &
Wechsler, 1991), den SPM (Raven & Court, 1990), den IST (Amthauer, Brocke,
Liepmann & Beauducel, 1999) oder den CFT (Weiß, 2006) operationalisiert
werden. Eine Besonderheit der Psychologie ist dabei, dass den verschiede-
nen Feststellungsverfahren nicht selten unterschiedliche Theorien über die
zu erhebende Größe zu Grunde liegen. Während der CFT und der SPM
zum Beispiel auf der g-Factor Theorie beruhen (Spearman, 1904), berufen
sich HAWIE und IST auf die Theorie der kristallinen und der fluiden Intel-
ligenz (Cattell, 1943, 1963). Je nachdem, welchen Test man in einer Studie
verwendet, legt man folglich unterschiedliche Vorstellungen über die zu
untersuchende Variable zu Grunde. Da die Verfahren, welche zur Überprü-
fung psychologischer Theorien dienen sollen, selbst bereits auf Theorien
fußen, stellt sich an dieser Stelle die Frage, inwieweit Operationalisierungen
in der Psychologie mit denen aus anderen Wissenschaften vergleichbar sind.
Wenn verschiedene Operationalisierungen zum Beispiel von Intelligenz
unterschiedliche Intelligenztheorien implizieren, werden streng genommen
verschiedene Größen erhoben. Es handelt sich bei der Auswahl des verwen-
deten Tests somit nicht um die Auswahl eines Feststellungsverfahrens für
eine bestimmte Größe, sondern eigentlich um die Festlegung, welche der
Größen, die „Intelligenz“ genannt werden, erhoben werden soll.
Im Extremfall stellt die Operationalisierung somit die eigentliche Definiti-
on der zu erhebenden Variablen dar (Gadenne, 1984). Diese als Operationa-
lismus bezeichnete Haltung sieht sich jedoch mit einigen schwerwiegenden
Problemen konfrontiert. Wenn jede Operationalisierung eine eigene Defi-
nition darstellt, wird jedes Mal eine andere Größe erhoben. Es gäbe somit
ebenso viele Intelligenzen wie Intelligenztests. Darüber hinaus kann nicht
davon ausgegangen werden, dass die mittels eines Tests definierte Größe tat-
sächliche empirische Relative abbildet, denn das würde bedeuten, dass man
empirische Tatsachen per Definition erschaffen kann. Operationalismus
ist daher inkompatibel mit der repräsentationalen Messtheorie. Per Definition
„gemessene“ psychologische Größen können nicht über die konkreten Test-
38 4 Der Begriff des Testens

ergebnisse hinaus interpretiert werden. Studien zu Wirkungszusammen-


hängen zwischen psychischen Variablen wären somit eigentlich Studien
über Wirkungszusammenhänge zwischen bestimmten Testergebnissen. Die
„Operationalisierung“ in dieser extremen Variante macht psychologische
Forschung zu Testforschung und beraubt sie somit ihres wesentlichen theo-
retischen Anspruchs.
Eine andere Möglichkeit, mit dem Problem der theorieabhängigen Ope-
rationalisierungen umzugehen, ist die Interpretation von Operationalisie-
rungen als Hypothesen über die zu untersuchenden Variablen (Gadenne,
1984; Gigerenzer, 1981). Welche Operationalisierung man wählt, ist somit
keine definitorische Frage mehr, sondern hängt davon ab, welche theore-
tische Vorstellung über die entsprechende Variable sich empirisch bewährt
hat. Psychologische Variablen müssen nach dieser Auffassung zunächst
hinsichtlich ihrer latenten Struktur untersucht werden. Das bedeutet kon-
kret, dass die einem Test zu Grunde liegende Theorie so explizit gemacht
werden muss, dass sich aus ihr empirische Vorhersagen über das Testver-
halten von bestimmten Personen in Bezug auf diesen Test ableiten lassen.
Zur Überprüfung der einem Test zu Grunde liegenden psychologischen
Variablenstruktur stehen verschiedene Verfahren zur Verfügung, von denen
die wichtigsten in Kapitel 5 beschrieben sind.
Die Interpretation psychologischer Operationalisierungen als Hypothe-
sen im obigen Sinne impliziert, dass Tests Messinstrumente darstellen sollen.
Die Testergebnisse wären dementsprechend als Messungen nicht direkt be-
obachtbarer psychologischer Variablen zu verstehen. Hat sich eine Theorie
zur latenten Struktur eines zu messenden Merkmals empirisch bewährt
und liegen dennoch mehrere Möglichkeiten vor, ein und dieselbe Merk-
malsausprägung zu erheben, besteht die Operationalisierung tatsächlich
nur noch in der Wahl der Messmethode (z.B. computergestützt vs. pen and
paper Test). Gigerenzer (1981) spricht in diesem Fall von Theorien erster
Ordnung, welche sich auf die latente Struktur des zu messenden Merk-
mals beziehen – in Abgrenzung zu Theorien zweiter Ordnung, welche die
Zusammenhänge zwischen bereits messbaren Merkmalen beschreiben.
Psychologische Tests können also entweder als Definitionen psycholo-
gischer Konstrukte oder in Form von empirischen Hypothesen über die
latente Struktur psychologischer Merkmale als Messinstrument verstanden
werden. In beiden Fällen handelt es sich um die Übersetzung theoretischer
Begriffe in empirisch durchführbare Operationen. Als solche sind Tests in
vielen Bereichen unersetzlich, wenn es um die empirische Überprüfung
psychologischer Theorien geht.
5 Tests als Messinstrumente

Die vorangegangenen Kapitel dienten dazu, die Begriffe „messen“ und


„testen“ zu definieren, ihre Bedeutung im historischen Verlauf nachzuzeich-
nen und voneinander abzugrenzen. Vor diesem Hintergrund sollen im
Folgenden die wichtigsten psychometrischen Techniken hinsichtlich der
Frage evaluiert werden, inwiefern sie dem Ziel der Psychometrie – Tests als
Messinstrumente zu etablieren – gerecht werden.

5.1 Klassische Testtheorie


Die so genannte „Klassische Testtheorie“1 hat ihren gedanklichen Ursprung
in der Beobachtung, dass im Rahmen physikalischer Messungen bei wie-
derholten Messvorgängen auch unter genauster Befolgung der Messpro-
zedur mit identischen Bedingungen unterschiedliche Ergebnisse heraus-
kommen (Borsboom, 2005). Diese Beobachtung ist in der Physik unter der
Bezeichnung „Messfehler“ bekannt. Bei physikalischen Messungen hat sich
ferner herausgestellt, dass die Variation der Messergebnisse in der Regel
durch eine eingipfelige, symmetrische Verteilung beschreibbar ist, welche
sich bei zunehmender Messwiederholung der Normalverteilung annähert
(Taylor, 1997). Die übliche Art mit dieser Variation umzugehen, ist, sie als
zufällige Fehlervariation zu betrachten, welche sich bei vielen Messwieder-
holungen herausmitteln müsste. Dementsprechend kann der Mittelwert
mehrerer Messungen als Schätzer für den „tatsächlichen“ Wert betrachtet
werden. Diese Konzeption des Umgangs mit fehlerbehafteten Messergeb-
nissen schlägt sich auch in den Definitionen und Vorschriften der bereits
erwähnten DIN-Norm 1319 nieder. Hier wird zwischen dem wahren Wert
(einem idealen Messwert, welcher praktisch niemals umsetzbar ist) und
dem richtigen Wert (einem auf Erfahrungen basierenden Schätzwert, wel-
cher nur unerheblich vom wahren Wert abweicht) unterschieden. Darauf
1 auch „Klassische Messfehlertheorie“ oder „True-Score Theorie“

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_5, © Springer Fachmedien Wiesbaden 2014
40 5 Tests als Messinstrumente

aufbauend werden der absolute Fehler als Differenz zwischen richtigem Wert
und gemessenem Wert definiert sowie ein relativer Fehler, indem dieser
Wert ins Verhältnis zum richtigen Wert gesetzt wird (Deutsches Institut für
Normung, 1999).
1888 führte Edgeworth diese Vorstellung in die Psychologie ein und
wandte sie auf die Interpretation psychologischer Tests an. Edgeworth
schlug vor, die Bewertung von Essays im schulischen Kontext auf die gleiche
Art zu interpretieren wie eine physikalische Messung: Die unterschiedlichen
Noten, welche verschiedene Lehrer ein und demselben Essay zuordnen,
sollten im Sinne eines zufälligen Fehlers betrachtet werden, welcher die
„tatsächliche“ Note verwässert. Formal drückte er diese Vorstellung dadurch
aus, dass er den beobachteten Wert (X) als Summe eines wahren Wertes (T)
und eines Fehlers (E) beschrieb:

X = T+E (5.1)
Diese Vorstellung wurde erst ein gutes halbes Jahrhundert später von
Gulliksen (1950) systematisiert und zu einer formalen Theorie psycholo-
gischer Testwerte ausgearbeitet. Im Laufe der folgenden Jahre wurden
immer wieder Änderungen und Erweiterungen vorgenommen, bis Lord
und Novick (1968) schließlich ihre bis heute aktuelle Form der Klassischen
Testtheorie vorlegten.
Auch wenn die beiden Fomulierungen logisch äquivalent sind, weisen sie
doch einen wesentlichen inhaltlichen Unterschied auf. Während Gulliksen
den „wahren Wert“ als tatsächlich existierende Größe zu verstehen scheint,
welcher man sich mittels möglichst genauer Messungen zu nähern versucht,
betrachten Lord und Novick „wahre Werte“ als bloße Konstruktionen, die
nicht einmal mit der zu erfassenden Eigenschaft übereinstimmen müssen
(Lord & Novick, 1968). Dieser Unterschied findet sich auch in den ver-
schiedenen Axiomatisierungen der Theorie wieder: Während Gulliksen
die numerische Gleichheit zwischen dem Erwartungswert unendlich vie-
ler Messungen und dem „wahren Wert“ als Theorem herleitet, ist dieser
Zusammenhang bei Lord und Novick ein Axiom. Entsprechend dieser un-
terschiedlichen Interpretation des „wahren Wertes“ liegt der Schwerpunkt
bei Lord und Novick in der Frage, wie gut ein Test zwischen verschiedenen
Personen differenzieren kann, also wie reliabel er ist, unabhängig davon, was
erfasst wird. Gulliksen hingegen führt als zentrales Konzept der Testgüte
die Varianz des Messfehlers ein, also wie fehlerfrei ein Test ein bestimmtes
Merkmal erhebt. Praktisch lässt sich die Messfehlervarianz zwar nur über
die Reliabilität schätzen, allerdings spiegelt sich in der unterschiedlichen
5.1 Klassische Testtheorie 41

Schwerpunktlegung eine grundlegend unterschiedliche Vorstellung davon


wider, was Zweck eines Tests ist: Soll er lediglich zwischen Personen diffe-
renzieren (egal hinsichtlich welcher Eigenschaft) oder betrachtet man ihn
als Messinstrument für eine tatsächlich vorhandene Eigenschaft?

5.1.1 Messtheoretische Evaluation der KTT


Folgt man Gulliksens Auffassung, sind die Ergebnisse psychologischer
Tests grundsätzlich als Messergebnisse zu verstehen. Folglich sind alle Tests
Messinstrumente. Berücksichtigt man die in Abschnitt 3.2 gegebenen Bedin-
gungen für das Vorliegen einer Messung, kann dieser Annahme eigentlich
nicht ohne Weiteres gefolgt werden. Es fällt nicht schwer, zahlreiche Bei-
spiele zu ersinnen, in denen ein hypothetischer Test keinen Homomorphismus
garantiert. Dies ist deshalb der Fall, weil man jede beliebige Menge von Fra-
gebogenitems zu einem Test zusammenfügen kann. Ob die Interpretation
als Messergebnis gerechtfertigt ist, ist daher nicht Teil der Theorie. Somit
kommt die Klassische Testtheorie nach Gulliksen dem oben formluierten
Ziel der Psychometrie nicht nach.
Die Auffassung von Lord und Novick entspricht hingegen dem, was in
Abschnitt 4.5 als Operationalismus bezeichnet wurde. Wie bereits ausgeführt,
ist eine operationalistische Position nicht kompatibel mit der repräsentatio-
nalen Theorie der Messung. Lord und Novick wenden daher eine Theorie
über Messfehler auf einen Bereich an, der sich überhaupt nicht mit Messun-
gen befasst. Damit verfehlen sie zum einen das Ziel, psychologische Tests
als Messinstrumente zu etablieren, zum anderen lässt sich ihre Theorie aber
auch nicht als Versuch einer nichtpsychometrischen Testtheorie interpretie-
ren, da sie mit dem Konzept des Messfehlers im zu Beginn des Abschnitts
beschreibenen Kontext fehlerbehafteter Messungen tief verwurzelt ist2 .
Somit lässt sich festhalten, dass die Klassische Testtheorie als historisch
älteste Testtheorie zwar voll und ganz der psychometrischen Tradition ent-
spricht, jedoch nicht geeignet ist, psychologische Tests als Messinstrumente
zu etablieren.

2 Eventuell wäre eine Reinterpretation des formalen Anteils der Klassischen Testtheorie
unabhängig vom Konzept der Messung möglich. Allerdings wäre eine solche Interpretation
sicher nicht im Sinne der Erfinder der Klassischen Testtheorie.
42 5 Tests als Messinstrumente

5.2 Strukturgleichungsmodelle
Während die Klassische Testtheorie den Zusammenhang zwischen Eigen-
schaft und Messwert entweder definitorisch festlegt (Lord & Novick, 1968)
oder als empirische Tatsache ungeprüft voraussetzt (Gulliksen, 1950), ver-
folgt der Ansatz der Strukturgleichungsmodelle (engl. „Structural Equation
Models“ – SEM) das Ziel, diesen Zusammenhang in Form eines explizi-
ten mathematischen Modells zu spezifizieren, welches nach Möglichkeit
empirisch prüfbar sein soll.
Als historischer Vorläufer des Ansatzes kann das von Spearman (1904)
entwickelte Verfahren der Faktorenanalyse betrachtet werden. Das fakto-
renanalytische Modell besteht darin, dass eine empirische Itemkorrelations-
matrix durch eine Linearkombination einiger (weniger) latenter Faktoren
erklärt wird (Everitt, 1999; Ost, 1984). Dabei werden die Itemantworten
jeweils durch eine Linearkombination der zu Grunde gelegten Faktoren
beschrieben. Formal lässt sich das Modell fogendermaßen ausdrücken:

x = μ + Λf + e (5.2)
Dabei steht der Vektor x für die Itemantworten, der Vektor μ für die Item-
mittelwerte, die Matrix Λ für die faktorspezifischen Gewichtungsparameter
der Items, der Vektor f für die Faktorwerte der einzelnen Personen und der
Vektor e für die Zufallsfehler.
Die Faktoren werden üblicherweise im Sinne latenter Variablen, also nicht
direkt zugänglicher psychologischer Größen, interpretiert, deren Ausprä-
gung durch Anwendung der parametrisierten Modellgleichung aus vorlie-
genden Testantworten errechnet werden können.
Dieser konzeptionelle Rahmen wurde insbesondere in den Arbeiten von
Thurstone (1931, 1938, 1954) aufgegriffen und weiterentwickelt. Ursprüng-
lich als exploratorisches Verfahren konzipiert, wurde das Prinzip der Kova-
rianzstrukturmodellierung durch Linearkombinationen latenter Faktoren
in der zweiten Hälfte des letzten Jahrhunderts zu einem hypothesentestenden
Verfahren weiterentwickelt (Jöreskog, 1971; Wiley, Schmidt & Bramble, 1973;
Sörbom, 1974). Darüber hinaus wurde der Formalismus derart erweitert,
dass auch lineare Zusammenhänge zwischen Faktoren modelliert werden
können. Es gibt verschiedene äquivalente Formulierungen des resultieren-
den Modells (siehe Jöreskog, 1973, 1974; Bentler & Weeks, 1980; McArcle
& McDonald, 1984). Die innerhalb der Psychologie wohl verbreitetste ist
die so genannte „LISREL“-Version von Jöreskog (1973), welche aus insge-
samt drei linearen Gleichungssystemen besteht. Das erste spezifiziert die
5.2 Strukturgleichungsmodelle 43

Ausprägungen der zu erklärenden („endogenen“) latenten Variablen als


Linearkombination einer Menge von erklärenden („exogenen“) latenten
Variablen:

η = Bη + Γξ + ζ (5.3)
Die endogenen Variablen werden durch den Vektor η, die exogenen
Variablen durch den Vektor ξ repräsentiert. Die Matrix B steht für die Zu-
sammenhänge zwischen den endogenen Variablen, die Matrix Γ für die
Zusammenhänge zwischen endogenen und exogenen Variablen, und der
Vektor ζ beinhaltet unabhängige, zufällige Fehlerterme mit einem Erwar-
tungswert von 0.
Desweiteren wird der Zusammenhang zwischen den latenten Variablen
und den Testitems jeweils in Form eines faktorenanalytischen Modells
spezifiziert:

x = Λx ξ + δ (5.4)
y = Λy η + ε (5.5)

Die Matrizen Λx und Λy entsprechen dabei den jeweiligen Faktorladun-


gen der Items auf die exogenen und endogenen Variablen, δ und ε bezeich-
nen jeweils unabhängige Fehler mit Erwartungswert 0. Da die Daten als
standardisiert angenommen werden, ergäbe sich für die Itemmittelwerte
ein Nullvektor. Daher werden sie nicht mit in die Gleichung aufgenommen.
Im Gegensatz zum ursprünglichen faktorenanalytischen Modell, bieten
Strukturgleichungsmodelle die Möglichkeit, beliebig komplexe Zusammen-
hänge zwischen beobachtbaren (manifesten) und unbeobachtbaren (latenten)
Variablen zu spezifizieren3 . Einzige Voraussetzung ist, dass sich die Zu-
sammenhänge als lineares Gleichungssystem spezifizieren lassen. SEM bietet
somit einen höchst flexiblen Rahmen zur Formalisierung psychologischer
Theorien, bei dem der Zusammenhang zwischen beobachtbaren Verhal-
tensweisen (i.d.R. Testverhalten) und den betrachteten psychologischen
Variablen integraler Bestandteil des Modells ist.

3 ImPrinzip können auch Strukturgleichungsmodelle ohne latente Variablen formuliert wer-


den. Derartige Modelle sind in der Psychologie jedoch eher unüblich und sollen daher im
Folgenden nicht weiter behandelt werden.
44 5 Tests als Messinstrumente

5.2.1 Messtheoretische Evaluation von SEM


Strukturgleichungsmodelle (insbesondere die faktorenanalytischen Anteile)
werden oft als Messmodelle bezeichnet (z.B. bei R. B. Kline, 2011, Fornell &
Larcker, 1981 oder Bollen, 1989). Der Grund hierfür liegt vermutlich darin,
dass der mathematische Zusammenhang zwischen latenten und manifes-
ten Variablen häufig im Sinne einer kausalen Wirkung interpretiert wird
(vgl. Cohen, Cohen, Teresi, Marchi & Velez, 1990, Biddle & Marlin, 1987,
oder Pearl, 2000). Identifiziert man die latenten Variablen darüber hinaus
als in der Person liegende Eigenschaften, handelt es sich bei den Ausprä-
gungen der manifesten Variablen um quantitative Abbildungen psychischer
Variablen. Unter diesen Umständen kann man (im Rahmen statistischer
Ungenauigkeiten) von den Ausprägungen der manifesten Variablen auf
Eigenschaftsausprägungen schließen. Darüber hinaus handelt es sich um
empirisch gehaltvolle Modelle. Anders als bei den Axiomen der Klassischen
Testtheorie wird der Zusammenhang zwischen Merkmalsausprägung und
Testantwort so explizit formuliert, dass sich überprüfbare Hypothesen über
empirische Korrelationen daraus ableiten lassen.
Handelt es sich bei dieser Abbildung aber um einen Homomorphismus
vom empirischen ins numerische Relativ, wie ihn die representationale
Messtheorie fordert? Die entscheidende Frage ist an dieser Stelle, welches
die empirischen Relationen sind, die abgebildet werden. Ein Blick auf den
Formalismus von Strukturgleichungsmodellen zeigt, dass Relationen zu-
mindest nicht explizit spezifiziert werden. Es wird lediglich ein numerischer
Zusammenhang zweier reellwertiger Variablen spezifiziert – wovon die
eine empirisch ist und die andere latent. Die Beschreibung des Antwort-
verhaltens mittels reeller Zahlen induziert jedoch bestimmte Relationen
auf der Menge der manifesten Variablen. Wenn eine Person in Item 1 ei-
ne 4 angekreuzt hat und in Item 2 eine 7, gilt zum Beispiel automatisch
Itemantwort 1 < Itemantwort 2. Die numerische Größer-als-Relation der
Itemantworten führt somit zu einer empirischen Dominanzrelation auf der
Menge der Items. Ebenso gilt, dass reellwertige Itemantworten addiert wer-
den können, dass sie kommutativ sind, dass es stets kleinere und größere
Werte gibt usw. – kurz, durch die reellwertigen Itemantworten sind die
Hölder’schen Axiome messbarer Größen automatisch erfüllt. Folglich ist
eine Abbildung dieses empirischen Relativs in die reellen Zahlen immer
möglich.
Bedeutet dies nun, dass reellwertiges Antwortformat in psychologischen
Tests immer zu Messungen führt? Dies ist (natürlich) nicht der Fall. Die
5.3 Item Response Theory 45

Tatsache, dass die angestrebte Abbildung immer gelingt, liegt schließlich


darin begründet, dass die abgebildeten empirischen Relationen sich durch
die Zuordnung reeller Zahlen zu Objekten (hier Testitems) ergeben. Es sind
eigentlich die Relationen zwischen den reellen Zahlen selbst, die abgebildet
werden. Somit handelt es sich letztlich um eine Abbildung aus den reellen
Zahlen in die reellen Zahlen, das heißt den angekreuzten Zahlen werden
andere Zahlen zugeordnet. „Gemessen“ wird dabei lediglich ein künstlich
induziertes empirisches Relativ, welches durch das Antwortformat erzwun-
gen wird. Obwohl sie empirische Vorhersagen machen, ist die Hypothese
der Messung mit Strukturgleichungsmodellen somit nicht empirisch prüf-
bar, sondern ergibt sich implizit aus den Modellannahmen.
Strukturgleichungsmodelle sind daher kein Werkzeug, um zu überprüfen,
ob ein Test ein Messinstrument ist. Sie sind dazu geeignet, die mögliche
Struktur hypothetischer latenter Variablen zu überprüfen, deren Existenz
und quantitative Natur vorausgesetzt wird. Mit Messtheorie im repräsenta-
tionalen Sinn haben sie jedoch nichts zu tun.

5.3 Item Response Theory


Parallel zur faktorenanalytischen Tradition entwickelte sich ein weiterer
Ansatz zur Modellierung der Zusammenhänge zwischen psychologischen
(latenten) Variablen und den Antworten in einem Test. Dieser heute als
Item Response Theory (IRT) bezeichnete Ansatz wurde durch Rasch (1960)
begründet. Kernkonzept der Item Response Theory ist die Modellierung
von Antwortwahrscheinlichkeiten in einem Test durch eine oder mehrere
latente Variablen. Im einfachsten Fall – dem Rasch-Modell – wird die Wahr-
scheinlichkeit, ein Testitem zu „lösen“ (bzw. zu bejahen, auszuwählen etc.)
durch eine logistische Funktion beschrieben, wodurch sich die folgende
Modellgleichung ergibt (Rasch, 1960):

e(θi −σj )
p( Xij ) = (5.6)
1 + e(θi −σj )
p( Xij ) steht dabei für die Wahrscheinlichkeit, dass Person i das Item j
„richtig“ löst. Der Parameter θ bezeichnet eine latente Personenvariable („Fä-
higkeit“), während σ für einen Itemparameter („Schwierigkeit“) steht. Beide
Parameter nehmen Ausprägungen auf einem einzigen, eindimensionalen
Kontinuum ein.
46 5 Tests als Messinstrumente

Durch die Anwendung der so genannten Logit-Transformation (und die


Ergänzung eines zusätzlichen Parameters) lässt sich diese Modellgleichung
in Form einer logistische Regression schreiben:
 
p( Xij )
ln = σj + α j θi (5.7)
1 − p( Xij )
Der Fähigkeitsparameter θi wird in dieser Darstellungsform zum linearen
Prädiktor, während σj den y-Achsen-Abschnitt bezeichnet4 . Der zusätzliche
Parameter α j steht für die Steigung – also das itemspezifische Ausmaß
der Kriteriumsveränderung in Abhängigkeit von der Personenfähigkeit. Er
kann deshalbt als „Diskriminierfähigkeit“ der Items bezeichnet werden. Im
Rasch-Modell wird diese für alle Items auf 1 gesetzt. Das bedeutet, dass die
Items für alle Personen dieselbe Schwierigkeits-Rangfolge haben.
Es ist nun möglich, dieses Modell zu erweitern, indem man z.B. α frei
variieren lässt oder einen zusätzlichen Parameter für eine gewisse Rate-
wahrscheinlichkeit hinzufügt (Birnbaum, 1968). Auch Erweiterungen für
mehrstufige Itemformate wurden formuliert (Samejima, 1969; Bock, 1972;
Masters, 1982). Ebenso ist es möglich, kategoriale latente Variablen in die
Modellgleichung zu integrieren (Lazarsfeld & Henry, 1968; Goodman, 1974;
Clogg, 1979). Neuere Entwicklungen im Bereich der Item Response Theory
befassen sich auch mit multivariaten Erweiterungen (von Davier & Cars-
tensen, 2007) oder der Modellierung hierarchischer Strukturen (wie z.B.
Mediatoreffekten) zwischen mehreren latenten Variablen (Janssen, Tuerlin-
ckx, Meulders & De Boeck, 2000; Kamata, 2001; Fox & Glas, 2001; Sheng &
Wikle, 2008).
Zur empirischen Überprüfung von IRT-Modellen werden diese zunächst
parametrisiert (in der Regel über die Maximierung einer Likelihoodfunkti-
on). Die geschätzten Parameter können dann im Folgenden zur Berechnung
zu erwartender Lösungswahrscheinlichkeiten verwendet werden. Die dar-
aus resultierende Wahrscheinlichkeitsverteilung empirischer Antwortmus-
ter kann dann für einen entsprechenden Signifikanztest verwendet werden
– dabei stellt die Gültigkeit des Modells die H0 dar. Somit sind IRT-Modelle
prinzipiell falsifizierbar.

4 Das veränderte Vorzeichen ist dabei kein Problem, da die Parameter keine über die Modell-
vorhersagen hinausgehende Bedeutung haben.
5.3 Item Response Theory 47

5.3.1 Messtheoretische Evaluation der IRT


Unter Psychometrikern scheint sich die Auffassung durchgesetzt zu haben,
IRT-Modelle seien Messmodelle im Sinne der repräsentationalen Messtheorie
(vgl. hierzu Perline, Wright & Wainer, 1979; Gigerenzer, 1981, Spray, 1987;
Borsboom & Mellenbergh, 2004; Markus & Borsboom, 2011). Der empirische
Modelltest wird damit als Überprüfung des Vorliegens eines Homomorphis-
mus interpretiert. Begründet wird diese Position unter anderem mit dem
Verweis auf die mathematische Ähnlichkeit zwischen dem Rasch-Modell
und dem Guttman-Modell (Gigerenzer, 1981). Oder es wird versucht, das
Rasch-Modell als probabilistische Version einer additiv-verbundenen Mess-
struktur5 darzustellen (Borsboom & Scholten, 2008).
Die Auffassung von IRT-Modellen als Messmodelle wird jedoch von
Vertretern der repräsentationalen Messtheorie nicht uneingeschränkt ak-
zeptiert (Michell, 1999, 2000, 2008; Kyngdon, 2008a, 2008b). Kern dieses
Streits ist die Frage, worin genau die empirischen relationalen Strukturen
bestehen, die im Rahmen von IRT-Modellen abgebildet werden sollen. Diese
Frage ist keineswegs trivial, da im Rahmen der Item Response Theory keine
expliziten Annahmen über empirische Relationen gemacht werden.
Wie also könnte die emprische relationale Struktur aussehen, die mit
einem IRT-Modell abgebildet wird? Das heißt konkret:

• Welche empirischen Objektmengen werden betrachtet?


• Welche Relationen zwischen den betrachteten Objekten werden be-
trachtet?

Die Antwort auf die erste Frage liegt dabei augenscheinlich auf der Hand.
Da die empirische Basis von IRT-Modellen die Antwortmatrix einer be-
stimmten Population in Bezug auf die Items eines Tests sind, ergeben sich
zwei natürliche empirische Objektmengen: die der Personen (P) und die der
betrachteten Items (I). Die nächstliegende Vermutung bezüglich der abge-
bildeten Relation wäre, eine Untermenge des kartesischen Produktes P × I
zu definieren – zum Beispiel in Form einer Dominanzrelation , welche
darin bestehen könnte, dass eine bestimmte Person aus P ein bestimmtes
Item aus I richtig löst.
5 Dabei handelt es sich um ein Messmodell, das wie die extensive Messung auf dem Zu-
sammenfügen von Objekten basiert, wobei die Zusammenfügeoperation nicht innerhalb
ein und derselben Variable, sondern durch die Kombination zweier unabhänger Faktoren
realisiert wird (vgl. Luce & Tukey, 1964 oder Michell, 1990 für eine weniger mathematische
und leicht verständliche Einführung).
48 5 Tests als Messinstrumente

Die Betrachtung derartiger Relationen ist jedoch nicht mit dem IRT-
Modellen inhärenten Probabilismus zu vereinbaren6 . Lediglich für den
Fall, dass nur die Antwortwahrscheinlichkeiten 1 und 0 vorkommen, lässt
sich die relevante Relation direkt auf P × I definieren. Man hätte dann ein
deterministisches Modell (Guttman, 1950).
Laut Kyngdon (2008b) sind die abzubildenden Relationen daher nicht
auf den empirischen Objektmengen selbst, sondern auf den durch ein IRT-
Modell postulierten Lösungswahrscheinlichkeiten zu definieren. Das bedeutet,
dass die durch das parametrisierte Modell festgelegten Antwortwahrschein-
lichkeiten eine neue Objekmenge W bilden, wodurch sich eine ganze Reihe
von Relationen auf W × W ergeben. Es handelt sich also um Relationen
zwischen Antwortwahrscheinlichkeiten (z.B. ≥, = etc.). Kyngdon argumen-
tiert nun, dass es sich bei Wahrscheinlichkeiten um Zahlen handelt, und
dass folglich sämtliche auf W definierten Relationen im Grunde numeri-
scher Natur sind. Er gelangt daher zu der Schlussfolgerung, dass es sich
bei IRT-Modellen nicht um Messmodelle handeln kann. Ähnlich wie im
Fall der Strukturgleichungsmodelle (vgl. Abschnitt 5.2) würde es sich nach
Kyngdon um Homomorphismen aus dem Intervall [0, 1] der reellen Zah-
len in die Menge aller reellen Zahlen handeln. Nach repräsentationaler
Messtheorie wäre das keine Messung.
Borsboom und Scholten (2008) hingegen vertreten die Meinung, man
könne Wahrscheinlichkeiten durchaus als empirische Größen interpretieren.
Dafür müsse man sich jedoch von der frequentistischen Definition der Wahr-
scheinlichkeit lösen und sie stattdessen im Sinne der real existierenden „Ver-
wirklichungstendenz“ (engl. „propensity“) eines bestimmten Ereignisses
interpretieren. Wahrscheinlichkeiten wären demnach empirische Größen,
welche zwar nur fehlerhaft geschätzt werden können, nichtsdestotrotz aber
tatsächlich vorhanden sind (Hacking, 1965; Popper, 1959, 1995).
Ob man im Falle der Item Response Theory von Messung im repräsen-
tationalen Sinn sprechen kann, hängt somit von der Frage ab, ob man
Wahrscheinlichkeiten als empirisch begreift oder nicht. In dieser Hinsicht
unterscheiden sich IRT-Modelle deutlich von axiomatischen Messmodellen
wie dem in Abschnitt 3.2.1 vorgestellten Modell der extensiven Messung.
Um diesem Unterschied Rechnung zu tragen, bietet sich für die mittels
IRT-Modellen abgebildeten Strukturen die Bezeichnung quasi-empirisch an.
Wenn überhaupt, lassen sich die mittels der Item Response Theory gewon-
nenen Testwerte somit als Quasi-Messung betrachten.
6 Für eine Erweiterung des repräsentationalen Messbegriffs auf probabilistische Relationen sei
auf Heyer und Niederée (1992) verwiesen.
6 Fazit

Das Ziel von Teil I war es, einen Überblick über Bedeutung und Gebrauch
der Begriffe „Messen“ und „Testen“, sowie über die damit assoziierten
psychometrischen Praktiken zu verschaffen. Vor dem Hintergrund der
etymologischen Herkunft der beiden Begriffe ergab sich, dass „Testen“
ursprünglich eine rein diagnostische, theorielose Feststellungsprozedur
bezeichnete, während „Messen“ sich auf den quantitativen Vergleich von
Objekteigenschaften bezog. Diese Bedeutungen finden sich noch heute im
Begriff des Eignungstests bzw. in der technischen Definition des Messens
durch DIN 1319. Heutzutage bedeutet „messen“ das homomorphe Abbilden
empirischer Relationen in numerische Relationen. „Testen“ hingegen bezeichnet
in der Psychologie jedwede standardisierte Prozedur zur Verhaltenserhebung
und deren Beschreibung mittels Kategorien oder Zahlenwerten. Diese Zahlenwer-
te oder Kategorien können Messungen darstellen, müssen es aber nicht.
In der modernen Psychologie spielen Tests in drei verschiedenen Kontex-
ten eine Rolle:
• psychologische Diagnostik
• definitorische Operationalisierungen
• hypothetische Operationalisierungen
Lediglich für den letzten Fall müssen psychologische Tests die in Ab-
schnitt 3.2 genannten Bedingungen für das Vorliegen einer Messung er-
füllen. Wenn ein Test auf einer empirisch (messtheoretisch) bewährten
Hypothese beruht, kann er selbstverständlich auch als Diagnostikum ver-
wendet werden. Die Verwendung eines Tests zu Diagnosezwecken allein
rechtfertigt jedoch nicht die Bezeichnung als Messinstrument. Ebensowenig
erfordert die Anwendung eines Tests zu Diagnosezwecken eine messtheore-
tische Begründung. Im Falle der definitorischen Operationalisierung kann
streng genommen überhaupt nicht von Messung gesprochen werden. Ist
ein psychologischer Begriff allein über eine Testprozedur definiert, sind

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_6, © Springer Fachmedien Wiesbaden 2014
50 6 Fazit

jegliche Aussagen über diese konkrete Prozedur hinaus nicht gerechtfertigt


– folglich auch nicht die Interpretation im Sinne einer Messung.
Im tatsächlichen Sprachgebrauch psychologischer Forschung und Dia-
gnostik werden die Begriffe hingegen oft nicht klar voneinander abgegrenzt.
Meistens wird wie selbstverständlich davon ausgegangen, dass alle psycho-
logischen (auch theorielose) Tests Messinstrumente seien. Diese begriffliche
Vermischung spiegelt sich beispielsweise darin wider, dass in der psycholo-
gischen Diagnostik häufig davon geredet wird, man messe nicht tatsächliche
Personeneigenschaften, sondern Konstrukte – wenn aber ein psychologischer
Begriff keine Eigenschaft bezeichnet, kann auch nichts gemessen werden.
Ebenso finden sich Inkonsistenzen in der theoretisch begründeten Testpsy-
chologie. Ein Beispiel für derartige Inkonsistenzen bildet die Definition
von Intelligenz als das, was der Intelligenztest misst (Boring, 1923) – wenn
Intelligenz über eine Testprozedur definiert wird, handelt es sich um eine
definitorische und nicht um eine hypothetische Operationalisierung; der
Begriff der Messung ist daher nicht anwendbar.
Aufgrund der erwähnten begrifflichen Unklarheiten wird im weiteren
Verlauf dieser Arbeit großer Wert darauf gelegt, die Begriffe Messen und
Testen klar auseinander zu halten. Es gibt zahlreiche Messprozeduren, die
keine psychologischen Tests sind (z.B. die Benutzung eines Thermometers),
ebenso gibt es viele psychologische Tests, die keine Messungen darstellen
(z.B. Symptomchecklisten wie die SCL-90 von Franke (2002)). Schließlich
gibt es einen Schnittbereich zwischen Messen und Testen, welcher all jene
Tests umfasst, die sich im Rahmen messtheoretisch begründeter (empiri-
scher) Untersuchungen bewährt haben – zum Beispiel den WMT (Formann,
1979), den AMT (Hornke, Küppers & Etzel, 2000) oder das AID (Kubinger,
Wurst & Maryschka, 2000).
Obwohl Tests in vielen Fällen keine Messinstrumente sind (und häu-
fig auch gar nicht sein müssen), beschäftigen sich methodische Ansätze
zur Objektivierung psychologischer Tests nahezu ausschließlich mit die-
sem Schnittbereich. Dabei ist hervorzuheben, dass von den vorgestellten
psychometrischen Methoden allenfalls die Item Response Theory in der
Lage ist, psychologische Tests tatsächlich als Messinstrumente im Sinne der
repräsentationalen Messtheorie zu etablieren.
Angesichts der Tatsache, dass in vielen praktischen Anwendungen (z.B.
der klinischen Diagnostik) die Frage nach dem Vorhandensein einer Mes-
sung kaum eine Rolle spielt, ist die Fixiertheit psychologischer Testtheorie
auf Messungen eigentlich erstaunlich. Sie geht darüber hinaus mit einem
substantiellen Mangel an formalen Ansätzen einher, welche psychologische
6 Fazit 51

Tests nicht als Messinstrumente auffassen. Als Resultat ergibt sich eine Test-
praxis, die zwar in sich konsistent und vor diagnostischem Hintergrund
zu rechtfertigen ist, jedoch theoretisch inkompatibel mit den angewandten
formalen Kriterien ist. Immer dann, wenn

• keine Theorie über die einem Test zugrundeliegende Eigenschaftss-


truktur existiert oder

• eine eventuell vorhandene Eigenschaftsstruktur für den diagnosti-


schen Prozess irrelevant ist oder

• sich die vermutete Struktur als falsch herausgestellt hat,


ist die Anwendung psychometrischer Modelle nicht sinnvoll. Gleichzei-
tig besteht jedoch ein Bedarf nach objektiven Kriterien für „gute“ Tests.
Diese theoretische Lücke soll mit dem in Teil II zu entwickelnden Ansatz
geschlossen werden.
Teil II

Jenseits der Psychometrie – Ein


sprachlich-logischer Ansatz
7 Nichtpsychometrische Testtheorie

In den folgenden Kapiteln soll der Versuch unternommen werden, einen


testtheoretischen Hintergrund zu entwickeln, der einen alternativen forma-
len Rahmen zur Entwicklung und Evaluation psychologischer Tests sowie
zur Interpretation der resultierenden Testergebnisse bereitstellt. Da auf das
Konzept der Messung bewusst verzichtet wird, grenzt er sich deutlich vom
psychometrischen Ansatz ab. Ein solcher formaler Rahmen sollte folgenden
Kriterien genügen:

• Theoretische Fundiertheit – Der Ansatz sollte auf einer konsistenten


Interpretation psychologischer Konstruktbegriffe basieren.

• Konsistenz – Der Ansatz sollte mathematisch explizit und wider-


spruchsfrei formuliert sein.

• Plausibilität – Der Ansatz sollte intuitiv nachvollziehbar und in sei-


nen Grundzügen mit gängigen Anwendungen psychologischer Tests
vereinbar sein.

• Praktische Relevanz – Der Ansatz sollte in der Praxis anwendbar sein.

Kapitel 8 beginnt daher mit einer theoretischen Einführung in verschiedene


Arten, den Begriff des psychologischen Konstrukts zu interpretieren, gefolgt
von einem formalen Ansatz zur Beschreibung der Bedeutung abstrakter
Konstruktbegriffe. Darauf aufbauend wird in Kapitel 9 ein alternativer An-
satz zu Interpretation psychologischer Tests als Mittel sprachlich-logischer
Inferenz entwickelt, welcher in den darauf folgenden Kapiteln 10 bis 11
um das Konzept der kontinuierlichen Wahrheitswerte und des graduellen
Schließens erweitert wird. Schließlich liefert Kapitel 12 eine zusammen-
fassende und vergleichende Darstellung der vorgestellten Ansätze sowie
Implikationen für die testdiagnostische Praxis.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_7, © Springer Fachmedien Wiesbaden 2014
8 Psychologische Konstrukte und ihre
Bedeutungen

Die meisten psychologischen Tests zielen darauf ab, ein oder mehrere psy-
chologische Konstrukte zu erfassen (z.B. „Intelligenz“, „Selbstwirksamkeit“,
„Depressivität“ etc.). Dabei ist nicht immer klar, was genau unter einem
Konstrukt verstanden werden soll – ist es die Bezeichnung für eine tatsäch-
lich vorhandene Personenvariable; oder für eine Variable, die existieren
könnte; oder für eine mathematische Abstraktion von Testverhalten; oder
einfach ein Name für die Fragen in einem Test (vgl. Slaney & Racine, 2013)?
Es ist daher notwendig, auf die wichtigsten Interpretationsmöglichkeiten
des Konstruktbegriffs einzugehen, um eine theoretische Basis für die zu
entwickelnde formal begründete Auswertung zu liefern.

8.1 Psychologische Konstrukte als latente


Variablen
Das wohl zentralste Konzept der Psychometrie ist das der latenten Variable.
Dieser Begriff tauchte bereits in Abschnitt 5 im Kontext psychometrischer
Modelle auf. Eine Variable wird als latent bezeichnet, wenn sie nicht direkt
beobachtbar oder messbar ist (Bühner, 2004). In den vorgestellten psychome-
trischen Modellierungsansätzen werden psychologische Tests als Indikatoren
für diese dahinter liegenden, verborgenen Größen betrachtet. Ein empirisch
bewährtes Modell kann nach dieser Auffassung verwendet werden, um aus
Testergebnissen Rückschlüsse auf die zu erhebenden latenten Variablen zu
ziehen.
Diese grundlegende Vorstellung von latenten Variablen spiegelt sich
unmittelbar in der Formalisierung psychometrischer Modelle wider: Im
Kontext der Strukturgleichungsmodelle entspricht sie dem Zusammenhang
zwischen Faktor und Testitem, in der Item Response Theory sind es latente

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_8, © Springer Fachmedien Wiesbaden 2014
58 8 Psychologische Konstrukte und ihre Bedeutungen

Variablen, von denen bestimmte Antwortwahrscheinlichkeiten abhängen,


und sogar in der Klassischen Testtheorie finden wir die grundlegende Idee
einer nicht direkt zugänglichen Größe im Konzept des „wahren Wertes“.
Bezüglich der Interpretation von Testwerten lässt sich zwischen zwei
grundlegenden Positionen unterscheiden. Sie sollen im Folgenden als starke
Latente-Variablen-Theorie und schwache Latente-Variablen-Theorie bezeichnet
werden. Die starke Version geht davon aus, dass Testwerte ursächlich auf
das Wirken latenter Variablen zurückgehen (Edwards & Bagozzi, 2000; Gly-
mour, 2001; Pearl, 2000). Die schwache Version hingegen betrachtet latente
Variablen lediglich als Mittel zur sparsamen Beschreibung von Testantwort-
strukturen (Browne & Cudeck, 1992; Cudeck & Browne, 1983). Innerhalb
dieser Positionen gibt es zahlreiche Ausdifferenzierungen, auf die an dieser
Stelle jedoch nicht im Einzelnen eingegangen werden soll, da der Fokus
der vorliegenden Darstellung auf den Gemeinsamkeiten verschiedener In-
terpretationen latenter Variablen liegt statt auf Detailunterschieden (vgl.
hierzu Borsboom, Mellenbergh & Van Heerden, 2003; Borsboom & Scholten,
2008). Es erscheint daher sinnvoll, sich auf eine grobe Unterscheidung zu
beschränken, die möglichst viele der existierenden Ansätze beinhaltet, um
den vorgebrachten Ansatz möglichst gut kontrastieren zu können.
Da die starke Version der Latente-Variablen-Theorie auf der Annahme
einer Kausalbeziehung zwischen latenten Variablen und Testantworten
beruht, geht sie fast immer mit einer realistischen Grundhaltung gegenüber
unbeobachtbaren Größen einher, das heißt sie werden als real existierend
aufgefasst (vgl. Feigl, 1950; Rozeboom, 1958, 1962; Slaney, 2001). Es ist zwar
nicht unmöglich, Kausalität ohne Rückgriff auf die tatsächliche Existenz der
wirkenden Größen zu konzeptionalisieren (vgl. hierzu Van Fraassen, 1980
oder Westmeyer, 1997), jedoch extrem gegenintuitiv: Wie soll ein kausaler
Einfluss von etwas ausgehen, was nicht existiert? Die starke Version der
Latente-Variablen-Theorie beinhaltet somit die implizite Annahme, dass
wir es mit tatsächlichen Größen zu tun haben, die – in welcher Weise auch
immer – einen Teil der Wirklichkeit darstellen.
Nach Borsboom (2005) ist die starke Version darüber hinaus die „natür-
lichere“ Interpretation latenter Variablen. Er begründet diese Auffassung
unter Anderem damit, dass psychometrische Modelle in formaler Hin-
sicht kompatibler mit der Auffassung latenter Variablen als ursächliche
Größen seien. Warum, fragt Borsboom, werden zum Beispiel im faktoren-
analytischen Modell die Testantworten als Linearkombination der latenten
Variablen dargestellt und nicht umgekehrt die latenten Variablen als Linear-
kombination der Testantworten konstruiert? Borsbooms Argument beruht
8.1 Psychologische Konstrukte als latente Variablen 59

auf der Interpretation der spezifizierten mathematischen Zusammenhänge


als Abbildung einer kausalen Hypothese. Historisch betrachtet hat er damit
sicherlich Recht (vgl. Abschnitt 4). Dennoch beruhen faktorenanalytische
Modelle formal gesehen nicht auf einer kausalen Interpretation des Zusam-
menhangs zwischen latenten Variablen und Testantworten.
Die schwache Version der Latente-Variablen-Theorie hingegen macht
weder Annahmen über Kausalität, noch geht sie davon aus, dass latente
Variablen tatsächlich existieren. Stattdessen betrachtet sie die Parameter
psychometrischer Modelle als rein mathematische Größen, die im Rahmen
einer formalisierten Theorie bedeutungsvoll und deren Verwendung von
praktischem Nutzen sein können – darüber hinausgehend jedoch nicht
interpretiert werden sollten. Dieser Auffassung liegt eine instrumentalisti-
sche Haltung gegenüber wissenschaftlichen Theorien zu Grunde (vgl. Stace,
1958; Worrall, 1982). Ziel der Wissenschaften ist es demzufolge nicht, die
wahre Struktur der Welt zu erforschen, sondern Strukturen zu konstruie-
ren, um die in der Welt vorgefundenen Phänomene möglichst einfach und
umfassend zu beschreiben (Papineau, 1996). Theorien sind nach dieser
Auffassung rein syntaktische Gebilde, die nicht den Anspruch auf reale
Entsprechungen erheben. Um dieser schwächeren Interpretation latenter
Variablen zu entsprechen, hat sich im Kontext der Psychometrie die Bezeich-
nung des hypothetischen Konstrukts etabliert (Lovasz & Slaney, 2013). Die
Bezeichnung „hypothetisch“ ist für diesen Fall eigentlich unpassend, da es
sich bei den betrachteten Variablen eben nicht um empirische Hypothesen
handelt, sondern um mathematische Abstraktionen (vgl. MacCorquodale &
Meehl, 1948).
Je nachdem, welche Interpretation latenter Variablen man zu Grunde
legt, gelangt man zu unterschiedlichen Interpretationen des Messvorgangs.
Versteht man psychologische Konstrukte als tatsächlich existierende Va-
riablen, bedeutet „messen“, dass die Ausprägung der latenten Variable
durch die Messprozedur in Zahlenwerte überführt wird. Dabei stehen ganz
klar die latente Variable und ihre Ausprägung im Vordergrund. Die empiri-
schen Messergebnisse werden nur bedeutsam in Hinblick darauf, dass sie
Ausprägungen wirklicher psychologischer Größen widerspiegeln.
Folgt man jedoch der Haltung, psychologische Konstrukte seien bloße
Abstraktionen, besteht der Messvorgang hingegen darin, tatsächliche empi-
rische Strukturen numerisch zu modellieren. Bei diesem Ansatz stehen die
abgebildeten empirischen Strukturen im Vordergrund. Letztendlich geht es
nicht um die latenten Variablen, sondern um die qualitativen Beobachtungs-
daten, welche durch sie modelliert werden.
60 8 Psychologische Konstrukte und ihre Bedeutungen

Trotz dieser Unterschiede haben die beiden Versionen der Latente-


Variablen-Theorie eine gemeinsame Basis: Manifestes (d.h. beobachtbares)
Testverhalten wird durch eine oder mehrere latente Variablen erklärt. Die Er-
klärung besteht darin, dass die konkret beobachteten Testwerte auf eine als
allgemein gültig angenommene empirischen Gesetzmäßigkeit zurückgeführt
werden. Diese Gesetzmäßigkeit kann im Sinne einer kausalen Hypothese
interpretiert werden, muss es aber nicht.

8.2 Erklärung vs. Bedeutung


Der Latente-Variablen-Ansatz stellt einen Versuch dar, Testverhalten zu
erklären. Formal kann dies durch psychometrische Modellierung geschehen,
so dass die Ergebnisse eines Tests Messungen einer kausal wirkenden oder
abstrahierenden psychologischen Variable sind.
Wie bereits in Abschnitt 4.5 dargelegt, zielen weite Bereiche psycholo-
gischer Testpraxis jedoch gar nicht darauf ab, Verhalten zu erklären. Oft
geht es lediglich darum, die vorliegende Datenmenge in sinnvoller Weise
zusammen zu fassen oder möglichst gute Prognosen für nicht erhobenes
Verhalten zu generieren. In solchen Fällen stellt sich weniger die Frage nach
der Erklärung von Testverhalten als die Frage nach der Bedeutung eines
Konstruktbegriffs. Wenn ein Test beispielsweise verwendet wird, um Aus-
sagen über eine Eigenschaft namens „Extraversion“ zu begründen, ist es
in vielen Fällen uninteressant, warum eine Person bestimmte Fragen bejaht
und andere verneint hat. Zentral ist die Frage, ob sie diese oder jene Frage
bejaht bzw. verneint hat und vor allem, was die Antworten einer Person im
Fragebogen bedeuten. Welche Fragen eines Tests wie beantwortet wurden,
ist in der Regel leicht festzustellen, diese Antworten zu interpretieren ist
hingegen alles andere als trivial. Wie extrovertiert eine Person ist, hängt
nämlich ganz wesentlich davon ab, wie die Eigenschaft „Extraversion“ defi-
niert ist. Der zentrale Punkt in der Interpretation psychologischer Tests ist
daher oft kein messtheoretischer (und somit auch kein psychometrischer),
sondern ein sprachlicher. Es ist die Frage nach den Definitionen (und somit
der korrekten Verwendung) der betrachteten Konstruktbegriffe.
Konstruktbegriffe müssen sich dabei nicht auf tatsächlich existierende
Größen, ja nicht einmal auf abstrakte mathematische Variablen beziehen
(Maraun, Slaney & Gabriel, 2009). Die Frage nach der Definition eines Be-
griffs ist zunächst eine rein sprachliche. Sie befasst sich mit dem Zurückfüh-
ren eines Begriffs auf bereits bekannte, im Idealfall eindeutige Begriffe. Es
8.3 Begriffliche Vagheit in der Psychologie 61

genügt dabei völlig, die logischen Bezüge zwischen einem Konstruktbegriff


und elementaren Aussagen (z.B. Fragebogenitems) darzulegen. Ob sich
ein solcher Begriff überhaupt auf etwas bezieht, und ob dieses Etwas eine
Erklärung für das Verhalten in einem Test darstellt, ist für definitorische
Fragen irrelevant. Wir können deshalb sinnvoll von einem psychologischen
Konstrukt sprechen und auch Testergebnisse in Hinblick auf bestimmte Kon-
strukte beurteilen, ohne auf ein Latente-Variablen-Modell zurückgreifen zu
müssen. Die einzige Voraussetzung hierfür ist, dass die Konstruktbegriffe
klar und eindeutig definiert sind.
Ob es latente Variablen gibt, und in welcher Relation sie zu beobachtba-
rem (Test-)Verhalten stehen, bleibt an dieser Stelle offen. Es ist nicht not-
wendig, latente Variablen anzunehmen, um Aussagen über psychologische
Konstrukte zu tätigen. Nichtsdestotrotz können sie existieren. Entscheidend
ist lediglich, dass die Definition psychologischer Konstrukte unabhängig
von der Erklärung von Testverhalten betrachtet werden kann.
Diese Auffassung von psychologischen Tests als Mittel zur Gewinnung
möglichst korrekter Beurteilungen von Personen hinsichtlich bestimmter
Konstruktbegriffe liegt dem im Folgenden zu entwickelnden formalen An-
satz zu Grunde. Statt den Zusammenhang zwischen latenten Variablen und
Testverhalten im Sinne repräsentationaler Messung zu modellieren, wird
der semantische Zusammenhang zwischen Testitems und Konstruktbegrif-
fen im Sinne einer formalen Definition sowie der logische Zusammmenhang
zwischen Testverhalten und Konstrukten im Sinne logischer Inferenz mo-
delliert. Für den ersten Schritt wird der Formalismus der Fuzzy-Mengenlehre
verwendet, für den zweiten werden formal-logische Inferenzsysteme ver-
wendet.

8.3 Begriffliche Vagheit in der Psychologie


Versucht man psychologische Konstrukte zu definieren, stößt man schnell
auf ein grundlegendes Problem: Die meisten psychologichen Begriffe
sind vergleichsweise vage. „Intelligenz“, „Bescheidenheit“, „Emotionali-
tät“, „Ausgeglichenheit“ etc. sind allesamt Beispiele für psychologische
Konstrukte, welche zwar von praktischer Bedeutung sein können, jedoch
relativ schwer begrifflich abzugrenzen sind. Für kaum einen psycholo-
gischen Konstruktbegriff wird es möglich sein, eine klar abzugrenzende
Definition zu geben. In den meisten Fällen gibt es Überlappungen zwischen
62 8 Psychologische Konstrukte und ihre Bedeutungen

verschiedenen Konstrukten sowie mehr oder weniger unscharfe semanti-


sche Begrenzungen eines Begriffs.
Dieses Problem ist seit Langem bekannt (Blumer, 1940), wird in der Psy-
chometrie jedoch kaum beachtet. Statt sich mit der formalen Modellierung
semantischer Unschärfe zu beschäftigen, wird in der Regel versucht, sämt-
liche Ungenauigkeiten unter dem Label „Messfehler“ zu behandeln. Die
Betrachtung psychologischer Tests als Messinstrumente begünstigt diese
Herangehensweise, so dass selbst im Falle offensichtlich unscharfer Be-
griffe von Messfehlern gesprochen wird. Zur Veranschaulichung dieser
Problematik soll das folgende hypothetische Beispiel dienen.
Ein Test zur Erfassung des Konstrukts „Extraversion“ bestehe aus nur
zwei Items:
1. Ich gehe gerne auf Parties.
2. Ich lerne gerne neue Leute kennen.
Lässt sich das Antwortverhalten einer Person, die der ersten Aussage zu-
stimmt, der zweiten jedoch nicht, sinnvoll durch das Konzept des Messfeh-
lers beschreiben? Wenn ja, worin besteht dieser Fehler? Kreuzen Personen
„aus Versehen“ die falsche Antwort an? Oder wissen sie womöglich selbst
nicht genau, welche Aussagen auf sie zutreffen und welche nicht? Auch
wenn das Konzept zufälliger Messfehler eine einfache Art darstellt, Ant-
wortvariation zu modellieren, fällt es schwer, die „zufällige“ Natur des
obigen Antwortverhaltens zu begründen.
Die näherliegende Interpretation der vorliegenden Antwortvarianz be-
steht darin, dass eine Person aus anderen Gründen gern auf Parties geht, als
neue Leute kennen zu lernen. Es liegt keine Zufälligkeit in diesem Sachverhalt.
Menschen gehen aus unterschiedlichen Gründen auf Parties, das ist alles.
Anstelle eines Messfehlers geht der vorliegende Ansatz von einem sehr
viel plausibleren Gedanken aus: Antwortvarianz in psychologischen Tests ba-
siert im Wesentlichen auf unscharf definierten Konstruktbegriffen.
Im Falle des obigen Beispiels hieße das, dass „Extraversion“ ein Konstrukt
ist, welches nur unscharf konzeptualisiert werden kann, indem man nach
möglichst eindeutigen Attributen sucht, welche semantisch mit dem Begriff
„Extraversion“ zusammenhängen. Konkret bedeutet das, „Extraversion“
als Oberbegriff einer nur vage definierbaren Menge von Einzelattributen zu
betrachten. Diese Attribute können unterschiedlicher Natur sein – einige
können Aussagen über konkrete Verhaltensweisen oder Verhaltensgewohn-
heiten sein, andere beziehen sich möglicherweise auf Einstellungen, Vorlie-
ben oder motivationale Faktoren, welche in der Person liegen. In ähnlicher
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 63

Weise kann auch mit anderen psychologischen Konstrukten verfahren wer-


den: „Intelligenz“ kann als Oberbegriff für eine unscharf begrenzte Menge
von Einzelattributen (z.B. „hat die Zahlenreihe 1-3-5-7-? richtig ergänzt“)
betrachtet werden, „Hilfsbereitschaft“ kann in diesem Sinne als Oberbegriff
für eine Menge von Einstellungen und vergangenen Taten begriffen werden
etc. Für den Fall, dass die Menge der zu einem Konstrukt gehörenden Attri-
bute eindeutig bestimmbar ist, wäre es möglich, einen Konstruktbegriff zu
definieren, indem man die Menge aller ihn konstituierenden Attribute angibt.
In der Regel ist es jedoch nicht möglich, die Menge der zum Konstrukt
gehörenden Attribute klar und eindeutig von der Menge der nicht zum Kon-
strukt gehörigen Attribute abzugrenzen. So kann es zum Beispiel vorkom-
men, dass Attribute mehr oder weniger zu einem Konstruktbegriff gehören.
Diese Art semantischer Unschärfe macht es unmöglich, einen derartigen
psychologischen Begriff durch die Angabe aller zu ihm gehörigen Attri-
bute zu charakterisieren. Die Modellierung von Konstruktbegriffen über
den klassischen Mengenbegriff scheidet daher aus. Um das Phänomen
der semantischen Unschärfe psychologischer Konstrukbegriffe formal zu
modellieren, wird deshalb im nächsten Abschnitt eine Erweiterung des
klassischen Mengenbegriffs im Sinne der Fuzzy-Mengenlehre vorgenommen.
Ziel dieser Formalisierung ist es, semantische Unschärfe in psychologi-
schen Konstruktbegriffen zu modellieren, so dass auch vage umrissene
Konstrukte explizit, das heißt mathematisch exakt definiert werden können.

8.4 Formale Modellierung abstrakter


Konstruktbedeutungen
8.4.1 Fuzzy-Mengen
Um vage definierte Konstrukte im obigen Sinne formal zu repräsentieren,
wird im Folgenden auf das Konzept der unscharfen Menge (engl. „Fuzzy
Set“) zurückgegriffen. Die Fuzzy-Mengenlehre ist eine mathematische Er-
weiterung der klassischen Mengenlehre, welche es gestattet, dass Objekte
zu einem gewissen Grade zu einer Menge gehören. Objekte sind demnach
nicht entweder Element einer Menge oder nicht, sondern sie können dies
mehr oder weniger stark sein.
Der Begriff der Fuzzy-Menge wurde von Zadeh (1965) eingeführt. Die
Theorie der Fuzzy-Mengen wurde seitdem erheblich erweitert und verallge-
meinert und hat insbesondere im Bereich der Regelungstechnik sehr nütz-
64 8 Psychologische Konstrukte und ihre Bedeutungen

liche Anwendungsfelder gefunden (Driankov, Hellendoorn & Reinfrank,


1996; Ying, 2000). Darüber hinaus gibt es zahlreiche weitere Anwendungen,
zum Beispiel in der Linguistik (Kacprzyk & Ziolkowski, 1986; Kraft, Bordo-
gna & Pasi, 1994; Herrera, Herrera-Viedma & Martínez, 2008; Mechefske &
Wang, 2003), der künstlichen Intelligenz (Yager & Zadeh, 1992; Yager, 1997;
Munakata, 2008), der Statistik (Buckley, 2004, 2005; Taheri, 2003) oder auch
in der Psychologie (Oden, 1979; Zeteni, 1988; Massaro & Cohen, 2000). Die
Darstellung des Formalismus folgt in wesentlichen Zügen Klir und Yuan
(1995) und Bandemer und Gottwald (1993).

Grundbegriffe
Formal lässt sich das Konzept der Fuzzy-Menge umsetzen, indem jedem
Objekt eine reelle Zahl (normalerweise zwischen 0 und 1) zugeordnet wird.
Diese Zahl steht für den Zugehörigkeitsgrad eines Objekts zu einer Menge.
Niedrige Werte bedeuten dementsprechend geringe Zugehörigkeit, hohe
Werte große Zugehörigkeit. Für den Fall, dass nur die Zugehörigkeitswerte
0 und 1 vorkommen, ergibt sich eine Menge im klassischen Sinne mit
den Werten 1 und 0 als charakteristischen Funktionen, welche ein Objekt
entweder als Element der Menge ausweisen oder als kein Element der
Menge. Zur besseren Abgrenzung soll in einem solchen Fall im Folgenden
von einer scharfen Menge gesprochen werden. Formal lässt sich eine Fuzzy-
Menge folgendermaßen definieren:
Definition 6. Eine Fuzzy-Menge ist ein Paar ( A, m), wobei A eine Menge ist
und m : A → [0, 1]. Für jedes x ∈ A, bezeichnet m( x ) den Zugehörigkeitsgrad
von x in ( A, m) und A die zu Grunde gelegte Trägermenge.
Definition 6 beschreibt den Zugehörigkeitsgrad aller Objekte zu einer
bestimmten Fuzzy-Menge über eine Funktion m. Für eine endliche Menge
A = { x1 , ..., xn }, lässt sich diese Funktion durch die Aufzählung sämtlicher
Elemente mit ihren entsprechenden Zugehörigkeitsgraden eindeutig be-
stimmen. Eine endliche Fuzzy-Menge ( A, m) lässt sich dementsprechend
vollständig durch die charakteristische Funktion m beschreiben:

m = {( x1 , m( x1 )), ..., ( xn , m( xn ))} (8.1)


Im Folgenden bezeichnen wir Fuzzy-Mengen gelegentlich nur mit Groß-
buchstaben, und wenn A eine Fuzzy-Menge ist, dann wird die zugehörige
Funktion mit m A denotiert. Um die nachfolgenden Definitionen zu vereinfa-
chen, wird darüber hinaus vorausgesetzt, dass die Trägermengen beliebiger
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 65

Fuzzy-Mengen A, B, C . . . eine gemeinsame Obermenge X aufweisen. X


stellt somit eine universelle Trägermenge dar, so dass die Zugehörigkeitsgra-
de von A, B, C . . . jeweils als charakteristische Funktion auf X spezifiziert
werden können.
Für jede Fuzzy-Menge A wird ihre skalare Kardinalität | A| als die Summe
der Zugehörigkeitswerte aller in ihr enthaltenen Elemente definiert:

| A| := ∑ m( x ) (8.2)
x∈X

Die skalare Kardinalität einer Fuzzy-Menge entspricht dem Begriff der


Mächtigkeit in der klassischen Mengenlehre. Bei endlichen scharfen Mengen
reduziert er sich auf die Anzahl der Elemente einer Menge. Im Falle der
Fuzzy-Mengen ist nicht nur die Anzahl der in einer Menge enthaltenen
Elemente relevant, sondern auch, wie groß ihre jeweiligen Zugehörigkeits-
grade sind. Eine Fuzzy-Menge mit wenigen Elementen hoher Zugehörigkeit
kann dieselbe skalare Kardinalität haben wie eine Fuzzy-Menge mit vielen
Elementen geringer Zugehörigkeit.
Eine Fuzzy-Menge ist leer genau dann, wenn sämtliche Zugehörigkeiten
gleich 0 sind. Zwei Fuzzy-Mengen A und B sind gleich (geschrieben als
A = B) genau dann, wenn sie auf derselben Trägermenge X definiert sind
und die Zugehörigkeiten aller enthaltenen Objekte identisch sind:

A = B := m A ( x ) = m B ( x ) (8.3)

für alle x ∈ X.
Eine Fuzzy-Menge A ist Untermenge von B genau dann, wenn beide auf
derselben Trägermenge X definiert sind und für jedes Objekt die Zugehö-
rigkeit zu A kleiner oder gleich der Zugehörigkeit zu B ist:

A ⊆ B := m A ( x ) ≤ m B ( x ) (8.4)

für alle x ∈ X.

Operationen auf Fuzzy-Mengen


Neben der Verallgemeinerung des Mengenbegriffs auf Fuzzy-Mengen exis-
tieren Verallgemeinerungen der klassischen Mengenoperationen: Schnitt-
menge, Vereinigungsmenge und Komplementärmenge. Diese Operationen
müssen die Bedingung erfüllen, dass sie sich für den Fall der scharfen Men-
ge auf die klassischen Operationen reduzieren. Die ursprünglich von Zadeh
66 8 Psychologische Konstrukte und ihre Bedeutungen

(1965) definierten Fuzzy-Operationen weisen durchweg diese Eigenschaft


auf. Allerdings sind zahlreiche von diesen verschiedene Operationen kon-
struierbar, welche ebenfalls zu einer Verallgemeinerung der klassischen
Mengenlehre führen (Zimmermann, 2001). Daher sollen im Folgenden nicht
die von Zadeh eingeführten Spezialfälle ausgeführt werden, sondern statt-
dessen allgemeine Bedingungen gegeben werden, die eine Reduktion der
Operationen auf die klassischen Entsprechungen garantieren.

Komlementärmenge Wenn m A den Grad angibt, in dem bestimmte Ob-


jekte zu einer Fuzzy-Menge A gehören, sollte die Zugehörigkeitsfunktion
der Komplementärmenge von A (geschrieben als A) den Grad angeben, in
welchem die entsprechenden Objekte nicht zu A gehören. Formal soll es sich
beim Komplement von A um eine Funktion c(m A ( x )) handeln, welche die
Zugehörigkeiten von A in entsprechende Zugehörigkeiten von A abbildet:

c : [0, 1] → [0, 1]

Der Wert von c(m A ( x )) wird interpretiert als m A ( x ):

c(m A ( x )) = m A ( x ) (8.5)

für alle x ∈ X. Das Komplement einer Fuzzy-Menge kann dementsprechend


errechnet werden, indem die Funktion c auf alle Zugehörigkeitswerte der
Elemente der betrachteten Menge angewendet wird.
An diese Funktion c werden eine Reihe von Forderungen gestellt (Klir &
Yuan, 1995):

1. c ist begrenzt: c(0) = 1 und c(1) = 0

2. c ist monoton: Wenn a ≤ b, dann gilt c( a) ≥ c(b) für alle a, b ∈ [0, 1]


3. c ist eine kontinuierliche Funktion

4. c ist involutiv: c(c( a)) = a für alle a, b ∈ [0, 1]

Die ersten beiden Forderungen bilden das axiomatische Grundgerüst eines


Fuzzy-Komplements. Die beiden letzten Forderungen hingegen werden als
wünschenswert, wenn auch nicht essentiell betrachtet.
Beispiele für Funktionen, welche nur die ersten beiden Forderungen
erfüllen, sind so genannte Schwellenwert-Funktionen, welche ab einem
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 67

bestimmten Wert schlagartig von 0 auf 1 schalten:



1, wenn y ≤ s
c( a) = (8.6)
0, wenn y > s

Als Beispiele für Fuzzy-Komplemente, welche alle vier Forderungen


erfüllen, lassen sich zum einen die so genannten Sugeno-Klasse und zum
anderen die so genannte Yager-Klasse anführen. Komplemente der Sugeno-
Klasse lassen sich beschreiben durch die Gleichung:
1−a
cλ ( a) = (8.7)
1 + λa
mit λ ∈ (−1, ∞). Je nach Größe des Parameters erhält man eine andere
Funktion c, wobei alle von ihnen den oben genannten Forderungen entspre-
chen. Die Yager-Klasse ist definiert durch die Gleichung:

c x ( a) = (1 − aw )1/w (8.8)

mit w ∈ (0, ∞). Wenn w = 1 gesetzt wird, ergibt sich daraus die von Zadeh
eingeführte ursprüngliche Komplementärfunktion c( a) = 1 − a.
Die Wahl einer Komplementärfunktion erscheint zunächst recht willkür-
lich, da es unendlich viele Funktionen gibt, die die obigen Bedingungen
erfüllen. Welche Funktion die jeweils angemessene Verallgemeinerung der
klassischen Komplementärmenge darstellt, ist von der jeweils beabsichtig-
ten Anwendung abhängig.

Schnittmengen und Vereinigungsmengen Während sich das Komplement


einer Fuzzy-Menge durch eine Funktion der Zugehörigkeiten einer Fuzzy-
Menge charakterisieren lässt, bezieht sich die Schnittmengen-Operation
(ebenso wie die Vereinigungsmengen-Operation) auf die Zugehörigkeiten
aus jeweils zwei Fuzzy-Mengen:

i : [0, 1] × [0, 1] → [0, 1]

Formal ist eine Fuzzy-Schnittmenge beschreibbar durch eine Funktion i, die


allen Elementen x in den Fuzzy-Mengen A und B einen Zugehörigkeitsgrad
zu der Menge zuordnet, welche durch die Schnittmenge von A und B
konstituiert wird:
m( A∩ B) ( x ) = i (m A ( x ), m B ( x )) (8.9)
für alle x ∈ X.
68 8 Psychologische Konstrukte und ihre Bedeutungen

Die Schnittmengen-Operation muss für jedes Element von A und B ange-


wendet werden. Da die Funktion i nicht von den Elementen selbst, sondern
nur von den entsprechenden Zugehörigkeitswerten m A ( x ) und m B ( x ) ab-
hängt, können wir die Funktion betrachten, als würde sie sich auf beliebige
Zahlen a, b ∈ [0, 1] beziehen. Dies erleichtert die Notation für die Funktion.
Die Schnittmengen-Funktion i muss folgende Bedingungen erfüllen
(Alsina, 1985):
1. i ist monoton: Wenn b ≤ d, dann gilt i ( a, b) ≤ i ( a, d)
2. i ist kommutativ: i ( a, b) = i (b, a)
3. i ist assoziativ: i ( a, i (b, d)) = i (i ( a, b), d)
4. i hat 1 als neutrales Element: i ( a, 1) = a
5. i hat das Nullelement 0: i ( a, 0) = 0
Funtionen, welche diese Eigenschaften erfüllen, werden als t-Normen be-
zeichnet (das t steht dabei für „triangular“, also dreieckig). Beispiele für
t-Normen sind die klassische, von Zadeh vorgeschlagene Schnittmengen-
Operation i ( a, b) = min( a, b), das algebraische Produkt i ( a, b) = ab, sowie
die so genannte Łukasiewicz’sche t-Norm max(0, a + b − 1)
Auch bei der Vereinigungs-Funktion u handelt es sich um eine Abbil-
dung aus [0, 1] × [0, 1] in das Intervall [0, 1]. Analog zur Schnittmenge kann
eine Fuzzy-Vereinigungsmenge durch eine Funktion u beschrieben werden,
welche allen Elementen x in zwei Fuzzy-Mengen A und B den Zugehörig-
keitsgrad für die Menge zuordnet, welche durch die Vereinigung von A
und B gebildet wird:

m( A∪ B) ( x ) = u(m A ( x ), m B ( x )) (8.10)

für alle x ∈ X.
Die Bedingungen, die für eine Funktion u erfüllt sein müssen, ähneln
denen der Schnittmengen-Funktion:
1. u ist monoton: Wenn b ≤ d, dann gilt u( a, b) ≤ u( a, d)
2. u ist kommutativ: u( a, b) = u(b, a)
3. u ist assoziativ: u( a, u(b, d)) = u(u( a, b), d)
4. u hat 0 als neutrales Element: u( a, 0) = a
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 69

Bis auf die letzte Bedingung stimmen sämtliche Forderungen überein. Funk-
tionen, welche diese Bedingungen erfüllen, heißen auch t-Conorm. Der
Name „Co-Norm“ rührt daher, dass sich zu jeder gegebenen t-Norm eine
entsprechende t-Conorm finden lässt, sofern man entsprechend der klas-
sischen Mengenlehre die Gültigkeit der De Morganschen Gesetze fordert
(Zimmermann, 2001). Diese besagen, dass das Komplement einer Vereini-
gungsmenge gleich der Schnittmenge der jeweiligen Komplemente sein
muss, sowie das Komplement der Schnittmenge der Vereinigung der ent-
sprechenden Komplemente entsprechen muss:

A∪B = A∩B (8.11)


A∩B = A∪B (8.12)

Enstprechend ergibt sich als Verallgemeinerung auf Fuzzy-Mengen:

c(u( a, b)) = i (c( a), c(b)) (8.13)


c(i ( a, b)) = u(c( a), c(b)) (8.14)

Für die genannten t-Normen ergeben sich daraus die entsprechenden t-


Conormen u( a, b) = max( a, b) (klassisch nach Zadeh), u( a, b) = max(0, 1 −
ab) (algebraische Summe), sowie min(1, a + b) (Łukasiewicz).
Schnittmenge, Vereinigungsmenge und Komplement sind somit nicht
unabhängig voneinander wählbar, sondern bilden jeweils gemeinsam eine
mögliche Verallgemeinerung der klassischen Mengenoperationen auf den
Fall der Fuzzy-Mengen.

Unschärfe vs. Wahrscheinlichkeit


Das Konzept der Fuzzy-Menge weist einige Ähnlichkeiten zum Begriff
der Wahrscheinlichkeit auf. Um Missverständnissen vorzubeugen, soll da-
her an dieser Stelle kurz erläutert werden, inwieweit sich beide Konzepte
voneinander abgrenzen lassen. Sowohl Wahrscheinlichkeiten als auch Zuge-
hörigkeitsgrade werden durch eine reelle Zahl zwischen 0 und 1 dargestellt,
wobei 0 minimale und 1 maximale Ausprägung bedeutet. Ebenso gibt
es eine gewisse Ähnlichkeit zwischen der Grundmenge A, auf der mit-
tels einer Zugehörigkeitsfunktion eine Fuzzy-Menge definiert wird und
einem Ereignisraum, auf dem eine Wahrscheinlichkeitsverteilung festge-
legt wird. Und schließlich gibt es mit der Produkt-t-Norm eine Operation,
70 8 Psychologische Konstrukte und ihre Bedeutungen

die mathematisch äquivalent ist zur Kombination der Wahrscheinlichkei-


ten zweier stochastisch unabhängiger Ereignisse, sowie mit dem Standard
Fuzzy-Komplement eine Operation die formal der Bildung einer Gegen-
wahrscheinlichkeit entspricht. Ist Fuzzy-Mengenlehre also nur Wahrschein-
lichkeitsrechnung in neuem Gewand? Oder handelt es sich um eine Verall-
gemeinerung der klassischen Wahrscheinlichkeitsrechnung?
Trotz dieser augenscheinlichen Ähnlichkeiten gibt es einige entscheiden-
de formale Unterschiede zwischen Fuzzy-Mengen und Wahrscheinlichkei-
ten. Zunächst sei darauf verwiesen, dass es sich bei Fuzzy-Mengen um
mathematische Verallgemeinerungen der klassischen Mengenlehre handelt.
Das heißt, sämtliche Operationen und Berechnungen konvergieren mit den
Ergebnissen klassischer Mengenoperationen, wenn nur die Zugehörigkeits-
grade 1 und 0 verwendet werden. Eine derartige Verbindung besteht nicht
zwischen der klassischen Mengenlehre und der Wahrscheinlichkeitsrech-
nung.
Hinzu kommt, dass die Zugehörigkeitsgrade einer Fuzzy-Menge nicht
additiv sein müssen. Anders als bei Wahrscheinlichkeiten, welche sich für
disjunkte Ereignisse stets zu 1 aufsummieren müssen, können Zugehörig-
keitsgrade zu verschiedenen Elementen einer Grundmenge völlig unabhän-
gig voneinander sein – das heißt ihre Summe kann sowohl größer als auch
kleiner als 1 sein. Nichtadditivität wäre im Kontext von Wahrscheinlich-
keitsberechnungen fatal, da sie die Bildung von Lotterien gestatten würde,
bei denen man unabhängig vom Ergebnis immer gewinnt – so genannte
Dutch Books (Finetti, 1974).
Schließlich liegt ein weiterer Unterschied in der Interpretation von Wahr-
scheinlichkeiten bzw. Zugehörigkeitsgraden: Wahrscheinlichkeiten werden
in aller Regel als Ausdruck von Unsicherheit verstanden. Nach klassischer
(frequentistischer) Auffassung drücken Wahrscheinlichkeiten Unsicherheit
in Bezug auf bestimmte mögliche Ereignisse aus. Ereignisse können einre-
ten oder nicht – die Wahrscheinlichkeit für das Eintreten besagt, wie sicher
oder unsicher man sich sein kann, dass ein Ereignis eintritt oder nicht. Auch
die Interpretation von Wahrscheinlichkeiten als ein Maß für einen bestimm-
ten Überzeugungsgrad (bayesianisch) versteht die Wahrscheinlichkeit eines
Ereignisses oder einer Hypothese als Ausdruck von Unsicherheit.
Fuzzy-Mengenlehre hingegen befasst sich inhaltlich nicht mit Unsicher-
heit, sondern mit dem Phänomen der Vagheit. Der Zugehörigkeitsgrad eines
Objekts zu einer Fuzzy-Menge besagt nicht, wie sicher man sein kann, dass
besagtes Objekt zur entsprechenden Menge gehört. Stattdessen bezeichnet
der Zugehörigkeitsgrad des Objektes das Ausmaß, in welchem das Objekt
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 71

zu einer bestimmten Menge gehört. Im Gegensatz zur Wahrscheinlichkeit


wird also nicht davon ausgegangen, dass das Objekt „in Wirklichkeit“ ent-
weder zur Menge gehört oder nicht. Es wird keine Unsicherheit bezüglich
der Zugehörigkeit ausgedrückt, sondern die Tatsche, dass man bestimmte
Objekten selbst bei vollständigem Wissen nicht eindeutig einer bestimmten
Menge zuordnen kann. Zugehörigkeitsgrade von Fuzzy-Mengen stellen
inhaltlich den Versuch dar, genuin „unscharfe“ Zuordnungen von Objekten
zu modellieren, während Wahrscheinlichkeiten ein Maß für Unsicherheit in
Bezug auf eigentlich klar abgrenzbare Ereignise darstellen.

8.4.2 Anwendung auf psychologische Konstrukte


Der vorgestellte Formalismus der Fuzzy-Mengenlehre bietet nunmehr die
Möglichkeit, auch vage psychologische Konstruktbegriffe mathematisch ex-
akt zu definieren. Der in Abschnitt 8.3 diskutierte Begriff der semantischen
Vagheit bekommt durch diesen Formalismus eine explizite Bedeutung. Wie
genau die Anwendung von Fuzzy-Mengen zur Charakterisierung semanti-
scher Konstruktverbände aussieht, ist Inhalt dieses Abschnitts.

Konstruktbedeutungen als Fuzzy-Mengen


Ausgangspunkt der zu entwickelnden formalen Beschreibung ist die Vor-
stellung, dass sich die Bedeutung abstrakter Konstrukte durch konkrete
Attribute vollständig erfassen lässt. Diese Attribute müssen eindeutig be-
stimmbar sein. Sie werden im Sinne elementarer Bausteine für die Bildung
abstrakter Begriffe verstanden.
Folgt man dieser Auffassung, lässt sich das Konzept der Bedeutung eines
psychologischen Konstrukts folgendermaßen definieren:

Definition 7. Eine Konstruktbedeutung ist eine Fuzzy-Menge K auf einer


(scharfen) Trägermenge wohldefinierter Attribute A.

Eine Konstruktbedeutung lässt sich demnach vollständig durch die Zu-


gehörigkeiten einer Menge von Attributen zum jeweiligen Konstruktbe-
griff fassen. Werden diese Attribute in Form eines Fragebogens abgefragt,
lässt sich die Definition einer Konstruktbedeutung auch über die Menge
der entsprechenden Fragebogenitems formulieren. Das Konzept der Kon-
struktbedeutung soll im Folgenden anhand eines hypothetischen Beispiels
veranschaulicht werden.
72 8 Psychologische Konstrukte und ihre Bedeutungen

Beispiel 1. Der Konstruktbegriff „Höflichkeit“ soll folgende Attribute umfassen:


(a) „Hält sich an Gruß- und Abschiedsformeln“

(b) „Schaut seinem Gesprächspartner in die Augen“


(c) „Ist gegenüber Vorgesetzten zurückhaltend“

(d) „Hält Anderen die Tür auf“

Diese Attribute sollen in einem Fragebogen direkt abgefragt werden. Dabei gehören
(a) und (d) sehr stark zum Konstruktbegriff, (b) etwas weniger und (c) nur ein
bisschen. Um dieser Gewichtung Ausdruck zu verleihen, werden die Items mit
entsprechenden Zugehörigkeitsgraden versehen, so dass sich die Bedeutung des
Konstruktbegriffs „Höflichkeit“ in Form einer Fuzzy-Menge H spezifizieren lässt:

H = {(0.9, a), (0.7, b), (0.1, c), (0.9, d)}

Obwohl der Begriff von Natur aus vage ist, kann seine Bedeutung mittels einer
Fuzzy-Menge explizit gemacht werden. Die genannten Attribute und Zugehö-
rigkeiten erheben selbstverständlich nicht den Anspruch darauf, die tatsächliche
Bedeutung des Begriffs „Höflichkeit“ wiederzugeben, sondern dienen nur der Er-
läuterung des Prinzips.

Konstruktbedeutungen in semantischen Begriffsstrukturen


Betrachtet man einen Konstruktbegriff nicht isoliert, sondern im größeren
Kontext verwandter bzw. ähnlicher Konstruktbegriffe, ist es hilfreich, das
Konzept des semantischen Konstruktraums einzuführen:

Definition 8. Ein semantischer Konstruktraum ist eine scharfe Menge A :=


{K |K ∩ A = K }, wobei A die Menge der wohldefinierten Attribute bezeichnet.
Die Elemente eines semantischen Konstruktraums heißen A-Bedeutungen.
Definition 8 legt fest, dass die (Fuzzy-)Schnittmenge einer Konstruktbe-
deutung mit der scharfen Menge A gleich der Konstruktbedeutung selbst
sein muss. Da A eine scharfe Menge ist (ein Attribut gehört entweder zur
Trägermenge oder nicht) und für alle t-Normen gilt, dass 1 neutrales Ele-
ment ist, ist dies genau dann der Fall, wenn sich alle Attribute, die zur
Festlegung einer Konstruktbedeutung nötig sind, in der Trägermenge wie-
derfinden. A-Bedeutungen sind somit all jene Konstruktbedeutungen, wel-
che sich mittels der gewählten Trägermenge A definieren lassen. Da es für
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 73

jedes Element aus A jeweils unendlich viele mögliche Zugehörigkeitsgrade


gibt, hat jeder semantische Konstruktraum unendlich viele Elemente.
Wendet man die in Abschnitt 8.4.1 beschriebenen Fuzzy-Operatoren
an, ergeben sich folgende Eigenschaften bezüglich der Menge der A-
Bedeutungen:

• Das Komplement einer A-Bedeutung ist ebenfalls eine A-Bedeutung:


Wenn X ∈ A, dann gilt auch X ∈ A
• Die Schnittmenge und Vereinigungsmenge zweier A-Bedeutungen
sind ebenfalls A-Bedeutungen: Wenn X ∈ A und Y ∈ A, dann gilt
auch X ∩ Y ∈ A und X ∪ Y ∈ A

Innerhalb der Menge der A-Bedeutungen kann die in Abschnitt 8.4.1 ein-
geführte Untermengen-Relation ⊆ als Unter- bzw. Oberbegriffsrelation inter-
pretiert werden (vgl. Goguen, 1969). Ein Konstrukt wäre demnach Ober-
begriff für alle Konstrukte, deren Bedeutungen durchweg niedrigere oder
höchstens gleiche Attributzugehörigkeiten aufweisen. Die Gleichheit von
Fuzzy-Mengen lässt sich ebenso intuitiv im Sinne einer Äquivalenzrelation
zwischen Konstruktbedeutungen verstehen. Zwei Konstruktbedeutungen
wären demnach genau dann synonym, wenn ihre Zugehörigkeitsfunktionen
identisch sind. Ferner sei der semantische Gehalt eines Konstrukts definiert
als die skalare Kardinalität der entsprechenden Fuzzy-Menge.
Die Menge der A-Bedeutungen bildet in Kombination mit der Oberbe-
griffsrelation eine Struktur (A, ⊆), welche als Halbordnung bezeichnet wird.
Das bedeutet, dass (A, ⊆) folgende Eigenschaften aufweist:

1. ⊆ ist transitiv: Wenn X ⊆ Y und Y ⊆ Z, dann gilt X ⊆ Z für alle


X, Y, Z ∈ A
2. ⊆ ist reflexiv: X ⊆ X für alle X ∈ A

3. ⊆ ist antisymmetrisch: Wenn X ⊆ Y und Y ⊆ X, dann ist X = Y für


alle X ∈ A
Die Transitivität folgt unmittelbar aus der Definition von ⊆ über die kleiner-
gleich-Relation (≤) für jeden Zugehörigkeitsgerad. Da ≤ transitiv bezüglich
der rationalen Zahlen ist, ist auch ⊆ transitiv. Die Reflexivität von ⊆ ergibt
sich aus der Definition der Gleichheitsrelation zweier Fuzzy-Mengen. Da
eine Fuzzy-Menge X mit sich selbst identisch ist, gilt auch stets X ⊆ X.
Umgekehrt gilt auch, dass zwei Fuzzy-Mengen nur dann wechselseitige
74 8 Psychologische Konstrukte und ihre Bedeutungen

Untermengen sein können, wenn sie gleich sind – das wäre die Eigenschaft
der Antisymmetrie.
Während die Menge der A-Bedeutungen alle Konstruktbedeutungen
umfasst, die theoretisch mittels einer bestimmten Menge von Attributen
beschreibbar sind, ist in der Praxis nur eine relativ geringe Teilmenge aus A
praktisch relevant. Eine solche, endliche, Teilmenge von A (geschrieben als
A ) lässt sich in anschaulicher Weise mit einem Hasse-Diagramm darstellen.
Dabei handelt es sich um einen gerichteten Graphen, bei welchem die Ele-
mente aus A durch Knoten repräsentiert werden. Die Kanten des Graphen
werden so gesetzt, dass für alle Elemente a ⊆ b mit a, b ∈ A , die in Relation
a ⊆ b zueinander stehen und für die es kein Element c mit a ⊆ c ⊆ b gibt,
eine Kante von a nach b verläuft (Berghammer, 2008).
Diese Art der Darstellung ermöglicht es, auch komplexe hierarchische
Konstruktbedeutungen in anschaulicher Weise zu strukturieren. Im Gegen-
satz zu üblichen Darstellungen psychologischer Konstrukte in hierarchi-
schen Strukturen (z.B. im Kontext der faktorenanalytischen Modellierung)
handelt es sich hier ganz explizit um die Darstellung begrifflicher Relationen.
Dies ist konsistent mit der Interpretation psychologischer Konstrukte als
sprachliche Abstraktionen, welche weder die Existenz latenter Variablen
noch deren Messung voraussetzt.
Beispiel 2. Gegeben sei eine Grundmenge wohldefinierter Attribute A, welche
durch die Fragebogenitems a, b, c, d, e ∈ A spezifiziert werden:
a Ich lerne gerne neue Leute kennen.
b Ich gehe gern auf Parties.
c Ich stehe gern im Mittelpunkt.
d Ich habe viele Freunde.
e Die meisten meiner Mitmenschen mögen mich.
Die Attribute a bis e konstituieren einen semantischen Konstruktraum A auf
der Menge A, welcher durch sämtliche mögliche Zuordnungskombinationen der
Items in das reellwertige Intervall [1,0] festgelegt ist. Es sei nun eine scharfe Menge
A ⊂ A auf A definiert durch die in Tabelle 8.1 gegebenen Zugehörigkeiten.
Die auf diese Weise definierten Konstrukte bilden jeweils eine Fuzzy-Menge auf
A und bilden in Kombination mit der Unterbegriffs/Oberbegriffsrelation ⊆ eine
Halbordnung, welche sich durch das in Abbildung 8.1 gezeigte Hasse-Diagramm
abbilden lässt. Weiter oben stehende Konstruktbegriffe haben jeweils einen höheren
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 75

Tabelle 8.1: Beispiel eines semantischen Konstruktraums

Konstruktbegriff a b c d e
Aufgeschlossen 0.9 0.7 0.6 0.8 0.8
Sozial orientiert 0 0.2 0 0.8 0.8
Beliebt 0 0 0 0.7 0.8
Kontaktfreudig 0.9 0.2 0 0.5 0
Extrovertiert 0.8 0.7 0.5 0 0
Geltungsbedürftig 0 0.4 0.6 0 0

semantischen Gehalt und stellen Oberbegriffe für die weiter unten stehenden, mit
Linien verbundenen Konstruktbegriffe. Das Diagramm veranschaulicht die logisch-
begrifflichen Relationen zwischen den Konstrukten, insbesondere die hierarchische
Natur des gewählten Konstruktraums.

Aufgeschlossen

Sozial orientiert Extrovertiert

Kontaktfreudig Beliebt Geltungsbedürftig

Abbildung 8.1: Hasse-Diagramm zur Veranschaulichung eines semanti-


schen Konstruktraums
76 8 Psychologische Konstrukte und ihre Bedeutungen

8.4.3 Andere Ansätze zur Modellierung semantischer


Unschärfe mittels Fuzzy-Mengen
Die Modellierung semantischer Unschärfe stellt eines der ältesten Anwen-
dungsgebiete von Fuzzy-Mengen dar (Seising, 2012). Bereits 1971 stellte
Zadeh den ersten Entwurf einer „Fuzzy-Semantik“ vor (Zadeh, 1971). Die
Bedeutung eines Begriffs definierte er als unscharfe Untermenge eines so
genannten „Diskursuniversums“.
Obwohl dieser Ansatz dem obigen formal ähnelt, verfolgte Zadeh ein
grundlegend anderes Ziel: die Modellierung unscharfer Adjektive wie
„groß“, „warm“ etc. durch Rückführung auf quantitative Variablen. In diesem
Sinne wird ein alltagssprachlicher Begriff wie z.B. „warm“ als unscharfe
Untermenge aller möglichen Temperaturausprägungen verstanden. Diesen
Ansatz entwickelte Zadeh später zum Konzept der linguistischen Variable
weiter (Zadeh, 1975a, 1975b, 1975c). Linguistische Variablen bestehen aus
einer quantitativen Basisvariablen (z.B. Temperatur), einer Menge linguis-
tischer Begriffe (z.B. „kalt“, „warm“ und „heiß“) und je einer Funktion,
welche die Zugehörigkeit der Variablenausprägungen zum jeweiligen Be-
griff festlegt.
Aufbauend auf einer Erweiterung formaler Sprachen durch Fuzzy-
Mengen (Zadeh, 1972) bettete Zadeh diesen Ansatz schließlich in einen
allgemeinen Formalismus zur Modellierung der Bedeutung natürlicher
Sprachen ein (Zadeh, 1978, 1982).
Diese Beiträge zur Modellierung unscharfer Bedeutungen mittels Fuzzy-
Mengen wurden von verschiedenen Autoren aufgegriffen und weiterent-
wickelt (z.B. Novák, 1992; Mordeson & Malik, 2002; Khoury, Karray, Sun,
Kamel & Basir, 2007; Wang, 2009; Soto, 2011; García-Honrado & Trillas,
2011). Anwendungen dieser Konzepte finden sich beispielsweise im Bereich
der Wissensrepräsentation im Semantic Web1 in Form von Fuzzy Ontolo-
gien (Arotaritei & Mitra, 2004; Xu, Kang, Lu, Li & Jiang, 2005) und in so
genannten Expertensystemen, welche versuchen das Wissen und die Wis-
sensintegration menschlicher Experten – z.B. im Kontext medizinischer
Diagnostik – zu simulieren und zu automatisieren (vgl. Grabot & Caillaud,
1996; Adlassnig, Kolarz, Scheithauer, Effenberger & Grabner, 1985; Kolarz &
Adlassnig, 1986; Adlassnig & Akhevan-Heidari, 1989). Des Weiteren gibt
es Anwendungen für die Modellierung komplexer Entscheidungsprozesse

1 Das Semantic Web stellt einen Versuch dar, Inernetinhalte hinsichtlich ihrer Bedeutungen zu
strukturieren, so dass Bezüge zwischen Informationen aus verschiedenen Quellen auch
automatisiert erkannt werden können (Davies, Fensel & Van Harmelen, 2003).
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 77

bei unscharfer Informationslage (z.B. Ribeiro, 1996; Roubens, 1997; Dubois,


2011; Haghighi, 2012).
Der in dieser Arbeit entwickelte Ansatz bezieht sich hingegen ausschließ-
lich auf die Formalisierung psychologischer Konstruktbedeutungen. Es
wird dabei kein Anspruch erhoben, semantische Unschärfe in Bezug auf
alle natürlichsprachlichen Begriffe abzubilden. Die Einbettung in eine allge-
meine Semantik unscharfer Begriffe erscheint wenig sinnvoll, da sie eine
unverhältnismäßige Erweiterung des formalen Apparates erfordern würde.
Darüber hinaus ist es fragwürdig, inwieweit die Bedeutung natürlicher
Sprache in ihrer Gesamtheit überhaupt formal abzubilden ist.
Ein weiterer Ansatz zur Beschreibung unscharfer Begriffe mit Fuzzy-
Mengen stammt aus dem Bereich der Formalen Begriffsanalyse (Ganter &
Wille, 1996). Dieses Verfahren beschäftigt sich mit so genannten „formalen
Kontexten“, welche aus einer Menge von Merkmalen und einer Menge von
Gegenständen (das können auch Personen sein) zusammengesetzt werden.
Für jeden Gegenstand ist nunmehr angegeben, ob ein bestimmtes Merkmal
zutrifft oder nicht. Pollandt (1997) erweiterte diesen Ansatz um das Konzept
der unscharfen Zugehörigkeit, welches über Fuzzy-Mengen modelliert wird.
Merkmale können demnach auch nur zu einem gewissen Grade zutreffen.
Durch die Anwendung des so genannten Closure-Operators2 werden For-
male Begriffe definiert. Diese lassen sich auf zweierlei Weise spezifizieren:
zum einen über die Menge der Gegenstände, auf welche der Begriff zutrifft
(den „Begriffsumfang“), und zum anderen durch die Menge der Merkmale,
welche den Begriff definieren (den „Begriffsinhalt“). Wenn Merkmale nur
zu einem gewissen Grade auf Gegenstände zutreffen, spricht Pollandt von
„Fuzzy-Kontexten“ bzw. „Fuzzy-Begriffen“. Der Begriffsinhalt entspricht für
Fuzzy-Begriffe einer unscharfen Untermenge der betrachteten Merkmale
(vgl. auch Belohlavek, 2003, 2011; Popescu, 2004).
Für den Fall, dass die Gegenstände Personen sind und die Merkmale
Attribute, welche in einem Test abgefragt werden, könnte man die Inhalte
der resultierenden Fuzzy-Begriffe als Konstruktbedeutungen im obigen Sinne
auffassen. Im Gegensatz zum Konzept der Konstruktbedeutung beziehen
Fuzzy-Begriffe sich jedoch immer auf eine bestimmte Menge von Gegenständen.
Da sie jeweils aus einem bestimmten Formalen Kontext generiert werden,
haben sie auch nur innerhalb dieses Kontexts Gültigkeit – für andere Ge-

2 DerClosure-Operator besteht darin, dass Gegenstände und Merkmale derart zusammen-


gefasst werden, dass alle Gegenstände erfasst werden, die die ausgewählten Merkmale
gemeinsam haben, und gleichzeitig alle Merkmale erfasst werden, die den entsprechenden
Gegenständen gemeinsam sind (Ganter & Wille, 1996).
78 8 Psychologische Konstrukte und ihre Bedeutungen

genstandsmengen können sich somit auch andere Formale Begriffe ergeben.


Der in dieser Arbeit vorgestellte Ansatz definiert Konstruktbedeutungen
lediglich in Abhängigkeit einer Attributmenge und ist somit unabhängig
von den in einem spezifischen Fall betrachteten Personen.
Auch im Bereich der kognitiven Psychologie wurden Fuzzy-Mengen zur
Modellierung begrifflicher Konzepte verwendet (Belohlavek, Klir, Lewis
& Way, 2009; Belohlavek & Klir, 2011). Insbesondere im Rahmen der so
genannten Prototypentheorie kam das Konzept der Fuzzy-Menge zur An-
wendung (z.B. bei Oden, 1977a, 1977b; McCloskey & Glucksberg, 1978;
Zadeh, 1982). Nach dieser Theorie werden Konzepte in Form abstrakter
„Prototypen“ im Gehirn repräsentiert. Diese weisen alle Merkmale auf, die
besonders typisch für eine bestimmte Kategorie sind (Rosch, 1973; Taylor,
2003; Hampton, 2006). Die Zugehörigkeit zu einer solchen Kategorie kann
verstanden werden als das Ausmaß, in dem ein Objekt einem Prototypen
ähnelt. Dementsprechend spiegelt der Zugehörigkeitsgrad eines Objekts zu
einer Kategorie die Ähnlichkeit zum Prototypen wider.
Der in dieser Arbeit beschriebene Ansatz unterscheidet sich hiervon in
zweierlei Hinsicht. Zum einen wird nicht die Zugehörigkeit von Objekten
(im Falle psychologischer Eigenschaften wären das Personen) zu einer
bestimmten Kategorie modelliert, sondern die Zugehörigkeit definierender
Attribute zu Eigenschaftsbegriffen. Es geht somit nicht um die Zugehörigkeit
einer Person zur Menge der Merkmalsträger – diese wird im vorliegenden
Ansatz aus dem Testergebnis erschlossen und nicht definitorisch festgelegt
(siehe Kapitel 9). Zum anderen verfolgt die Prototypentheorie primär das
Ziel, kognitive Repräsentationen zu modellieren. Der Ansatz dieser Arbeit
hingegen versucht Bedeutungen zu formalisieren.
Schließlich sind noch Anwendungen von Fuzzy-Mengen im messtheore-
tischen Kontext abzugrenzen (z.B. Skala, 1978; Katz, 1981). Hierbei geht es
darum, die durch fehlerbehaftete Messprozeduren entstehende Unschärfe
über Fuzzy-Mengen zu modellieren. Obwohl auch diese Ansätze insbeson-
dere für die Auswertung psychologischer Tests verwendet werden können,
unterscheiden sie sich doch grundsätzlich von der Modellierung unscharf
definierter Konstruktbedeutungen: Der in dieser Arbeit vorgestellte Ansatz
befasst sich ganz bewusst nicht mit Messungen bzw. Messfehlern. Stattdes-
sen führt er Antwortvarianz auf Bedeutungsunterschiede zwischen den
Items eines Fragebogens zurück und formalisiert diese mit Hilfe von Fuzzy-
Mengen.
Die Anwendung von Fuzzy-Mengen zur Modellierung semantischer Un-
schärfe findet sich somit in mehreren Ansätzen wieder, welche sich sowohl
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 79

hinsichtlich ihrer Zielsetzung als auch in Bezug auf die konkrete Umset-
zung des Formalismus unterscheiden. Die Konzepte der Konstruktbedeutung
und des semantischen Konstruktraums weisen zwar an verschiedenen Stellen
Querverbindungen zu bestehenden Arbeiten auf, lassen sich jedoch sowohl
inhaltlich als auch formal hinreichend abgrenzen.
9 Tests als Mittel logischer Inferenz

Aufbauend auf der im vorangehenden Abschnitt vorgestellten begrifflich-


abstrahierenden Interpretation psychologischer Konstrukte soll im Folgen-
den ein damit kompatibler Ansatz zur Auswertung und Interpretation
psychologischer Tests entwickelt werden. Dieser Ansatz versteht den Vor-
gang des psychologischen Testens im Sinne eines formal-logischen Inferenz-
schlusses. Dabei wird insbesondere von verschiedenen mehrwertigen Logiken
Gebrauch gemacht, so dass zum einen eine Quantifizierung logischer Aus-
drücke ermöglicht wird und zum anderen das Prinzip der semantischen
Unschärfe psychologischer Konstrukte mit einbezogen werden kann.
Das grundlegende Schema, welches im Folgenden für die Testauswer-
tung verwendet werden soll, besteht in einem logischen Inferenzschluss
von den vorliegenden (Test-)daten auf das Vorliegen eines oder mehrerer
psychologischer Konstrukte. Das bedeutet, dass sowohl Testergebnisse als
auch Konstruktdefinitionen in eine formal-logische Sprache übertragen wer-
den, innerhalb derer dann durch die Anwendung logischer Schlussregeln
Aussagen über das Vorliegen von Konstrukten generiert werden.
Zur Veranschaulichung des Prinzips der logischen Inferenz in der Test-
auswertung soll zunächst der Fall scharf definierter Konstrukte betrachtet
werden – also Oberbegriffe für eine klar abzugrenzende Menge an definie-
renden Kriterien. Zu diesem Zweck sind klassische (zweiwertige) Logiken
ausreichend. Daher werden zunächst die Kalküle der klassischen Aussa-
genlogik und der Prädikatenlogik ausgeführt.
Darauf aufbauend werden im Anschluss verschiedene mehrwertige Logi-
ken eingeführt, welche eine Quantifizierung psychologischer Konstrukte
durch kontinuierliche Wahrheitsgrade von Aussagen ermöglichen. Die Ab-
schnitte gliedern sich jeweils in einen formalen Teil, welcher die mathemati-
schen Hintergründe des verwendeten logischen Schlusssystems erläutert,
und einen Anwendungsteil, in welchem der jeweils verwendete Formalis-
mus auf eine spezifische testtheoretische Fragestellung angewendet wird.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_9, © Springer Fachmedien Wiesbaden 2014
82 9 Tests als Mittel logischer Inferenz

9.1 Aussagenlogische Formalisierung klinischer


Tests
Als einführendes Beispiel für die Anwendung formaler Logiken in der
Testauswertung soll im Folgenden eine aussagenlogische Formalisierung
von ICD-Diagnosen vorgenommen werden. Die Verwendung von ICD-
Diagnosen bietet sich aus mehreren Gründen an. Zum einen ist durch die
klinisch-diagnostische Relevanz ein großer Anwendungsbezug gewährleis-
tet. Zum anderen sind die ICD-Kriterien für psychische Störungen explizit
als theorielos und deskriptiv konzipiert (Dilling, Mombour, Schmidt & Schulte-
Markwort, 2011). Es werden also keine Annahmen über die Verursachung
von Symptomen oder deren gemeinsames Auftreten vorausgesetzt. ICD-
Diagnosen stellen daher lediglich Kriterien bereit, anhand derer das Vorlie-
gen einer bestimmten Störung beurteilt wird. Die resultierenden Diagnosen
sind daher per Definition gültig und unabhängig von empirischen For-
schungsergebnissen. Aufgrund dieser definitorischen Natur der ICD liegt
für die Auswertung von klinischen Fragebögen eine begrifflich-logische
Herangehensweise deutlich näher als eine psychometrische (welche eine
Theorie zu Grunde legen würde).

9.1.1 Aussagenlogik
Die klassische Aussagenlogik befasst sich mit der Formalisierung von Aus-
sagen, welche entweder wahr oder falsch sein können. Aussagen setzen sich
dabei aus elementaren Bausteinen, so genannten Propositionen, zusammen.
Je nachdem, welche Wahrheitswerte („wahr“ bzw. 1 oder „falsch“ bzw. 0)
diese elementaren Einheiten einnehmen, ergeben sich die Wahrheitswerte
aller aus ihnen gebildeten Aussagen. Darüber hinaus werden Schlussregeln
gegeben, welche die Bildung neuer (wahrer) Aussagen aus bereits bekann-
ten (wahren) Aussagen erlauben. Eine solche formale Sprache wird auch
als logischer Kalkül bezeichnet.
Die Struktur eines Kalküls, also die zulässigen Symbole und deren Ver-
knüpfungsregeln, sowie zulässige Schlussregeln, nennt man die Syntax
einer Logik. Eine Interpretation der verwendeten Symbole, welche jeder
Aussage ϕ einen Wahrheitswert w [ ϕ] (mit den möglichen Ausprägungen
„wahr“ und „falsch“) zuordnet, stellt eine entsprechende Semantik bereit.
Eine Aussage ist herleitbar (oder auch beweisbar), wenn sie sich als Ergebnis
einer endlichen Folge von Aussagen mit korrekt angewendeten Schlussre-
9.1 Aussagenlogische Formalisierung klinischer Tests 83

geln darstellen lässt. Sind alle herleitbaren Aussagen in jeder möglichen


semantischen Interpretation „wahr“, so sagt man, ein Kalkül ist semantisch
korrekt. Ist darüber hinaus jede semantisch wahre Aussage in einem Kalkül
herleitbar, sagt man, der Kalkül ist vollständig (Rautenberg, 2008).
Kalküle können sehr unterschiedliche Formen annehmen. So gibt es bei-
spielsweise Kalküle, in denen logische Operationen durch eine baumartige
grafische Struktur repräsentiert werden – so genannte Tableaux-Kalküle
(Beth, 1955). Ebenso ist es möglich, statt abstrakter Symbole auf die Verwen-
dung grafischer Elemente zurückzugreifen (Peirce, 1983). Von diesen Ansät-
zen grundlegend verschieden ist der algebraische Kalkül von Boole (1948),
bei welchem logisches Schließen durch algebraische Rechenoperationen
wie Addition und Multiplikation repräsentiert wird. Darüber hinaus gibt es
Kalküle, welche formal-abstrakte Zeichenketten verwenden. Diese lassen
sich weiter unterscheiden in so genannte Sequenzkalküle (z.B. Gentzen,
1935a, 1935b) und Hilbertkalküle (z.B. B. Russell, 1908; Hilbert & Acker-
mann, 1949; Frege, 1964). Während Sequenzkalküle auf einer umfassenden
Menge von Schlussregeln basieren, legen Hilbertkalküle eine (möglichst
geringe Anzahl) Axiome in Kombination mit sehr wenigen Schlussregeln
(meistens nur einer oder zwei) zu Grunde.
Für die folgende Darstellung wurde ein Hilbertkalkül gewählt, welcher
auf dem klassischen Kalkül von Frege (1964) basiert. Er zeichnet sich unter
anderem dadurch aus, dass er von seiner Struktur her den in Abschnitt 10
eingeführten mehrwertigen Kalkülen sehr ähnlich ist – insbesondere die Er-
weiterung um Quantoren erfolgt in der gleichen Weise wie im mehrwertigen
Fall. Die so gewonnene Einheitlichkeit der Darstellung soll den Übergang
in das (weniger intuitive) Gebiet der mehrwertigen Logik erleichtern.
Basierend auf der Darstellung von Hájek (1998b) wird zunächst eine
formale Sprache eingeführt, welche dann um eine entsprechende Semantik
und schließlich um das entsprechende Axiomsystem ergänzt wird. Die
Erweiterung um logische Quantoren im nachfolgenden Abschnitt beruht
ebenfalls auf Hájek (1998b).

Syntax
Als Alphabet der Aussagenlogik sollen folgende Zeichen dienen:

• eine Menge propositionaler Variablen p1 , p2 , . . . (dies sind die elementa-


ren Bausteine von Sätzen)
84 9 Tests als Mittel logischer Inferenz

• die propositionalen Konstanten 0 und 1 (diese bezeichnen Aussagen, die


per Definition immer falsch bzw. immer wahr sind)

• die logischen Verknüpfungen →, ∧, ∨ und ¬. Diese entsprechen der


Implikation („immer wenn . . . dann“), dem logischen „und“ („beides
muss der Fall sein“), dem einschließenden „oder“ („mindestens eins
von beiden muss der Fall sein“) und der Negation. Die Äquivalenz
≡ zweier Ausdrücke ϕ und ψ wird als wechselseitige Implikation
definiert: ( ϕ → ψ) ∧ (ψ → ϕ).
Aussagen werden rekursiv definiert: Propositionale Variablen und proposi-
tionale Konstanten sind Aussagen. Wenn ϕ, ψ Aussagen sind, dann sind die
folgenden Verknüpfungen ebenfalls Aussagen: ( ϕ → ψ), ( ϕ ∧ ψ), ( ϕ ∨ ψ)
und ¬ ϕ. Alle weiteren Aussagen lassen sich durch die Anwendung dieser
Bildungsregeln zusammensetzen. So ist ¬( ϕ → (ψ ∧ ϕ)) beispielsweise
eine Aussage, da jeder in Klammern stehende Ausdruck eine Aussage dar-
stellt. Der besseren Lesbarkeit halber werden Klammern zu Beginn und
am Ende einer Aussage meistens weggelassen. Ansonsten zeigen sie die
hierarchische Struktur der Aussage an, indem sie missverständliche Zuord-
nungen von propositionalen Variablen, Konstanten und Verknüpfungen
ausschließen.

Semantik
Für die semantische Interpretation ist das Prinzip der Extensionalität von
entscheidender Bedeutung. Es besagt, dass die Wahrheitswerte der Ein-
zelbestandteile einer Aussage den Wahrheitswert der gesamten Aussage
eindeutig bestimmen. Dies wird durch die Einführung von Wahrheitsfunk-
tionen bewerkstelligt, welche für jede logische Verknüpfung angeben, wie
der Wahrheitswert einer zusammengesetzten Aussage sich jeweils aus den
Wahrheitswerten der verknüpften Aussagenbestandteile ergibt. Diese Wahr-
heitsfunktionen lassen sich in anschaulicher Weise in Form so genannter
Wahrheitstafeln darstellen. Die linke Spalte steht dabei für die Wahrheits-
werte der ersten Elementaraussage, die obere Zeile für die Wahrheitswerte
der zweiten Elementaraussage einer Verknüpfung. Die übrigen Spalten
beinhalten die entsprechend zugeordneten Wahrheitswerte für die gemäß
der angezeigten logischen Verknüpfung zusammengesetzten Aussagen1 .

1 Der Vollständigkeit halber wird auch die Wahrheitstafel für die Äquivalenzverknüpfung
angegeben, obwohl diese aufgrund der Definition von ≡ redundant ist.
9.1 Aussagenlogische Formalisierung klinischer Tests 85

→ 0 1 ∨ 0 1
0 1 1 0 0 1
1 0 1 1 1 1

x ¬x ∧ 0 1 ≡ 0 1
0 1 0 0 0 0 1 0
1 0 1 0 1 1 0 1

Die logischen Verknüpfungen des Aussagenkalküls ermöglichen es, Aus-


sagen zu bilden, deren Wahrheitswert immer 1 ist, egal welche Wahrheits-
werte seine Einzelbestandteile aufweisen. Die Aussage ( ϕ → ( ϕ ∨ ψ))
(„Immer wenn ϕ der Fall ist, ist entweder ϕ der Fall oder ψ oder beide“)
zum Beispiel ist unter allen möglichen Interpretationen von ϕ und ψ wahr.
Eine solche Aussage bezeichnet man als Tautologie. Tautologien lassen sich
über entsprechende Wahrheitstafeln verifizieren.

Axiomatisierung
Der aussagenlogische Kalkül lässt sich axiomatisieren, indem folgende
Tautologien für alle Aussagen ϕ, ψ, χ zu Grunde gelegt werden:

• ϕ → (ψ → ϕ)

• ( ϕ → (ψ → χ)) → (( ϕ → ψ) → ( ϕ → χ))
• (¬ ϕ → ¬ψ) → (ψ → ϕ)

Das erste Axiom besagt, dass aus einer Aussage stets folgt, dass sie aus
einer anderen Aussage folgen muss. Das zweite Axiom besagt, dass, wenn
aus einer Aussage folgt, dass eine zweite Aussage eine dritte impliziert,
gelten muss, dass für den Fall, dass aus der ersten Aussage die zweite folgt,
aus ihr ebenfalls die dritte folgen muss. Das dritte Axiom schließlich setzt
fest, dass aus der Implikation zwischen negierten Aussagen folgt, dass die
nicht negierten Aussagen sich in entgegengesetzter Richtung implizieren.
Die Schlussregel der Aussagenlogik ist der Modus Ponens: Aus ϕ → ψ und
ϕ leite ψ her. Alle weiteren Schlussregeln (wie beispielsweise der Modus
Tollens) sind aus dieser Regel und den Axiomen abgeleitet.
86 9 Tests als Mittel logischer Inferenz

Die Axiome sind zwar nicht unbedingt intuitiv einleuchtend, weisen


jedoch die wünschenswerte Eigenschaft auf, dass sich aus ihnen alle aus-
sagenlogischen Tautologien herleiten lassen. Das heißt, die klassische Aus-
sagenlogik ist vollständig. Ebenso gilt, dass alle aus den obigen Axiomen
mittels Modus Ponens herleitbaren Aussagen Tautologien sind – der Kalkül
ist somit semantisch korrekt.

9.1.2 Testtheoretische Anwendung – ICD-Diagnosen I


Die aussagenlogische Formalisierung ist sehr geradlinig. ICD-Diagnosen
lassen sich als Aussagen im formal logischen Sinne verstehen. Allgemein
haben sie die Struktur

(Kriterien) ≡ ( Diagnose),

wobei (Kriterien) eine – je nach Diagnose – mehr oder weniger verschach-


telte Aussage ist. Diese setzt sich aus einer Menge elementarer Aussagen der
Form „hat Symptom x“ mit den logischen Verknüpfungen ∨ und ∧ zu-
sammen. Der Wahrheitswert der zusammengesetzten Aussage (Kriterien)
ergibt sich entsprechend der Wahrheitsfunktionen von ∨ und ∧ aus den
Elementaraussagen, also dem Vorliegen oder Nichtvorliegen der definie-
renden Symptome. Aufgrund der Wahrheitsfunktion von ≡ ergibt sich der
Wahrheitswert der Diagnose als

w [ Diagnose] = w [Kriterien] . (9.1)

Beispiel 3. Als Beispiel soll die ICD-10-Diagnose der „schweren depressiven


Episode ohne psychotische Symptome“ (im Folgenden „SDE“) betrachtet werden,
welche in der ICD-10 unter der Nummer F.32.2 angeführt ist. Als Diagnosekriteri-
en werden folgende Symptome genannt (Dilling et al., 2011):

G1) Dauer von mindestens 2 Wochen

G2) Keine manische oder hypomanische Episode

G3) Psychotrope Substanzen und organische Störungen als Ursache ausgeschlos-


sen

B1) Depressive Stimmung, in einem für die Betroffenen deutlich ungewöhnli-


chen Ausmaß, die meiste Zeit des Tages, fast jeden Tag, im Wesentlichen
unbeeinflusst von den Umständen
9.1 Aussagenlogische Formalisierung klinischer Tests 87

B2) Interessen- oder Freudenverlust an Aktivitäten, die normalerweise angenehm


waren
B3) Verminderter Antrieb oder gesteigerte Ermüdbarkeit
C) Mindestens fünf der folgenden Symptome
C1) Verlust des Selbstvertrauens oder des Selbstwertgefühls
C2) Unbegründete Selbstvorwürfe oder ausgeprägte, unangemessene
Schuldgefühle
C3) Wiederkehrende Gedanken an den Tod oder an Suizid oder suizidales
Verhalten
C4) Klagen über oder Nachweis eines verminderten Denk- oder Konzentra-
tionsvermögens, Unschlüssigkeit und Unentschlossenheit
C5) Psychomotorische Agitiertheit oder Hemmung (subjektiv oder objektiv)
C6) Schlafstörungen jeder Art
C7) Appetitverlust oder gesteigerter Appetit mit entsprechender Gewichts-
veränderung
D) Keine Halluzinationen, Wahn oder depressiver Stupor
Die Aussage
( F32.2) ≡ (SDE)
soll nun anhand der gegebenen ICD-Kriterien aufgeschlüsselt werden. Für die
aussagenlogische Formalisierung ist zunächst zu beachten, dass der Gebrauch
der Wörter „oder“, sowie „und“ in der ICD nicht immer mit den logischen Ver-
knüpfungen ∨ und ∧ übereinstimmen. Darüber hinaus beinhalten die genanten
Kriterien teilweise mehr als eine elementare Aussage. Die größte Schwierigkeit
bereitet jedoch die Formulierung „mindestens fünf“ in Kriterium C. Formal stellt
sich die Frage, ob es sich bei C um eine einzige elementare Aussage oder um eine
zusammengesetzte handelt. Obwohl es formal einfacher wäre, C als eine einzige
Elementaraussage zu betrachten, wird sie im Folgenden als zusammengesetzt
betrachtet. Dies geschieht in Hinblick auf die spätere Verallgemeinerung auf mehr-
wertige Logiken, bei der die einfache aussagenlogische Betrachtung problematisch
wird. Für die klassische Aussagenlogik ist diese Unterscheidung wenig bedeutsam,
da sie die resultierenden Wahrheitswerte unverändert lässt. Das Kriterium C wird
daher formalisiert, indem statt „mindestens fünf“ alle kombinatorisch möglichen
Fünferkombinationen der Symptome C1-C7 mit einem logischen „oder“ (∨) ver-
knüpft werden. Die resultierende Aussage ist zwar verhältnismäßig lang und für
88 9 Tests als Mittel logischer Inferenz

den Alltagsgebrauch umständlich zu handhaben, beinhaltet aber den Vorteil, dass


eine Identifikation von Symptomen mit propositionalen Variablen möglich ist.
Die aussagenlogische Formalisierung sieht dementsprechend folgendermaßen
aus: Gegeben sei eine Menge von propositionalen Variablen

S = { G1; G2; G3; B1; B2; B3; C1; C2; C3; C4; C5; C6; C7; D }

Die Aussage F32.2 lässt sich somit aufschlüsseln als

(( G1 ∧ G2 ∧ G3)∧
( B1 ∧ B2 ∧ B3)∧
((C1 ∧ C2 ∧ C3 ∧ C4 ∧ C5)∨
(C1 ∧ C2 ∧ C3 ∧ C4 ∧ C6) ∨ · · · ∨ (C3 ∧ C4 ∧ C5 ∧ C6 ∧ C7))∧
( D ))

Sind in einem spezifischen Fall nun die Wahrheitswerte der elementaren Aus-
sagen bekannt, ergibt sich der Wahrheitswert von ( F32.3) eindeutig aus den
Wahrheitsfunktionen der logischen Verknüpfungen ∨ und ∧. Somit lässt sich
der Wahrheitswert der Aussage (SDE) eindeutig aus dem Vorliegen oder Nicht-
vorliegen der genannten Symptome ableiten. Ein klinischer Fragebogen, welcher
die unter F.32.2 festgelegten Symptome abfragt, könnte daher mittels der obigen
Formalisierung im Sinne eines aussagenlogischen Inferenzschlusses ausgewertet
werden – ohne die Notwendigkeit eines messtheoretischen Modells.

9.2 Prädikatenlogische Formalisierung klinischer


Tests
Die Formalisierung von ICD-10-Diagnosen mittels Aussagenlogik ist zwar
naheliegend und einfach, jedoch – wie das vorangegangene Beispiel gezeigt
hat – nicht sehr sparsam und entsprechend unübersichtlich. Darüber hin-
aus sind die Ausdrucksmöglichkeiten im Rahmen der Aussagenlogik sehr
begrenzt – so wird für jede Person und jede Diagnose eine eigene Aussa-
ge benötigt. Eine Alternative Art zur Formalisierung von ICD-Diagnosen,
welche diesen Nachteil überwindet, stellt die Prädikatenlogik bereit.
9.2 Prädikatenlogische Formalisierung klinischer Tests 89

9.2.1 Prädikatenlogik
Während in der klassischen Aussagenlogik die elementaren Bestandteile
einer Aussage (Propositionen) selbst keine innere Struktur aufweisen, geht
die Prädikatenlogik (oder auch Logik erster Stufe) einen Schritt weiter. So
genannte atomare Aussagen bestehen aus einem Prädikat und einer Menge
von Termen, welche als Argumente des Prädikats fungieren. Eine besondere
Art Terme bilden Objektvariablen. Sie bezeichnen zunächst unspezifische Ob-
jekte, welche mit Hilfe so genannter Quantoren gebunden werden können.
So können beispielsweise Aussagen über „alle Vertreter einer bestimm-
ten Objektklasse“ getroffen werden oder über „mindestens eine Person“
(Rautenberg, 2008).

Syntax
Ebenso wie die Aussagenlogik handelt es sich bei der Prädikatenlogik um
eine formale Sprache. Das Vokabular dieser Sprache setzt sich zusammen
aus:

• einer nichtleeren Menge von Prädikaten P, Q, R . . . , welchen jeweils


eine natürliche Zahl – ihre Stelligkeit zugeordnet ist

• einer (möglicherweise leeren) Menge von Objektkonstanten c, d, . . .

• einer (möglicherweise leeren) Menge von Objektvariablen x, y, . . .


• den logischen Verknüpfungen →, ∧, ∨ und ¬. Zusätzlich wird ϕ ≡ ψ
als( ϕ → ψ) ∧ (ψ → ϕ) definiert. (Dies entspricht den Verknüpfungen
der Aussagenlogik.)

• den Wahrheitskonstanten 0 und 1 (Diese entsprechen den propositio-


nalen Konstanten der Aussagenlogik)

• dem Allquantor ∀ („für alle“) und der Existenzquantor ∃ („Es gibt


mindestens ein“).
Objektvariablen und Objektkonstanten werden Terme genannt. Die grundle-
genden Bausteine der Sprache sind so genannte atomare Aussagen, welche
aus einem Prädikat in Kombination mit einer der Stelligkeit entsprechenden
Menge Terme (den Argumenten des Prädikats) bestehen. P( x, y) würde bei-
spielsweise für ein zweistelliges Prädikat stehen, welchem die Argumente
x und y zukommen. Prädikate sind dabei als n-stellige Relationen auf einer
90 9 Tests als Mittel logischer Inferenz

Domäne (Grundmenge) M zu verstehen, welche sämtliche vorkommenden


Objektkonstanten beinhaltet.
Aussagen werden in der Prädikatenlogik folgendermaßen definiert:

• Alle atomaren Aussagen der Form P(t1 , t2 . . . ) sind Aussagen


(t1 , t2 . . . stehen für die einem Prädikat zukommenden Argumente).

• Wenn ϕ, ψ Aussagen sind und x eine Objektvariable ist, dann sind


folgende Zeichenkombinationen ebenfalls Aussagen: ( ϕ → ψ), ( ϕ ∧
ψ), ( ϕ ∨ ψ), ¬ ϕ, (∀ x )ψ, (∃ x )ψ, 0, 1.

• Alle Aussagen ergeben sich durch iteratives Anwenden dieser Bil-


dungsregeln aus atomaren Aussagen.

Zur Veranschaulichung des Konzeptes der atomaren Aussage soll folgen-


des Beispiel dienen: Als Grundmenge M seien die Schüler einer neunten
Klasse gegeben. Es werden nun zwei Prädikate definiert. P : Mag ist dabei
ein zweistelliges Prädikat, welches auf dem kartesischen Produkt M × M
gebildet wird. Das heißt, für jedes geordnete Paar c, d aus der Menge der
Schüler, ist festgelegt, ob das Prädikat Mag(c, d) (gelesen als „Schüler c mag
Schüler d“) zutrifft oder nicht. Das zweite Prädikat sei nur einstellig und
gegeben durch Q : Beliebt. Das bedeutet, dass das Prädikat Beliebt(c) auf
jeden beliebigen Schüler c der Klasse M entweder zutrifft oder nicht. Es
handelt sich somit um eine einstellige Relation auf M, welche gelesen wer-
den kann als „ist beliebt“. Es seien weiterhin die Objektkonstanten f : Knut
und g : Karla gegeben. Sie bezeichnen zwei spezifische Schüler aus der
besagten Klasse. Dieses Vokabular kann nun zu beliebig verschachtelten
Aussagen kombiniert werden, zum Beispiel:

• Mag(Knut, Karla) („Knut mag Karla“)

• ¬ Mag(Karla, Knut) („Karla mag Knut nicht“)


• (∃ x ) Mag( x, Knut) („Es gibt mindestens eine Person in der Klasse, die
Knut mag“)

• ¬(∀y) Mag(Karla, y) („Karla mag nicht alle Schüler der Klasse“)

• (∀ x )(∀y) Mag( x, y) („Alle mögen alle“)


• (∃ x ) Beliebt( x ) („Mindestens einer der Schüler ist beliebt“)
9.2 Prädikatenlogische Formalisierung klinischer Tests 91

• (∀ x ) Mag( x, y) → Beliebt(y) („Wenn jemand von allen Schülern der


Klasse gemocht wird, ist er beliebt“)

• Beliebt(Karla) → ¬(∃ x )¬ Mag( x, Karla) („Wenn Karla beliebt ist, gibt


es niemanden, der sie nicht mag“)

Wie das obige Beispiel zeigt, können Objektvariablen an Quantoren „ge-


bunden“ werden, das heißt sie bezeichnen in einem solchen Fall nicht
mehr irgendeines der Objekte, sondern „alle“ Objekte, bzw. „mindestens
ein“ Objekt aus der Grundmenge. Dies führt dazu, dass die Stelligkeit
des entsprechenden Prädikats um eins verringert wird. In der Aussage
(∀ x ) Mag( x, Knut) („Alle mögen Knut“) zum Beispiel wird das zweistellige
Prädikat Mag durch die Bindung der ersten Objektvariable x an den All-
quantor zu einem einstelligen Prädikat, welches die Eigenschaft bezeichnet,
von allen gemocht zu werden – „Alle mögen Knut“ bedeutet demzufolge,
dass Knut die Eigenschaft „wird von allen gemocht“ aufweist. Formal lässt
sich das Konzept der gebundenen Variable und der entsprechende Gegenbe-
griff der freien Variable rein syntaktisch definieren:

• In Wahrheitskonstanten sind Variablen weder frei noch gebunden.


• In atomaren Aussagen sind alle Variablen frei und ungebunden.

• In quantifizierten Aussagen der Form (∀ x ) ϕ oder (∃ x ) ϕ ist x gebun-


den und nicht frei. Alle anderen Variablen in (∀ x ) ϕ bzw. (∃ x ) ϕ sind
frei/gebunden, wenn sie in der Aussage ϕ frei/gebunden sind.

• In Aussagen der Form ϕ → ψ, ϕ ∧ ψ und ϕ ∨ ψ sind alle Variablen


frei/gebunden, wenn sie in mindestens einer der Aussagen ϕ und ψ
frei/gebunden sind.

• In einer Aussage der Form ¬ ϕ sind alle Variablen frei/gebunden,


wenn sie in ϕ frei/gebunden sind.

Das Konzept der Gebundenheit ist von entscheidender Bedeutung in Hin-


blick auf die Substituierbarkeit von Termen in Aussagen. Einen Term zu
substituieren, bedeutet, ihn an jeder Stelle, an der er in einer Aussage vor-
kommt, durch einen anderen Term zu ersetzen. Schreibt man zum Beispiel
statt P( x, y) die Aussage P( x, z), hat man die Variable y durch die Variable
z substituiert. Auch das Ersetzen einer Variable durch eine Konstante oder
umgekehrt wird Substituieren genannt.
92 9 Tests als Mittel logischer Inferenz

Es ist möglich, dass die Substitution eines Terms dazu führt, dass zuvor
freie Variablen durch einen Quantor gebunden werden, welcher sich ei-
gentlich auf eine andere Variable bezog. Ersetzt man zum Beispiel das y in
∀( x ) P( x, y) durch die Variable x, erhält man die Aussage ∀( x ) P( x, x ). Das
zweite Argument des Prädikats P, welches ursprünglich eine freie Variable
darstellt, würde durch eine derartige Substitution ebenfalls an den Allquan-
tor gebunden. Dies würde die Bedeutung der Aussage jedoch völlig ver-
ändern. Dieses Problem kann auf verschiedene Arten gelöst werden: zum
einen dadurch, dass nur solche Variablen als substituierbar definiert werden,
welche durch die Substitution nicht zu gebundenen Variablen werden, und
zum anderen, indem man die betreffenden Variablen vor der Substitution
umbenennt. Da diese Unterscheidung für die folgenden Anwendungen
unerheblich ist, wird zugunsten eines sparsameren Formalismus auf die
Möglichkeit der Umbenennung verzichtet.

Semantik
Analog zur Aussagenlogik bestehen semantische Interpretationen darin, dass
sämtlichen Aussagen Wahrheitswerte zugeordnet werden. Dabei gilt eben-
falls das Prinzip der Extensionalität, also dass die Wahrheitswerte zusam-
mengesetzter Aussagen sich eindeutig aus den Wahrheitswerten der grund-
legenden Bausteine (in diesem Fall nicht Propositionen sondern atomare
Aussagen) ergeben. Zusätzlich zu den Wahrheitsfunktionen der logischen
Verknüpfungen, welche mit denen der Aussagenlogik übereinstimmen,
werden jedoch Regeln zur Wahrheitswertzuordnung für atomare Aussagen
in Abhängigkeit der in ihnen enthaltenen Terme benötigt. Dies geschieht,
indem für jede atomare Aussage bestimmt wird, ob die semantisch zuge-
ordnete Relation für die spezifizierten Objekte zutreffend ist oder nicht.
Trifft die entsprechende Relation auf eine bestimmte geordnete Menge von
Objekten zu, ist der Wahrheitswert 1, ansonsten 0. Schließlich wird der
Wahrheitswert der Aussage (∀ x ) ϕ definiert als das Minimum der Wahrheits-
werte, welche ϕ in Bezug auf die Variable x zugeordnet sind. Das bedeutet,
dass der Wahrheitswert genau dann 1 ist, wenn alle in Bezug auf x zugeord-
neten Wahrheitswerte 1 sind – also wenn das Prädikat auf alle Elemente der
durch (∀ x ) gebundenen Variable zutrifft. Analog dazu wird der Wahrheits-
wert der Aussage (∃ x ) ϕ als das Maximum der Wahrheitswerte, welche ϕ in
Bezug auf die Variable x zugeordnet sind, definiert. Das bedeutet, dass der
Wahrheitswert genau dann 1 ist, wenn mindestens einer der in Bezug auf x
9.2 Prädikatenlogische Formalisierung klinischer Tests 93

zugeordneten Wahrheitswerte 1 ist – also wenn das Prädikat auf mindestens


ein Element der durch (∃ x ) gebundenen Variable zutrifft.

Axiomatisierung
Nachdem Syntax und Semantik der Prädikatenlogik nunmehr eingeführt
sind, wird im Folgenden ein Axiomsystem des entsprechenden Kalküls
vorgestellt. Es handelt sich dabei um eine einfache Erweiterung des aussa-
genlogischen Kalküls. Die Axiome der Prädikatenlogik sind:

• ϕ → (ψ → ϕ)

• ( ϕ → (ψ → χ)) → (( ϕ → ψ) → ( ϕ → χ))
• (¬ ϕ → ¬ψ) → (ψ → ϕ)
• (∀ x ) ϕ( x ) → ϕ(t), wenn t in ϕ( x ) für x substituierbar ist

• ϕ(t) → (∃ x ) ϕ( x ), wenn t in ϕ( x ) für x substituierbar ist


• (∀ x )(ν → ϕ) → (ν → (∀ x ) ϕ), wenn x in ν gebunden ist

• (∀ x )( ϕ → ν) → ((∃ x ) ϕ → ν), wenn x in ν gebunden ist

Die ersten drei Axiome entsprechen den Axiomen des aussagenlogischen


Kalküls im vorangegangenen Abschnitt. Die zusätzlichen vier Axiome
beziehen sich auf Eigenschaften des Allquantors und des Existenzquantors.
Axiom 4 bedeutet, dass eine Aussage, die für alle x gilt, für jede beliebige
Objektvariable oder Objektkonstante gilt, die für x substituierbar ist. Das
fünfte Axiom kehrt diese Regel entsprechend für den Existenzquantor um.
Die letzten beiden Axiome besagen, dass eine bereits gebundene Variable
nicht noch ein zweites Mal gebunden werden kann – also wenn eine Variable
in einer Unterformel bereits quantifiziert ist, hat ein Quantor, welcher auf
höherer Ebene angesetzt wird, keine Relevanz.
Die zur Anwendung kommenden Schlussregeln sind der Modus Ponens
und die Generalisierung: Aus ϕ schließe auf (∀ x ) ϕ( x ). Der Modus Ponens
funktioniert genau so wie in der Aussagenlogik. Die Generalisierungsregel
besagt, dass man bezogen auf einen wahren Ausdruck beliebige Variablen
durch den Allquantor binden darf und die resultierende Aussage wiederum
wahr ist.
94 9 Tests als Mittel logischer Inferenz

Der vorgestellte prädikatenlogische Kalkül erfüllt ebenso wie der zuvor


behandelte Aussagenkalkül die Bedingungen der Vollständigkeit und Kor-
rektheit, das heißt alle semantisch wahren Aussagen sind mittels Modus
Ponens und Generalisierung aus den angeführten Axiomen herleitbar, und
alle syntaktisch herleitbaren Aussagen sind stets wahr.

9.2.2 Testtheoretische Anwendung – ICD-Diagnosen II


Die Prädikatenlogik bietet eine elegante und sparsame Möglichkeit, klinisch-
diagnostische Tests als Mittel eines logischen Inferenzschlusses zu formali-
sieren. Die durch die Prädikatenlogik gewonnene größere Ausdrucksstärke
ermöglicht darüber hinaus die Formulierung einer einzigen allgemeinen
Aussageform für alle Personen und alle denkbaren Diagnosen.
Den Ausgangspunkt der Formalisierung bilden zwei einstelligen und
zwei zweistellige Prädikate. Die betrachtete Domäne beinhalten dabei die
Menge der potenziellen Symptome, die Menge der potenziell zu testen-
den Personen und die Menge der möglichen Diagnosen. Die verwendeten
Prädikate lauten:
• IstPerson : “ist eine Person“
• IstDiagnose : “ist eine ICD-Diagnose“
• Krit : “ist definierendes Kriterium von“2
• Hat : “hat/weist auf“
Prädikatenlogisch lässt sich eine Diagnose somit in Form des folgenden
Ausdrucks schreiben:
( IstPerson( p) ∧ IstDiagnose(d)) →
((∀ x )(Krit( x, d) → Hat( p, x ))) ≡ Hat( p, d)
Während die aussagenlogische Formulierung in etwa lautete: „Wenn Symp-
tom 1 und Symptom 2 und Symptom 3 usw., dann trifft die Diagnose zu“,
liest sich die prädikatenlogische Ausdrucksweise als: „Wenn für alle x gilt,
dass wenn sie definierendes Kriterium für die Diagnose d sind, eine Person
p sie hat, hat diese Person auch die Diagnose d“ oder einfacher: „Wenn
eine Person p alle Symptome (x) hat, die definierende Kriterien für eine
Diagnose d sind, hat die betreffende Person die entsprechende Diagnose d“.
2 Ein entsprechendes einstelliges Prädikat, um auszudrücken, dass etwas ein Symptom ist,
erübrigt sich, da nur Symptome definierende Kriterien für eine ICD-Diagnose sein können.
9.2 Prädikatenlogische Formalisierung klinischer Tests 95

Beispiel 4. Zur Verdeutlichung soll wieder die ICD-10-Diagnose der schweren


depressiven Episode ohne psychotische Symptome dienen. Statt die die Menge der
definierenden Symptome S als propositionale Variablen zu betrachten, sind sie
nun Objektkonstanten einer Domäne DSDE . Diese beinhaltet darüber hinaus die
Menge der zu testenden Personen P = {Karl } und die Menge der betrachteten
ICD-Diagnosen I = {SDE}. Somit gilt für den betrachteten Fall:

DSDE = { G1; G2; G3; B1; B2; B3; C1; C2; C3; C4; C5; C6; C7; D;
Karl;
SDE}.

Um die allgemeine Aussageform

( IstPerson( p) ∧ IstDiagnose(d)) →
((∀ x )(Krit( x, d) → Hat( p, x ))) ≡ Hat( p, d)

anzuwenden, werden empirische Interpretationen für die verwendeten Prädikate


benötigt. Der Ausdruck Hat( p, x ) soll im Sinne der Selbsteinschätzung bezüglich
des Vorliegens eines Symptoms in einem Fragebogen interpretiert werden (es
könnte natürlich auch das fachmännische Urteil eines Psychologen beinhalten).
Der Ausdruck Krit( x, d) soll durch eine zweistellige Relation auf dem kartesischen
Produkt der Menge S der Symptome und der Menge I der Diagnosen (S × I)
repräsentiert werden. Diese Relation bezeichnet die Zugehörigkeit eines jeden
Symptoms zu jeder betrachteten Diagnose. Die Ausdrücke IstPerson( p) und
IstDiagnose(d) werden durch die entsprechenden Untermengen der Domäne
DSDE repräsentiert, also Karl und SDE.
Wie bereits im vorangegangenen Abschnitt stellt sich die Frage, wie mit der For-
mulierung „mindestens fünf“ umgegangen werden soll. Selbstverständlich könnte
man die Symptome C1-C7 zu einem einzigen Symptom zusammenfassen. Dies soll
jedoch aus den bereits genannten Gründen vermieden werden. Analog zu dem im
aussagenlogischen Ansatz gewählten Vorgehen soll stattdessen für jede kombina-
torisch mögliche Fünferkonstellation der Symptome C1-C7 ein eigenes Prädikat
festgelegt werden. Dementsprechend gibt es nicht ein Prädikat Krit, sondern insge-
samt 5!×(7!7−2)! = 21 definierende Kriteriensets, welche als Krit1 , Krit2 , . . . , Krit21
bezeichnet werden sollen. Jedes dieser Prädikate wird durch eine zweistellige Relati-
on auf S × I gegeben. Da jede dieser Symptomkombinationen hinreichend ist für
die Diagnose „SDE“, werden die Prädikate Krit1 bis Krit21 zu einer gemeinsamen
Aussage zusammengefasst, indem sie mit der logischen Verknüpfung ∨ verbunden
werden.
96 9 Tests als Mittel logischer Inferenz

Durch das Einsetzen aller für die Diagnose hinreichenden Symptomkombinatio-


nen ergibt sich folgende prädikatenlogische Formalisierung:

((∀ x )(Krit1 ( x, SDE) → Hat(Karl, x )) ∨ (Krit2 ( x, SDE) → Hat(Karl, x ))∨


· · · ∨ (Krit21 ( x, SDE) → Hat(Karl, x ))) ≡
Hat(Karl, SDE)

Es genügt also, wenn mindestens eines der definierenden Prädikate zutrifft,


damit die Diagnose gestellt werden kann. Obwohl diese Schreibweise auf den
ersten Blick umständlich wirken mag, kommt sie dem intuitiven Verständnis einer
psychologischen Diagnose sehr nah, da sie die Tatsache widerspiegelt, dass die
Diagnose „schwere depressive Episode ohne psychotische Symptome“ eben kein
homogenes Störungsbild darstellt, sondern dass es eine ganze Reihe (nämlich genau
21) Symptomkomplexe gibt, welche zu der entsprechenden Diagnose führen. Die
Anwendung für die Auswertung eines klinischen Fragebogens verläuft genau
wie im aussagenlogischen Fall – durch Anwendung der Wahrheitsfunktionen des
Allquantors und der logischen Verknüpfungen ∨ und → ergibt sich ein eindeutiger
Wahrheitswert für das Prädikat „SDE“. Dieser entspricht – ebenso wie bei der
aussagenlogischen Formalisierung – dem Ergebnis der üblichen Anwendung von
ICD-Kriterien zur Diagnosestellung.
10 Testtheoretische Anwendung
mehrwertiger Logiken

Die vorangegangenen Abschnitte haben die Grundlagen formal-logischen


Schließens sowie der Anwendung klassischer Logiken zur Auswertung
psychologischer Fragebögen eingeführt. Dabei wurde der Fokus zunächst
auf klassische, das heißt zweiwertige Logiken gelegt. Für die Inferenz scharf
definierter Konstrukte (wie etwa im Fall klinischer Diagnosen nach ICD-10)
reichten diese völlig aus.
Die Anwendbarkeit des logischen Ansatzes ist bisher jedoch stark ein-
geschränkt. Es sind lediglich Aussagen über das Vorliegen oder Nichtvor-
liegen eines Konstrukts möglich. Graduelle Abstufungen bezüglich der
Konstruktausprägung sind mittels der bisherigen Formalismen nicht ohne
Weiteres möglich. Darüber hinaus ist es notwendig, dass Konstrukte klar
und eindeutig – das heißt scharf – definiert sind. Das ist jedoch für viele
psychologische Konstrukte nicht möglich (vgl. Abschnitt 8.3).
Um diese Einschränkungen zu überwinden, wird im Folgenden das Kon-
zept des Wahrheitswertes erweitert. Statt nur zwei mögliche Ausprägungen
anzunehmen, sollen nun auch Werte zwischen „wahr“ und „falsch“ zugelas-
sen werden. Aussagen können nach dieser Auffassung „mehr oder weniger
wahr“ sein. Die Einführung zusätzlicher Wahrheitswerte führt zu so ge-
nannten mehrwertigen Logiken. Ebenso wie die klassische Aussagen- und
Prädikatenlogik können für den mehrwertigen Fall Kalküle formuliert wer-
den, welche vollständig und semantisch korrekt sind – sich also für logische
Inferenz eignen.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_10, © Springer Fachmedien Wiesbaden 2014
98 10 Testtheoretische Anwendung mehrwertiger Logiken

10.1 Motivation und Geschichte mehrwertiger


Logiken
Eine wesentliche Annahme der klassischen Logik ist, dass jede Aussage
entweder wahr oder falsch ist. Weder ist es möglich, dass eine Aussage
sowohl wahr als auch falsch ist, noch kann sie keins von beidem sein. Diese
Annahme wurde bereits von Aristoteles, Übers. von J. H. von Kirchmann
(1876) eingeschränkt. Dieser war der Meinung, dass Aussagen, welche sich
auf die Zukunft beziehen, nicht eindeutig als wahr oder falsch bezeichnet
werden können.
Ein ebenfalls seit der Antike bekanntes Problem besteht in der Unfähig-
keit zweiwertiger Logiken, mit unscharf definierten Begriffen (wie z.B. „alt“,
„groß“, „viel“) umzugehen. Die Verwendung derartiger Begriffe kann zu
logisch korrekten Schlüssen führen, welche jedoch ganz offensichtlich nicht
wahr sind (so genannte Paradoxien1 ). Eine der bekanntesten Paradoxien
dieser Art ist die „Sorites“-Paradoxie, oder auch „Paradoxie des Haufens“
(von altgriechisch: σωρ ιτης – „anhäufen“). Die Paradoxie lässt sich wie
folgt formulieren (vgl. Williamson, 1994):
1. Ein Sandhaufen besteht aus einer endlichen Menge Sandkörner.
2. Entfernt man ein einzelnes Sandkorn von einem Haufen, bleibt es
nach wie vor ein Haufen.
3. Entfernt man Stück für Stück alle Sandkörner, behält man folglich
stets einen Haufen zurück.
Das Problem der Sorites-Paradoxie besteht darin, dass es keine eindeutig
spezifizierbare Anzahl Sandkörner gibt, die einen Haufen definiert. Da es
keine Grenze gibt, ab der eine Ansammlung von Sandkörnern ein Haufen
ist, kann es logisch gesehen niemals einen Übergang vom Haufen zum
Nicht-Haufen geben. Dieselbe Problematik stellt sich dar, wenn man das
Attribut „alt“ betrachtet (vgl. Priest, 2008):
1. Am Tag ihrer Geburt sind Menschen nicht alt.
1 Der Begriff der „Paradoxie“ wird an dieser Stelle nicht in seiner formal-logischen Bedeutung
als Verneinung einer Tautologie verwendet, sondern im Sinne eines paradox erscheinen-
den Widerspruchs zwischen dem offensichtlich Wahren und dem Ergebnis eines korrekten
logischen Schlusses. Diese weiter gefasste Bedeutung stammt aus einem Bereich der phi-
losophischen Logik, welcher sich mit der Interpretation logischer Kalküle als Regeln des
„richtigen“ Schlussfolgerns befasst.
10.1 Motivation und Geschichte mehrwertiger Logiken 99

2. Es gibt keine Sekunde im Leben eines Menschen, in welcher er sich


von „nicht-alt“ zu „alt“ wandelt.
3. Da sich der zeitliche Verlauf eines Menschenlebens als endliche Abfol-
ge von Sekunden beschreiben lässt, werden Menschen nie alt.
Einen möglichen Ausweg aus dieser Art paradoxer Szenarien bietet die Ein-
führung zusätzlicher Wahrheitswerte, so dass ein (quasi-)kontinuierlicher
Übergang von der Aussage „x ist ein Haufen“ zur Aussage „x ist kein
Haufen“ ermöglicht wird. Wenn Wahrheitswerte nämlich ein Kontinuum
darstellen, kann die Aussage „x ist ein Haufen“ durch sukkzessives Ent-
fernen von Sandkörnern schrittweise weniger wahr werden. Dieser Ansatz
findet sich in der Einführung formaler mehrwertiger Logiken, insbesondere
im Kontext so genannter Fuzzy-Logiken (welche essentiell auf dem Prinzip
der semantischen Unschärfe basieren).
Trotz dieser offenkundigen Einschränkungen der klassischen Logik wur-
de bis in die 1920er Jahre am Prinzip der Zweiwertigkeit festgehalten. Das
erste formale logische System, welches mehr als zwei Wahrheitswerte um-
fasst, stellte Łukasiewicz (1920) vor. Er erweiterte die klassische Aussagen-
logik um einen zusätzlichen Wahrheitswert, welcher als „ist unbestimmt“
interpretiert werden kann. Łukasiewicz erweiterte seinen Ansatz später um
einen n-wertigen Kalkül sowie einen Kalkül mit unendlich vielen Wahr-
heitswerten (Łukasiewicz, 1970). Unabhängig davon entwickelte Post (1921)
fast zeitgleich ein alternatives System. Im Gegensatz zu Łukasiewicz (1920)
war Posts Ansatz rein formal motiviert. Interpretationen oder Anwendun-
gen maß er kaum Bedeutung zu. Stattdessen entwickelte er eine formal
korrekte Verallgemeinerung der klassischen Aussagenlogik (Bolc & Bo-
rowik, 1992). Dies äußerte sich insebesondere darin, dass sein Kalkül im
Gegensatz zu Łukasiewiczs Ansatz vollständig war. Durch eine Ergänzung
der Łukasiewicz’schen dreiwertigen Logik um einen zusätzlichen Verknüp-
fungsoperator beseitigte Słupecki (1936) diesen Mangel. Etwa ein Jahrzehnt
später befasste sich Gödel (1932) mit so genannter intuitionistischer Logik,
welche postuliert, dass von der Falschheit eines Satzes nicht auf die Richtig-
keit seiner Verneinung geschlossen werden kann. Gödel kam dabei zu dem
Ergebnis, dass intuitionistische Logik unendlich viele Wahrheitswerte erfor-
dert. Jaskowski (1936) ergänzte dieses Ergebnis durch eine entsprechende
Wahrheitstafel für unendlich viele Wahrheitswerte.
Chang (1958a, 1958b) bewies die Vollständigkeit der unendlichwertigen
Łukasiewicz-Logik. Dummett (1959) legte einen entsprechenden Beweis
für den Gödelschen Kalkül vor. Einen weiteren Meilenstein im Bereich der
100 10 Testtheoretische Anwendung mehrwertiger Logiken

mehrwertigen Logik stellte die Einführung gradueller Inferenz durch Pavelka


(1979) dar. Pavelkas Erweiterung der unendlichwertigen Łukasiewicz-Logik
ermöglichte erstmals die Anwendung von Schlussregeln zur Ableitung von
teilweise wahren Aussagen (vgl. Gottwald, 2010).
Angeregt durch die Einführung der Fuzzy-Mengenlehre durch Zadeh
(1965) gab es eine Reihe praktisch motivierter Versuche, das Prinzip mehr-
wertiger Logik mengentheoretisch aufzuarbeiten. Die Entwicklung der so
genannten „Fuzzy-Inferenz“ fand in den 1980er Jahren insbesondere im
Bereich der Computerwissenschaften (z.B. in Bezug auf die Entwicklung
von Künstlicher Intelligenz) und der Regelungstechnik („Fuzzy-Control“)
eine breite Anwendung (vgl. Abschnitt 11). Aufgrund dieses starken (tech-
nischen) Anwendungsbezugs wurden formal-mathematische Aspekte in
der Fuzzy-Logik oft vernachlässigt. Nichtsdestotrotz lässt sich zumindest
für einen Teilbereich der Fuzzy-Methoden zeigen, dass sie tatsächlich eine
– sehr allgemeine – Klasse mehrwertiger Logiken beschreiben. Hájek (1998b)
zeigte darüber hinaus, dass sich eine Vielzahl bestehender mehrwertiger Lo-
giken (sowie die klassische Aussagen- und Prädikatenlogik) als Spezialfälle
einer übergeordneten, grundlegenden Fuzzy-Logik beschreiben lassen. Ein
wesentlicher Vorteil dieser Betrachtungsweise ist, dass Fuzzy-Logik Hand
in Hand geht mit Fuzzy-Mengenlehre. Sie bietet daher einen einheitlichen
Rahmen für die in Abschnitt 11.2 vorzunehmende Quantifizierung unscharf
definierter Konstrukte.

10.2 Modellierung von Unbestimmtheit mittels


dreiwertiger Aussagenlogik
Als einführendes Beispiel in das Gebiet der mehrwertigen Logiken soll die
Erweiterung der klassischen Aussagenlogik um einen dritten Wahrheits-
wert („unbestimmt“) betrachtet werden. Eine solche Erweiterung beinhaltet
zunächst eine Ausweitung der semantischen Interpretationen logischer Ver-
knüpfungen im extensionalen Sinne, das heißt es müssen Wahrheitstabellen
angegeben werden, welche einer logischen Verknüpfung für jede beliebige
Kombination möglicher Evaluationen der verknüpften Ausdrücke einen
eindeutigen Wahrheitswert zuordnen. Darüber hinaus müssen auf syntakti-
scher Ebene ein adäquates Axiomsystem sowie entsprechende Schlussre-
geln formuliert werden, so dass ein möglichst vollständiger und semantisch
korrekter Kalkül entsteht.
10.2 Modellierung von Unbestimmtheit mittels dreiwertiger Aussagenlogik 101

10.2.1 Dreiwertige Aussagenlogik Ł3


Es gibt zahlreiche Ansätze zur Einführung eines dritten Wahrheitswertes in
die Aussagenlogik (vgl. Bolc & Borowik, 1992 für eine Übersicht). Da sich
die Kalküle in Hinblick auf ihre Anwendbarkeit für die Testauswertung
nicht wesentlich unterscheiden, wird im Folgenden lediglich der historisch
älteste Ansatz – der dreiwertige Kalkül von Łukasiewicz (1920) – vorgestellt.

Syntax
Das Alphabet des dreiwertigen Aussagenkalküls Ł3 besteht aus:

• einer Menge propositionaler Variablen p1 , p2 , . . .

• den logischen Verknüpfungen →, ∨, ∧ und ¬ (ϕ ≡ ψ ist definiert als


( ϕ → ψ) ∧ (ψ → ϕ)).

Die Definition von Aussagen entspricht jener der klassichen Aussagenlogik:


Propositionale Variablen und propositionale Konstanten sind Aussagen.
Wenn ϕ, ψ Aussagen sind, dann sind die folgenden Verknüpfungen eben-
falls Aussagen: ( ϕ → ψ), ( ϕ ∧ ψ), ( ϕ ∨ ψ) und ¬ ϕ.

Semantik
Entsprechend dem Prinzip der Extensionalität, werden für die logischen
Verknüpfungen auch in Ł3 Wahrheitstafeln angegeben. Diese stellen die
Semantik des dreiwertigen Kalküls Ł3 :

→ 0 0.5 1 ∨ 0 0.5 1
0 1 1 1 0 0 0.5 1
0.5 0.5 1 1 0.5 0.5 0.5 1
1 0 0.5 1 1 1 1 1

x ¬x ∧ 0 0.5 1 ≡ 0 0.5 1
0 1 0 0 0 0 0 1 0.5 0
0.5 0.5 0.5 0 0.5 0.5 0.5 0.5 1 0.5
1 0 1 0 0.5 1 1 0 0.5 1
102 10 Testtheoretische Anwendung mehrwertiger Logiken

Axiomatisierung
Łukasiewicz selbst nahm keine Axiomatisierung vor, sondern definierte
seinen Kalkül rein semantisch. Eine entsprechende Axiomatisierung des
Kalküls Ł3 wurde jedoch von Wajsberg (1931) vorgelegt:

• ϕ → (ψ → ϕ)
• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))
• (¬ψ → ¬ ϕ) → ( ϕ → ψ)

• (( ϕ → ¬ ϕ) → ϕ) → ϕ
Als Schlussregel kommt – wie in der Aussagenlogik – lediglich der Modus
Ponens zum Tragen: Aus ϕ → ψ und ϕ schließe ψ.
Das erste und das dritte Axiom sind bereits aus dem in Abschnitt 9.1.1
vorgestellten zweiwertigen Aussagenkalkül bekannt. Das zweite Axiom
besagt, dass, sofern eine Aussage aus einer anderen folgt, gelten muss, dass
wenn aus dieser etwas drittes folgt, dieses dritte ebenfalls aus der ersten
Aussage folgen muss. Dieses Axiom stellt die Transitivität der Implikation
sicher. Das vierte Axiom schließlich erscheint auf den ersten Blick paradox,
da die Aussage ϕ → ¬ ϕ in der klassischen Aussagenlogik stets falsch ist (d.h.
die Verneinung dieser Aussage ist eine Tautologie). Betrachtet man jedoch
den gesamten Ausdruck, zeigt sich, dass er auch im aussagenlogischen
Kalkül tautologisch ist: Da der Wahrheitswert von ϕ → ¬ ϕ stets 0 ist,
kann ( ϕ → ¬ ϕ) → ϕ nur wahr sein, wenn w [ ϕ] = 1 ist. Demzufolge gilt
die letzte Implikation genau dann, wenn ϕ wahr ist. Somit ergibt sich die
(offensichtlich wahre) Aussage ϕ → ϕ.
Die Axiome stellen jeweils Tautologien in Ł3 dar. Das bedeutet, dass sie
unter allen möglichen Interpretationen wahr sind. Der Modus Ponens ist
genau dann anwendbar, wenn sowohl eine bestimmte Aussage ϕ als auch
die Aussage ϕ → ψ wahr sind.

Erweiterung durch Słupecki


Der so beschriebene Kalkül weist die Eigenschaft der semantischen Korrekt-
heit auf, allerdings ist er nicht vollständig – es lassen sich somit zwar keine
falschen Aussagen aus den Axiomen ableiten, jedoch auch nicht alle wahren
Aussagen. Es gibt demzufolge wahre Aussagen in Ł3 , die sich nicht bewei-
sen lassen (Bolc & Borowik, 1992). Dies stellt zwar keine Einschränkung dar,
10.2 Modellierung von Unbestimmtheit mittels dreiwertiger Aussagenlogik 103

wenn es um die praktische Anwendung des Kalküls zur logischen Inferenz


geht2 , ist jedoch aus mathematischer Sicht nicht wünschenswert.
Dieser Mangel lässt sich beheben, indem der Kalkül um ein weiteres
logisches Symbol (◦) ergänzt wird. Diese Erweiterung geht auf Słupecki
(1936) zurück. Semantisch ist die Bedeutung von ◦ über eine entsprechende
Wahrheitstafel festgelegt:

x ◦x
0 0.5
0.5 0.5
1 0.5

Das Symbol ◦ steht somit dafür, dass – egal welchen Wahrheitswert die
Aussage ϕ aufweist, ◦ ϕ stets unbestimmt ist. Man könnte ◦ daher auch als
Unbestimmtheitsjunktor bezeichnen. Eine alltagssprachliche Übersetzung
von ◦ ϕ könnte zum Beispiel lauten „ϕ könnte der Fall sein“.
Um die syntaktische Verwendung von ◦ festzulegen, muss das obige
Axiomsystem um zwei weitere Axiome ergänzt werden:

• ◦ ϕ → ¬(◦ ϕ)

• ¬(◦ ϕ) → ◦ ϕ

Demnach muss stets gelten, dass die Negation einer unbestimmten Aussage
ebenfalls unbestimmt ist und umgekehrt. Diese Forderung ist unmittelbar
einsichtig: Wenn es sein könnte, dass etwas der Fall ist, könnte es ebenso
gut nicht sein, dass es der Fall ist – und umgekehrt genau so.
Der so ergänzte Kalkül Ł3 S ist nunmehr nicht nur semantisch korrekt,
sondern auch vollständing (Bolc & Borowik, 1992).

10.2.2 Testtheoretische Anwendung – ICD-Diagnosen mit


unbestimmter Symptomlage
Die Anwendung einer dreiwertigen Logik mit Unbestimmtheit auf das
obige Beispiel der ICD-10-Diagnosen liefert keine weiteren Probleme. Da

2 Unvollständigkeitist eine Eigenschaft nicht weniger mathematischer Axiomensyteme (vgl.


hierzu Gödel, 1931). Nichtsdestotrotz werden diese Systeme für vielfältige Anwendungen
eingesetzt.
104 10 Testtheoretische Anwendung mehrwertiger Logiken

die logische Verknüpfung ≡ eine direkte Verallgemeinerung aus dem zwei-


wertigen Fall darstellt, kann eine Formalisierung analog zu Abschnitt 9.1
vorgenommen werden.
Die Allgemeine Form einer ICD-Diagnose lässt sich auch für Ł3 (und in
gleicher Weise für Ł3 S) als

(Kriterien) ≡ ( Diagnose)

schreiben. (Kriterien) ist wie im obigen Beispiel eine Aussage, welche sich
aus einer Menge elementarer Aussagen zusammensetzt, welche mit den
logischen Verknüpfungen ∨ und ∧ verbunden werden. w [Kriterien] ergibt
sich dabei aus den Wahrheitsfunktionen der entsprechenden Verknüpfun-
gen. w [ Diagnose] ist entsprechend der Wahrheitsfunktion von ≡ identisch
mit w [Kriterien].
Da die Formalisierung sich syntaktisch nicht von der aussagenlogischen
unterscheidet, wird an diese Stelle kein weiteres Beispiel gegeben. Statt-
dessen soll kurz darauf eingegangen werden, welche Konsequenzen die
Erweiterung von ICD-Diagnosen um einen zusätzlichen Wahrheitswert
nach sich zieht.
Grundsätzlich lässt sich der zusätzliche Wert auf zwei verschiedene Arten
interpretieren: entweder im Sinne von „es ist nicht bekannt, ob ein Symptom
vorliegt oder nicht“ oder im Sinne von „Ein Symptom liegt teilweise vor“.
Die erste Interpretation ermöglicht die Modellierung von unvollständiger
Informationslage, die zweite erlaubt die Einbeziehung von nur teilweise
erfüllten Diagnosekriterien. In Bezug auf die Diagnosen wäre der zusätzli-
che Wahrheitswert entsprechend als „es könnte sein, dass eine bestimmte
Störung vorliegt“ oder als „eine bestimmte Störung liegt nur teilweise vor“
zu verstehen.
Entsprechend der Wahrheitsfunktion von ∧ liegt die Diagnose nur dann
vor, wenn alle Kriterien erfüllt sind – das heißt, sobald mindestens ein Krite-
rium nur unbestimmt erfüllt ist, liegt die Diagnose ebenfalls unbestimmt vor.
Nach der ersten Interpretation von Unbestimmtheit würde dies bedeuten,
dass bei Unsicherheit auch nur bezüglich eines Symptoms Unsicherheit in
Bezug auf die Diagnose folgt. Nach der zweiten Interpretation von Unbe-
stimmtheit als „teilweise zutreffend“ hingegen würde – vorausgesetzt alle
übrigen Symptome liegen vor – bei einem oder mehr nur teilweise zutref-
fenden Kriterien die Diagnose als „teilweise zutreffend“ gestellt werden.
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 105

10.3 Quantifizierung scharf definierter


Konstrukte durch kontinuierliche
Wahrheitswerte
Łukasiewicz erweiterte seinen dreiwertigen Kalkül zunächst derart, dass er
beliebig – wenn auch endlich – viele Wahrheitswerte zuließ, und schließlich
auch auf eine unendliche Menge von Wahrheitswerten (Łukasiewicz, 1970).
Im Folgenden soll die unendlichwertige Logik Łℵ näher betrachtet wer-
den. Dieser Kalkül ist aus zwei Gründen von besonderem Interesse. Zum
einen ist er ein direkter Vorläufer der in Abschnitt 11 vorgestellten Fuzzy-
Logiken, zum anderen liefert er eine elegante Möglichkeit zur Quantifizierung
kategorialer Konstrukte. Die Darstellung des Formalismus folgt dabei in ihren
wesentlichen Zügen Priest (2008).

10.3.1 Kontinuumwertige Aussagenlogik Łℵ


Die kontinuumwertige Logik Łℵ kann ebenso wie Ł3 als Erweiterung der
klassischen Aussagenlogik betrachtet werden. Statt zweier oder dreier Wahr-
heitswerte werden unendlich viele Werte erlaubt, indem die Menge der
Wahrheitswerte definiert wird als das reelwertige Intervall [0, 1]. 1 wird
dabei als „vollständig wahr“ interpretiert, 0 als „vollständig falsch“. 0.5
wäre dementsprechend „zur Hälfte wahr“ und so weiter.

Syntax
Das Alphabet von Łℵ umfasst folgende Zeichen:

• eine Menge propositionaler Variablen p1 , p2 , . . .


• die logischen Verknüpfungen →, ∧, ∨ und ¬ (ϕ ≡ ψ ist definiert als
( ϕ → ψ) ∧ (ψ → ϕ)).
Aussagen werden entsprechend der klassischen Aussagenlogik definiert, so
dass sich alle syntaktisch korrekten Aussagen auf eine Menge propositiona-
ler Variablen mit entsprechenden logischen Verknüpfungen zurückführen
lassen (vgl. hierzu Abschnitt 9.1.1): Wenn ϕ, ψ Aussagen sind, dann sind
( ϕ → ψ), ( ϕ ∧ ψ), ( ϕ ∨ ψ) und ¬ ϕ ebenfalls Aussagen.
106 10 Testtheoretische Anwendung mehrwertiger Logiken

Semantik
Bezüglich der Semantik von Łℵ gilt – wie in allen bisher vorgestellten
Kalkülen – das Prinzip der Extensionalität. Aufgrund der unendlich vielen
kombinatorischen Möglichkeiten, zwei Elementaraussagen Wahrheitswerte
zuzuordnen, ist es jedoch nicht möglich, die semantischen Zuordnungen
der logischen Verknüpfungen in Łℵ mittels Wahrheitstafeln vorzunehmen.
Stattdessen werden entsprechende Wahrheitsfunktionen festgelegt:

f ¬ (x) = 1 − x (10.1)
f ∧ ( x, y) = min( x, y) (10.2)
f ∨ ( x, y) = max( x, y) (10.3)

1, wenn x ≤ y
f → ( x, y) = (10.4)
1 − x + y, wenn x > y

Es sei darauf hingewiesen, dass diese Funktionen für den zweiwertigen


Fall identisch sind mit den Zuordnungen der klassischen Aussagenlogik.
Das bedeutet, für den zweiwertigen Fall könnten wir die angegebenen
Wahrheitstafeln ebenso gut durch die oben genannten Funktionen ersetzen,
ohne etwas am Kalkül zu verändern.

Axiomatisierung
Als Axiome für Łℵ dienen folgende Tautologien3 :

• ϕ → (ψ → ϕ)

• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))

• (¬ ϕ → ¬ψ) → (ψ → ϕ)
• (( ϕ → ψ) → ψ) → ((ψ → ϕ) → ϕ)
• (( ϕ → ψ) → ψ) ≡ ( ϕ ∨ ψ)
• ( ϕ ∧ ψ) ≡ ¬(¬ ϕ ∨ ¬ψ)

3 DasSystem weicht etwas von Łukasiewiczs ursprünglichem System ab, welcher mit nur
vier Axiomen auskommt, dafür jedoch einige zusätzliche Definitionen benötigt.
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 107

Die einzige zur Anwendung kommende Schlussregel ist der Modus Ponens.
Die ersten beiden Axiome sind aus den bisher vorgestellten Kalkülen wohl-
bekannt – für sich genommen bilden sie das axiomatische Gerüst der klassi-
schen Aussagenlogik (vgl. Abschnitt 9.1.1). Als spezifisches Axiom kommt
das vierte hinzu, welches ergänzt wird durch zwei Forderungen bezüglich
der Verwendung von ∧ und ∨. Ebenso wie die bisherigen Kalküle ist Łℵ
semantisch korrekt und vollständig.

10.3.2 Testtheoretische Anwendung – Quantifizierung von


ICD-Diagnosen
Die Einführung unendlich feiner Abstufungen zwischen „wahr“ und
„falsch“ erlaubt es, dass eine kategorial definierte Diagnose wie die bereits
besprochene „schwere depressive Episode ohne psychotische Symptome“
(SDE) mehr oder weniger zutreffend sein kann. Das bedeutet, dass der Aus-
sage „Person A hat eine SDE“ im Prinzip jeder beliebige Wahrheitswert
zwischen 0 und 1 zukommen kann. Diese logische Abstufung des Zutref-
fens einer Diagnose ermöglicht somit eine Art Quantifizierung psychischer
Störungen, welche sich unmittelbar aus der entsprechenden ICD-Diagnose
ergibt.
Die entsprechende logische Formalisierung in Łℵ stimmt nahezu kom-
plett mit der bereits bekannten aussagenlogischen Formalisierung von ICD-
Diagnosen überein. Grundlegendes Schema ist ebenfalls die Aussage

(Kriterien) ≡ ( Diagnose),

wobei (Kriterien) als verschachtelter logischer Ausdruck verstanden wird,


welcher mittels der Verknüpfungen ∨ und ∧ notwendige und hinreichende
Bedingungen für das Zutreffen der Diagnose beschreiben.
Der wesentliche Unterschied zu den bisherigen Ansätzen besteht nun
darin, dass ein Symptom nicht als „vorhanden vs. nicht vorhanden“ be-
trachtet wird. Stattdessen können Symptome mehr oder weniger vorliegen –
das heißt die Wahrheitswerte der elementaren propositionalen Variablen
können beliebige Werte zwischen 0 und 1 einnehmen. Diese Vorstellung
deckt sich mit tatsächlicher diagnostischer Praxis – in der Tat ist es trotz aller
Bemühungen um klar definierte Kriterien oft nicht möglich, eine eindeutige
Grenze zu ziehen zwischen „Symptom liegt vor“ und „Symptom liegt nicht
vor“ (vgl. Bruchmüller & Meyer, 2008). Diagnosekriterien wie „Interessen-
oder Freudenverlust an Aktivitäten, die normalerweise angenehm waren“
108 10 Testtheoretische Anwendung mehrwertiger Logiken

(B2), „Verminderter Antrieb oder gesteigerte Ermüdbarkeit“ (B3), „Verlust


des Selbstvertrauens oder des Selbstwertgefühls“ (C1) etc. liegen nur sel-
ten voll und ganz beziehungsweise überhaupt nicht vor. Dementsprechend
erscheint es natürlich, einen Test, welcher die entsprechenden Kriterien
abfragt, statt mit den Antwortmöglichkeiten „ja vs. nein“ mit einem kon-
tinuierlichen Antwortformat zu versehen. Dies könnte beispielsweise eine
visuelle Analogskala sein oder ein offenes Feld, in welches eine reelle Zahl
zwischen 0 und 10 eingetragen werden kann. Nach einer entsprechenden
(linearen) Transformation können aus den gegebenen Antworten empirische
Wahrheitswerte zwischen 0 und 1 konstruiert werden.
Durch die Anwendung der in Łℵ gegebenen Wahrheitsfunktionen für die
Verknüpfungen ∨ und ∧ kann der Wahrheitswert des gesamten Ausdrucks
F32.2 errechnet werden – mathematisch nicht weiter kompliziert durch
Maximums- und Minimumsbildung. Aufgrund der Definition von ≡ in
Kombination mit den Wahrheitsfunktionen von ∧ und → gilt ferner, dass
Aussagen genau dann äquivalent sind, wenn ihre Wahrheitswerte identisch
sind. Der Wahrheitswert der Diagnose ergibt sich somit unmittelbar aus den
empirisch gewonnenen Wahrheitswerten der Symptome – durch einfache
Anwendung der logischen Wahrheitsfunktionen.
Für den Fall, dass die relevanten Symptome tatsächlich nur in binärer
Form vorliegen (also entweder voll und ganz zutreffen oder überhaupt
nicht), entspricht das Ergebnis dem der Formalisierung durch klassische
Aussagenlogik. Dasselbe gilt, wenn kontinuierliche Wahrheitswerte der
Symptome durch das Festlegen eines Cut-off-Wertes dichotomisiert werden.
Daraus folgt für eindeutig festgelegte Cut-off-Werte und eindeutige
Wahrheitswerte der Symptome, dass die „offizielle“ (d.h. die kategoria-
le) ICD-Diagnose perfekt vorhergesagt werden kann. Bei der Verwendung des
ICD-Schlüssels durch Diagnostiker werden die tatsächlich angewendeten
Cut-off-Werte natürlich individuell schwanken. Darüber hinaus ist davon
auszugehen, dass verschiedene getestete Personen ein und derselben Sym-
ptomlage unterschiedliche Wahrheitswerte zuordnen würden. Somit wird
der Zusammenhang zwischen dem Testergebnis und der ICD-Diagnose
in der Praxis schlechter ausfallen. Da jedoch die einzigen Fehlerquellen
in den empirischen Varianzen von Diagnose und Testwert bestehen, ist es
unmöglich, durch eine andere Auswertungsmethode bessere Vorhersagen
zu treffen. Die Auswertung eines diagnostischen Tests durch die Anwen-
dung der mehrwertigen Logik Łℵ liefert somit die bestmögliche Vorhersage
der tatsächlichen ICD-Diagnose.
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 109

Beispiel 5. Gegeben sei ein Test, welcher die ICD-Kriterien G1 bis D für die
Störung F32.2 – „schwere depressive Episode ohne psychotische Symptome“(SDE)
– abfragt.
Aufgrund der syntaktischen Entsprechungen zwischen Łℵ und der klassischen
Aussagenlogik kann die Formalisierung aus Beispiel 3 vollständig übernommen
werden. Den Ausgangspunkt bildet somit die Aussage

( F32.2) ≡ (SDE),

wobei gilt:

( F32.2) ≡ (( G1 ∧ G2 ∧ G3)∧
( B1 ∧ B2 ∧ B3)∧
((C1 ∧ C2 ∧ C3 ∧ C4 ∧ C5)∨
(C1 ∧ C2 ∧ C3 ∧ C4 ∧ C6) ∨ · · · ∨ (C3 ∧ C4 ∧ C5 ∧ C6 ∧ C7))∧
( D ))

Ebenso wie bei der aussagenlogischen Formalisierung stellen die ICD-Kriterien


G1 bis D propositionale Variablen dar.
Die Antworten eines Klienten liegen nun in Form von Zahlen zwischen 0 und 1
vor und sind in Tabelle 10.1 abgebildet.

Die entsprechende Evaluation des formal-logischen Ausdrucks F.32.2 nach


Anwendung der Wahrheitsfunktionen

f ∧ ( x, y) = min( x, y)

und
f ∨ ( x, y) = max( x, y)
sieht folgendermaßen aus:

w [ F.32.2] =
min(w [ G1] , w [ G2] , w [ G3] , w [ B1] , w [ B2] , w [ B3] ,
max(min(w [C1] , w [C2] , w [C3] , w [C4] , w [C5]),
min(w [C1] , w [C2] , w [C3] , w [C4] , w [C6]), . . . ,
min(w [C3] , w [C4] , w [C5] , w [C6] , w [C7])))
110 10 Testtheoretische Anwendung mehrwertiger Logiken

Tabelle 10.1: Beispielantworten in einem ICD-basierten Depressionstest

ICD Symptom Ausprägung


G1) Dauer mind. 2 Wochen 1
G2) Keine Manie oder Hypomanie 1
G3) Keine psychotropen Substanzen/org. Störungen 0.99
B1) Deutlich ungewöhnliche depressive Stimmung 0.7
B2) Interessen- oder Freudenverlust 0.8
B3) Verminderter Antrieb/gesteigerte Ermüdbarkeit 1
C1) Verlust des Selbstvertrauens/Selbstwertgefühls 0.5
C2) Selbstvorwürfe/Schuldgefühle 1
C3) Gedanken an den Tod oder an Suizid 0.1
C4) Vermindertes Denk- /Konzentrationsvermögen 0.5
C5) Psychomotorische Agitiertheit/Hemmung 0.8
C6) Schlafstörungen 0.6
C7) Appetitverlust/gesteigerter Appetit 0
D) Keine Halluzinationen/Wahn/Stupor 1

Es müssen nun nur noch die entsprechenden Antworten als Wahrheitswerte


eingesetzt werden, um den Wahrheitswert der Diagnose zu errechnen:

w [ F.32.2] =
min(1, 1, 0.99, 0.7, 0.8, 1, max( min(0.5, 1, 0.1, 0.5, 0.8),
min(0.5, 1, 0.1, 0.5, 0.6), . . . ,
min(0.1, 0.5, 0.8, 0.6, 0)))
=0.5

Aus dem Antwortmuster des betrachteten Klienten ergibt sich somit, dass die
Diagnose „schwere depressive Episode ohne psychotische Symptome“ zum Grad
0.5 zutreffend ist. Das bedeutet, die Aussage „Person A ist schwer depressiv (ohne
psychotische Symptome)“ ist zur Hälfte wahr4 .

4 Man beachte, dass „zur Hälfte wahr“ sich nicht auf die Wahrscheinlichkeit für das Zutreffen
der Diagnose bezieht, sondern ausdrückt, dass die Kriterien eben nur teilweise erfüllt sind
(vgl. hierzu Abschnit 8.4.1).
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 111

Im Gegensatz zur in der psychometrischen Praxis üblichen Mittelwertsbildung


ergibt sich dieser Wert aus einer Verallgemeinerung der diagnostischen Kriterien
auf graduelle Symptomausprägungen – es handelt sich somit um eine tatsächliche
Quantifizierung der Diagnose und nicht um eine bloße Indexbildung. Der nume-
rische Unterschied zum Mittelwert (für das obige Beispiel 0.71) verdeutlicht, dass
die unreflektierte Anwendung psychometrischer Standardmethoden zu erheblichen
Fehleinschätzungen führen kann.
11 Testtheoretische Anwendung
unscharfer Logiken

Um das in Abschnitt 8.4 entwickelte Konzept der semantischen Unschär-


fe im Rahmen des vorgestellten formal-logischen Kontextes nutzbar zu
machen, soll im Folgenden eine Klasse mehrwertiger Logiken dargestellt
werden, welche auf dem Konzept der Fuzzy-Menge basieren. Diese so ge-
nannten Fuzzy-Logiken („unscharfe Logiken“) stellen darüber hinaus einen
möglichen formalen Rahmen zur Systematisierung einer ganzen Reihe
mehrwertiger logischer Systeme dar.
Der Begriff „Fuzzy-Logik“ wird dabei im strengen, mathematischen Sinne
gebraucht. Das heißt er bezieht sich ausschließlich auf Systeme, welche den
Anforderungen einer formalen Logik gerecht werden – also eine Syntax
aufweisen, welche die Bildung von Aussagen ermöglicht, mindestens eine
Schlussregel, welche die Herleitung von Aussagen ermöglicht, sowie eine
Semantik, die für beliebige Interpretationen einer Aussage entsprechende
Wahrheitswerte zuordnet. Diese streng mathematische Auffassung von
Fuzzy-Logik findet sich in Ansätzen bereits bei Goguen (1969), wurde
jedoch erst relativ spät systematisiert (Gottwald & Hájek, 2005; Hájek, 2006;
Gottwald, 2008; Cintula & Hájek, 2010).
Der Begriff ist klar abzugrenzen von „Fuzzy-Logik“ im Sinne jeglicher
Methoden und Formalismen, welche auf dem Konzept der Fuzzy-Menge
basieren (Novák, 2012). Aufgrund der teilweise sehr vagen Verwendung
von Begriffen wie Fuzzy-Inferenz oder Fuzzy-Implikationen für (oft aus anwen-
dungsorientierten Gründen gewählte) mathematische Operationen kann es
leicht zu Missverständnissen kommen. Darüber hinaus mangelt es vielen
praktisch motivierten Ansätzen am mathematischen Hintergrund, der die
Verwendung eines solchen Vokabulars rechtfertigen würde – zum Beispiel
fehlt ein formaler Kalkül oder Syntax und Semantik werden vermischt
(Hájek, 1998b). In solchen Fällen handelt es sich streng genommen nicht um
logisches Schließen im eigentlichen Sinne, sondern um eine Etikettierung

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_11, © Springer Fachmedien Wiesbaden 2014
114 11 Testtheoretische Anwendung unscharfer Logiken

bestimmter (meist aus der Fuzzy-Mengenlehre stammender) Rechenopera-


tionen.
Im Kontext dieser Arbeit steht „Fuzzy-Logik“ ausschließlich für mehrwer-
tige logische Kalküle, welche formal auf Konzepten der Fuzzy-Mengenlehre
(im Wesentlichen dem der t-Norm) aufbauen. Die Darstellung des Formalis-
mus erfolgt dabei in Anlehnung an Hájek (1998b).

11.1 Einführung in die Fuzzy-Logik


Fuzzy-Logik basiert ganz wesentlich auf dem in Abschnitt 8.4.1 eingeführ-
ten Konzept der t-Norm. t-Normen stellen nicht nur geeignete Schnittmen-
genoperatoren für Fuzzy-Mengen dar, sondern konstituieren darüber hin-
aus jeweils eine Algebra auf der Trägermenge der reellen Zahlen zwischen 0
und 1.
Der Begriff der Algebra ist eng verwandt mit dem des relationalen Sys-
tems (vgl. Abschnitt 3.2). Es handelt sich dabei um eine Menge zusammen
mit mindestens einer auf ihr definierten Operation. Damit sind Funktionen
gemeint, welche den Objekten der Grundmenge (bzw. Kombinationen aus
diesen) bestimmte Objekte aus derselben Grundmenge zuordnen. Einfache
Beispiele sind die Natürlichen Zahlen mit Addition (N, +). „+“ ist dabei
eine zweistellige Operation auf N, das heißt, immer zwei natürlichen Zahlen
wird durch die Operation „+“ eine bestimmte natürliche Zahl zugeordnet.
In ähnlicher Weise bilden die reellen Zahlen zwischen 0 und 1 zusammen
mit einer bestimmten t-Norm eine Algebra: Jedem Wertepaar aus dem Inter-
vall wird jeweils ein dritter zugeordnet. Diese Algebra lässt sich erweitern,
indem die Operationen max und min ergänzt werden sowie eine weitere
auf Basis der t-Norm definiert wird: das so genannte Residuum1 .
Eine derartige Algebra liefert eine Semantik zu einem entsprechenden
unendlichwertigen Kalkül mit kontinuierlichen Wahrheitswerten. Die Ope-
rationen erfüllen dabei dieselbe Funktion wie die Wahrheitstafeln der klas-
sischen, zweiwertigen Kalküle. Fuzzy-Logiken sind also in erster Linie des-
halb „fuzzy“, weil sie – ebenso wie Fuzzy-Mengen – auf t-Normen basieren.
Dadurch wird es ermöglicht, bestimmten fuzzy-logischen Verknüpfungen
korrespondierende Operationen auf Fuzzy-Mengen zuzuordnen (z.B. Dis-
junktion und Schnittmenge, Negation und Komplement etc.). Insofern be-

1 DerBegriff des Residuums ist an dieser Stelle nicht zu verwechseln mit den „Residuen“
eines Regressions- oder Strukturgleichungsmodells.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 115

steht eine ähnliche Verbindung zwischen Fuzzy-Mengen und Fuzzy-Logik


wie zwischen klassischer Mengenlehre und zweiwertiger Logik.
In den folgenden Abschnitten wird zunächst eine formale Einführung
in die grundlegenden Konzepte unscharfer Logiken gegeben, welche dann
in Form eines sehr allgemeinen aussagenlogischen Kalküls angewendet
werden. Im Anschluss wird gezeigt, dass sich der Kalkül Łℵ als Spezial-
fall dieses Fuzzy-Aussagenkalküls beschreiben lässt. Schließlich wird das
Prinzip des graduellen Schließens aus teilweise wahren Prämissen eingeführt
und auf das Erschließen von Konstrukten aus den Antwortmustern eines
Tests angewendet – selbst wenn die Antworten das Konstrukt nur teilweise
implizieren.

11.2 Quantifizierung unscharf definierter


Konstrukte mittels Fuzzy-Logik
11.2.1 Fuzzy Aussagenlogik
Wie bereits angedeutet gibt es eine ganze Reihe möglicher Fuzzy-
Aussagenlogiken, je nachdem, welche t-Norm man für die entsprechende
Semantik zu Grunde legt. Nichtsdestotrotz ist es möglich, ein einziges
axiomatisches Grundgerüst zu formulieren, aus welchem sich – durch
spezifische Erweiterungen – die verschiedenen möglichen Kalküle entspre-
chend ihrer Semantik bilden lassen. Dieser grundlegende Kalkül wird Basic
Fuzzy Logic oder kurz BL genannt (Hájek, 1998a).

Syntax
Das Alphabet des grundlegenden Fuzzy-Aussagenkalküls besteht aus fol-
genden Symbolen:
• einer Menge proposositionaler Variablen p1 , p2 , . . . ,
• den Wahrheitskonstanten 0 und 1
• den logischen Verknüpfungen & („starke Konjunktion“) und → („Impli-
kation“) – Alle weiteren Verknüpfungen werden aus diesen definiert2 .
2 Würde man – wie in den bisherigen Kalkülen – die zusätzlichen Verknüpfungen zu den
grundlegenden Symbolen des Kalküls hinzunehmen, müsste man ihre Semantik für jede t-
Norm einzeln definieren. Da es unendlich viele t-Normen gibt, ist diese Herangehensweise
nicht sinnvoll.
116 11 Testtheoretische Anwendung unscharfer Logiken

Aussagen werden wie gehabt definiert: Jede propositionale Variable ist eine
Aussage; 0 und 1 sind ebenfalls Aussagen; Wenn ϕ und ψ Aussagen sind,
dann sind ϕ&ψ, sowie ϕ → ψ ebenfalls Aussagen.
Ausgehend von den logischen Verknüpfungen & und → werden des
Weiteren die Verknüpfungen ∧ („schwache Konjunktion“), ∨ („schwache
Disjunktion“), ¬ („Negation“) und ≡ („Äquivalenz“) nach folgenden Re-
geln gebildet:

• ϕ ∧ ψ bedeutet ϕ&( ϕ → ψ)
• ϕ ∨ ψ bedeutet (( ϕ → ψ) → ψ) ∧ ((ψ → ϕ) → ϕ)
• ¬ ϕ bedeutet ϕ → 0

• ϕ ≡ ψ bedeutet ( ϕ → ψ)&(ψ → ϕ)

Die Unterscheidung zwischen „starker Konjunktion“ und „schwacher Kon-


junktion“ ist erklärungsbedürftig. Sie kann interpretiert werden als das
Vorhandensein von zwei verschiedenen „und“-Verknüpfungen – einer stär-
keren und einer schwächeren. Vergegenwärtigt man sich die Bedeutung von
„und“ als „beides muss der Fall sein“, wird klar, dass man bei der Frage, wie
stark zwei Aussagen zugleich wahr sind, verschieden strenge Kriterien anset-
zen kann. Genau das ist die Idee hinter den beiden Konjunktions-Symbolen.

Semantik
Eine semantische Interpretation in BL besteht in der Zuordnung von Wahr-
heitswerten zu beliebigen Aussagen. Ebenso wie im klassischen Fall gilt
das Prinzip der Extensionalität – die Wahrheitswerte zusammengesetzter
Aussagen ergeben sich stets eindeutig aus den Wahrheitswerten der Ele-
mentaraussagen. Wie bereits im Kalkül Łℵ werden statt Wahrheitstafeln
Wahrheitsfunktionen angegeben. Da es nur zwei elementare logische Ver-
knüpfungen gibt, genügt es die beiden Wahrheitsfunktionen für & und →
anzugeben – die Wahrheitsfunktionen der anderen Verknüpfungen ergeben
sich dann aus den oben genannten Definitionen.
Als Wahrheitsfunktion für die starke Konjunktion & soll eine beliebi-
ge, kontinuierliche t-Norm dienen (vgl. hierzu Abschnitt 8.4). Die t-Norm-
Operation zur Bestimmung des Wahrheitswertes einer Konjunktion ϕ&ψ
wird dabei geschrieben als

w [ ϕ] ∗ w [ψ] = w [ ϕ&ψ] (11.1)


11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 117

Die Verwendung von t-Normen als semantische Entsprechung der star-


ken Konjunktion lässt sich unmittelbar plausibel machen: t-Normen sind
monoton, kommutativ, assoziativ und haben das Nullelement 0 und das neutrale
Element 1. Ausgehend vom zweiwertigen Verständnis von „Wahrheit“, sind
die Anforderungen an eine Konjunktion („und“):

• Ein hoher Wahrheitswert der Konjunktion zweier Aussagen bedeutet,


dass sowohl die eine als auch die andere einen hohen Wahrheitswert
aufweist.

• Die beiden Aussagen sind dabei gleichwertig.


Daher ist es naheliegend zu fordern, dass eine Konjunktion 0 ist, wenn
mindestens einer der Werte 0 ist (Nullelement), dass bei einer vollständig
wahren Aussage der Wahrheitswert der Konjunktion durch den der zweiten
bestimmt wird (neutrales Element), dass es für den Wahrheitswert der Kon-
junktion egal ist, in welcher Reihenfolge Aussagen stehen (Kommutativität
und Assoziativität), sowie dass es keine Interaktion zwischen verschiedenen
Wahrheitswerteausprägungen gibt (Monotonie).
Die Wahrheitsfunktion der Implikation lässt sich auf eine ähnliche Wei-
se begründen. Laut den Wahrheitstafeln der eingeführten zweiwertigen
Logiken ist die Implikation ϕ → ψ wahr, wenn der Warheitswert von ϕ
kleiner oder gleich dem von ψ ist. Eine Implikation ist demzufolge gültig,
wenn entweder ϕ falsch ist (unabhängig vom Wahrheitswert von ψ) oder
wenn beide Wahrheitswerte 1 sind. Verallgemeinert man dieses Konzept auf
kontinuierliche Wahrheitswerte, besagt dies: ein hoher Wahrheitswert der
Implikation bedeutet, dass der Wahrheitswert von ϕ nicht wesentlich größer
ist als der von ψ. Wenn w [ ϕ] kleiner oder gleich w [ψ] ist, sollte w [ ϕ → ψ]
gleich 1 sein (wie im zweiwertigen Fall). Wenn jedoch w [ ϕ] größer als w [ψ]
ist, sollte w [ ϕ → ψ] kleiner als 1 sein, und zwar umso kleiner, je mehr der
Wahrheitswert von ϕ über dem von ψ liegt.
Darüber hinaus sollte der Modus Ponens anwendbar sein: Aus einer un-
teren Schranke der Wahrheitswerte von ϕ und ϕ → ψ sollte die untere
Schranke des Wahrheitswertes von ψ berechenbar sein. Daraus folgt die
Monotonie der entsprechenden Wahrheitsfunktion (je wahrer die Prämissen
und die Implikation, desto wahrer soll die Konklusion sein). Ausgehend von
einer beliebigen t-Norm können wir daher für die entsprechende Operation
fordern: Wenn eine Aussage weniger oder gleich wahr ist als eine beliebige
Implikation, soll der Wahrheitswert der Konjunktion dieser Aussage mit
dem ersten Element der Implikation kleiner oder gleich dem Wahrheitswert
118 11 Testtheoretische Anwendung unscharfer Logiken

des zweiten Elements der Implikation sein. In formaler Schreibweise lautet


diese Forderung:

Wenn w [χ] ≤ w [ ϕ → ψ] , dann w [χ&ϕ] ≤ w [ψ]

Gleichzeitig soll der Modus Ponens möglichst hohe Wahrheitswerte für die
Konklusion ergeben. Daher soll der Wahrheitswert der Implikation dem
höchstmöglichen Wert entsprechen, bei dem die obige Bedingung erfüllt ist.
Das ist gleichbedeutend mit der Forderung, dass w [ ϕ → ψ] dem maximalen
Wert z entspricht, welcher in Konjunktion mit dem ersten Implikationsele-
ment kleiner oder gleich dem Wahrheitswert des zweiten Implikationsele-
ments ist:

w [ ϕ → ψ] = max {z|w [ ϕ] ∗ z ≤ w [ψ]} (11.2)


Die so definierte Funktion wird als Residuum der t-Norm ∗ bezeichnet.
Der Begriff Residuum leitet sich daraus ab, dass die besagte Funktion in
gewisser Weise das ist, womit man eine Aussage zusammenfügen muss,
damit der Wahrheitswert der implizierten Aussage erreicht wird.
Wendet man die obigen Definitionen an, so ergibt sich für beliebige t-
Normen:

w [ ϕ ∧ ψ] = min(w [ ϕ] , w [ψ]) (11.3)


w [ ϕ ∨ ψ] = max(w [ ϕ] , w [ψ]) (11.4)

Die logischen Verknüpfungen ∧ und ∨ sind demnach unabhängig von der


jeweiligen t-Norm.
Eine Tautologie (auch 1-Tautologie) in BL ist eine Aussage, deren Wahr-
heitswert stets 1 ist, egal welche semantische Interpretation für die ihr zu
Grunde liegenden elementaren Aussagen vorliegt.

Axiomatisierung
Es ist möglich, eine Menge von Tautologien anzugeben, aus denen sich
mittels einer einzigen Schlussregel sämtliche übrigen Tautologien in BL
herleiten lassen. Diese Axiome der fuzzy Aussagenlogik BL sind folgende
(vgl. Hájek, 1998a):

• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))

• ( ϕ&ψ) → ϕ
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 119

• ( ϕ&ψ) → (ψ&ϕ)
• ( ϕ&( ϕ → ψ)) → (ψ&(ψ → ϕ))

• ( ϕ → (ψ → χ)) → (( ϕ&ψ) → χ)
• (( ϕ&ψ) → χ) → ( ϕ → (ψ → χ))

• (( ϕ → ψ) → χ) → (((ψ → ϕ) → χ) → χ)
• 0→ϕ
Als Schlussregel kommt der Modus Ponens zur Anwendung: Aus ϕ und ϕ →
ψ leite ψ ab. Dabei ist zu beachten, dass der Modus Ponens sich nicht auf die
Verknüpfung von ϕ und ϕ → ψ mittels starker oder schwacher Konjunktion
bezieht. Das „und“ in der obigen Formulierung des Modus Ponens ist
ein metasprachlicher Ausdruck und weist lediglich auf das gleichzeitige
Vorliegen beider Aussagen hin. Etwas klarer wird diese Unterscheidung,
wenn man eine semantische Definition des Modus Ponens ergänzt: Wenn
der Wahrheitswert von ϕ und ϕ → ψ jeweils 1 ist, so schließe darauf, dass
der Wahrheitswert von ψ ebenfalls 1 ist.

Der Kalkül Łℵ als Spezialfall von BL


Betrachtet man den Kalkül Łℵ erneut vor dem Hintergrund des allgemeinen
fuzzy-logischen Aussagenkalküls BL, fällt auf, dass die in Abschnitt 10.3.1
gegebene Wahrheitsfunktion für die Konjunktion (max(0, x + y − 1)) der in
Abschnitt 8.4.1 erwähnten Łukasiewicz’schen t-Norm entspricht. Tatsäch-
lich, lässt sich der Kalkül Łℵ als Spezialfall des Kalküls BL auffassen.
Ausgehend von der t-Norm

tŁ ( x, y) = max(0, x + y − 1) (11.5)

lässt sich leicht zeigen, dass das Residuum von tŁ der Łukasiewicz’schen
Wahrheitsfunktion f → ( x, y) entspricht: Da ein Residuum laut Definition
dem größten Wert z entsprechen muss, für den x ∗ z ≤ y gilt, muss gelten:

max(0, x + z − 1) ≤ y. (11.6)

Für den Fall, dass x ≤ y, kann z beliebig groß sein, ohne dass die obige
Ungleichung verletzt wird – denn max(0, x + z − 1) kann dann höchstens
gleich x werden. Der Wahrheitswert der Implikation ist somit für diesen
120 11 Testtheoretische Anwendung unscharfer Logiken

Fall 1. Sollte jedoch x > y der Fall sein, muss x + z − 1 kleiner oder gleich y
sein. Aus
x+z−1 ≤ y (11.7)
ergibt sich durch einfaches Umstellen der Ungleichung

z ≤ 1 − x + y. (11.8)
Da z den größtmöglichen Wert einnimmt, für den diese Ungleichung gilt,
ergibt sich
z = 1 − x + y. (11.9)
Das Residuum der t-Norm max(0, x + y − 1) ist somit identisch mit der
Łukasiewicz’schen Wahrheitsfunktion f → ( x, y).
In ähnlicher Weise ist die Wahrheitsfunktion der Negation,

f ¬ (x) = 1 − x (11.10)

herzuleiten. Durch die Definition der Negation ¬ ϕ als gleichbedeutend mit


der Aussage ϕ → 0 ergibt sich: Wenn w [ ϕ] ≤ 0, dann ist
 
w ϕ → 0 = 1. (11.11)

Das ist genau dann der Fall, wenn [ ϕ] = 0. Wenn jedoch w [ ϕ] > 0, dann ist
   
w ϕ → 0 = 1 − w [ ϕ] + w 0 . (11.12)

Daraus ergibt sich unmittelbar:

w [¬ ϕ] = 1 − w [ ϕ] , (11.13)

also die Negationsfunktion f ¬ ( x ) aus Łℵ .


Die Wahrheitsfunktion f ∨ ( x, y) ergibt sich unmittelbar daraus, dass in
BL die Wahrheitsfunktion von ϕ ∨ ψ stets gleich max(w [ ϕ] , w [ψ]) ist.
Auf syntaktischer Ebene lässt sich durch die Ergänzung des Axiomsys-
tems BL um das zusätzliche Axiom

¬¬ ϕ → ϕ
ein Axiomsystem formulieren, dessen Menge der 1-Tautologien identisch
mit der Menge der Tautologien in Łℵ ist (vgl. Hájek, 1998b für einen entspre-
chenden Beweis). Der einzige Unterschied zwischen BL in Kombination
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 121

mit dem zusätzlichen Axiom und der ursprünglichen Logik Łℵ besteht dar-
in, dass letztere ohne Rückgriff auf die logische Verknüpfung der starken
Konjunktion auskommt (welche jedoch im Prinzip aus den übrigen Ver-
knüpfungen definierbar wäre). Der Kalkül Łℵ stellt somit einen Spezialfall
einer Fuzzy-Aussagenlogik dar.

Teilweise wahre Aussagen und graduelle Inferenz


Die bisher eingeführten Axiome und Schlussregeln, ebenso wie die Eigen-
schaften der Vollständigkeit und Korrektheit, beziehen sich ausschließlich
auf die Menge der 1-Tautologien in BL. Wir sind somit zwar in der Lage, teil-
weise wahre Aussagen zu formalisieren, können jedoch die obigen Axiome
und Schlussregeln nicht ohne Weiteres auf derartige Aussagen anwenden.
Um logisches Schließen mit teilweise wahren Prämissen zu ermöglichen,
muss die Menge der zulässigen Zeichen in BL erweitert werden.
Die erweiterte Sprache umfasst neben den Wahrheitskonstanten 0 und 1,
zusätzliche Wahrheitskonstanten für jede reelle Zahl zwischen 0 und 1. Diese
Idee geht auf Pavelka (1979) zurück. Daher soll der resultierende Kalkül im
Folgenden PL („Pavelka Logik“) genannt werden. Es handelt sich dabei um
eine direkte Erweiterung der Logik Łℵ , das heißt, dass sämtliche Wahrheits-
funktionen auf der oben genannten Łukasiewicz t-Norm aufbauen (Hájek,
Paris & Shepherdson, 2000).
Die zusätzlichen Wahrheitskonstanten r, s . . . werden ebenso definiert
wie die Konstanten 0, 1, so dass gilt:
w [r ] = r,
w [s] = s
und so weiter. Die Aussage r → ϕ wird auch als ( ϕ, r ) geschrieben und
bedeutet soviel wie „Aussage ϕ mit einer Gültigkeit vom Grade r“.
Die Axiome der so erweiterten Fuzzy-Logik PL sind die Axiome BL zu-
sammen mit dem zusätzlichen Axiom der Łukasiewicz-Logik und den
folgenden Axiomen bezüglich beliebiger Wahrheitskonstanten r und s:
• (r → s) ≡ f → (r, s)

• ¬r ≡ f ¬ (r )
Die Bedeutung dieser Axiome ist leicht zu erfassen: Wahrheitskonstan-
ten werden miteinander verknüpft, indem die entsprechenden semanti-
schen Operationen auf den zugehörigen Wahrheitswerten durchgeführt
122 11 Testtheoretische Anwendung unscharfer Logiken

werden. Beispiele für konkrete Wahrheitskonstanten wären 0.6 → 0.5 ≡


1 − 0.6 + 0.5, also 0.9 bzw. ¬0.3 ≡ 1 − 0.3, also 0.7.
Betrachtet man die Regel des Modus Ponens in PL, ergibt sich eine abge-
leitete Schlussregel – der graduelle Modus Ponens (Hájek, 1998b):

( ϕ, r ), ( ϕ → ψ, s)
(ψ, r ∗ s)

Dabei steht ∗ für die Łukasiewicz’sche t-Norm. Unter teilweiser Gültig-


keit der beiden Prämissen lässt sich somit der Wahrheitswert der Konklu-
sion errechnen – und zwar über die Wahrheitsfunktion der starken Kon-
junktion der beiden Prämissen. Dies ermöglicht nunmehr auch graduelles
Schließen.

Graduelle Inferenz vs. Approximatives Schließen


Der im vorangehenden Abschnitt vorgestellte graduelle Modus Ponens ist
von der kompositionalen Inferenzregel abzugrenzen, welche durch Zadeh
(1975a) eingeführt wurde. Letztere wird häufig auch als „generalisierter
Modus Ponens“ bezeichnet. Trotz dieser Namensgebung handelt es sich
dabei im Gegensatz zum graduellen Modus Ponens jedoch nicht um eine
syntaktisch abgeleitete logische Schlussregel, sondern um eine Rechenregel
für das Hantieren mit Fuzzy-Relationen – meist in Form linguistischer Va-
riablen (vgl. Abschnitt 8.4.3). Die kompositionale Inferenzregel lässt sich
am einfachsten als Kombination zweier Fuzzy-Relationen beschreiben, de-
ren Elemente zeilen- und spaltenweise mittels einer (beliebigen) t-Norm
verknüpft werden. Das rechnerische Vorgehen ist dem der Matrixmultipli-
kation sehr ähnlich – mit dem Unterschied, dass statt dem Produkt zweier
Matrixelemente die t-Norm-Operation durchgeführt wird, und dass statt
der Aufsummierung der Zeilen- und Spaltenprodukte das Supremum3 der
resultierenden Werte gebildet wird.
Die Anwendung der kompositionalen Inferenzregel (sowie weiterer Ope-
rationen auf Fuzzy-Relationen) wird auch approximatives Schließen oder
unscharfes Schließen genannt (Zadeh, 1979; Baldwin, 1979a, 1979b). Da es
sich bei den zur Anwendung kommenden Operationen nicht um logische
Schlussregeln im eigentlichen Sinne sondern allenfalls um zusätzliche Axio-
me eines fuzzy-logischen Kalküls handelt (vgl. Hájek, 1998b), unterscheidet
sich der in dieser Arbeit vorgestellte Ansatz grundlegend von den meisten
3 Die „kleinste obere Schranke“
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 123

fuzzy-logischen Anwendungen. Daher wird nicht von approximativem


oder unscharfem Schließen gesprochen sondern von gradueller Inferenz bzw.
graduellem Schließen.

11.2.2 Fuzzy Prädikatenlogik


Der allgemeine fuzzy-logische Kalkül BL kann – analog zum klassischen
Aussagenkalkül – zu einer Fuzzy-Prädikatenlogik verallgemeinert werden
(Hájek, 1998b). Hierfür müssen ebenso wie im zweiwertigen Fall Prädikate
eingeführt werden, welche dann an Stelle der propositionalen Variablen
als elementare Aussagen treten. Im Gegensatz zum zweiwertigen Fall wer-
den Prädikate in der Fuzzy-Logik jedoch nicht als scharf begrenzte Re-
lationen verstanden, sondern als Fuzzy-Relationen – also Fuzzy-Mengen,
deren Trägermengen kartesische Produkte beliebiger Stelligkeit sind. Fuzzy-
Prädikatenlogik beinhaltet somit nicht nur kontinuierliche Wahrheitswerte,
sondern auch kontinuumwertige Prädikate, das heißt Prädikate, welche mehr
oder weniger auf bestimmte Objekte zutreffen können. Konkret bedeutet
dies, dass eine Person z.B. nicht „entweder beliebt oder unbeliebt“ sein
muss, sondern beliebt zu einem gewissen Grade sein kann – das heißt, dass die
Aussage „Person c ist beliebt“ nur teilweise wahr ist.

Syntax
Ebenso wie in der zweiwertigen Prädikatenlogik kommen Prädikaten so ge-
nannte Terme zu, welche entweder Objektkonstanten oder Objektvariablen
sein können. Objektvariablen können ebenfalls durch Quantoren gebunden
werden. Das Alphabet des Kalküls BL∀ besteht aus:
• einer nichtleeren Menge von Prädikaten P, Q, R . . . , welchen jeweils
eine natürliche Zahl – ihre Stelligkeit zugeordnet ist
• einer (möglicherweise leeren) Menge von Objektkonstanten c, d, . . .
• einer (möglicherweise leeren) Menge von Objektvariablen x, y, . . .
• den logischen Verknüpfungen → (Implikation) und & (starke Konjunkti-
on)
• den Wahrheitskonstanten 0 und 1
• dem Allquantor ∀ („für alle“) und dem Existenzquantor ∃ („Es gibt
mindestens ein“)
124 11 Testtheoretische Anwendung unscharfer Logiken

Die übrigen logischen Verknüpfungen werden ebenso definiert wie in der


Fuzzy-Aussagenlogik4 :

• ϕ ∧ ψ bedeutet ϕ&( ϕ → ψ)
• ϕ ∨ ψ bedeutet (( ϕ → ψ) → ψ) ∧ ((ψ → ϕ) → ϕ)

• ¬ ϕ bedeutet ϕ → 0

• ϕ ≡ ψ bedeutet ( ϕ → ψ)&(ψ → ϕ)
Atomare Aussagen bestehen aus jeweils einem Prädikat und einer entspre-
chenden Anzahl Terme (Objektkostanten oder Objektvariablen). Prädikate
werden als n-stellige Fuzzy-Relationen auf einer Domäne M verstanden.
Aussagen werden analog zu den bisherigen Kalkülen definiert:

• Atomare Aussagen der Form P(t1 , t2 . . . ) sind Aussagen.

• Wenn ϕ, ψ Aussagen sind und x eine Objektvariable ist, dann sind


die Zeichenkombinationen ϕ → ψ, ϕ&ψ, (∀ x )ψ, (∃ x ) ϕ, 0, 1 ebenfalls
Aussagen.

• Alle Aussagen ergeben sich durch iteratives Anwenden dieser Bil-


dungsregeln aus atomaren Aussagen.

Die Konzepte der Gebundenheit und der Substituierbarkeit werden auf diesel-
be Weise definiert wie in der zweiwertigen Prädikatenlogik.

Semantik
Eine semantische Interpretation besteht in der Zuordnung von Wahrheitswer-
ten zu Aussagen. Es gilt das Prinzip der Extensionalität. Dementsprechend
werden die Wahrheitsfunktionen der Verknüpfungen & und → aus der
Fuzzy-Aussagenlogik übernommen – eine beliebige t-Norm für die starke
Konjunktion und das dazugehörige Residuum für die Implikation. Den
Wahrheitskonstanten 0 und 1 werden die Wahrheitswerte 0 und 1 zuge-
ordnet. Darüber hinaus werden die Wahrheitswerte atomarer Aussagen
in Abhängigkeit der in ihnen vorkommenden Terme festgelegt. Hierfür
wird jedem Prädikat eine Fuzzy-Relation entsprechender Stelligkeit auf der

4 Dasich für jede t-Norm eine eigene Semantik ergibt, ist es nicht sinnvoll, sie zu den grundle-
genden Zeichen des Kalküls zu zählen.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 125

Domäne M zugeordnet. Der Wahrheitswert der Aussage entspricht dabei


der Relationsausprägung der entsprechenden Terme.
Schließlich werden – analog zur zweiwertigen Prädikatenlogik – die
Wahrheitswerte der Aussagen (∀ x ) ϕ und (∃ x ) ϕ festgelegt: Der Wahrheits-
wert des Allquantors entspricht dabei dem Infimum5 der Wahrheitswerte,
die ϕ in Bezug auf die Variable x zugeordnet sind. Diese direkte Verallgemei-
nerung der Wahrheitsfunktion des zweiwertigen Allquantors führt dazu,
dass w [(∀ x ) ϕ] gleich 1 ist, wenn die Prädikatausprägungen für sämtliche
Objekte 1 ist. Sofern nicht alle der Variable x zugeordneten Wahrheitswerte 1
sind, entspricht der Wahrheitswert dem kleinsten dieser Werte. Die Aussage
„Für alle x gilt das Prädikat P“ ist demnach in genau dem Maße wahr, wie
das Prädikat mindestens auf alle x zutrifft.
Analog dazu ist der Wahrheitswert der Aussage (∃ x ) ϕ definiert als das
Supremum der in Bezug auf die Variable x zugeordneten Wahrheitswerte.
Damit w [(∃ x ) ϕ] gleich 1 wird, reicht es demzufolge, wenn mindestens eine
Instanz von x den Wahrheitswert 1 aufweist. Ist dies für kein x der Fall, er-
gibt sich der entsprechende Wahrheitswert aus dem größten vorkommenden
Wahrheitswert in Bezug auf das Prädikat. Die Aussage „Für mindestens ein
x gilt Prädikat P“ gilt demnach in dem größten Maße, welches in Bezug auf
das Prädikat P vorkommt.
Tautologien sind ebenso wie in der Fuzzy-Aussagenlogik definiert als
Aussagen, deren Wahrheitswert unter allen möglichen semantischen Inter-
pretationen stets 1 ist.

Axiomatisierung
Die folgenden Tautologien sind die Axiome des Fuzzy-Prädikatenkalküls
BL∀ :
• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))
• ( ϕ&ψ) → ϕ
• ( ϕ&ψ) → (ψ&ϕ)
• ( ϕ&( ϕ → ψ)) → (ψ&(ψ → ϕ))
• ( ϕ → (ψ → χ)) → (( ϕ&ψ) → χ)
• (( ϕ&ψ) → χ) → ( ϕ → (ψ → χ))
5 Die „größte untere Schranke“
126 11 Testtheoretische Anwendung unscharfer Logiken

• (( ϕ → ψ) → χ) → (((ψ → ϕ) → χ) → χ)
• 0→ϕ

• (∀ x ) ϕ( x ) → ϕ(t), wenn t in ϕ( x ) für x substituierbar ist

• ϕ(t) → (∃ x ) ϕ( x ), wenn t in ϕ( x ) für x substituierbar ist


• (∀ x )(ν → ϕ) → (ν → (∀ x ) ϕ), wenn x in ν gebunden ist

• (∀ x )( ϕ → ν) → ((∃ x ) ϕ → ν), wenn x in ν gebunden ist


• (∀ x )( ϕ ∨ ν) → ((∀ x ) ϕ ∨ ν), wenn x in ν gebunden ist
Die ersten sieben Axiome sind die Axiome des Kalküls BL, die letzten fünf
sind ergänzende Axiome, welche die Verwendung der Quantoren ∀ und ∃
spezifizieren.
Als Schlussregeln werden der Modus Ponens und die Generalisierung (aus ϕ
schließe (∀ x ) ϕ) verwendet. Dies entspricht exakt den für die zweiwertige
Prädikatenlogik zur Anwendung kommenden Regeln (vgl. Abschnitt 9.2.1).
Laut Hájek (1998b) ist der so definierte Kalkül BL∀ vollständig und semantisch
korrekt.
Auch für den Kalkül BL∀ ist eine Erweiterung um zusätzliche Wahrheits-
konstanten im Stile Pavelkas möglich. Der resultierende Kalkül PL∀ legt die
Łukasiewicz t-Norm zu Grunde und ermöglicht das unscharfe Erschließen
von Aussagen aus teilweise wahren Prämissen mittels des graduellen Modus
Ponens.

11.2.3 Testtheoretische Anwendung – Quantifizierung


unscharf definierter Konstrukte
Die testtheoretische Anwendung des Kalküls PL∀ kann auf verschiedene
Arten erfolgen. Zum einen kann der in Abschnitt 9.2.2 eingeführte prädi-
katenlogische Formalismus unmittelbar auf den mehrwertigen Fall verall-
gemeinert werden. Zum anderen erlaubt der Kalkül PL∀ eine Erweiterung
um den Aspekt der unvollständigen Konstrukterfassung. Diese beinhaltet
einen graduellen Schluss vom Testverhalten einer Person auf ihre Konstrukt-
ausprägung, auch wenn die dafür notwendigen Bedingungen nur teilweise
erfüllt sind.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 127

Vollständig erfassbare Konstrukte


Zunächst soll der Fall betrachtet werden, dass ein Konstrukt zwar unscharf
definiert, jedoch mittels eines Tests vollständig erfassbar ist. Das heißt die
Konstruktausprägung einer Person kann bei vorliegenden Testantworten
eindeutig bestimmt werden.

Formalisierung Das Grundprinzip der fuzzy-logischen Formalisierung


ist dem der prädikatenlogischen ICD-Formalisierung aus Abschnitt 9.2.2
sehr ähnlich. Statt jedoch definierende ICD-Kriterien zu Grunde zu legen,
wird von einer Menge Attribute ausgegangen. Und anstelle von Diagnosen,
werden Konstrukte im Sinne von Definition 7 betrachtet.
Kern der Formalisierung ist die Formulierung notwendiger und hinrei-
chender Bedingungen für die korrekte Zuschreibung von Konstrukten zu
Personen. Diese Bedingungen werden mittels der zweistelligen Prädikate
De f und Hat spezifiziert. De f steht dabei für „definiert“ und Hat für „weist
auf“. Die Aussage De f ( a, k) würde somit bedeuten „Attribut a definiert
den Konstruktbegriff k“; Hat( p, a) bedeutet „Person p hat Attribut a“. Hat
kann im testtheoretischen Kontext als das numerische Antwortmuster einer
bestimmten Person interpretiert werden – die Testantworten stehen dabei
für die subjektiven Wahrheitswerte, die die getestete Person den entspre-
chenden Aussagen zuordnet. De f bezeichnet die Attribute, welche den
semantischen Inhalt eines Konstrukts darstellen.
Da Prädikate in PL∀ als Fuzzy-Relationen konzeptionalisiert werden,
ergibt sich für jede Person p und jedes Konstrukt k je eine Fuzzy-Menge
auf der Menge der wohldefinierten Attribute A. Eine solche Fuzzy-Menge
bezeichnet nach Definition 7 eine Konstruktbedeutung. Die Definition eines
Konstrukts ergibt sich demzufolge direkt aus seiner Bedeutung.
Analog zur Formalisierung von ICD-Diagnosen lassen sich die notwendi-
gen und hinreichenden Bedingungen für das korrekte Zuschreiben eines
Konstrukts folgendermaßen aufschlüsseln: Eine Person muss alle definie-
renden Attribute haben, damit man ihr ein bestimmtes Konstrukt korrekter
Weise zuschreiben kann. In PL∀ ergibt sich somit:

(∀ x )( De f ( x, k) → Hat( p, x )).
Um die Objektkonstanten k und p als Konstrukte und Personen festlegen
zu können, werden zwei einstellige Prädikate IstPerson: „ist eine Person“
und IstKonstrukt: „ist ein Konstrukt“ benötigt. Sie dienen dazu, Objekt-
konstanten als Personen oder Konstrukte zu kennzeichnen, so dass eine
128 11 Testtheoretische Anwendung unscharfer Logiken

allgemeingültige Aussage über die Bedingungen, unter welchen Personen


Konstrukte zugeschrieben werden, getätigt werden kann.
Das Zutreffen eines Konstruktbegriffs auf eine Person wird als Hat( p, k)
ausgedrückt. Die Aussageform für vollständig erfassbare Konstrukte lässt sich
in PL∀ dann analog zur Formalisierung aus Abschnitt 9.2.2 schreiben:

( IstPerson( p) ∧ IstKonstrukt(k)) →
 
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k) .
Umgangssprachlich bedeutet diese Aussage in etwa: „Eine Person hat
genau dann ein bestimmtes Konstrukt, wenn sie alle Attribute aufweist, die
das Konstrukt definieren“.

Berechnung der Konstruktwerte Eine semantische Interpretation dieser For-


malisierung besteht zum einen im Zuordnen einer Konstruktbedeutung
zu einem Konstrukt und zum anderen in der Erfassung der durch eine
Person zugeordneten subjektiven Wahrheitswerte bezüglich der in einem
Test abgefragten Attribute – also in ihrem Testverhalten.
Da der Ausdruck ( IstPerson( p) ∧ IstKonstrukt(k)) dazu dient die Ob-
jektkonstanten p und k als Person und Konstrukt zu identifizieren, wird
sein Wahrheitswert als 1 angenommen. Somit ergibt sich der Wahrheitswert
von Hat( p, k ) als
w [ Hat( p, k )] = w [(∀ x )( De f ( x, k) → Hat( p, x ))] . (11.14)
Um den Wahrheitswert der Aussage (∀ x )( De f ( x, k ) → Hat( p, x )) zu
bestimmen, müssen die Wahrheitsfunktionen der Implikation → und des
Allquantors ∀ angewandt werden. In PL∀ sind dies die Łukasiewicz’sche
Implikation f → ( x, y), gegeben durch

1, wenn x ≤ y
f → ( x, y) = (11.15)
1 − x + y, wenn x > y
oder einfacher

f → ( x, y) = min(1, 1 − x + y) (11.16)
sowie das Infimum der Ausprägungsgrade in x in Hinblick auf ein Prädikat
P für den Wahrheitswert der Aussage (∀ x ) P( x ). Bei einer endlichen Do-
mäne (also im Fall eines Tests einer endliche Menge an Fragebogenitems)
entspricht dies der minimalen vorkommenden Prädikatausprägung.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 129

Wendet man die Wahrheitsfunktionen von PL∀ auf die notwendigen und
hinreichenden Bedingungen für die Zuschreibung von Konstrukten an,
ergibt sich der entsprechende Wahrheitswert in Abhängigkeit von der zu
Grunde liegenden Konstruktbedeutung De f ( x, k) und den vorliegenden
Testantworten Hat( p, x ):

w [(∀ x )( De f ( x, k ) → Hat( p, x ))] =


(11.17)
inf( f → (w [ De f ( x, k )] , w [ Hat( p, x )]))

mit f → ( x, y) = min(1, 1 − x + y).


Da die Verknüpfung ≡ in PL∀ als starke Konjunktion zweier wechselsei-
tiger Implikationen definiert ist, ergibt sich ferner als Wahrheitswert der
Äquivalenzverknüpfung:

w [ ϕ ≡ ψ] = w [( ϕ → ψ)&(ψ → ϕ)]
= f → ( ϕ, ψ) ∗ f → (ψ, ϕ)
(11.18)
= max(0, min(1, 1 − w [ ϕ] + w [ψ])
+ min(1, 1 − w [ψ] + w [ ϕ]) − 1).

Da in der vorliegenden Formalisierung davon ausgegangen wird, dass

w [((∀ x )( De f ( x, k ) → Hat( p, x ))) ≡ Hat( p, k )] = 1, (11.19)

gilt weiter
max(0, min(1, 1 − w [ ϕ] + w [ψ])
(11.20)
+ min(1, 1 − w [ψ] + w [ ϕ]) − 1) = 1.
Diese Gleichung trifft genau dann zu, wenn die Terme 1 − w [ ϕ] + w [ψ] und
1 − w [ψ] + w [ ϕ] jeweils größer oder gleich 1 sind. Das ist genau dann der
Fall, wenn w [ ϕ] = w [ψ] gilt. Dementsprechend gilt wegen Gleichung 11.17:

w [ Hat( p, k )] = inf(min(1, 1 − w [ De f ( x, k )i ] + w [ Hat( p, x )i ])) (11.21)

für alle Attribute x ∈ A.


Der Wahrheitswert der Aussage „Person p hat Konstrukt k“ lässt sich
somit errechnen, indem man sämtliche gegebenen Antworten mit den zu
Grunde gelegten Zugehörigkeiten der Items zum entsprechenden Kon-
strukt vergleicht. Ist der Wahrheitswert, den die Person dem abgefragten
Attribut zugeordnet hat, größer oder gleich dem Zugehörigkeitswert der
130 11 Testtheoretische Anwendung unscharfer Logiken

entsprechenden Konstruktbedeutung, so liegt das durch dieses Attribut


definierte Teilkriterium für die Zuschreibung des Konstrukts zum Grad 1
vor. Ist der durch die Antwort zugeordnete Wahrheitswert jedoch kleiner als
der Zugehörigkeitswert der entsprechenden Konstruktbedeutung, so ergibt
sich der Grad, in welchem das abgefragte Kriterium durch die Person erfüllt
ist, aus 1 − De f initionswert + Antwortwert. Der Konstruktwert der getes-
teten Person entspricht schließlich dem kleinsten aus diesen Vergleichen
stammenden Wert. Im Rahmen des Kalküls PL∀ entspricht dieser Wert dem
Grad, in welchem alle ein Konstrukt definierenden Attribute auf eine bestimmte
Person zutreffen.

Beispiel 6. Ein Test T soll das in Abschnitt 8.4.2 eingeführte Konstrukt „Höf-
lichkeit“ erfassen. Entsprechend werden die definierenden Attribute in Form von
Fragebogenitems zusammengestellt und numerische Antworten auf einer visuellen
Analogskala erhoben. Die Antwortskala reicht von 0: „Trifft überhaupt nicht auf
mich zu“ bis 1: „Trifft voll und ganz auf mich zu.“.
Die Items des Tests, ihre Zugehörigkeitsgrade (m) zum Konstrukt „Höflichkeit“,
sowie die hypothetischen Antworten (a) einer getesteten Person „Karla“ sind in
Tabelle 11.1 abgebilet.

Tabelle 11.1: Itemdefinitionen und Testantworten für das Konstrukt


„Höflichkeit“

Fragebogenitem m a
H1) Ich halte mich an Gruß- und Abschiedsformeln 0.9 0.8
H2) Ich schaue Gesprächspartnern in die Augen 0.7 0.8
H3) Ich bin Vorgesetzten gegenüber zurückhaltend 0.1 0.5
H4) Ich halte Anderen die Tür auf 0.9 0.6

Da „Höflichkeit“ ein Konstrukt ist und „Karla“ eine Person, lautet die prädika-
tenlogische Formalisierung in PL∀ vereinfacht:

((∀ x )( De f ( x, H ö f lichkeit) → Hat(Karla, x ))) ≡ Hat(Karla, H ö f lichkeit)

Dabei wird der Ausdruck De f ( x, H ö f lichkeit) durch die Zugehörigkeitsgra-


de mi der entsprechenden Testitems beschrieben, und Hat(Karla, x ) durch die
empirisch gewonnenen Itemantworten ai .
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 131

Entsprechend Gleichung 11.21 gilt für den Wahrheitswert der Aussage „Karla
weist das Konstrukt „Höflichkeit“ auf“:

w [ Hat(Karla, H ö f lichkeit)] = inf(min(1, 1 − mi + ai )).


Durch Einsetzen der gegebenen Werte ergibt sich:

w [ Hat(Karla, H ö f lichkeit)] = inf (min(1, 1 − 0.9 + 0.8),


min(1, 1 − 0.7 + 0.8),
min(1, 1 − 0.1 + 0.5),
min(1, 1 − 0.9 + 0.6))
= inf (0.9, 1, 1, 0.7)
= 0.7
Das Ergebnis des Tests lautet demnach: „Die Aussage, dass Karla das Konstrukt
„Höflichkeit“ aufweist, ist zum Grad 0.7 wahr.“ Dies entspricht dem Ausmaß, in
dem die definierenden Attribute des Konstrukts auf die getestete Person zutreffen.

Nicht vollständig erfassbare Konstrukte


Während bisher lediglich der Fall vollständig erfassbarer Konstrukte be-
trachtet wurde (also wenn der Konstruktwert einer Person aus den Ant-
worten eines Tests eindeutig bestimmt werden kann), soll der obige Ansatz
nunmehr für nicht vollständig erfassbare Konstrukte modifiziert werden. Ein
Konstrukt soll als nicht vollständig erfassbar bezeichnet werden, wenn
die Konstruktwerte von Personen aus einem Test nur teilweise erschlossen
werden können.

Formalisierung Den Ausgangspunkt bildet wieder die Formulierung not-


wendiger und hinreichender Bedingungen für die Konstruktzuschreibung:

((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k).

Dabei gilt auch in diesem Fall als Voraussetzung :

( IstPerson( p) ∧ IstKonstrukt(k)).

Diese Formalisierung soll nun derart erweitert werden, dass auch Fälle be-
schrieben werden können, bei denen das Ergebnis eines Tests nur teilweise
auf das Vorliegen eines Konstrukts schließen lässt.
132 11 Testtheoretische Anwendung unscharfer Logiken

Zu diesem Zweck wird eine bisher implizit getätigte Annahme explizit


ausformuliert: Es soll nur dann von einem Testergebnis auf die Konstrukt-
ausprägung einer Person geschlossen werden können, wenn der Test die
definierenden Attribute auch tatsächlich erfasst. In PL∀ wird diese Forde-
rung mit Hilfe eines einstelligen Prädikats IstTest : „ist ein Test“ und eines
zweistelligen Prädikats In : „ist enthalten in“ ausgedrückt:
( IstTest(t) ∧ IstKonstrukt(k)) → ((∀ x )( De f ( x, k) → In( x, t))).
Demzufolge soll gelten, dass alle ein Konstrukt k definierenden Attribute in
einem Test t enthalten sind.
Inhaltlich bedeutet dies, dass ein Test nur dann Schlüsse auf ein Konstrukt
erlaubt, wenn er dessen Bedeutung erfasst. Daher soll der obige Ausdruck
als Inhaltsvalidität bezeichnet werden – also inwieweit die Items eines Tests
das Konstrukt inhaltlich widerspiegeln (vgl. Haynes, Richard & Kubany,
1995).
Somit ergeben sich als Forderungen für die Inferenz eines nicht vollstän-
dig erfassbaren Konstrukts die Konjunktion der genannten Ausdrücke:
  
IstPerson( p) ∧ IstKonstrukt(k) ∧ IstTest(t) →
 
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k) ∧
 
(∀ x )( De f ( x, k) → In( x, t))

.
Der Ausdruck ( IstPerson( p) ∧ IstKonstrukt(k ) ∧ IstTest(t)) beschränkt
die Objektkonstanten p, k und t auf die für eine psychologische Testung
spezifischen Objektmengen: Personen, Konstrukte und Tests. Daher wird
er im Folgenden durch das dreistellige Prädikat Testung( p, k, t) abgekürzt.
Dieses Prädikat liest sich umgangssprachlich als: „Person p wird mittels
Test t auf das Vorliegen von Konstrukt k gestestet“. Des Weiteren wird
(∀ x )( De f ( x, k) → In( x, t))
auch abgekürzt als Val (t, k ) geschrieben. Entsprechend der Interpretation
dieses Ausdrucks als Inhaltsvalidität wird dies als „Test t ist in Hinblick auf
Konstrukt k inhaltlich valide“ gelesen. Somit lässt sich vereinfacht schreiben:


Testung( p, k, t) →
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k)∧

Val (t, k ) .
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 133

Es lässt sich in PL∀ herleiten, dass eine Person das entsprechende Kon-
strukt genau dann aufweist, wenn sie allen Attributen zustimmt, die das
Konstrukt definieren und im Test enthalten sind6 :
 
(∀ x )(( In( x, t) ∧ De f ( x, k)) → Hat( p, x )) ≡ Hat( p, k) .

Dies ergibt sich daraus, dass genau dann alle definierenden Attribute im
Test enthalten sind, wenn die definierenden Attribute identisch sind mit
der Konjunktion dieser Attribute und den im Test enthaltenen Attributen:
   
(∀ x )( De f ( x, k) → In( x, t)) ≡ (∀ x )( De f ( x, k) ≡ ( De f ( x, k) ∧ In( x, t))) .

Durch Ersetzen von De f ( x, k ) durch den äquivalenten Ausdruck


( De f ( x, k) ∧ In( x, t)) erhält man schließlich:

Testung( p, k, t) →
 
(∀ x )(( In( x, t) ∧ De f ( x, k)) → Hat( p, x )) ≡ Hat( p, k) .

Da der Ausdruck

(∀ x )(( In( x, t) ∧ De f ( x, k)) → Hat( p, x ))

sich darauf bezieht, inwieweit die in einem Test erfragten Attribute auf
eine Person zutreffen, soll er im Folgenden „Erfüllt“: Er f ( p, k, t) genannt
werden. Dieser wird „Person p erfüllt die im t erhobenen Bedingungen
zur Zuschreibung von Konstrukt k“ gelesen7 . Somit lässt sich folgende
allgemeine Regel bestimmen:
 
Testung( p, k, t) → ((∀ x )( De f ( x, k ) → Hat( p, x )) ≡ Hat( p, k ))∧

Val (t, k )
 
→ Testung( p, k, t) → ( Er f ( p, k, t) ≡ Hat( p, k)) .

Umgangssprachlich lässt sich diese Regel folgendermaßen übersetzen: Im


Rahmen einer Testung lässt das Erfüllen der mit einem Test erfragten Bedingungen
für ein Konstrukt durch eine Person nur dann auf das Vorliegen eines Konstrukts

6 Da die abgeleiteten Aussagen vergleichsweise trivial sind, wird auf eine formale Beweisfüh-
rung in PL∀ verzichtet.
7 Im weiteren Verlauf dieser Arbeit wird Er f ( p, k, t ) auch als „Testverhalten“ oder „Testscore“

bezeichnet.
134 11 Testtheoretische Anwendung unscharfer Logiken

schließen, wenn dieses sich auf eine Menge wohldefinierter Attribute zurückführen
lässt und wenn der Test für das entsprechende Konstrukt inhaltlich valide ist8 .
Konkret bedeutet das: Vorausgesetzt ein Konstrukt k liegt genau dann
vor, wenn alle das Konstrukt k definierenden Attribute auf eine Person p
zutreffen, und alle diese Attribute im Test t abgefragt werden, dann lässt
sich aus dem Zutreffen der abgefragten Attribute auf Person p erschließen,
dass sie das Konstrukt k aufweist.

Berechnung der Konstruktwerte Die semantische Interpretation im test-


theoretischen Kontext besteht wieder in der Zuordnung einer Konstrukt-
bedeutung zum Prädikat De f ( x, k ) und der Zuordnung des numerischen
Testverhaltens einer Person zum Prädikat Hat( p, x ). Das Prädikat In( x, t)
wird als die Menge der in einem Test abgefragten Attribute definiert.
Führt man einen psychologischen Test durch, sind die Wahrheitswerte
der Ausdrücke IstPerson( p), IstKonstrukt(k) und IstTest(t) naturgemäß 1.
Ebenso wird der Ausdruck

((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k)

per Definition als wahr angesehen, hat also den Wahrheitswert 1. Auch der
Grad, in dem diese Forderung in Konjunktion mit Val (t, k) hinreichend für
die Äquivalenz zwischen Testverhalten und Konstruktausprägung sind, ist
gleich 1.
Da aufgrund der Wahrheitsfunktion der Łukasiewicz’schen Implikation
gilt, dass

w [ Testung( p, k, t) →
 
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k) ∧
 (11.22)
Val (t, k ) ]
≤ w [ Er f ( p, k, t) ≡ Hat( p, k)],

ergibt sich durch die Anwendung der Wahrheitsfunktion für ∧ und das
Einsetzen der oben festgelegten Wahrheitswerte:

w [Val (t, k )] ≤ w [ Er f ( p, k, t) ≡ Hat( p, k )] . (11.23)

8 Diese
Regel bezieht sich auf jede beliebige Testung, da die obigen Ausführungen auch in der
quantifizierten Form mit ∀ gültig sind.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 135

Somit ist die abgeleitete Aussage, das Erfüllen der abgefragten Bedin-
gungen sei äquivalent zum Aufweisen des Konstrukts, mindestens in dem
Maße wahr, wie der Test inhaltlich valide ist.
Laut Gleichung 11.18 gilt ferner für den Wahrheitswert einer Äquivalenz:

w [ ϕ ≡ ψ] = max(0, min(1, 1 − w [ ϕ] + w [ψ])


(11.24)
+ min(1, 1 − w [ψ] + w [ ϕ]) − 1).

Wie bereits erwähnt, ist w [ ϕ ≡ ψ] genau dann 1, wenn w [ ϕ] = w [ψ]. Ist


hingegen w [ ϕ] < w [ψ] der Fall, wird der Term

min(1, 1 − w [ ϕ] + w [ψ])

gleich 1 und es gilt entsprechend

w [ ϕ ≡ ψ] = max(0, (1 − w [ψ] + w [ ϕ])). (11.25)

Da (1 − w [ψ] + w [ ϕ]) nicht kleiner als 0 sein kann, lässt sich vereinfacht
schreiben:
w [ ϕ ≡ ψ] = 1 − w [ψ] + w [ ϕ] . (11.26)
Wenn w [ψ] < w [ ϕ] ist, wird

min(1, 1 − w [ψ] + w [ ϕ])

zu 1 und w [ ϕ ≡ ψ] entspricht

1 − w [ ϕ] + w [ψ] .

Daher gilt allgemein:



⎨ 1 − w [ψ] + w [ ϕ], wenn w [ ϕ] < w [ψ]

w [ ϕ ≡ ψ] = 1 − w [ ϕ] + w [ψ], wenn w [ψ] < w [ ϕ] (11.27)


1, wenn w [ψ] = w [ ϕ] ,

oder einfacher
w [ ϕ ≡ ψ ] = 1 − w [ ϕ ] − w [ ψ ] . (11.28)
Setzt man dieses Ergebnis in Gleichung 11.23 ein, erhält man:

w [Val (t, k )] ≤ 1 − w [ Er f ( p, k, t)] − w [ Hat( p, k )] , (11.29)
136 11 Testtheoretische Anwendung unscharfer Logiken

woraus sich durch Umstellen



w [ Er f ( p, k, t)] − w [ Hat( p, k )] ≤ 1 − w [Val (t, k )] (11.30)
ergibt.
Wenn man den Wahrheitswert der Validität von 1 abzieht, erhält man
daher den maximal möglichen Unterschied zwischen dem Grad, in dem
eine Person allen Testitems zustimmt und dem Grad, in welchem sie das
Konstrukt aufweist.
Sofern w [Val (t, k )] = 1, wird dieser Unterschied 0, so dass
w [ Er f ( p, k, t) ≡ Hat( p, k )] = 1. (11.31)
Dies entspricht der Formalisierung vollständig erfassbarer Konstrukte aus
dem vorherigen Abschnitt.
Ist jedoch w [Val (t, k )] < 1, kann der Konstruktwert nicht mehr eindeutig
aus dem Testverhalten bestimmt werden. Bei gegebenem Antwortverhalten
legt die Differenz zwischen w [ Er f ( p, k, t)] und w [ Hat( p, k )] dann ledig-
lich ein Intervall fest, in welchem sich w [ Hat( p, k )] befinden muss. Dieses
Intervall ist gegeben durch:
w [ Er f ( p, k, t)] ± (1 − w [Val (t, k )]).
Dabei darf w [ Hat( p, k )] nur Werte zwischen 0 und 1 einnehmen, so dass
max(0, w [ Er f ( p, k, t)] − (1 − w [Val (t, k )])
≤w [ Hat( p, k)]) (11.32)
≤ min(1, w [ Er f ( p, k, t)] + (1 − w [Val (t, k)])).
Dieses Intervall wird offenbar umso größer, je weniger valide ein Test
ist. Die Genauigkeit, mit der eine Konstruktausprägung bestimmt werden
kann, hängt somit direkt davon ab, wie gut die im Test erfragten Attribute
die Bedeutung des Konstrukts widerspiegeln.
Um das in Gleichung 11.32 gegebene Intervall berechnen zu können, wer-
den konkrete numerische Werte für die Prädikate Val (t, k ) und Er f ( p, k, t)
benötigt. Die folgenden beiden Abschnitte erläutern die entsprechenden
Berechnungen.

Berechnung der Validität Das Ausmaß, in dem ein Test t die Bedeutung
eines Konstrukts k erfasst, ist laut der Definition des Prädikats Val (t, k)
gegeben durch:
(∀ x )( De f ( x, k) → In( x, t)).
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 137

Um den Wahrheitswert dieses Ausdrucks für einen gegebenen Test in


Hinblick auf ein bestimmtes Konstrukt zu berechnen, finden die Wahrheits-
funktionen des Allquantors (inf) und der Implikation (min(1, 1 − x + y))
Anwendung. Dem entsprechend ergibt sich:

w [(∀ x )( De f ( x, k ) → In( x, t))] =


(11.33)
inf(min(1, 1 − w [ De f ( x, k)i ] + w [ In( x, t)i ]))

für alle Attribute x ∈ A. Da ein Attribut in einem Test entweder abgefragt


wird oder nicht, kann w [ In( x, t)] nur die Werte 1 und 0 einnehmen. Somit
gilt für Attribute, die im Test enthalten sind:

w [ De f ( x, k ) → In( x, t)] = min(1, 1 − w [ De f ( x, k )] + 1)


(11.34)
= min(1, 2 − w [ De f ( x, k)]).

Da w [ De f ( x, k)] maximal 1 sein kann, ergibt sich für w [ In( x, t)] = 1:

w [ De f ( x, k ) → In( x, t)] = 1. (11.35)

Ist ein Attribut nicht im Test enthalten, gilt hingegen:

w [ De f ( x, k ) → In( x, t)] = min(1, 1 − w [ De f ( x, k )] + 0)


= min(1, 1 − w [ De f ( x, k)]) (11.36)
= 1 − w [ De f ( x, k)] .

Für die Berechnung der Inhaltsvalidität genügt es folglich, alle definie-


renden Attribute zu betrachten, die nicht im Test enthalten sind. Da das
Infimum für endliche Mengen dem Minimum entspricht und

min(1 − xi ) = 1 − max( xi ), (11.37)

erhält man den Wahrheitswert von Val (t, k ), indem man den größten Wahr-
heitswert der nicht im Test abgefragten definierenden Attribute von 1 subtrahiert.

Berechnung des Testscores Der Ausdruck Er f ( p, k, t) wurde weiter oben


definiert als
(∀ x )(( In( x, t) ∧ De f ( x, k)) → Hat( p, x )).
Durch die Anwendung der Wahrheitsfunktionen des Allquantors ∀, der
Implikation → und der Disjuktion ∧ ergibt sich der Wahrheitswert dieser
138 11 Testtheoretische Anwendung unscharfer Logiken

Aussage als:

w [(∀ x )( In( x, t) ∧ De f ( x, k )) → Hat( p, x ))] =


  
inf min 1, 1 − min(w [ In( x, t)i ] , w [ De f ( x, k )i ]) + w [ Hat( p, x )i ]
(11.38)
für alle Attribute x ∈ A.
Wie bereits erwähnt, kann w [ In( x, t)] nur die Werte 1 und 0 einnehmen.
Für Attribute, die nicht im Test erfragt werden, ist w [ In( x, t)] = 0. Somit
gilt für diesen Fall:
 
w [ In( x, t) ∧ De f ( x, k )) → Hat( p, x )] = min 1, 1 + w [ Hat( p, x )] .
(11.39)
Da w [ Hat( p, x )] niemals kleiner als 0 sein kann, ist der resultierende Wert
für nicht im Test erfragte Attribute stets 1. Für die Bestimmung des Infi-
mums des gesamten Terms sind diese Attribute daher irrelevant – es kann
keine größere untere Schranke geben als den maximal möglichen Wert 1.
Für Attribute, die im Test erfragt werden, gilt entsprechend w [ In( x, t)] =
1, woraus sich

w [ In( x, t) ∧ De f ( x, k )) → Hat( p, x )] =
  (11.40)
min 1, 1 − w [ De f ( x, k)] + w [ Hat( p, x )]

ergibt.
Zur Berechnung des Testscores w [ Er f ( p, k, t)] wird somit dieselbe Re-
chenoperation durchgeführt, wie für die Konstruktausprägung im Fall
vollständig erfassbarer Konstrukte:

1. Vergleich jedes Antwortwertes mit dem jeweiligen Zugehörigkeits-


grad zum Konstrukt für alle abgefragten Attribute

2. Ist die Testantwort mindestens so hoch wie der Zugehörigkeitsgrad,


resultiert 1 .

3. Ist die Testantwort kleiner als der Zugehörigkeitsgrad, ergibt sich das
Resultat, indem die Differenz von Zugehörigkeitsgrad und Testant-
wort von 1 abgezogen wird.

4. Der kleinste dieser Werte entspricht dem Testscore einer Person für
das betreffende Konstrukt.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 139

Graduelle Inferenz eines Konstrukts Um trotz der gegebenen Ungenau-


igkeit einen eindeutigen Schätzwert für die Konstruktausprägung einer
Person zu gewinnen, soll im Folgenden die Frage beantwortet werden, in
welchem Maße ein Konstrukt mit Hilfe eines Tests erschlossen werden kann.
Dies ist möglich, da sich aufgrund der Definition von ≡ und dem zweiten
Axiom des Kalküls PL∀ unmittelbar herleiten lässt, dass

( Er f ( p, k, t) ≡ Hat( p, k)) →
( Er f ( p, k, t) → Hat( p, k)).
Um nun aus der Aussage Er f ( p, k, t) die Aussage Hat( p, k ) erschließen
zu können, kommt die Schlussregel des Modus Ponens zum Einsatz – und
zwar in der abgeleiteten Form für beliebige Wahrheitswerte der Prämissen:

( ϕ, r ), ( ϕ → ψ, s)
(ψ, r ∗ s)
mit r ∗ s = max(0, r + s − 1).
Wendet man die Schlussregel auf den obigen Fall an, so entspricht
ϕ der Aussage Er f ( p, k, t) und ( ϕ → ψ) der Aussage Er f ( p, k, t) →
Hat( p, k ). Der Wert r wäre dann w [ Er f ( p, k, t)] und s entsprechend
w [ Er f ( p, k, t) → Hat( p, k )]. Somit ergibt sich für den aus dem Testverhalten
erschließbaren Wahrheitswert der Aussage Hat( p, k ):

w [ Hat( p, k )] =w [ Er f ( p, k, t)] ∗
w [ Er f ( p, k, t) → Hat( p, k )]
(11.41)
= max(0, w [ Er f ( p, k, t)] +
w [ Er f ( p, k, t) → Hat( p, k )] − 1)

Der Grad, in dem man die Aussage Hat( p, k ) aus Er f ( p, k, t) erschlie-


ßen kann, lässt sich demzufolge bestimmen, indem der Wahrheitswert der
Aussage Er f ( p, k, t) mit dem Wahrheitswert der Aussage Er f ( p, k, t) →
Hat( p, k) verknüpft wird. Diese Verknüpfung besteht in der Anwendung
der Łukasiewicz’schen t-Norm r ∗ s = max(0, r + s − 1).
Das Ausmaß, in dem das Testverhalten einer Person p die Aussage „Per-
son p hat das Konstrukt k“ rechtfertigt, lässt sich somit wie folgt bestimmen:
1. Der Grad, in welchem die Person den Testitems zustimmt und der
Grad, in welchem durch das Vorliegen der abgefragten Attribute das
Konstrukt impliziert wird, werden addiert.
2. Vom Ergebnis wird 1 subtrahiert.
140 11 Testtheoretische Anwendung unscharfer Logiken

Dem entsprechend gilt für den Fall

w [ Er f ( p, k, t) → Hat( p, k )] = 1, (11.42)

dass der Wahrheitswert der Aussage Hat( p, k ) gleich dem Wahrheitswert


der Aussage Er f ( p, k, t) ist. Im Falle vollständig erfassbarer Konstrukte
lässt sich der Konstruktwert daher zum Grad 1 aus dem Testverhalten
erschließen.
Für den Fall der graduellen Implikation – das heißt wenn

w [ Er f ( p, k, t) → Hat( p, k )] < 1, (11.43)

sinkt der Grad, in welchem die Aussage „Person p hat Konstrukt k“


zutrifft, umso mehr, je kleiner w [ Er f ( p, k, t) → Hat( p, k )] wird. Da-
bei ist zu beachten, dass w [ Hat( p, k )] niemals größer sein kann als
w [ Er f ( p, k, t) → Hat( p, k )]. Dies ergibt sich unmittelbar aus den Eigen-
schaften der Łukasiewicz’schen t-Norm: Da sie kontinuierlich ist, steigt der
Wert von
w [ Er f ( p, k, t)] ∗ w [ Er f ( p, k, t) → Hat( p, k )]
stetig an, je größer w [ Er f ( p, k, t)] ist. Den maximalen Wert hat sie
(vorausgesetzt w [ Er f ( p, k, t) → Hat( p, k )] bleibt konstant) demzufol-
ge bei w [ Er f ( p, k, t)] = 1. Da t-Normen stets das neutrale Element
1 haben, ist der maximal erreichbare Wert von w [ Hat( p, k )] gleich
w [ Er f ( p, k, t) → Hat( p, k )]. Es gilt daher:

w [ Hat( p, k )] ≤ w [ Er f ( p, k, t) → Hat( p, k )] . (11.44)

Der Grad, in dem eine Konstruktdefinition ein bestimmtes Konstrukt im-


pliziert, ist die obere Schranke für das Ausmaß, in dem die Aussage „Die
getestete Person hat das zu erfassende Konstrukt“ durch das Testverhalten
zu erschließen ist.
Den Grad dieser Implikation ergibt sich seinerseits durch die wiederholte
Anwendung des graduellen Modus Ponens. Per Definition gelten in einer
Testsituation:

w [ Testung( p, k, t)] = 1, (11.45)


w [((∀ a)( De f ( a, k) → Hat( p, a)) ≡ Hat( p, k ))] = 1. (11.46)
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 141

Ausgehend von der allgemeinen Regel


 
Testung( p, k, t) → ((∀ x )( De f ( x, k) → Hat( p, x )) ≡ Hat( p, k ))∧

Val (t, k )
 
→ Testung( p, k, t) → ( Er f ( p, k, t) ≡ Hat( p, k))
folgt dann durch Anwendung des Modus Ponens und der Definitionen von
∧ und ≡, dass
Val (t, k ) → ( Er f ( p, k, t) → Hat( p, k ))
zum Grad 1 wahr ist. Wendet man auf diese Aussage wieder den graduellen
Modus Ponens an, erhält man:
w [ Er f ( p, k, t) → Hat( p, k )] =
w [Val (t, k )] ∗ w [Val (t, k ) → ( Er f ( p, k, t) → Hat( p, k ))] =
max(0, w [Val (t, k )] + w [Val (t, k ) → ( Er f ( p, k, t) → Hat( p, k ))] − 1) =
max(0, w [Val (t, k )] + 1 − 1) =
w [Val (t, k ]).
(11.47)
Der Grad, in welchem das Erfüllen der in einem Test t erfragten Konstrukt-
bedingungen auf das Vorliegen des entsprechenden Konstrukts schließen
lassen, ist demnach gleich dem Grad, in welchem der Test inhaltlich valide
ist.
Aus Gleichung 11.44 folgt weiter:
w [ Hat( p, k )] ≤ w [Val (t, k )] . (11.48)
Somit bildet die Validität eines Tests die obere Schranke für den erschließbaren
Konstruktwert. Ein Konstrukt kann also maximal in dem Grad erschlossen
werden, in welchem seine Bedeutung in einem Test erfasst wird.
Setzt man darüber hinaus das Resultat aus Gleichung 11.47 in Glei-
chung 11.41 ein, erhält man:
w [ Hat( p, k )] = max(0, w [ Er f ( p, k, t)] + w [Val (t, k )] − 1)
(11.49)
= max(0, w [ Er f ( p, k, t)] − (1 − w [Val (t, k)])).
Der Grad, in welchem ein Testergebnis die Aussage „Person p hat Kon-
strukt k“ rechtfertigt, entspricht somit stets der unteren Grenze des in
Gleichung 11.32 angegebenen Intervalls für die Berechnung unvollstän-
dig erschließbarer Konstrukte.
142 11 Testtheoretische Anwendung unscharfer Logiken

Beispiel 7. Der im vorigen Beispiel eingeführte Test zur Erfassung des Konstrukts
„Höflichkeit“ soll nun in einer gekürzten Version verwendet werden. Da das Item
H3 nur zu einem recht geringen Grad zum Konstrukt gehört, wird es in der
gekürzten Version weggelassen.
Bedingt durch die Kürzung erfasst der Test nun nicht mehr die gesamte Bedeu-
tung des Konstrukts – damit ist das Konstrukt „Höflichkeit“ durch den resultieren-
den Test nur noch unvollständig erfassbar.
Die Formalisierung in PL∀ geht von einer Testung( p, k, t) aus, wobei gelten
soll:

• p =„Peter“
• k =„Höflichkeit“
• t =„Höflichkeitstest, revidierte Form (HTR)“.

Daraus ergibt sich die Forderung:



Testung( Peter, H ö f lichkeit, HTR) →

((∀ x )( De f ( x, H ö f lichkeit) → Hat( Peter, x )) ≡ Hat( Peter, H ö f lichkeit))∧

Val ( HTR, H ö f lichkeit) ,

Laut der allgemeinen Regel aus Abschnitt 11.2.3 liefert der Wahrheitswert dieser
Ausgangsbedingungen die untere Schranke für den Wahrheitswert der Aussage

Er f ( Peter, H ö f lichkeit, HTR) ≡ Hat( Peter, H ö f lichkeit),

wobei
Er f ( Peter, H ö f lichkeit, HTR)
für die Aussage

(∀ x )(( In( x, HTR) ∧ De f ( x, H ö f lichkeit)) → Hat( Peter, x ))

steht.
Die definierenden Attribute liegen wieder in Form von Fragebogenitems vor.
Ferner werden numerische Antworten auf einer visuellen Analogskala erhoben.
Die Antwortskala reicht von 0: „Trifft überhaupt nicht auf mich zu“ bis 1: „Trifft
voll und ganz auf mich zu.“.
Die Prädikate De f ( x, H ö f lichkeit) und Hat( Peter, x ) werden, wie gehabt,
durch die Zugehörigkeitsgrade mi der Testitems und die empirischen Itemantworten
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 143

ai gegeben. Des Weiteren wird In( x, HTR) bestimmt, indem allen Attributen, die
im HTR erfragt werden, eine 1 zugeordnet wird und allen anderen eine 0.
Um das resultierende Intervall für den Wahrheitswert der Aussage
Hat( Peter, H ö f lichkeit) zu bestimmen, müssen zunächst die Wahrheitswer-
te der Ausdrücke Er f ( Peter, H ö f lichkeit, HTR) und Val ( HTR, H ö f lichkeit)
berechnet werden. Dies erfolgt gemäß der Gleichungen 11.38 und 11.33. Es werden
dabei dieselben Werte wie in Beispiel 6 verwendet. Für die Validität des Tests HTR
in Bezug auf das Konstrukt Höflichkeit ergibt sich daraus:
w [Val ( HTR, H ö f lichkeit] = inf (min(1, 1−0.9 + 1),
(min(1, 1−0.7 + 1),
(min(1, 1−0.1 + 0),
(11.50)
(min(1, 1−0.9 + 1))
= inf (1, 1, 0.9, 1)
= 0.9.
Dies entspricht erwartungsgemäß der Differenz zwischen 1 und dem kleinsten
Zugehörigkeitsgrad der nicht im Test enthaltenen definierenden Attribute. Für den
Wahrheitswert der Aussage Er f ( Peter, H ö f lichkeit, HTR) gilt entsprechend:
  
w [ Er f ( Peter, H ö f lichkeit, HTR] = inf min 1, 1 − min(1, 0.9) + 0.8 ,
 
min 1, 1 − min(1, 0.7) + 0.8 ,
 
min 1, 1 − min(0, 0.1) + 0.5 ,
 
min 1, 1 − min(1, 0.9) + 0.6

= inf min(1, 1 − 0.9 + 0.8),
min(1, 1 − 0.7 + 0.8),
min(1, 1 − 0 + 0.5),

min(1, 1 − 0.9 + 0.6)

= inf min(1, 0.9),
min(1, 1.1),
min(1, 1.5),

min(1, 0.7)
= inf (0.9, 1, 1, 0.7)
= 0.7.
(11.51)
144 11 Testtheoretische Anwendung unscharfer Logiken

Dieses Ergebnis stimmt mit dem in Beispiel 6 errechneten Konstruktwert überein.


Zur Berechnung des gesuchten Intervalls müssen diese Werte nur noch in die
Ungleichung 11.32 eingesetzt werden:
max(0, 0.7 − (1 − 0.9)
≤w [ Hat( Peter, H ö f lichkeit)]) (11.52)
≤ min(1, 0.7 + (1 − 0.9)).
Somit erhält man:
0.6 ≤ w [ Hat( Peter, H ö f lichkeit)]) ≤ 0.8. (11.53)
Der Wahrheitswert der Aussage „Peter weist das Konstrukt Höflichkeit auf“ liegt
somit zwischen 0.6 und 0.8.
Will man den Konstruktwert von Peter darüber hinaus mittels des graduellen
Modus Ponens erschließen, gilt laut Gleichung 11.41:
w [ Hat( Peter, H ö f lichkeit)] = max(0, w [ Er f ( Peter, H ö f lichkeit, HTR)] +
w [ Er f ( Peter, H ö f lichkeit, HTR) →
Hat( Peter, H ö f lichkeit)] − 1).
(11.54)
Gemäß Gleichung 11.47 entspricht dies:
w [ Hat( Peter, H ö f lichkeit)] = max(0, w [ Er f ( Peter, H ö f lichkeit, HTR)] +
w [Val ( HTR, H ö f lichkeit] − 1)
= max(0, 0.7 + 0.9 − 1)
= max(0, 0.6)
=0.6.
(11.55)
Die Aussage „Peter weist das Konstrukt Höflichkeit auf“ lässt sich somit zum
Grad 0.6 durch Peters Testverhalten im HTR rechtfertigen. Entsprechend der
obigen Ausführungen handelt es sich dabei um die untere Schranke des durch
Gleichung 11.53 definierten Intervalls.
Vergleicht man diesen Wert mit den 0.7 aus dem vorherigen Beispiel, wird klar,
dass die Kürzung eines Tests damit einhergeht, dass das Ausmaß, in welchem
ein Konstrukt auf eine Person zutrifft, unterschätzt werden kann. Die logische
Inferenz eines Konstruktwertes ist an dieser Stelle konservativ – das heißt, die
resultierenden Wahrheitswerte beziehen sich lediglich auf das Ausmaß der Kon-
struktausprägung, welches mit dem vorliegenden Test erschlossen werden kann.
12 Diskussion

12.1 Übersicht und Vergleich der vorgestellten


Ansätze
In den vorangehenden Kapiteln wurde eine Reihe formaler Ansätze zur
Auswertung und Interpretation psychologischer Tests im Sinne sprachlich-
logischer Inferenz vorgestellt. Die Anwendungsgebiete reichten dabei von
der Formalisierung und Quantifizierung psychologischer Diagnosen über
die Modellierung unbestimmter Antworten und unscharfer Konstruktbe-
deutungen bis hin zur graduellen Inferenz vage definierter Konstrukte.
Alle diese Ansätze stimmen darin überein, dass psychologische Konstrukte
nicht als latente Variablen, sondern im Sinne sprachlicher Abstraktionen
zu verstehen sind. Dementsprechend modellieren sie sprachlich-logische
Zusammenhänge zwischen Konstruktbegriffen und den in einem Test ge-
gebenen Itemantworten. Hierfür werden formale Sprachen bestimmter
logischer Kalküle verwendet.
Wie bereits in Abschnitt 11.2.1 angedeutet, lassen sich die verwende-
ten Kalküle unter dem einheitlichen formalen Rahmen der Fuzzy-Logik
subsummieren und systematisieren. Es wurde in diesem Kontext bereits
gezeigt, dass sich der Kalkül Łℵ als Spezialfall der unscharfen Aussagen-
logik BL betrachten lässt. Aus den Wahrheitstafeln der Abschnitte 9.1.1
und 10.2.1 ist darüber hinaus leicht ersichtlich, dass Łℵ sich für den Fall
dreier diskreter Wahrheitswerte auf Ł3 reduziert, sowie für den Fall, dass
nur die Wahrheitswerte 0 und 1 vorkommen, auf den klassischen Aussa-
genkalkül. Dementsprechend lassen sich diese Kalküle ebenfalls als Spezi-
alfälle der allgemeinen Fuzzy-Logik beschreiben. Da man darüber hinaus
jeden aussagenlogischen Kalkül auch als Prädikatenlogik mit ausschließlich
nullstelligen Prädikaten auffassen kann (vgl. Abschnitt 9.2.1), lassen sich
diese Kalküle wiederum als Spezialfälle der Fuzzy-Prädikatenlogik PL∀

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3_12, © Springer Fachmedien Wiesbaden 2014
146 12 Diskussion

darstellen. Somit ist es relativ problemlos möglich, für alle Kalküle jeweils
dieselben logischen Zeichensysteme (bzw. Teile davon) zu verwenden.
Was die testtheoretischen Formalisierungen angeht, lässt sich ebenfalls
eine Reihe von Gemeinsamkeiten aufzeigen. Bereits erwähnt wurde die
semantische Äquivalenz der aussagenlogischen und prädikatenlogischen
Formalisierung klinischer Diagnosen in den Abschnitten 9.1.1 und 9.2.1. Der
aussagenlogische Ansatz lässt sich seinerseits als Spezialfall des Ansatzes
zur Modellierung unbestimmter Symptomlagen (Abschnitt 10.2.1) mit nur
zwei vorkommenden Wahrheitswerten (0 und 1) betrachten. Dieser wieder-
um ist ein Spezialfall des Ansatzes zur Quantifizierung scharfer Konstrukte
aus Abschnitt 10.3 – mit drei diskreten Wahrheitswerten statt unendlich vie-
ler. Eine ähnliche Entsprechung gibt es zwischen dem prädikatenlogischen
Ansatz aus Abschnitt 9.2.1 und der Formalisierung vollständig erfassbarer
Konstrukte (Abschnitt 11.2.3).
Von diesen Ansätzen abzugrenzen ist die Inferenz unvollständig erfass-
barer Konstrukte (Abschnitt 11.2.3), da sie als einzige von einer logischen
Schlussregel Gebrauch macht (dem graduellen Modus Ponens). Die übrigen
Ansätze stellen streng genommen keine logischen Inferenzschlüsse dar,
sondern übertragen lediglich die Definition eines Konstrukts in eine forma-
le Sprache. Aufgrund der Extensionalität der verwendeten Kalküle kann
daher jeweils der Wahrheitswert des Konstrukts aus den Wahrheitswerten
der Definition bestimmt werden.
In Abschnitt 11.2.3 hingegen werden tatsächliche Inferenzschlüsse getä-
tigt. Dabei dienen die Definition des Konstruktes und die Forderung der
Inhaltsvalidität als Prämissen, aus welchen zunächst die Äquivalenz zwi-
schen Testverhalten und Konstruktwert abgeleitet wird. Durch Anwendung
des graduellen Modus Ponens wird darauf aufbauend von den Testantwor-
ten und dem Validitätsgrad eines Tests auf das Vorliegen eines Konstruktes
geschlossen.
Da die logische Äquivalenz sich in allen vorgestellten Kalkülen auch als
wechselseitige Implikation darstellen lässt, wäre es zwar auch möglich ge-
wesen, sämtliche Ansätze in Form logischer Inferenzschlüsse darzustellen.
Allerdings hätte dies die Schreibweise unnötig verkompliziert, denn auf
semantischer Ebene gelangt man ohnehin zu denselben Ergebnissen (vgl.
Abschnitt 11.2.3).
Auf formaler Ebene lassen sich daher alle vorgestellten Ansätze unter ei-
nem gemeinsamen formalen Rahmen subsummieren – nämlich dem Fuzzy-
Prädikatenkalkül PL∀ . Was das konkret für die testdiagnostische Praxis
bedeutet, soll im nächsten Abschnitt erörtert werden.
12.2 Empirische Anwendungsmöglichkeiten 147

12.2 Empirische Anwendungsmöglichkeiten


Um die theoretischen Ergebnisse dieser Arbeit für die Praxis anwendbar zu
machen, soll im Folgenden auf die resultierenden Implikationen für den Ge-
brauch psychologischer Tests eingegangen werden. In diesem Rahmen wird
versucht, die konkrete Anwendung des vorgestellten sprachlich-logischen
Ansatzes anhand der wichtigsten Leitfragen für den Anwender zu erläu-
tern.

12.2.1 Anwendungsgebiete
Im Gegensatz zur psychometrischen Sichtweise werden psychologische
Tests im sprachlich-logischen Ansatz nicht als Messinstrumente angesehen.
Stattdessen werden sie als Werkzeug zum logischen Erschließen des Vorlie-
gens bestimmter Konstrukte betrachtet. Dies ist vor allem dann von Vorteil,
wenn die durch psychometrische Methoden vorausgesetzten Annahmen
nur schwer zu rechtfertigen sind.
Konkret bedeutet dies, dass die Anwendung psychometrischer Methoden
immer zumindest implizite Annahmen über das Vorliegen einer Messung
beinhaltet. Das bedeutet, dem Test muss eine quantitative, latente Variable
zu Grunde liegen, deren Ausprägungen durch den Test abgebildet werden.
Wann immer es Zweifel an der Gültigkeit dieser Annahmen gibt, ist die
Verwendung psychometrischer Methoden problematisch.
Für solche Fälle liefert der vorgestellte sprachlich-logische Ansatz eine
mögliche Alternative. Insbesondere wenn

• Zweifel an der Existenz einer latenten Variable bestehen,

• Zweifel an der quantitativen Natur der zu messenden Variable beste-


hen,

• keine Theorie über den Zusammenhang zwischen Testantworten und


zu messender Variable existiert,

• die Frage der Messung für die Anwendung des Tests irrelevant ist,

bietet es sich an, auf psychometrische Verfahren zu Gunsten des vorgestell-


ten Ansatzes zu verzichten.
Der sprachlich-logische Ansatz macht im Gegensatz zur psychometri-
schen Position kaum Voraussetzungen. Es wird lediglich gefordert, dass sich
148 12 Diskussion

die Inhalte der Items zu einem abstrakten Oberbegriff (dem Konstrukt) zu-
sammenfassen lassen – dieser Begriff kann eine reale Entsprechung haben,
muss es aber nicht.
Dementsprechend ergibt sich ein sehr breites Anwendungsspektrum
für den vorgestellten Ansatz. Dieses reicht von Persönlichkeitstests über
klinische Screenings bis hin zu Eignungstests oder spontan entworfenen
Befragungen. Von besonderem Interesse ist sicher die potenzielle Anwen-
dung zur Quantifizierung kategorial definierter Konstrukte (wie z.B. ICD-
Diagnosen).
Immer, wenn die Items eines Fragebogens nicht als solche interessieren,
sondern als Beispielinstanzen eines abstrakten Konstruktbegriffs betrachtet
werden, ist der beschriebene Ansatz anwendbar. Entsprechend beschränkt
er sich nicht auf den naturwissenschaftlichen Bereich der Psychologie, son-
dern umfasst auch die empirischen Anteile eher geisteswissenschaftlich
orientierter Forschung.

12.2.2 Testkonstruktion
Beabsichtigt man, einen Test nach dem sprachlich-logischen Ansatz zu
verwenden, sollte man dies im Idealfall bereits bei der Testkonstruktion
berücksichtigen.
Das grundsätzliche Vorgehen ist der herkömmlichen Testkonstruktion
nicht unähnlich. Allerdings gibt es einige entscheidende Unterschiede, ins-
besondere was die formale Berechnung von Testgütekriterien und damit
verbundene Testrevisionen angeht.
Die zentrale Frage zu Beginn des Konstruktionsprozesses lautet im
sprachlich-logischen Ansatz stets: Was ist die Konstruktbedeutung? Da-
bei geht es nicht um eine verbale Umschreibung dessen, was mit einem
Konstrukt gemeint ist, sondern um die Erstellung einer mathematisch ex-
akten Konstruktdefinition mittels konkreter Attribute und entsprechender
Zugehörigkeitsgrade zum Konstruktbegriff. Das heißt, ein Konstruktbegriff
muss in eine Menge konkreter Attribute aufgeschlüsselt werden, deren
Zugehörigkeit zum Konstrukt mit einer Zahl zwischen 0 und 1 festgelegt
wird. Bevor ein Test konstruiert wird, muss dementsprechend genau geklärt
sein, was (konkret!) erfragt werden soll.
Dabei gibt es im Wesentlichen zwei mögliche Wege. Zum einen kann man
von einem bestimmten Konstruktbegriff ausgehen und ihn analytisch in eine
Menge möglichst konkreter und eindeutiger Einzelattribute zerlegen. Die in
12.2 Empirische Anwendungsmöglichkeiten 149

diesem Zuge zu beantwortende Frage lautet: Welche konkreten Bedingungen


müssen erfüllt sein, damit jemand das betreffende Konstrukt aufweist?
Der andere Weg besteht darin, dass von einer Menge inhaltlich relevanter
Fragebogenitems ausgegangen wird und diese in möglichst sinnvoller Wei-
se zu abstrakteren Einheiten – den Konstrukten – zusammengefasst werden.
Dieses begriffsbildende Vorgehen kann das analytische Vorgehen natürlich
auch ergänzen.

Analytisches Vorgehen
Steht einigermaßen fest, welche Items inhaltlich zu welchen Konstrukten
gehören sollen, sind die einzelnen Zugehörigkeitsgrade der Items zu den zu
erfassenden Konstrukten zu bestimmen. Dies ist der wichtigste und wohl
auch schwierigste Teil der Testkonstruktion, denn die Zugehörigkeitsgrade
entscheiden in starkem Maße über die resultierenden Testergebnisse.
Die einfachste Art, um die Konstruktzugehörigkeiten der Items zu bestim-
men, ist sicher die Expertenbefragung. Dabei werden die potenziellen Frage-
bogenitems einem oder mehreren „Experten“ vorgelegt, welche ihnen auf
direktem Wege numerische Zugehörigkeitsgrade zu den entsprechenden
Konstruktbegriffen zuordnen. Die Zahlenzuordnung kann selbstverständ-
lich auch auf indirektem Wege über die Bildung von Rangfolgen („Welches
Item gehört mehr zum Konstrukt“), Distanzvergleiche („Welche Itempaare
unterscheiden sich hinsichtlich ihrer Zugehörigkeit mehr?“) oder die Beur-
teilung des Verhältnisses („Wieviel mal mehr als jenes Item gehört dieses
Item dazu?“) von Zugehörigkeiten geschehen.
Die Einfachheit der Prozedur geht leider auch mit einer relativ hohen
Angreifbarkeit einher. Welche Experten werden befragt und wie? Warum
gerade diese Experten und nicht andere? Wie wird mit unterschiedlichen
Einschätzungen verfahren etc.? Die Verwendung von Expertenurteilen bie-
tet sich daher vor allem dann an, wenn der Test zur Beurteilung von Ei-
genschaften hinsichtlich ganz spezifischer Kriterien dienen soll – also zum
Beispiel im Rahmen von Personalfragebögen, bei denen die Konstruktzuge-
hörigkeiten anhand von Anforderungsanalysen festgelegt werden sollen.
Statt Experten könnte man selbstverständlich auch eine ganze Population
befragen. Dazu könnte man einer Stichprobe von Personen die zu erfassen-
den Konstruktbegriffe vorlegen und sie bitten, möglichst konkrete Attribute
aufzuzählen, die die Zuschreibung des entsprechenden Konstruktbegriffs
rechtfertigen würden. Auf diese Weise würde man eine Menge von Attribu-
ten erhalten (welche hinsichtlich inhaltlicher Überschneidungen gruppiert
150 12 Diskussion

werden sollten). Zu jedem Attribut hat man gleichzeitig auch den relati-
ven Anteil der Personen, welche das Attribut als notwendige Bedingung
zur Konstruktzuschreibung betrachten. Diese relativen Anteile könnten
ebenfalls als Zugehörigkeitsgrade verwendet werden. Ein solches Vorgehen
bietet sich vor allem dann an, wenn es darum geht, Konstrukte zu erfas-
sen, welche dem allgemeinen Sprachgebrauch entspringen – wie zum Beispiel
Persönlichkeitseigenschaften (Buss & Craik, 1980, 1981; Buss, 1983) oder
Emotionen (J. A. Russell & Fehr, 1994).
Ein alternativer Weg, um die Zugehörigkeitsgrade zu bestimmen, wäre
die Verwendung semantischer Netzwerke. Ausgehend von Wortassoziationen
(wie im beschriebenen Verfahren) oder tatsächlichem Sprachgebrauch (z.B.
durch das Konstruieren einer Metrik über die Frequenz des gemeinsamen
Auftretens von Wörtern) könnte auf diese Weise eine ganze Reihe abstrakter
Konstrukte formal definiert werden.
Allen diesen Verfahren ist gemeinsam, dass sie von bestehenden (va-
gen) Begriffen ausgehen und versuchen, deren Bedeutung in eine Menge
möglichst eindeutiger Attribute zu zerlegen. Das Ziel ist in diesem Fall die
Analyse von Sprachgebrauch. Wesentlich ist daher stets die Bezugspopulation,
also die Sprachgemeinschaft, für welche die analytische Begriffszerlegung
gelten soll – im Falle der Expertenbefragung wäre dies unter Umständen
nur eine einzige Person.

Begriffsbildendes Vorgehen
Neben den Methoden der analytischen Konstruktdefinition sollen auch
Verfahren zu begriffsbildenden Konstruktdefinitionen Erwähnung finden.
Geht man nämlich von einer Menge Items aus, ohne über a priori Annah-
men in Bezug auf abstrahierende Konstruktbegriffe zu verfügen, muss das
Vorgehen entsprechend angepasst werden.
Um nicht willkürlich neue Begriffe zu bilden, sondern sinnvolle Konstruk-
te zu generieren, bietet sich ein empirisches Vorgehen an. Die resultierenden
Konstrukte sollten dementsprechend möglichst sparsame, treffende und spezi-
fische Beschreibungen der getesteten Personen liefern. Das bedeutet, es wird
eine möglichst kleine Anzahl Itemsets gesucht, welche möglichst gut zwi-
schen den getesteten Personen differenziert. Derartige Methoden existieren
bereits und kommen bisher im Bereich des so genannten „Data-Mining“ zur
Anwendung. Der vorgestellte Ansatz erfordert keine besonderen Voraus-
setzungen bezüglich der zu verwendenden Methode – dementsprechend
sollte ein Algorithmus zur Generierung von Itemsets (und ggf. Zugehörig-
12.2 Empirische Anwendungsmöglichkeiten 151

keitsgraden) gewählt werden, welcher der jeweiligen Zielsetzung entspricht


(vgl. Tan, Steinbach & Kumar, 2006 für eine Übersicht).
So wäre es zum Beispiel möglich, die in einer Population gegebenen
Itemantworten anhand eines Cut-off-Wertes zu dichotomisieren und im
Anschluss die Items der am häufigsten vorkommenden Antwortmuster
zu Skalen zusammen zu fassen. Als Resultat ergäbe sich eine geringe An-
zahl von Konstrukten, die einen vergleichsweise großen Teil der in einer
Population vorkommenden Attributkombinationen widerspiegeln. Würde
man den Umweg über die Dichotomisierung weglassen und direkt die am
häufigsten vorkommenden Antwortmuster nehmen, hätte man darüber
hinaus quantitative Zugehörigkeitsgrade. Mit dem geringeren Informati-
onsverlust geht jedoch auch eine größere Anzahl von in Frage kommenden
Konstrukten einher.
Wird hingegen eher ein relativer Vergleich zwischen den Mitgliedern
einer Population angestrebt, bietet sich die Möglichkeit, Konstruktdefinitio-
nen auf den relativen Häufigkeiten der einzelnen Itemantworten basieren
zu lassen. Verwendet man in diesem Sinne für jedes Item die am häufigsten
angekreuzte Antwort als Zugehörigkeitswert, ergibt sich ein Konstrukt,
welches der Gesamtheit der häufigsten Attributausprägungen entspricht.
In ähnlicher Weise wäre die Definition eines „Mediankonstrukts“ (oder
allgemeiner eines „Perzentilkonstrukts“) möglich, welches für jedes Item
den Median (bzw. einen bestimmten Perzentilwert) als Zugehörigkeitswert
verwendet. Ein auf diese Weise definiertes Konstrukt entspricht der Ge-
samtheit der Attributausprägungen, welche ein bestimmter Prozentsatz der
Population mindestens (oder höchstens) aufweist.
Schließlich gäbe es die Möglichkeit, eine Menge von Konstrukten hinsicht-
lich ihrer Differenzierung zwischen Personen zu optimieren. Allerdings
garantiert die Optimierung der Personendifferenzierung (z.B. indem die
Varianz der Konstruktausprägungen maximiert wird) keine eindeutige
Lösung. Gegebenenfalls müssten daher weitere Restriktionen festgelegt
werden, wie zum Beispiel dass auch die Differenzierung von Konstrukten
durch Personen maximiert wird. Eine weitere Möglichkeit wäre, die Varianz
der Zugehörigkeitsgrade zu den Konstrukten zu maximieren (analog zum
Einfachstrukturkriterium der Faktorenanalyse).
Bei allen formalen Kriterien zur Zusammenfassung von Items zu Kon-
strukten sollte jedoch nicht vergessen werden, dass es sich lediglich um
einen Vorgang der Begriffsbildung handelt. Das heißt konkret, dass auch
Kriterien wie Plausibilität oder Verständlichkeit der Konstruktbegriffe ganz
bewusst in den Prozess mit einbezogen werden sollten.
152 12 Diskussion

Itemselektion
Um die Anzahl der Items in einem Test auf ein vertretbares Maß zu re-
duzieren, ohne seinen Nutzen wesentlich einzuschränken, ist es möglich,
Items aus dem Test zu entfernen, sofern sie wenig zusätzliche relevante
Informationen bezüglich des Konstrukts liefern.
Um diesen Prozess zu erleichtern, bietet sich das Konzept der Inhaltsvali-
dität an, welches gegeben ist durch:

w [Val (t, k )] = inf(min(1, 1 − w [ De f ( x, k )i ] + w [ In( x, t)i ])) (12.1)

für alle Attribute x ∈ A.


Ein Test sollte demnach möglichst alle Attribute erfragen, welche stark
zum Konstrukt gehören. Der Prozess der Itemselektion sollte daher die
Testlänge auf ein sinnvolles Maß begrenzen und gleichzeitig eine möglichst
hohe Inhaltsvalidität beibehalten. Das heißt konkret, es sollten nur Items aus
dem Test entfernt werden, welche niedrige Zugehörigkeitsgrade aufweisen.
Aufgrund der in Abschnitt 11.2.3 ausgeführten Eigenschaften des for-
malen Validitätskonzepts entspricht die Inhaltsvalidität stets der Differenz
zwischen 1 und dem größten Zugehörigkeitsgrad der nicht im Test ent-
haltenen Attribute. Daher ist es nicht relevant, wie viele Items eines Tests
ausselektiert werden, sondern lediglich, wie stark die selektierten Attribute
zum Konstruktbegriff gehören. Somit ist es nicht einmal notwendig, alle
definierenden Attribute zu kennen. Es muss nur sichergestellt sein, dass es
kein fehlendes Attribut gibt, das stärker zum Konstrukt gehört als das am
stärksten zugehörige selektierte Item.

12.2.3 Testauswertung
Die Auswertung eines nach sprachlich-logischen Kriterien konstruierten
Tests erfolgt durch die Anwendung der jeweiligen Wahrheitsfunktion des
Konstruktwertes. Konkret bedeutet dies, dass die empirisch gewonnenen,
subjektiven Wahrheitswerte (also die Testantworten) entsprechend der ver-
wendeten logischen Formalisierung aggregiert werden1 .
Wie bereits in Abschnitt 12.1 angedeutet, lassen sich auf semantischer
Ebene sämtliche vorgenommenen Formalisierungen als Spezialfälle der

Testantworten müssen dafür gegebenenfalls zunächst auf das Intervall [0, 1] abgebildet
1 Die

werden. Dies geschieht durch die Anwendung einer einfachen, linearen Transformation.
12.2 Empirische Anwendungsmöglichkeiten 153

allgemeinen fuzzy-logischen Aussage


 
Testung( p, k, t) → ((∀ x )( De f ( x, k) → Hat( p, x )) ≡ Hat( p, k ))∧

Val (t, k )
 
→ Testung( p, k, t) → ( Er f ( p, k, t) ≡ Hat( p, k))
auffassen – also als die Aussage: „Im Rahmen einer Testung lässt das Er-
füllen der in einem Test erfragten Bedingungen für ein Konstrukt durch
eine Person nur dann auf das Vorliegen eines Konstrukts schließen, wenn
dieses sich auf eine Menge wohldefinierter Attribute zurückführen lässt
und wenn der Test inhaltlich valide ist“.
Der Grad, in welchem eine Person ein Konstrukt aufweist, lässt sich
durch die Anwendung der entsprechenden Wahrheitsfunktionen sowie der
Schlussregel des graduellen Modus Ponens entsprechend den Gleichun-
gen 11.41 und 11.47 folgendermaßen berechnen:
w [ Hat( p, k )] = max(0, w [ Er f ( p, k, t)] + w [Val (t, k )] − 1) (12.2)

Durch Einsetzen der in den Gleichungen 11.47 und 11.38 spezifizierten


Wahrheitswerten für Val (t, k ) und Er f ( p, k, t) erhält man:
 
w [ Hat( p, k )] = max 0, inf min(1, 1 − min(w [ In( x, t)i ] , w [ De f ( x, k)i ])

+ w [ Hat( p, x )i ])
  
+ inf min(1, 1 − w [ De f ( x, k)i ] + w [ In( x, t)i ]) − 1
(12.3)
für alle Attribute x ∈ A.
Um die Schreibweise zu vereinfachen, soll im Folgenden gelten, dass

min(w [ In( x, t)i ] , w [ De f ( x, k )i ]) = de f i , (12.4)

wobei de f i für die Wahrheitswerte der in einem Test erfragten definierenden


Attribute steht, sowie

min(1, 1 − w [ De f ( x, k )i ] + w [ In( x, t)i ]) = 1 − de f j (12.5)

mit de f j als Zugehörigkeitsgrade der nicht im Test erfragten Attribute und

w [ Hat( p, x )i ] = ai (12.6)

mit ai als den Antworten der getesteten Person auf die abgefragten Attribu-
te.
154 12 Diskussion

Daraus ergibt sich die vereinfachte Formel


   
w [ Hat( p, k )] = max 0, inf min(1, 1 − de f i + ai ) + inf(1 − de f j ) − 1
(12.7)
Sofern die Menge der nicht im Test erfragten Attribute endlich ist, gilt
ferner
inf(1 − de f j ) = min(1 − de f j ). (12.8)
Das ergibt vereinfacht:

inf(1 − de f j ) = 1 − max(de f j ). (12.9)

Setzt man dieses Ergebnis in Gleichung 12.7 ein, erhält man:


   
w [ Hat( p, k )] = max 0, inf min(1, 1 − de f i + ai ) − max(de f j ) .
(12.10)
Für den Fall, dass alle ein Konstrukt definierenden Attribute im Test ent-
halten sind, entfällt der Term max(de f j ), da er gleich 0 ist. Bei scharf definier-
ten Konstrukten reduziert sich darüber hinaus der Term min(1, 1 − de f i + ai )
auf min( ai ) – also das Minimum der Testantworten. Somit handelt es sich
bei Gleichung 12.10 um eine allgemein gültige Auswertungsanweisung für
Tests, die im Sinne des sprachlich-logischen Ansatzes interpretiert werden
sollen.
Die Auswertung eines Tests lässt sich daher nach folgendem Schema
durchführen2 :

1. Vergleiche jede Itemantwort a mit der entsprechenden Itemzugehö-


rigkeit de f : Wenn die Antwort mindestens so groß ist wie die Zuge-
hörigkeit, notiere eine 1 als Itemwert. Wenn sie kleiner ist, ziehe die
Differenz beider Werte von 1 ab und notiere das Ergebnis als Itemwert.
2. Nimm den kleinsten dieser Werte und ziehe den größten Zugehörig-
keitsgrad der nicht im Test enthaltenen bedeutungstragenden Attri-
bute ab (ist das Ergebnis kleiner als 0, notiere 0) – das Ergebnis ist der
gesuchte Konstruktwert.

2 Eine
Implementierung der beschriebenen Prozedur in das Statistikprogramm R findet sich
im Anhang.
12.3 Ausblick 155

12.2.4 Interpretation von Testwerten


Das Ergebnis eines nach den beschriebenen Kriterien konstruierten und
durchgeführten Tests ist stets eine reelle Zahl zwischen 0 und 1. Formal
handelt es sich hierbei um den Wahrheitswert der Aussage „Die getestete
Person weist das mittels des Tests erhobene Konstrukt auf“. Wie aber kann
ein solcher Wahrheitswert interpretiert werden?
Es ist bereits darauf hingewiesen worden, dass es sich nicht um eine
Wahrscheinlichkeit handelt (vgl. Abschnitt 8.4.1). Auch eine Interpretation
im Sinne der Ausprägung einer latenten Variable scheidet aus. Stattdessen
kann der Wert interpretiert werden als das Ausmaß, in welchem die de-
finierenden Kriterien eines Konstrukts auf die getestete Person zutreffen.
Die Itemzugehörigkeiten stellen dabei eine Art „Mindestanforderung“ für
das Zutreffen des Konstrukts dar. Ein Test erfragt nun, inwieweit diese
Kriterien erfüllt sind. Der errechnete Konstruktwert zeigt daher lediglich
an, in welchem Maße die Testantworten die Zuschreibung des entsprechenden
Konstrukts rechtfertigen.
Es geht also nicht um Eigenschaften, die jemand tatsächlich hat, son-
dern um abstrakte Eigenschaftsbegriffe, welche die entsprechende Person
treffend beschreiben. Dies ist der wohl wesentlichste Unterschied zur übli-
chen, psychometrischen Herangehensweise: Testergebnisse liefern keine
Personenmesswerte, sondern Hinweise, wie Personen mittels eines explizit
definierten Fachvokabulars korrekt beschrieben werden können.

12.3 Ausblick
Ziel der vorliegenden Arbeit war es, einen formalen Ansatz zur Auswertung
und Interpretation psychologischer Tests zu entwickeln, welcher auf der
Annahme fußt, dass psychologische Konstrukte keine messbaren Größen
darstellen, sondern abstrakte Oberbegriffe für mehr oder weniger scharf
abzugrenzende konkrete Personenattribute. Da Konstrukte nach dieser
Interpretation sprachliche Gebilde darstellen, wurde für die Interpretation
psychologischer Tests das Prinzip der logischen Inferenz verwendet. Der
Inferenzschluss vom Testverhalten einer Person auf die ihr zukommen-
den Eigenschaften/Konstrukte wurde dabei vor dem Hintergrund formaler
Logik spezifiziert. Ausgehend von verschiedenen Logik-Kalkülen wurde zu-
nächst eine Formalisierung der Testung auf eindeutig definierte Konstrukte
(wie z.B. psychologische Diagnosen) vorgenommen. Diese wurde mittels
mehrwertiger Logiken so erweitert, dass das Phänomen der Unbestimmtheit
156 12 Diskussion

sowie eine Quantifizierung kategorial definierter Konstrukte möglich wurde.


Schließlich wurden – ausgehend vom mathematischen Hintergrund der
Fuzzy-Logik und Fuzzy-Mengenlehre – eine formal-logische Modellierung für
das Erschließen quantitativer Konstruktwerte unscharf definierter Konstrukte
aus den Testantworten einer Person vorgenommen.
Die Anwendung formaler Logik zur Auswertung und Interpretation
psychologischer Tests besteht dabei in erster Linie in einer rationalen Re-
konstruktion des Testvorgangs. Ausgehend von der Auffassung, dass vie-
le psychologische Konstrukte sich am besten als begriffliche Abstraktionen
interpretieren lassen, wurde gezeigt, wie sich Tests im Sinne von Inferenz-
werkzeugen interpretieren lassen. Gemeinsam ist allen Ansätzen, dass die
errechneten Konstruktwerte als Wahrheitswerte interpretiert werden, welche
die Trefflichkeit eines Konstruktbegriffs zur Beschreibung der getesteten
Person bezeichnen. Diese Interpretation ist unter Umständen sogar näher
an der üblichen Anwendung psychologischer Tests zu diagnostischen Zwe-
cken als die psychometrische Auffassung von Tests als Messinstrumenten
– ein erfahrener Diagnostiker wird Testergebnisse eher als Hinweise auf
das Vorliegen bestimmter Personeneigenschaften interpretieren denn als
naturwissenschaftliche Messwerte.
Der entwickelte Ansatz liefert somit eine alternative Herangehensweise an
psychologische Tests, welche sowohl theoretisch fundiert und plausibel als
auch mathematisch exakt formuliert ist. Darüber hinaus ist er durch die
Einfachheit der durchzuführenden Berechnungen leicht zugänglich und in
der Praxis umsetzbar.
Eine Einschränkung des entwickelten Ansatzes wird durch die Frage
aufgeworfen, ob die Anwendung mehrwertiger Logiken tatsächlich unab-
hängig von messtheoretischer Modellierung möglich ist. Problematisch ist
dabei die Interpretation von Testantworten im Sinne subjektiver Wahrheits-
werte. Die Abbildung der Testantworten in das reellwertige Intervall [0,1]
mittels einer linearen Transformation impliziert, dass die Testantworten ei-
ner Person mindestens auf Intervallskalenniveau vorliegen. Diese implizite
Annahme müsste streng genommen empirisch überprüft – oder zumindest
theoretisch plausibel gemacht werden. Man könnte argumentieren, dass
das Problem psychologischer Messungen mittels Tests lediglich verlagert
wird. In der Tat kommt man um eine messtheoretische Rechtfertigung der
Erhebung subjektiver Wahrheitswerte nicht herum. Ein wesentlicher Unter-
schied zur psychometrischen Interpretation von Tests ist jedoch, dass die
Testantworten nicht Messungen des zu erhebenden Konstrukts darstellen
sollen (was einen elaborierten theoretischen Hintergrund erfordern wür-
12.3 Ausblick 157

de), sondern dass grundsätzlich immer ein und dieselbe „psychologische“


Variable erhoben wird: der Grad der Zustimmung zu den Fragen in einem
Test. Das Skalenniveau dieser Variable ist dabei lediglich vom Antwortformat
abhängig (und nicht vom Inhalt der Testitems). Es handelt sich somit um
ein Problem der Skalierung, also um die Frage nach der optimalen Antworts-
kala. Es muss demnach lediglich gewährleistet sein, dass getestete Personen
die Antwortskala wie eine metrische Skala verwenden, das heißt, dass die
Abstände zwischen gegebenen Antworten Abstände im Zustimmungsgrad
korrekt widerspiegeln. Das setzt voraus, dass Personen in der Lage sind,
Zustimmungsgrade zu Aussagen konsistent in Zahlenwerte abzubilden.
Diese Annahme lässt sich aus theoretischen Überlegungen zumindest in
Ansätzen plausibel machen: Maximum und Minimum einer Skala dienen
zunächst als generelle Anker für „volle Zustimmung“ und „keine Zustim-
mung“. Diese Anker sollten auch über Personen hinweg vergleichbar sein.
Um möglichst konsistente Urteile bezüglich der relativen Distanzen der
subjektiven Wahrheitswerte zu erhalten, sollten darüber hinaus die Perso-
nen angewiesen werden, zunächst alle Aussagen durchzulesen, und ihnen
erst dann entsprechend den Zustimmungsgraden Zahlen zuzuordnen. Zu-
sätzlich zu diesen theoretischen Überlegungen wäre es darüber hinaus
möglich, die konsistente Verwendung einer Antwortskala empirisch zu
überprüfen (vgl. hierzu Westermann, 1982). Der wesentliche Vorteil einer
solchen Überprüfung wäre, dass sie nicht für jeden Test neu durchgeführt
werden müsste, da sie unabhängig von den Iteminhalten ist.
Eine weitere implizite Annahme des vorliegenden Ansatzes ist, dass die
Zustimmungsgrade einer Person zu den Fragen eines Tests fehlerfrei erfasst
werden. Diese Annahme ist nicht unproblematisch, da zumindest bei einem
kontinuierlichen Antwortformat (z.B. mit Hilfe einer visuellen Analogskala)
davon auszugehen ist, dass die Antworten gewissen Zufallsschwankungen
unterworfen sind. Derart „verrauschte“ Antworten können bei Nichtbe-
achten zu einer falschen Einschätzung der Konstruktausprägung führen.
Ebenso wie die Frage nach dem Skalenniveau der Testantworten handelt
es sich bei der Zuverlässigkeit der Antworten jedoch um ein Skalierungs-
problem. Es ließe sich entsprechend lösen, indem man die Skalierung der
Antwortskala mit Hilfe eines probabilistischen Messmodells überprüft. So-
mit wäre zufälliges Rauschen bereits vor der eigentlichen Testauswertung
zur Konstruktinferenz berücksichtigt.
Schließlich stellt sich die Frage, inwieweit man eine Menge „wohldefinier-
ter Attribute“ voraussetzen kann. Gibt es überhaupt Attribute, die absolut
eindeutig definierbar sind? Geht man davon aus, dass Sprache grundsätz-
158 12 Diskussion

lich missverständlich ist, müsste man die Existenz einer wohldefinierten


Attributmenge verwerfen. In der Tat ist es ein bekanntes Problem der Test-
konstruktion, Items eindeutig und unmissverständlich zu formulieren. In
vielen Fällen wird dies wahrscheinlich nur teilweise gelingen. Jedoch ist
zu bedenken, dass derartige Schwierigkeiten umso weniger auftreten, je
konkreter die abzufragenden Attribute sind. Handelt es sich um ihrerseits
vage Aussagen, welche mehrdeutige Begriffe enthalten, wäre eine Rück-
führung auf konkretere Attribute notwendig. Es wäre in diesem Kontext
interessant, auch die Vagheit von Attributen mathematisch zu modellie-
ren. Dies könnte zum Beispiel geschehen, indem jedem Item eine Menge
möglicher Interpretationen zugeordnet wird, welche jeweils unterschiedlich
stark mit einem Testitem zusammenhängen. Allerdings würde sich daraus
die Frage ergeben, worin diese Interpretationen bestehen. Entweder sie
lassen sich eindeutig benennen – dann wären sie äquivalent zur Menge der
wohldefinierten Attribute, und der Zwischenschritt über die Interpretatio-
nen wäre überflüssig. Oder sie sind nicht direkt zugänglich (latent) – dann
könnte man die entsprechenden Zugehörigkeitsgrade zu den Items nicht
bestimmen. Wie groß die Auswirkungen dieser Problematik sind, lässt sich
schwer abschätzen. Letztendlich bleibt es Aufgabe des Testkonstrukteurs,
Fragebogenitems möglichst eindeutig und klar verständlich zu formulieren
und so sprachliche Ungenauigkeiten zu minimieren.
Anders als die übliche, psychometrische Herangehensweise richtet der
sprachlich-logische Ansatz das Augenmerk auf die Inhalte von Testitems
und damit auf die Bedeutung der zu erhebenden Konstrukte. Während psy-
chometrische Kennwerte blind gegenüber den Bedeutungen der Items sind,
spiegeln die im vorliegenden Ansatz entwickelten Maßzahlen gerade diesen
semantischen Zusammenhang zwischen Testitems und Konstruktbegriff wider.
Unzureichend definierte Konstrukte „messen“ zu wollen, hieße den zweiten
Schritt vor dem ersten zu machen. Dies ist eine der wesentlichen Schwach-
stellen psychometrischer Praxis. Hinzu kommt, dass psychologische Tests
den Ansprüchen naturwissenschaftlicher Messinstrumente nicht immer
gerecht werden – insbesondere wenn es an der theoretischen Fundierung
der zu messenden Variablen mangelt.
Die Interpretation von Testwerten als logische Wahrheitswerte ermöglicht
hingegen eine plausible Begründung für die errechneten Konstruktwerte,
selbst wenn ein Test nur „aus dem Bauch heraus“ konstruiert wurde. Da-
durch wird in gewisser Weise eine Annäherung zwischen formaler Test-
theorie und tatsächlicher Testpraxis erreicht. Denn obwohl psychometrische
Ansätze streng genommen eine Interpretation von Testwerten als Messun-
12.3 Ausblick 159

gen (im naturwissenschaftlichen Sinne) implizieren, werden sie in der Praxis


häufig eher als Orientierungshilfe verwendet.
Der sprachlich-logische Ansatz ist insofern oft angemessener als die An-
wendung psychometrischer Theorien, da er eine direkte Formalisierung
psychologischer Diagnostik vornimmt, statt Messungen vorzugeben, wenn
es sich eigentlich um definitorisch begründete Eigenschaftszuschreibungen
handelt. Durch die Verwendung psychometrischer Methoden (und des da-
mit verbundenen Vokabulars) wird hingegen leicht der Eindruck vermittelt,
die Testergebnisse entsprächen naturwissenschaftlichen Messwerten. Dies
kann vor allem bei psychologisch wenig geschulten Personen zu einer Über-
bewertung von Testergebnissen führen. Auch um derartige Fehlinterpreta-
tionen zu vermeiden, wäre es in vielen Fällen angebracht, ganz bewusst auf
die definitorische Natur psychologischer Konstrukte hinzuweisen und die
Testergebnisse entsprechend als abstrahierende Personenbeschreibungen –
und nicht als Messwerte – zu präsentieren.
A Anhang

Implementierung des Auswertungsalgorithmus


in das Statistikprogramm R
Im Folgenden wird eine Implementierung der in Abschnitt 12.2 erläuterten
Berechnungen zur Auswertung von Tests für das Statistikprogramm R
vorgenommen. Es handelt sich dabei um eine sehr basale Funktion zur
Berechnung der Inhaltsvalidität sowie eine Funktion zur Bestimmung der
Konstruktwerte einer Menge von Personen auf Basis ihrer Testantworten.
Die Funktion „content.val“ berechnet die Inhaltsvalidität eines Tests. Sie
verfügt über zwei Argumente: die Vektoren „def“ (enthält alle Itemzuge-
hörigkeiten des Konstrukts) und „in“ (enthält nur Nullen und Einsen und
spezifiziert, ob die entsprechenden Attribute im Test abgefragt werden).
c o n t e n t . v a l <− f u n c t i o n ( in , def ) {
v <− min(1 ,1 − def+ i n )
return ( v )
}
Zur Berechnung der Konstruktwerte für eine Personen-Item Matrix dient
die Funktion „pl.test“. Sie benötigt als Argumente eine Matrix (bzw. einen
Dataframe) „dat“, wobei die Zeilen für Personen stehen und die Spalten
für Items, sowie einen Vektor „def“, welcher die Zugehörigkeiten der Items
zum Konstrukt spezifiziert. Das dritte Argument bezeichnet die Inhaltsvali-
dität des Tests, welche standardmäßig auf 1 gesetzt wird (dies entspräche
einem Test, der alle für das Konstrukt bedeutungstragenden Items enthält).
Das Output stellt einen Vektor dar, welcher für jede Person den entspre-
chenden Konstruktwert beinhaltet.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3, © Springer Fachmedien Wiesbaden 2014
162 Anhang

p l . t e s t <− f u n c t i o n ( dat , def , v = 1 ) {


i f ( i s . data . frame ( dat )==TRUE ) {
dat <− as . matrix ( dat )
}
imp <− f u n c t i o n ( x , y ) {
residuum <− min(1 ,1 − x+y )
r e t u r n ( residuum )
}
w. c o n s t r u c t <− c ( )
i <− 1
while ( i <= length ( dat [ , 1 ] ) ) {
has <− dat [ i , ]
c r i t <− c ( )
j <− 1
while ( j <= length ( def ) ) {
c r i t [ j ] <− imp ( def [ j ] , has [ j ] )
j <− j +1
}
w. c o n s t r u c t [ i ] <−max ( 0 , min ( c r i t )+v − 1)
i <− i +1
}
r e t u r n (w. c o n s t r u c t )
}
Um die Verwendung der Funktion zu illustrieren, wird im Folgenden
ein fiktiver Datensatz generiert, welcher dann mittels „pl.test“ ausgewertet
wird. Es folgt der entsprechende R-Code inklusive der Ausgabe:
Anhang 163

> #Beispiel
>
> werte <− matrix ( ncol =3 ,
+ c (0.2 ,0.3 ,0.2 ,0.6 ,0.7 ,0.4 ,0.9 ,0.3 ,0.5) ,
+ byrow=T )
> dat <− as . data . frame ( werte )
> colnames ( dat ) <− c ( " Item 1 " , " Item 2 " , " Item 3 " )
> rownames ( dat ) <− c ( " Person 1 " , " Person 2 " , " Person 3 " )
>
> dat
Item 1 Item 2 Item 3
Person 1 0.2 0.3 0.2
Person 2 0.6 0.7 0.4
Person 3 0.9 0.3 0.5
>
> d e f i n i t i o n <− c ( 0 . 5 , 0 . 3 , 0 . 6 )
> dat $ Konstruktwert <− p l . t e s t ( dat , d e f i n i t i o n )
>
> dat
Item 1 Item 2 Item 3 Konstruktwert
Person 1 0.2 0.3 0.2 0.6
Person 2 0.6 0.7 0.4 0.8
Person 3 0.9 0.3 0.5 0.9
Symbolverzeichnis

:= „ist definiert als“


& starkes Und – etwa „und in besonderem Maße“
∗ Verknüpfung von Wahrheitswerten mittels einer t-Norm
∩ Schnittmenge
∪ Vereinigungsmenge
≡ „ist äquivalent zu“
∃ „es gibt mindestens ein“
∀ „für alle“
∈ „ist Element von“
inf größte untere Schranke
↔ „ist äquivalent zu“
→ „wird abgebildet in“
max Maximum
min Minimum
¬ „nicht“
⊕ empirische Operation – „wird zusammengefügt mit“
0, 1 logische Konstanten für die Aussagen „falsch” und „wahr”
→ „impliziert“
∼ empirische Relation – „hat dieselbe Ausprägung wie“
⊆ Untermenge

empirische Relation – „hat keine geringere Ausprägung als“


sup kleinste obere Schranke
× Kartesisches Produkt (Menge aller geordneten Paare)
ϕ, ψ logische Variablen – bezeichnen beliebige Aussagen
∨ „oder“

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3, © Springer Fachmedien Wiesbaden 2014
166 Symbolverzeichnis

∧ „und“
A Mengensymbol – bezeichnet eine (möglicherweise unscharfe) Menge
a Mengensymbol – bezeichnet ein Element der Menge A
w [ ϕ] Wahrheitswert der Aussage ϕ
Literaturverzeichnis

Adlassnig, K.-P. & Akhevan-Heidari, M. (1989). CADIAG-2/GALL: An experimental expert


system for the diagnosis of gallbladder and biliary tract diseases. Artificial Intelligence
in Medicine, 1 (2), 71–77.
Adlassnig, K.-P., Kolarz, G., Scheithauer, W., Effenberger, H. & Grabner, G. (1985). CADIAG:
Approaches to computer-assisted medical diagnosis. Computers in Biology and Medicine,
15 (5), 315–335.
Alsina, C. (1985). On a family of connectives for fuzzy sets. Fuzzy Sets and Systems, 16 (3),
231–235.
Amelang, M. & Bartussek, D. (2006). Differentielle Psychologie und Persönlichkeitsforschung. 6.,
vollständig überarbeitete Auflage. Stuttgart: Kohlhammer.
Amthauer, R., Brocke, B., Liepmann, D. & Beauducel, A. (1999). Intelligenz-Struktur-Test 2000:
IST 2000. Göttingen: Hogrefe.
Aristoteles, Übers. von J. H. von Kirchmann. (1876). Hermeneutica oder Lehre vom Urtheil. Leipzig.
Onlineversion einsehbar unter: http://www.zeno.org/nid/20009145680 [29.02.2012].
Arotaritei, D. & Mitra, S. (2004). Web mining: A survey in the fuzzy framework. Fuzzy Sets
and Systems, 148 (1), 5–19.
Baldwin, J. F. (1979a). Fuzzy logic and fuzzy reasoning. International Journal of Man-Machine
Studies, 11, 465–480.
Baldwin, J. F. (1979b). Fuzzy logic and its application to fuzzy reasoning. In M. M. Gupta,
R. K. Ragade & R. R. Yager (Eds.), Advances in fuzzy set theory and applications (pp.
93–115). Amsterdam: North-Holland.
Bandemer, H. & Gottwald, S. (1993). Einführung in die Fuzzy-Methoden. Berlin: Akademie
Verlag.
Belohlavek, R. (2003). Fuzzy closure operators induced by similarity. Fundamenta Informaticae,
58 (2), 79-91.
Belohlavek, R. (2011). Formal Concept Analysis: Classical and fuzzy. In R. Belohlavek &
G. J. Klir (Eds.), , Concepts and Fuzzy Logic (pp. 177-207). Cambridge, London: MIT
Press.
Belohlavek, R. & Klir, G. J. (2011). Concepts and Fuzzy Logic. Cambridge, London: MIT Press.
Belohlavek, R., Klir, G. J., Lewis, H. W. & Way, E. C. (2009). Concepts and fuzzy sets: Mi-
sunderstandings, misconceptions, and oversights. International Journal of Approximate
Reasoning, 51, 23-34.
Bentler, P. M. & Weeks, D. G. (1980). Multivariate analysis with latent variables. In P. K. Krish-
naiah & L. Kanal (Eds.), , Handbook of statistics (Vol. 2, pp. 747–771). Amsterdam: North
Holland.
Berghammer, R. (2008). Ordnungen, Verbände und Relationen mit Anwendungen. Wiesbaden:
Vieweg und Teubner.
Beth, E. W. (1955). Semantic entailment and formal derivability. In Mededelingen der Koninklijke
Nederlandse Akademie van Wetenschappen (Vol. 18, pp. 309–342). Amsterdam.

M. Buntins, Psychologische Tests und mehrwertige Logik,


DOI 10.1007/978-3-658-05507-3, © Springer Fachmedien Wiesbaden 2014
168 Literaturverzeichnis

Biddle, B. & Marlin, M. (1987). Causality, confirmation, credulity, and structural equation
modeling. Child Development, 58, 4–17.
Binet, A. & Simon, T. (1904). Méthodes nouvelles pour le diagnostic du niveau intellectuel des
anormaux. L’Année Psychologique, 11 (1), 191–244.
Binet, A. & Simon, T. (1908). Le développement de l’intelligence chez les enfants. L’Annee
Psychologique, 14 (1), 1–94.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability.
In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 397–479).
Reading, MA: Addison-Wesley.
Bluhme, H. (2005). Etymologisches Wörterbuch des deutschen Grundwortschatzes. München:
Lincom Europa.
Blumer, H. (1940). The problem of the concept in social psychology. American Journal of
Sociology, 45, 707–719.
Bobertag, O. (1911). Über Intelligenzprüfungen (nach der Methode von Binet und Simon) [Teil
1]. Zeitschrift für angewandte Psychologie und psychologische Sammelforschung, 5, 105–210.
Bobertag, O. (1912). Über Intelligenzprüfungen (nach der Methode von Binet und Simon) [Teil
2]. Zeitschrift für angewandte Psychologie und psychologische Sammelforschung, 6, 495–538.
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in
two or more nominal categories. Psychometrika, 37 (1), 29–51.
Bolc, L. & Borowik, P. (1992). Many valued logics. 1 theoretical foundations. Berlin, Heidelberg:
Springer.
Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley.
Boole, G. (1948). The mathematical analysis of logic. Being an essay towards a calculus of deductive
reasoning. New York: Philosophical Library.
Boring, E. (1923). Intelligence as the tests test it. New Republic, 36, 35–37.
Borsboom, D. (2005). Measuring the mind. Conceptual issues in contemporary psychometrics.
Cambridge: Cambridge University Press.
Borsboom, D. & Mellenbergh, G. (2004). Why psychometrics is not pathological. Theory and
Psychology, 14 (1), 105–120.
Borsboom, D., Mellenbergh, G. & Van Heerden, J. (2003). The theoretical status of latent
variables. Psychological Review, 110 (2), 203.
Borsboom, D. & Scholten, A. (2008). The Rasch model and conjoint measurement theory from
the perspective of psychometrics. Theory and Psychology, 18 (1), 111–117.
Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evaluation. Berlin, Heidelberg: Springer.
Browne, M. & Cudeck, R. (1992). Alternative ways of assessing model fit. Sociological Methods
and Research, 21 (2), 230–258.
Bruchmüller, K. & Meyer, T. D. (2008). Diagnostically irrelevant information can affect the
likelihood of a diagnosis of bipolar disorder. Journal of Affective Disorders, 116, 148–51.
Büttner, M. (1984). Diagnostik der intellektuellen Minderbegabung Untersuchung über die
Zuverlässigkeit von Testbefunden. Praxis der Kinderpsychologie und Kinderpsychiatrie, 33,
123–133.
Buckley, J. (2004). Fuzzy statistics. Berlin, Heidelberg: Springer.
Buckley, J. (2005). Fuzzy statistics: hypothesis testing. Soft Computing – A Fusion of Foundations,
Methodologies and Applications, 9 (7), 512–518.
Bühner, M. (2004). Einführung in die Test-und Fragebogenkonstruktion. München: Pearson
Studium.
Buss, D. M. (1983). Act prediction and the conceptual analysis of personality scales: Indices
of act density, bipolarity, and extensity. Journal of Personality and Social Psychology, 45,
1081–1095.
Literaturverzeichnis 169

Buss, D. M. & Craik, K. H. (1980). The frequency concept of disposition: Dominance and
prototypically dominant acts. Journal of Personality, 48, 379–392.
Buss, D. M. & Craik, K. H. (1981). The act frequency analysis of interpersonal dispositions:
Aloofness, gregariousness, dominance and submissiveness. Journal of Personality, 49,
175–192.
Cattell, R. B. (1943). The description of personality: Basic traits resolved into clusters. The
Journal of Abnormal and Social Psychology, 38 (4), 476.
Cattell, R. B. (1963). Theory of fluid and crystallized intelligence: A critical experiment. Journal
of Educational Psychology, 54 (1), 1–22.
Chang, C. C. (1958a). Algebraic analysis of many valued logics. Transactions of the American
Mathematical Society, 88, 476—490.
Chang, C. C. (1958b). A new proof of the completeness of the Łukasiewicz axioms. Transactions
of the American Mathematical Society, 93, 74—80.
Cintula, P. & Hájek, P. (2010). Triangular norm based predicate fuzzy logics. Fuzzy Sets and
Systems, 161 (3), 311 - 346.
Clogg, C. (1979). Some latent structure models for the analysis of likert-type data. Social Science
Research, 8 (4), 287–301.
Cohen, P., Cohen, J., Teresi, J., Marchi, M. & Velez, C. (1990). Problems in the measurement of
latent variables in structural equations causal models. Applied Psychological Measurement,
14 (2), 183.
Cudeck, R. & Browne, M. (1983). Cross-validation of covariance structures. Multivariate
Behavioral Research, 18 (2), 147–167.
Davies, J., Fensel, D. & Van Harmelen, F. (2003). Semantic web technologies: Trends and research in
ontology-based systems. New York: Wiley.
Deutsches Institut für Normung (Hrsg.). (1999). DIN-Taschenbuch 22. Einheiten und Begriffe für
physikalische Größen. 9.Auflage. Berlin, Wien, Zürich: Beuth.
Dilling, H., Mombour, W., Schmidt, M. H. & Schulte-Markwort, E. (Hrsg.). (2011). Internationale
Klassifizierung psychischer Störungen. ICD-10 Kapitel V(F). Diagnostische Kriterien für
Forschung und Praxis. 5. überarbeitete Auflage. Bern: Hans Huber.
Driankov, D., Hellendoorn, H. & Reinfrank, M. (1996). An introduction to fuzzy control. Berlin,
Heidelberg: Springer.
Dubois, D. (2011). The role of fuzzy sets in decision sciences: Old techniques and new
directions. Fuzzy Sets and Systems, 184 (1), 3–28.
Dummett, M. (1959). A propositional calculus with denumerable matrix. Journal of Symbolic
Logic, 24, 97–106.
Ebbinghaus, H. (1897). Über eine neue Methode zur Prüfung geistiger Fähigkeiten und ihre
Anwendung bei Schulkindern: Erweitert nach einem auf dem III. Internationalen Kongreß für
Psychologie zu München gehaltenen Vortrag. Hamburg: Voss.
Edgeworth, F. (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51
(3), 598–635.
Edwards, J. & Bagozzi, R. (2000). On the nature and direction of relationships between
constructs and measures. Psychological Methods, 5 (2), 155–174.
Everitt, B. S. (1999). Making sense of statistics in psychology: A second-level course. New York:
Oxford University Press.
Eysenck, H. (1967). The biological basis of personality. New Brunswick, New Jersey: Transaction
Pub.
Falmagne, J.-C. (1976). Random conjoint measurement and loudness summation. Psychological
Review, 83, 65–79.
170 Literaturverzeichnis

Falmagne, J.-C. (1979). On a class of probabilistic conjoint measurement models: Some


diagnostic properties. Journal of Mathematical Psychology, 19, 73–88.
Feigl, H. (1950). Existential hypotheses. realistic versus phenomenalistic interpretations.
Philosophy of Science, 17 (1), 35-62.
Ferguson, A., Myers, C. S., Bartlett, R. J., Banister, H., Bartlett, F. C., Brown, W., . . . Tucker,
W. S. (1938). Quantitative estimates of sensory events: interim report of the commitee
appointed to consider and report upon the possibility of quantitative estimates of
sensory events. British Association for the Advancement of Science, 108, 277–334.
Ferguson, A., Myers, C. S., Bartlett, R. J., Banister, H., Bartlett, F. C., Brown, W., . . . Tucker, W. S.
(1940). Quantitative estimates of sensory events: final report of the commitee appointed
to consider and report upon the possibility of quantitative estimates of sensory events.
Advancement of Science, 1, 331–349.
Feuerlein, W. (1979). Münchner Alkoholismus-Test. Göttingen: Beltz.
Finetti. (1974). Theory of probability, vols. 1 and 2. New York: Wiley.
Finkelstein, L. & Leaning, M. (1984). A review of the fundamental concepts of measurement.
Measurement, 2 (1), 25–34.
Fisseni, H. & Fennekels, G. (1995). Das Assessment-Center. Göttingen: Hogrefe.
Formann, A. K. (1979). Wiener Matrizen-Test: Ein Rasch-skalierter sprachfreier Intelligenztest.
Weinheim: Beltz.
Fornell, C. & Larcker, D. (1981). Evaluating structural equation models with unobservable
variables and measurement error. Journal of Marketing Research, 39–50.
Fox, J. & Glas, C. (2001). Bayesian estimation of a multilevel IRT model using Gibbs sampling.
Psychometrika, 66 (2), 271–288.
Franke, G. (2002). SCL-90-R: Symptom-Checkliste von L. R. Derogatis. Göttingen: Beltz.
Frege, G. (1964). Begriffschrift. In I. Angelelli (Hrsg.), Begriffschrift und andere Aufsätze.
Hildesheim.
Friedenberg, L. (1995). Psychological testing: Design, analysis, and use. Boston: Allyn and Bacon.
Gadenne, V. (1984). Theorie und Erfahrung in der psychologischen Forschung. Tübingen: Mohr
Siebeck.
Ganter, B. & Wille, R. (1996). Formale Begriffsanalyse: Mathematische Grundlagen. Berlin: Springer.
García-Honrado, I. & Trillas, E. (2011). An essay on the linguistic roots of fuzzy sets. Information
Sciences, 181, 4061-4074.
Gödel, K. (1931). Über formal unentscheidbare Sätze der Principia Mathematica und verwand-
ter Systeme I. Monatshefte für Mathematik, 38, 173–198.
Gödel, K. (1932). Zum intuitionistischen Aussagenkalkül. Anzeiger Akademie der Wissenschaften
Wien (Math.-naturwiss. Klasse), 69, 65–66.
Gentzen, G. (1935a). Untersuchungen über das logische Schließen I. Mathematische Zeitschrift,
39 (1), 176–210.
Gentzen, G. (1935b). Untersuchungen über das logische Schließen II. Mathematische Zeitschrift,
39 (1), 405–431.
Gigerenzer, G. (1981). Messung und Modellbildung in der Psychologie. München, Basel: Reinhardt.
Glymour, C. (2001). The mind’s arrows: Bayes nets and graphical causal models in psychology.
Cambridge: MIT Press.
Goddard, H. H. (1910). A measuring scale for intelligence. Training School, 6, 146–155.
Goguen, J. A. (1969). The logic of inexact concepts. Synthese, 19, 325-373.
Goodman, L. (1974). Exploratory latent structure analysis using both identifiable and uniden-
tifiable models. Biometrika, 61 (2), 215–231.
Gottwald, S. (2008). Mathematical fuzzy logics. Bulletin of Symbolic Logic, 14 (2), 210-239.
Literaturverzeichnis 171

Gottwald, S. (2010). Many-valued logic. In E. N. Zalta (Ed.), The stanford encyclopedia of philo-
sophy (Spring 2010 ed.). Online einsehbar unter: http://plato.stanford.edu/archives/
spr2010/entries/logic-manyvalued/.
Gottwald, S. & Hájek, P. (2005). Triangular norm-based mathematical fuzzy logics. In
E. Klement & R. Mesiar (Eds.), Logical, algebraic, analytic, and probabilistic aspects of
triangular norms (pp. 257-299). Amsterdam: Elsevier.
Grabot, B. & Caillaud, E. (1996). Imprecise knowledge in expert systems: A simple shell. Expert
Systems With Applictions, 10 (1), 99–112.
Gregory, R. J. (2004). Psychological testing: History, principles, and applications. Boston: Allyn and
Bacon.
Grimm, J. & Grimm, W. (2004). Deutsches Wörterbuch (DWB), Der Digitale Grimm, elektronische
Ausgabe der Erstbearbeitung (1854). Frankfurt am Main: Zweitausendeins.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), Measurement
and prediction: studies in social psychology in World War II (Vol. 4, pp. 60-90). New York:
Princeton University Press.
Hacking, I. (1965). The logic of statistical inference. Cambridge: Cambridge University Press.
Haghighi, M. (2012). A fuzzy multiple attribute decision making (MADM) approach for
employee evaluation and selection process. American Journal of Scientific Research, 58,
75–84.
Hampton, J. A. (2006). Concepts as prototypes. Psychology of Learning and Motivation, 46,
79-113.
Hathaway, S. & McKinley, J. C. (1940). A multiphasic personality schedule (Minnesota): I.
Construction of the schedule. The Journal of Psychology, 10 (2), 249–254.
Hathaway, S. & McKinley, J. C. (1942). A multiphasic personality schedule (Minnesota): III.
The measurement of symptomatic depression. Journal of Psychology: Interdisciplinary and
Applied.
Haynes, S., Richard, D. & Kubany, E. (1995). Content validity in psychological assessment: A
functional approach to concepts and methods. Psychological Assessment, 7 (3), 238.
Herrera, F., Herrera-Viedma, E. & Martínez, L. (2008). A fuzzy linguistic methodology to deal
with unbalanced linguistic term sets. Fuzzy Systems, IEEE Transactions on Fuzzy Systems,
16 (2), 354–370.
Heyer, D. (1990). Booleschwertige und probabilistische Meßtheorie. Frankfurt a.M., Bern, New
York, Paris: Peter Lang.
Heyer, D. & Mausfeld, R. (1987). On errors, probabilistic measurement and Boolean valued
logic. Methodika, 1, 113–138.
Heyer, D. & Niederée. (1992). Generalizing the concept of binary choice systems induced by
rankings: One way of probabilizing deterministic measurement structures. Mathematical
Social Sciences, 23, 31–44.
Hilbert, D. & Ackermann, W. (1949). Grundzüge der theoretischen Logik, 3. Auflage. Berlin:
Springer.
Hájek, P. (1998a). Basic fuzzy logic and BL-algebras. Soft Computing, 2, 124–128.
Hájek, P. (1998b). Metamathematics of fuzzy logic. Dordrecht, Boston, London: Kluwer Academic
Publishers.
Hájek, P. (2006). What is mathematical fuzzy logic. Fuzzy Sets and Systems, 157 (5), 597-603.
Hájek, P., Paris, J. & Shepherdson, J. (2000). Rational Pavelka predicate logic is a conservative
extension of Łukasiewicz predicate logic. Journal of Symbolic Logic, 65 (2), 669-682.
Hölder, O. (1901). Die Axiome der Quantität und die Lehre vom Masse. Berichte über
die Verhandlungen der Königlich Sächsischen Gesellschaft der Wissenschaften zu Leipzig,
172 Literaturverzeichnis

Mathematisch-Physische Klasse, 53, 1–46.


Hornke, L., Küppers, A. & Etzel, S. (2000). Konstruktion und Evaluation eines adaptiven
Matrizentests. Diagnostica, 46 (4), 182–188.
Jansen, H. (2002). BISC: Bielefelder Screening zur Früherkennung von Lese-
Rechtschreibschwierigkeiten. Göttingen: Hogrefe.
Janssen, R., Tuerlinckx, F., Meulders, M. & De Boeck, P. (2000). A hierarchical IRT model for
criterion-referenced measurement. Journal of Educational and Behavioral Statistics, 25 (3),
285–306.
Jaskowski, S. (1936). Recherches sur le système de la logique intuitioniste. Actes du Congrès
Internationale de Philosophie Scientifique 1936, Paris, 6, 58–61. (Englische Übersetzung in:
Studia Logica, 34 (1975): 117–120)
Jäger, A. O. (1984). Intelligenzstrukturforschung: Konkurrierende Modelle, neue Entwicklun-
gen, Perspektiven. Psychologische Rundschau, 35, 21–35.
Jöreskog, K. G. (1971). Statistical analysis of sets of congeneric tests. Psychometrika, 36 (2),
109–133.
Jöreskog, K. G. (1973). A general method for analysis of covariance structures. Biomerika, 57,
239–251.
Jöreskog, K. G. (1974). Analyzing psychological data by structural analysis of covariance
matrices. In D. H. Krantz, R. C. Atkinson, R. D. Luce & P. Suppes (Eds.), Contemporary
developements in mathematical psychology. volume ii: Measurement, psychophysics, and neural
information processing (pp. 1–56). San Fransisco: W. H. Freeman and Company.
Kacprzyk, J. & Ziolkowski, A. (1986). Database queries with fuzzy linguistic quantifiers.
Systems, Man and Cybernetics, IEEE Transactions on Fuzzy Systems, 16 (3), 474–479.
Kamata, A. (2001). Item analysis by the hierarchical generalized linear model. Journal of
Educational Measurement, 38 (1), 79–93.
Katz, M. (1981). Łukasiewicz logic and the foundations of measurement. Studia Logica, 40,
209–225.
Khoury, R., Karray, F., Sun, Y., Kamel, M. & Basir, O. (2007). Semantic understanding of general
linguistic items by means of fuzzy set theory. IEEE Transactions on Fuzzy Systems, 15 (5),
757-771.
Kleinmann, M. (2003). Assessment-Center. Göttingen: Hogrefe.
Kline, P. (2000). The handbook of psychological testing, second edition. London, New York:
Routledge.
Kline, R. B. (2011). Principles and practice of structural equation modeling. New York: The Guilford
Press.
Klir, G. J. & Yuan, B. (1995). Fuzzy sets and fuzzy logic. New Jersey: Prentice Hall.
Kluge, F. (1995). Etymologisches Wörterbuch der deutschen Sprache. Bearbeitet von Elmar Seebold.
23., erweiterte Auflage. Berlin: W. de Gruyter.
Kolarz, G. & Adlassnig, K.-P. (1986). Problems in establishing the medical expert systems
CADIAG-1 and CADIAG-2 in rheumatology. Journal of Medical Systems, 10 (4), 395–405.
Kraft, D., Bordogna, G. & Pasi, G. (1994). An extended fuzzy linguistic approach to generalize
boolean information retrieval. Information Sciences-Applications, 2 (3), 119–134.
Krantz, D. H., Luce, R. D., Suppes, P. & Tversky, A. (1971). Foundations of measurement, vol. 1:
Additive and polynomial representations. New York: Academic Press.
Krauth, J. (1995). Testkonstruktion und Testtheorie. München: Beltz.
Kubinger, K., Wurst, E. & Maryschka, C. (2000). Adaptives Intelligenz-Diagnostikum 2: AID 2.
Göttingen: Hogrefe.
Kyngdon, A. (2008a). Conjoint measurement, error and the Rasch model. Theory and Psychology,
18 (1), 125–131.
Literaturverzeichnis 173

Kyngdon, A. (2008b). The Rasch model from the perspective of the representational theory of
measurement. Theory and Psychology, 18 (1), 89–109.
Lamberti, G. (2006). Intelligenz auf dem Prüfstand: 100 Jahre Psychometrie. Göttingen: Vanden-
hoeck and Ruprecht.
Langfeldt, H., Tent, L. & Stelzl, I. (1999). Pädagogisch-psychologische Diagnostik. Göttingen:
Hogrefe.
Lazarsfeld, P. & Henry, N. (1968). Latent structure analysis. Boston: Houghton, Mifflin.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. München: Beltz.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental scores. Reading, MA: Addison–
Wesley.
Lovasz, N. & Slaney, L. (2013). What makes a hypothetical construct “hypothetical”? tracing
the origins and uses of the ‘hypothetical construct’ concept in psychological science.
New Ideas in Psychology, 31 (1), 22 – 31.
Luce, R. D. & Narens, L. (1994). Fifteen problems concerning the representational theory of
measurement. In P. Humphreys (Ed.), Patrick suppes: Scientific philosopher (Vol. 2, pp.
219–249). Dordrecht, Boston, London: Kluwer.
Luce, R. D. & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of
fundamental measurement. Journal of Mathematical Psychology, 1 (1), 1–27.
Łukasiewicz, J. (1920). O logice trojwartosciowej. Ruch Filozoficny, 5, 170–171. [Englische
Übersetzung in: Łukasiewicz (1970)].
Łukasiewicz, J. (1970). On three-valued logic. In Borkowski, L. (Ed.) Jan Łukasiewicz. Selected
works. Amsterdam: North-Holland.
MacCorquodale, K. & Meehl, P. (1948). On a distinction between hypothetical constructs and
intervening variables. Psychological Review, 55 (2), 95.
Maraun, M. D., Slaney, K. L. & Gabriel, S. M. (2009). The augustinian methodological family
of psychology. New Ideas in Psychology, 27 (2), 148-162.
Markus, K. A. & Borsboom, D. (2011). The cat came back: Evaluating arguments against
psychological measurement. Theory and Psychology, 22 (4), 452-466.
Massaro, D. & Cohen, M. (2000). Fuzzy logical model of bimodal emotion perception:
Comment on “The perception of emotions by ear and by eye” by De Gelder and
Vroomen. Cognition and Emotion, 14 (3), 313–320.
Masters, G. (1982). A Rasch model for partial credit scoring. Psychometrika, 47 (2), 149–174.
McArcle, J. J. & McDonald, R. P. (1984). Some algebraic properties of the reticular action
model for moment structures. British Journal of Mathematical and Statistical Psychology,
37, 234–251.
McCloskey, M. E. & Glucksberg, S. (1978). Natural categories: Well defined or fuzzy sets?
Memory and Cognition, 6, 462-472.
McKeen Cattell, J. (1890). Mental tests and measurements. Mind, 15, 373-380.
Mechefske, C. & Wang, Z. (2003). Using fuzzy linguistics to select optimum maintenance
and condition monitoring strategies. Mechanical Systems and Signal Processing, 17 (2),
305–316.
Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.
Zeitschrift für klinische Psychologie und Psychotherapie, 32 (2), 94–103.
Michell, J. (1990). An introduction to the logic of psychological measurement. Hillsdale: Lawrence
Erlbaum Associates.
Michell, J. (1999). Measurement in psychology: Critical history of a methodological concept. Cam-
bridge: Cambridge University Press.
Michell, J. (2000). Normal science, pathological science and psychometrics. Theory and
Psychology, 10 (5), 639–667.
174 Literaturverzeichnis

Michell, J. (2008). Conjoint measurement and the Rasch paradox. Theory and Psychology, 18 (1),
119–124.
Mordeson, J. N. & Malik, D. S. (2002). Fuzzy automata and languages: Theory and applications.
Boca Raton: Chapman and Hall/CRC.
Munakata, T. (2008). Fundamentals of the new artificial intelligence: Neural, evolutionary, fuzzy and
more. London: Springer.
Münsterberg, H. (1913). Grundzüge der Psychotechnik. Leipzig: Barth.
Murray, H. (1943). Thematic apperception test. Harvard: Harvard University Press.
Nagel, L. (1931). Measurement. Erkenntnis, 2, 313–333.
Novák, V. (1992). Fuzzy sets in natural language processing. In An introduction to fuzzy logic
applications in intelligent systems. Dordrecht, Boston, London: Kluwer.
Novák, V. (2012). Reasoning about mathematical fuzzy logic and its future. Fuzzy Sets and
Systems, 192 (1), 25-44.
Oden, G. C. (1977a). Fuzziness in semantic memory: Choosing exemplars of subjective
categories. Memory and Cognition, 5, 198-204.
Oden, G. C. (1977b). Integration of fuzzy logical information. Human Perception and Performance,
3, 565-575.
Oden, G. C. (1979). A fuzzy logical model of letter identification. Journal of Experimental
Psychology: Human Perception and Performance, 5 (2), 336.
Ost, F. (1984). Faktorenanalyse. In L. Fahrmeir & A. Hamerle (Hrsg.), Multivariate statistische
Verfahren (S. 575–632). Berlin, New York: Walter de Gruyter.
Ostendorf, F. & Angleitner, A. (2004). NEO-Persönlichkeitsinventar (NEO-PI-R). Göttingen:
Hogreve.
Otis, A. S. (1918). An absolute point scale for the group measurements of intelligence. Journal
of Educational Psychology, 9 (5), 239–261.
Papineau, D. (1996). Philosophy of science. New York: Wiley.
Pavelka, J. (1979). On fuzzy logic i, ii, iii. Zeitschrift für mathematische Logik und Grundlagen der
Mathematik, 25, 45–52,119–134,447–464.
Pearl, J. (2000). Causality: models, reasoning and inference. Cambridge: Cambridge University
Press.
Peirce, C. S. (1983). Existential graphs. In H. Pape (Hrsg.), Charles Sanders Peirce: Phänomen und
Logik der Zeichen. Berlin: Suhrkamp.
Perline, R., Wright, B. D. & Wainer, H. (1979). The rasch model as additive conjoint measure-
ment. Applied Psychological Measurement, 3, 237-255.
Pfanzagl, J. (1968). Theory of measurement. New York: Wiley.
Pfeifer, W. (1993). Etymologisches Wörterbuch des Deutschen. 2. Auflage (Bd. 2). Berlin: Akademie-
Verlag.
Pollandt, S. (1997). Fuzzy-Begriffe. Formale Begriffsanalyse unscharfer Daten. Berlin, Heidelberg:
Springer.
Popescu, A. (2004). A general approach to fuzzy concepts. Mathematical Logic Quarterly, 50 (3),
265-280.
Popper, K. R. (1959). The propensity interpretation of probability. British Journal of the Philosophy
of Science, 37, 25–42.
Popper, K. R. (1995). Eine Welt der Propensitäten. Tübingen: Mohr Siebeck.
Post, E. L. (1921). Introduction to a general theory of elementary propositions. American Journal
of Mathematics, 43, 163–185.
Priest, G. (2008). An Introduction to Non-Classical Logic. From if to is. 2nd edition. Cambridge:
Cambridge University Press.
Literaturverzeichnis 175

Rasch, G. (1960). Probabilistic models for some intelligence and achievement tests. Kopenhagen:
Danish Institute for Educational Research (Expanded edition, 1980. Chicago: University
of Chicago Press).
Rautenberg, W. (2008). Einführung in die Mathematische Logik. Berlin, Heidelberg: Springer.
Raven, J. C. (1965). Advanced progressive matrices, sets i and ii. London: H. K. Lewis.
Raven, J. C. & Court, J. H. (1990). Standard progressive matrices. Oxford: Oxford Psychologists
Press.
Ribeiro, R. A. (1996). Fuzzy multiple attribute decision making: A review and new preference
elicitation techniques. Fuzzy Sets and Systems, 78 (2).
Rieger, C. (1888). Beschreibung der Intelligenzstörungen in Folge einer Hirnverletzung nebst
einem Entwurf zu einer allgemein anwendbaren Methode der Intelligenzprüfung. Würzburg:
Stahel’schen Universitäts-Buch- und Kunsthandlung.
Rorschach, H. & Oberholzer, E. (1923). Zur Auswertung des Formdeutversuchs für die
Psychoanalyse. Zeitschrift für die gesamte Neurologie und Psychiatrie, 82 (1), 240–274.
Rosch, E. H. (1973). Natural categories. Cognitive Psychology, 4, 328-350.
Rost, D., Sparfeldt, J. & Schilling, S. (2006). Hochbegabung. Leistung und Leistungsdiagnostik,
187–222.
Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion. Zweite, vollständig überarbeitete und erweiterte
Auflage. Bern, Stuttgart, Wien: Verlag Hans Huber.
Roubens, M. (1997). Fuzzy sets and decision analysis. Fuzzy Sets and Systems, 90 (2), 199–206.
Rozeboom, W. W. (1958). Studies in the empiricist theory of scientific meaning. Philosophy of
Science, 27 (4), 359-373.
Rozeboom, W. W. (1962). The factual content of theoretical concepts. In H. Feigl & G. Maxwell
(Eds.), Minnesota studies in the philosophy of science (Vol. 3, pp. 257-273). Minneapolis:
University of Minnesota Press.
Russell, B. (1908). Mathematical logic as based on the theory of types. American Journal of
Mathematics, 30 (3), 222–262.
Russell, J. A. & Fehr, B. (1994). Fuzzy concepts in a fuzzy hierarchy: Varieties of anger. Journal
of Personality and Social Psychology, 67 (2), 186-205.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.
Psychometrika Monograph Supplement, 34.
Schlaudt, O. (2009). Messung als konkrete Handlung. Eine kritische Untersuchung über die Grundla-
gen der Bildung quantitativer Begriffe in den Naturwissenschaften. Würzburg: Königshausen
und Neumann.
Scott, D. & Suppes, P. (1958). Foundational aspects of theories of measurement. The Journal of
Symbolic Logic, 23 (2), 113–128.
Seising, R. (2012). Fuzzy sets and systems before the fuzzy boom. Communications in Computer
and Information Science, 297 (1), 541-551.
Sheng, Y. & Wikle, C. (2008). Bayesian multidimensional IRT models with a hierarchical
structure. Educational and Psychological Measurement, 68 (3), 413–430.
Skala, H. J. (1978). On many-valued logics, fuzzy sets, fuzzy logics and their applications.
Fuzzy Sets and Systems, 1 (2), 129–149.
Slaney, K. (2001). On empirical realism and the defining of theoretical terms. Journal of
Theoretical and Philosophical Psychology, 21 (2), 132-152.
Slaney, K. & Racine, T. (2013). What’s in a name? psychology’s ever evasive construct. New
Ideas in Psychology, 31 (1), 4-12.
Słupecki, J. (1936). Der volle dreiwertige Aussagenkalkül. Comptes rendus des séances de la
Société des Sciences et des Lettres de Varsovie, Classe III, 29, 9–11.
176 Literaturverzeichnis

Sörbom, D. (1974). A general method for studying differences in factor means and factor
structure between groups. British Journal of Mathematical and Statistical Psychology, 27
(2), 229–239.
Soto, d. A. R. (2011). A hierarchical model of a linguistic variable. Information Sciences, 181,
4394-4408.
Spearman, C. (1904). „General intelligence“, objectively determined and measured. The
American Journal of Psychology, 15 (2), 201–292.
Spray, J. (1987). Recent developments in measurement and possible applications to the
measurement of psychomotor behavior. Research Quarterly for Exercise and Sport, 58 (3),
203–209.
Stace, W. T. (1958). Some misinterpretations of empiricism. Mind, 67 (2), 465-484.
Stern, W. (1912). Die psychologischen Methoden der Intelligenzprüfung und deren Anwendung an
Schulkindern. Leipzig: Barth.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677–680.
Suppes, P. (1951). A set of independent axioms for extensive quantities. Portugaliae Mathematica,
10 (2), 163–172.
Suppes, P., Krantz, D. M., Luce, R. D. & Tversky, A. (1989). Foundations of measurement, vol. 2:
Geometrical, threshold, and probabilistic representations. New York: Academic Press.
Suppes, P. & Winet, M. (1955). An axiomatization of utility based on the notion of utility
differences. Management Science, 1 (3), 259–270.
Taheri, S. (2003). Trends in fuzzy statistics. Austrian Journal of Statistics, 32 (3), 239–257.
Tan, P., Steinbach, M. & Kumar, V. (2006). Introduction to data mining. Boston: Pearson Addison
Wesley.
Taylor, J. R. (1997). An introduction to error analysis: The study of uncertainties in physical
measurements, 2nd edition. Sausalito: University Science Books.
Taylor, J. R. (2003). Linguistic categorization: Prototypes in liguistic theory. 3rd edition. Oxford:
Oxford University Press.
Terman, L. M. (1916). The measurement of intelligence: An explanation of and a complete guide for
the use of the Stanford revision and extension of the Binet-Simon intelligence scale. Boston:
Houghton Mifflin Company.
Tewes, U. & Wechsler, D. (1991). Hamburg-Wechsler-Intelligenztest für Erwachsene: HAWIE-R.
Bern: Huber.
Thurstone, L. L. (1931). The measurement of social attitudes. Journal of Abnormal and Social
Psychology, 26, 249–269.
Thurstone, L. L. (1938). Primary mental abilities. In Psychometric monographs, No 1. Chicago:
University of Chicago Press.
Thurstone, L. L. (1954). An analytical method for simple structure. Psychometrika, 19, 173–182.
Van Fraassen, B. (1980). The scientific image. Oxford: Oxford University Press.
von Davier, M. & Carstensen, C. (2007). Multivariate and mixture distribution Rasch models:
Extensions and applications. Berlin, Heidelberg: Springer.
Wajsberg, M. (1931). Axiomatization of the 3-valued propositional calculus. Comptes rendus des
séances de la Société des Sciences et des Lettres de Varsovie, Classe III, 24, 126–148.
Wang, Y. (2009). Qualification and quantification of fuzzy linguistic variables and fuzzy
expressions. In Proceedings of the 2009 8th IEEE International Conference on Cognitive
Informatics, ICCI 2009 (pp. 256-263).
Wechsler, D. (1949). Manual for the Wechsler Intelligence Scale for Children. New York: Psycholo-
gical Corporation.
Weiß, R. (2006). Grundintelligenztest Skala 2, CFT 20-R. Göttingen: Hogrefe.
Literaturverzeichnis 177

Wermke, M., Klosa, A., Kunkel-Razum, K. & Scholze-Stubenrecht, W. (Hrsg.). (2001). Du-
den. Herkunftswörterbuch. Etymologie der deutschen Sprache. 3., völlig neu bearbeitete und
erweiterte Auflage. Mannheim, Leipzig, Wien, Zürich: Dudenverlag.
Westermann, R. (1982). Zur Messung von Einstellungen auf Intervallskalenniveau. Zeitschrift
für Sozialpsychologie, 13, 97-108.
Westmeyer, H. (1997). On the causal status of structural concepts in personality psychology.
Personality Psychology in Europe, 6, 17–26.
Wiley, D., Schmidt, W. & Bramble, W. (1973). Studies of a class of covariance structure models.
Journal of the American Statistical Association, 86, 317–323.
Williamson, T. (1994). Vagueness. London: Routledge.
Woodworth, R. S. (1919). Examination of emotional fitness in warfare. Psychological Bulletin,
16, 59–60.
Worrall, J. (1982). Scientific realism and scientific change. The Philosophical Quarterly, 32 (128),
201-231.
Xu, B., Kang, D., Lu, J., Li, Y. & Jiang, J. (2005). Mapping fuzzy concepts between fuzzy
ontologies. Lecture Notes in Computer Science, 3683, 199–205.
Yager, R. R. (1997). Fuzzy logics and artificial intelligence. Fuzzy Sets and Systems, 90 (2),
193–198.
Yager, R. R. & Zadeh, L. A. (1992). An introduction to fuzzy logic applications in intelligent systems.
Dordrecht, Boston, London: Kluwer.
Ying, H. (2000). Fuzzy control and modeling: Analytical foundations and applications. New York:
Wiley.
Zadeh, L. A. (1965). Fuzzy sets. Information and Control, 8 (3), 338–353.
Zadeh, L. A. (1971). Quantitative fuzzy semantics. Information Sciences, 3 (2), 159–176.
Zadeh, L. A. (1972). Fuzzy languages and their relation to human and machine intelligence.
In Proceedings of the International Symposium on System Science and Cybernetics (pp. 1607–
1617). Oxford University.
Zadeh, L. A. (1975a). The concept of a linguistic variable and its application to approximate
reasoning i. Information Sciences, 8 (3), 199–251.
Zadeh, L. A. (1975b). The concept of a linguistic variable and its application to approximate
reasoning ii. Information Sciences, 8 (4), 301–357.
Zadeh, L. A. (1975c). The concept of a linguistic variable and its application to approximate
reasoning iii. Information Sciences, 9, 43–80.
Zadeh, L. A. (1978). PRUF—a meaning representation language for natural languages.
International Journal of Man-Machine Studies, 10 (4), 395–460.
Zadeh, L. A. (1979). A theory of approximate reasoning. In J. E. Hayes, D. Michie & L. Mikulich
(Eds.), , Machine intelligence (3rd edition) (pp. 149–194). Amsterdam: Elsevier.
Zadeh, L. A. (1982). A note on prototype theory and fuzzy sets. Cognition, 12 (3), 291–297.
Zeteni, T. E. (1988). Fuzzy sets in psychology. Amsterdam: Elsevier.
Ziehen, T. (1908). Die Prinzipien und Methoden der Intelligenzprüfung: nach einem Vortrag auf dem
Internationalen Kongreß in Amsterdam i. J. 1907. Berlin: Karger.
Zimmermann, H. (2001). Fuzzy set theory – and its applications. Berlin, Heidelberg: Springer.