Psychologische Tests
und mehrwertige Logik
Ein alternativer Ansatz zur Quantifi-
zierung psychologischer Konstrukte
Matthias Buntins
Bamberg, Deutschland
Springer VS
© Springer Fachmedien Wiesbaden 2014
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung,
die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zu-
stimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Über-
setzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen
Systemen.
Springer VS ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe
Springer Science+Business Media.
www.springer-vs.de
Ronja & Katja
Inhaltsverzeichnis
1 Einleitung 11
6 Fazit 49
12 Diskussion 145
12.1 Übersicht und Vergleich der vorgestellten Ansätze . . . . . . 145
12.2 Empirische Anwendungsmöglichkeiten . . . . . . . . . . . . 147
12.2.1 Anwendungsgebiete . . . . . . . . . . . . . . . . . . . 147
12.2.2 Testkonstruktion . . . . . . . . . . . . . . . . . . . . . 148
12.2.3 Testauswertung . . . . . . . . . . . . . . . . . . . . . . 152
12.2.4 Interpretation von Testwerten . . . . . . . . . . . . . . 155
12.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A Anhang 161
Symbolverzeichnis 165
Literaturverzeichnis 167
1 Einleitung
Teil I widmet sich diesem als Psychometrie bezeichneten Ansatz der for-
malen Modellierung psychologischer Testverfahren. Dabei geht es zunächst
um eine Analyse der Begriffe „Messen“ und „Testen“ (Kapitel 3 und 4). Dies
geschieht zum einen historisch-etymologisch, zum anderen aber auch in
formaler Weise. Im Anschluss werden die gängigsten psychometrischen Me-
thoden kurz vorgestellt und hinsichtlich ihrer Eignung für die Etablierung
psychologischer Messinstrumente evaluiert (Kapitel 5). Kapitel 6 zieht ein
Zwischenfazit. Dabei liegt der Fokus zum einen auf der Frage, inwieweit die
Begriffe „Messen“ und „Testen“ sprachlich und konzeptionell voneinander
abgrenzbar sind, und zum anderen, ob die psychometrische Betrachtungs-
weise geeignet ist, um die Auswertung und Interpretation von Tests formal
zu begründen.
In Teil II wird eine von der psychometrischen Sichtweise radikal verschie-
dene Betrachtungsweise psychologischer Tests vorgestellt. Dafür wird in
Kapitel 8 eine Interpretation psychologischer Konstrukte im Sinne sprach-
licher Abstraktionen vorgenommen und formalisiert. Dabei wird auf den
Formalismus der Fuzzy-Mengenlehre zurückgegriffen. Die Kapitel 9 bis 11
ergänzen diesen Formalismus um Methoden der formalen Logik, welche
zur Inferenz des Wahrheitsgehalts bestimmter Aussagen aus Prämissen
mit bekanntem Wahrheitsgehalt verwendet werden kann. Durch die Ein-
führung mehrwertiger Logiken zur Modellierung von Testantworten und
Konstruktausprägungen wird es möglich, quantitative Aussagen über den
Wahrheitsgehalt von Eigenschaftszuschreibungen zu treffen, ohne dass auf
ein Messmodell zurückgegriffen werden muss. Die Ergebnisse der Formali-
sierung von Tests im Rahmen formal-logischer Inferenz werden schließlich
in Kapitel 12 hinsichtlich ihrer praktischen Implikationen und Relevanz
diskutiert.
Teil I
Inhalt der Psychometrie ist die Entwicklung und Anwendung von Me-
thoden zur Etablierung psychologischer Erhebungen als Messinstrumente.
Die zu diesem Zweck entwickelten Verfahren sind vielfältig und ständi-
gen Neuerungen unterworfen. Kaum ein Gebiet der psychologischen For-
schungsmethodik hat in den letzten Jahren so viele Neuentwicklungen
verzeichnet wie die Psychometrie. Vor allem die Bereiche der Strukturglei-
chungsmodelle und der Item Response Theory stellen äußerst lebendige
Forschungsfelder dar. Trotz unterschiedlicher methodischer Vorgehens-
weisen werden diese Ansätze vereint durch das, was in dieser Arbeit die
„Kernthese der Psychometrie“ genannt werden soll: Psychologische Tests
sollen (i.d.R. nicht direkt beobachtbare) Personeneigenschaften messen.
Diese These kann sowohl a priori als wahr angesehen werden (wie et-
wa im Falle der Klassischen Testtheorie) oder als empirisch zu prüfende
Hypothese (wie im Falle der Item Response Theory). So verschieden psycho-
metrische Ansätze auch sein mögen, letztlich basieren sie auf der Annahme,
Tests seien als Messinstrumente zu betrachten.
Diese Kernannahme ist jedoch nicht unproblematisch. So ist beispiels-
weise oft nicht klar, was genau mit den Begriffen „Messung“ und „Test“
gemeint ist. Daraus resultieren eine ganze Menge theoretischer Fragen be-
züglich der Anwendung und Interpretation psychometrischer Techniken:
Sind alle Tests automatisch Messinstrumente? Handelt es sich dabei um
eine Interpretationsfrage? Kann man empirisch überprüfen, ob ein Test
etwas misst? Welche Konsequenzen ergeben sich, wenn ein Test kein Mess-
instrument ist?
Aufgrund der zentralen Rolle, welche die Begriffe „messen“ und „testen“
für diese Fragen spielen, sollen selbige im Folgenden einer ausgiebigen
begrifflichen Analyse unterzogen und in Hinblick auf ihre Relevanz für die
Psychometrie untersucht werden.
Messung wurde einfach neu definiert. Dieser Ansatz geht auf Stevens (1946)
zurück, welcher bemüht war, die bis dahin gängigen Praktiken der Psy-
chophysik mit dem Konzept der naturwissenschaftlichen Messung über-
einzubringen. In seinem Artikel über Skalenniveaus definiert er Messung
folgendermaßen:
. . . measurement, in the broadest sense, is defined as the as-
signment of numerals to objects or events according to rules.
(Stevens, 1946; S.677)
Diese Definition beinhaltet sowohl die traditionelle Auffassung von Mes-
sung als Vergleich mit einer Einheit als auch sämtliche in der Psychologie
üblichen Testpraktiken. Allerdings werden ebenfalls Prozeduren mit ein-
geschlossen, welche üblicher Weise nicht als Messung bezeichnet werden,
zum Beispiel das Ablesen von Zellennummern im Gefängnis oder das Zu-
ordnen von Postleitzahlen zu Orten. Da die Zahlenzuordnung lediglich
„regelhaft“ sein muss (und nicht replizierbar oder theoretisch begründet),
wären sogar das Notieren von KFZ-Kennzeichen oder das Lesen von Zah-
len im Kaffeesatz als Messungen zu betrachten. Stevens verabschiedet sich
somit vom Konzept der Eigenschaft, die in Messwerte überführt wird und
setzt an seine Stelle eine beliebige Regel, welche Zahlenwerte generiert.
Letztere sind dementsprechend im Hinblick auf Eigenschaftsausprägungen
nicht bedeutungstragend.
Ein alternativer Ansatz beruht auf der Idee der numerischen Eigenschafts-
abbildung. Er geht auf Suppes (1951) zurück, der die Ideen Hölders aufgriff
und zur repräsentationalen Theorie der Messung weiterentwickelte. Die re-
präsentationale Messtheorie fordert, dass Messwerte mehr als regelhaft
zugeordnete Zahlenwerte sind – sie sollen Eigenschaftsausprägungen wider-
spiegeln, welche auf empirisch beobachtbaren Vergleichsoperationen basieren.
Diese Vergleichsoperationen werden in Form mathematischer Relationen
beschrieben. Dementsprechend wird „Messung“ als numerische Abbildung
empirischer Relationen definiert. Diese Definition ist allgemeiner als die klas-
sische Auffassung von Messung, da sie auch die numerische Abbildung
nicht additiver Größen mit einbezieht. Gleichzeitig beinhaltet sie jedoch
eine strukturelle Beziehung zwischen Messwerten und entsprechenden Ei-
genschaften. Nur wenn für eine Eigenschaft ganz bestimmte Bedingungen
erfüllt sind, lässt sie sich auch bedeutungsvoll in Zahlenwerte abbilden
(Finkelstein & Leaning, 1984). Interessanter Weise ermöglicht der formale
Rahmen der repräsentationalen Messtheorie auch die Abbildung quantitati-
ver Strukturen (im Sinne Hölders), die ohne eine empirische Entsprechung
3.2 Repräsentationale Messtheorie 21
R, ≥, +, ÷, oder die Menge der natürlichen Zahlen mit Größer-Gleich-
Relation und Addition N, ≥, +.
Analog dazu lässt sich ein empirisches Relativ definieren:
Definition 2. Ein System A1 , . . . , As , R1 , . . . , Rm , bestehend aus mindestens
einer2 Menge empirischer Objekte Ai (z.B. Bäume oder Menschen) und mindestens
einer empirischen Relation R j auf dem kartesischen Produkt mindestens einer
dieser Objektmengen, heißt empirisches Relativ.
Synonym zum Begriff des empirischen Relativs sind die Bezeichnungen
empirische Struktur, empirisches System oder empirisches Relationensystem.
Ein empirisches Relativ ist zum Beispiel die Menge der erlernbaren Berufe
B mit einer empirischen Dominanzrelation , die darin besteht, dass eine
bestimmte Person einen Beruf bi lieber erlernen will als einen Beruf b j .
Das resultierende empirische Relativ wäre dann B, . Im Gegensatz zur
Größer-Relation > bezeichnet keine Relation zwischen Zahlen, sondern
zwischen empirischen Objekten. Es geht also nicht darum, ob bestimmte
den Objekten zugeordnete Zahlen größer sind, sondern – im obigen Fall –
um das direkte (qualitative) Urteil einer bestimmten Person. Empirische
Relationen beziehen sich in der repräsentationalen Messtheorie auf ganz
konkrete, elementare Beobachtungseinheiten, welche einem geordneten
Paar empirischer Objekte entweder zukommt oder nicht.
Als nächstes zentrales Konzept soll der Begriff der Abbildung und des
Homomorphismus eingeführt werden.
Definition 3. Eine linkstotale, rechtseindeutige Relation A → B auf A × B wird
Abbildung der Objektmenge A in die Objektmenge B genannt.
„Linkstotal“ bedeutet, dass jedem Objekt aus A ein Objekt aus B zu-
geordnet wird, jedoch nicht unbedingt jedem Objekt aus B eines aus A.
„Rechtseindeutig“ steht für den Sachverhalt, dass jedem Objekt aus A genau
ein Objekt aus B zugeordnet wird. Davon abzugrenzen sind so genannte
eineindeutige Abbildungen, welche sowohl rechtseindeutig als auch linksein-
deutig sind.
Messung soll nun darin bestehen, dass die empirischen Objekte in A
auf numerische Objekte (i.d.R. Zahlen) abgebildet werden, und zwar so,
dass die relationale Struktur erhalten bleibt. Konkret bedeutet dies, dass em-
pirischen Objekten (z.B. zwei Berufen), die in einer bestimmten Relation
2 Empirische Relationen treten im Gegensatz zu numerischen Relationen auch zwischen
verschiedenen Objekttypen auf (z.B. zwischen Personen und Fragebogenitems). Daher
wird die Definition an dieser Stelle etwas weiter gefasst als beim numerischen Relativ.
3.2 Repräsentationale Messtheorie 25
auf S × S) festgelegt, sowie das „Zusammenfügen“ von Steinen,
indem sie gemeinsam in eine der Waagschalen gelegt werden (dies
sei als Operation ⊕ auf S × S → S spezifiziert)3 .
2. Als nächstes werden die vermuteten Charakteristika des obigen empi-
rischen Relativs S,
, ⊕ in Form eines Axiomensystems formuliert.
Dabei wird statt ( a
b) ∧ (b
a) die Kurzschreibweise a ∼ b ver-
wendent. ( a
b) ∧ ¬ (b
a) wird als a b abgekürzt.
a)
ist reflexiv: ∀ a ∈ S : a
a.
b)
ist transitiv: ∀ a, b, c ∈ S : ( a
b) ∧ (b
c) → ( a
c).
c)
ist verbunden: ∀ a, b ∈ S : ( a
b) ∨ (b
a).
d) ⊕ ist schwach assoziativ: ∀ a, b, c ∈ S : a ⊕ (b ⊕ c) ∼ ( a ⊕ b) ⊕ c.
e) S,
, ⊕ ist monoton:
∀ a, b, c ∈ S : ( a
b) ↔ ( a ⊕ c)
(b ⊕ c) ↔ (c ⊕ a)
(c ⊕ b).
f) S,
, ⊕ ist positiv: ∀ a, b, c ∈ S : ( a ⊕ b) a.
g) S,
, ⊕ ist archimedisch: ( a
b) → ∀c, d ∈ S : ∃n ∈ N, so
dass (na ⊕ c)
(nb ⊕ d) mit n definiert als: 1a = a, (n + 1) a =
na ⊕ a.
3. Aus den genannten Axiomen wird nun folgendes Repräsentationstheo-
rem hergeleitet: Gelten die Axiome 2a bis 2g für ein empirisches Relativ
S,
, ⊕, so existiert eine reellwertige Funktion Φ auf S (Φ : A → R ), so
dass gilt ∀ a, b ∈ S :
a) a
b → Φ ( a) ≥ Φ (b);
b) Φ ( a ⊕ b) = Φ ( a) + Φ (b).
4. Schließlich wird folgendes Eindeutigkeitstheorem abgeleitet: Gelten die
Axiome 2a bis 2g für ein empirisches Relativ S,
, ⊕, so erfüllt eine Funk-
tion Φ ebenfalls die Bedingungen 3a und 3b, dann und genau dann, wenn
∃α > 0, so dass Φ = αΦ.
Die ersten drei Axiome beschreiben die Eigenschaften der empirischen
Dominanzrelation. Sie soll reflexiv, transitiv und verbunden sein und stellt
3 Operationen sind Abbildungen aus dem kartesischen Produkt einer Menge mit sich selbst
in die ursprüngliche Menge – das heißt jedem geordneten Paar aus S × S wird genau ein
Objekt aus S zugeordnet. Da Abildungen gemäß Definition 3 lediglich eine spezielle Art
der Relation sind, kann die Zusammenfügeoperation ⊕ auch als dreistellige Relation auf
S × S × S charakterisiert werden.
3.2 Repräsentationale Messtheorie 27
somit eine schwache Ordnung dar. Das bedeutet, dass alle Objekte in S sich
in eine eindeutige Rangfolge hinsichtlich der verglichenen Eigenschaft brin-
gen lassen müssen, wobei es jedoch nicht ausgeschlossen ist, dass mehrere
Objekte auf der gleichen Stufe dieser Rangordnung stehen. Diese Charakte-
risierung allein würde bereits ausreichen, um einen Homomorphismus des
empirischen Systems S,
in die reellen Zahlen zu ermöglichen, welcher
eindeutig bis auf monotone Transformationen ist. Die Schwache-Ordnungs-
Axiome garantieren somit eine Messung auf Ordinalskalenniveau.
Um eine Abbildung der Struktur auf Intervallskalenniveau zu ermög-
lichen, werden in den folgenden Axiomen bestimmte Eigenschaften für
die Zusammenfügeoperation ⊕ formuliert. Die empirische Zusammenfü-
geoperation soll schwach assoziativ sein, das heißt, es muss egal sein, in
welcher Reihenfolge man Objekte zusammenfügt, das Resultat muss stets
gleich sein. Ferner wird Monotonie gefordert. Das bedeutet, dass die Rang-
folge von Objekten nicht verändert wird, wenn man zu jedem Objekt der
Rangfolge ein konstantes Objekt hinzufügt. Positivität bedeutet schlichtweg,
dass ein Objekt niemals größer sein kann als die Kombination dieses Ob-
jekts mit einem beliebigen anderen. Schließlich wird gefordert, dass die
gesamte Struktur S,
, ⊕ archimedisch ist. Dieses Axiom bezieht sich auf
eine Eigenschaft so genannter Standardsequenzen (das sind Abfolgen von
Eigenschaftsausprägungen mit identischem Abstand, welche durch das
wiederholte Zusammenfügen eines Objekts mit sich selbst gebildet werden
– also z.B. ein Zollstock). Es bedeutet, dass egal, wie groß der Unterschied
zwischen zwei Objekten ist, er stets durch die Zusammenfügung mit zwei
Standardsequenzen identischer Objektzahl ausgeglichen werden kann. Dies
ist genau dann der Fall, wenn alle streng begrenzten Standardsequenzen
endlich sind (Krantz et al., 1971).
Extensive Messstrukturen finden sich in vielen empirischen relationalen
Systemen, die physikalischen Größen zugrunde liegen (z.B. Länge, Gewicht,
Zeitdauer). In der Psychologie ist diese Art Struktur eher selten, da es
mit großen Schwierigkeiten verbunden ist, für psychologische Variablen
empirische Zusammenfügeoperationen zu definieren.
Umsetzung der resultierenden Messung. Oft gibt es mehr als eine Mög-
lichkeit, Objekten Zahlen zuzuordnen, welche die empirischen Relationen
erhalten. Diese reichen vom direkten Vergleich mit einer Einheit über den
Gebrauch von Standardsequenzen bis hin zur direkten Konstruktion der
numerischen Abbildung aus einem System empirischer Ungleichungen.
Die konkrete Umsetzung der Zahlenzuordnung wird Operationalisierung
genannt. Eine Operationalisierung besteht in einer konreten Handlungsan-
weisung, die im gewünschten Homomorphismus resultieren muss. Ope-
rationalisierung in diesem Sinne muss abgegrenzt werden vom Konzept
der „operationalen Definition“, welches die Operation als Definition eines
abstrakten Begriffs versteht. Diese Unterscheidung ist insbesondere für
die folgende Abgrenzung zwischen psychologischen Tests und psychologi-
schen Messungen von Bedeutung.
4 Der Begriff des Testens
1 Einealternative etymologische Herleitung findet sich bei Bluhme (2005), welcher den alt-
französischen Begriff „test“ auf das lateinische „testis“ (Zeuge) zurückführt.
auf die formale Beschaffenheit von Tests beziehen, bezieht Krauth (1995)
eine inhaltliche Komponente mit ein, indem er Tests als bestehend aus
einer Menge von Reizen und einer Vorschrift, die den Reaktionsmustern
Ausprägungen latenter Variablen zuordnet, konzeptionalisiert. Noch expli-
ziter werden Lienert und Raatz (1998), welche einen psychologischen Test
definieren als „. . . wissenschaftliches Routineverfahren zur Untersuchung
eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit
dem Ziel einer möglichst quantitativen Aussage über den relativen Grad
der individuellen Merkmalsausprägung“ (S.1). J. Rost (2004) ergänzt diese
Definition um den Aspekt der Erhebung qualitativer Merkmale.
All diesen Definitionen ist gemeinsam, dass sie Tests als Mittel zur stan-
dardisierten Informationsgewinnung über Personen betrachten, deren Er-
gebnis in der Regel Zahlenwerte sind. Diese können entweder als bloße
Beschreibung verstanden werden oder als Merkmalsausprägungen. Auffällig
ist die Veränderung der Grundbedeutung „Prüfung“ in Richtung „Quantifi-
zierung“. Es geht nicht mehr in erster Linie um das Überprüfen bestimmter
Qualitäts- bzw. Eignungskriterien, sondern um die Generierung von Zahlen
oder Kennwerten. Die Definitionen von Lienert und Raatz (1998), Krauth
(1995) und J. Rost (2004) fügen darüber hinaus den Aspekt der Merkmalser-
fassung in das Konzept des Testens ein. Dadurch wird das Anwendungsge-
biet psychologischer Tests beschränkt auf solche standardisierte Prozeduren,
welche zu Messungen führen.
Es ist fraglich, wie sinnvoll die Vermischung des Testkonzeptes mit dem
des Messens ist. Würde man dieser Auffassung folgen, wären Tests, deren
Ergebnisse keine Messungen darstellen, per Definition keine Tests mehr.
Wenn sich zum Beispiel für einen Intelligenztest herausstellt, dass er dem
entsprechenden Messmodell nicht genügt (wie etwa die Matrizentests von
Raven (1965), welche laut Formann (1979) nicht raschskalierbar sind), dürfte
man ihn fortan nicht mehr als Intelligenztest bezeichnen.
Dies entspricht nicht dem tatsächlichen Sprachgebrauch praktizierender
und forschender Psychologen (es existiert nicht einmal ein Wort für „Tests,
bei denen sich herausgestellt hat, dass sie keine Messinstrumente sind“).
Deshalb soll im Folgenden den rein formalen Definitionen gefolgt werden,
die Tests unabhängig vom Konzept der Messung beschreiben. Ein Test ist
ein Test allein aufgrund seiner formalen Beschaffenheit als standardisierte
Erhebungsprozedur zur Gewinnung von personengebundenen Zahlenwer-
ten. Ob es sich dabei um theoretisch begründete Messwerte oder lediglich
um beschreibende Kennwerte handelt, ist demnach keine definitorische,
sondern eine empirische Frage.
4.2 Geschichtliche Entwicklung des psychologischen Testens 31
und Gruppentestung variieren, wobei letztere auf pen and paper sowie
computergestütze Erhebungsmethoden angewiesen sind. Lienert und Raatz
ergänzen Abgrenzungskriterien bezüglich der Auswertung, indem sie nor-
morientierte und kriteriumsorientierte Tests abgrenzen. Normorientierte
Verfahren vergleichen die Testrohwerte mit der entsprechenden Verteilung
einer Bezugspopulation, Kriteriumsorientierte Verfahren setzen ein externes
Bewertungskriterium ein, mit welchem die Rohwerte verglichen werden.
Auch wenn die vorgeschlagenen Kategorisierungsversuche psycholo-
gischer Tests sich teilweise unterscheiden und an einigen Stellen sogar
widersprüchlich sind, geben sie einen guten Überblick über das Methoden-
repertoire der Psychometrie. Dabei ist hervorzuheben, dass insbesondere
Fragebögen eine herausragende Stellung in der psychologischen Testpraxis
einnehmen. Abgesehen von sensumotorischen Fähigkeitstests, objektiven
Persönlichkeitstests und den meisten projektiven Verfahren beziehen sich
die genannten Kategorien durchweg auf Erhebungen mit Fragebögen. Da-
her wird der Begriff des psychologischen Tests im Folgenden in aller Regel
als synonym zu standardisierten psychologischen Fragebögen gebraucht.
aufbauend werden der absolute Fehler als Differenz zwischen richtigem Wert
und gemessenem Wert definiert sowie ein relativer Fehler, indem dieser
Wert ins Verhältnis zum richtigen Wert gesetzt wird (Deutsches Institut für
Normung, 1999).
1888 führte Edgeworth diese Vorstellung in die Psychologie ein und
wandte sie auf die Interpretation psychologischer Tests an. Edgeworth
schlug vor, die Bewertung von Essays im schulischen Kontext auf die gleiche
Art zu interpretieren wie eine physikalische Messung: Die unterschiedlichen
Noten, welche verschiedene Lehrer ein und demselben Essay zuordnen,
sollten im Sinne eines zufälligen Fehlers betrachtet werden, welcher die
„tatsächliche“ Note verwässert. Formal drückte er diese Vorstellung dadurch
aus, dass er den beobachteten Wert (X) als Summe eines wahren Wertes (T)
und eines Fehlers (E) beschrieb:
X = T+E (5.1)
Diese Vorstellung wurde erst ein gutes halbes Jahrhundert später von
Gulliksen (1950) systematisiert und zu einer formalen Theorie psycholo-
gischer Testwerte ausgearbeitet. Im Laufe der folgenden Jahre wurden
immer wieder Änderungen und Erweiterungen vorgenommen, bis Lord
und Novick (1968) schließlich ihre bis heute aktuelle Form der Klassischen
Testtheorie vorlegten.
Auch wenn die beiden Fomulierungen logisch äquivalent sind, weisen sie
doch einen wesentlichen inhaltlichen Unterschied auf. Während Gulliksen
den „wahren Wert“ als tatsächlich existierende Größe zu verstehen scheint,
welcher man sich mittels möglichst genauer Messungen zu nähern versucht,
betrachten Lord und Novick „wahre Werte“ als bloße Konstruktionen, die
nicht einmal mit der zu erfassenden Eigenschaft übereinstimmen müssen
(Lord & Novick, 1968). Dieser Unterschied findet sich auch in den ver-
schiedenen Axiomatisierungen der Theorie wieder: Während Gulliksen
die numerische Gleichheit zwischen dem Erwartungswert unendlich vie-
ler Messungen und dem „wahren Wert“ als Theorem herleitet, ist dieser
Zusammenhang bei Lord und Novick ein Axiom. Entsprechend dieser un-
terschiedlichen Interpretation des „wahren Wertes“ liegt der Schwerpunkt
bei Lord und Novick in der Frage, wie gut ein Test zwischen verschiedenen
Personen differenzieren kann, also wie reliabel er ist, unabhängig davon, was
erfasst wird. Gulliksen hingegen führt als zentrales Konzept der Testgüte
die Varianz des Messfehlers ein, also wie fehlerfrei ein Test ein bestimmtes
Merkmal erhebt. Praktisch lässt sich die Messfehlervarianz zwar nur über
die Reliabilität schätzen, allerdings spiegelt sich in der unterschiedlichen
5.1 Klassische Testtheorie 41
2 Eventuell wäre eine Reinterpretation des formalen Anteils der Klassischen Testtheorie
unabhängig vom Konzept der Messung möglich. Allerdings wäre eine solche Interpretation
sicher nicht im Sinne der Erfinder der Klassischen Testtheorie.
42 5 Tests als Messinstrumente
5.2 Strukturgleichungsmodelle
Während die Klassische Testtheorie den Zusammenhang zwischen Eigen-
schaft und Messwert entweder definitorisch festlegt (Lord & Novick, 1968)
oder als empirische Tatsache ungeprüft voraussetzt (Gulliksen, 1950), ver-
folgt der Ansatz der Strukturgleichungsmodelle (engl. „Structural Equation
Models“ – SEM) das Ziel, diesen Zusammenhang in Form eines explizi-
ten mathematischen Modells zu spezifizieren, welches nach Möglichkeit
empirisch prüfbar sein soll.
Als historischer Vorläufer des Ansatzes kann das von Spearman (1904)
entwickelte Verfahren der Faktorenanalyse betrachtet werden. Das fakto-
renanalytische Modell besteht darin, dass eine empirische Itemkorrelations-
matrix durch eine Linearkombination einiger (weniger) latenter Faktoren
erklärt wird (Everitt, 1999; Ost, 1984). Dabei werden die Itemantworten
jeweils durch eine Linearkombination der zu Grunde gelegten Faktoren
beschrieben. Formal lässt sich das Modell fogendermaßen ausdrücken:
x = μ + Λf + e (5.2)
Dabei steht der Vektor x für die Itemantworten, der Vektor μ für die Item-
mittelwerte, die Matrix Λ für die faktorspezifischen Gewichtungsparameter
der Items, der Vektor f für die Faktorwerte der einzelnen Personen und der
Vektor e für die Zufallsfehler.
Die Faktoren werden üblicherweise im Sinne latenter Variablen, also nicht
direkt zugänglicher psychologischer Größen, interpretiert, deren Ausprä-
gung durch Anwendung der parametrisierten Modellgleichung aus vorlie-
genden Testantworten errechnet werden können.
Dieser konzeptionelle Rahmen wurde insbesondere in den Arbeiten von
Thurstone (1931, 1938, 1954) aufgegriffen und weiterentwickelt. Ursprüng-
lich als exploratorisches Verfahren konzipiert, wurde das Prinzip der Kova-
rianzstrukturmodellierung durch Linearkombinationen latenter Faktoren
in der zweiten Hälfte des letzten Jahrhunderts zu einem hypothesentestenden
Verfahren weiterentwickelt (Jöreskog, 1971; Wiley, Schmidt & Bramble, 1973;
Sörbom, 1974). Darüber hinaus wurde der Formalismus derart erweitert,
dass auch lineare Zusammenhänge zwischen Faktoren modelliert werden
können. Es gibt verschiedene äquivalente Formulierungen des resultieren-
den Modells (siehe Jöreskog, 1973, 1974; Bentler & Weeks, 1980; McArcle
& McDonald, 1984). Die innerhalb der Psychologie wohl verbreitetste ist
die so genannte „LISREL“-Version von Jöreskog (1973), welche aus insge-
samt drei linearen Gleichungssystemen besteht. Das erste spezifiziert die
5.2 Strukturgleichungsmodelle 43
η = Bη + Γξ + ζ (5.3)
Die endogenen Variablen werden durch den Vektor η, die exogenen
Variablen durch den Vektor ξ repräsentiert. Die Matrix B steht für die Zu-
sammenhänge zwischen den endogenen Variablen, die Matrix Γ für die
Zusammenhänge zwischen endogenen und exogenen Variablen, und der
Vektor ζ beinhaltet unabhängige, zufällige Fehlerterme mit einem Erwar-
tungswert von 0.
Desweiteren wird der Zusammenhang zwischen den latenten Variablen
und den Testitems jeweils in Form eines faktorenanalytischen Modells
spezifiziert:
x = Λx ξ + δ (5.4)
y = Λy η + ε (5.5)
e(θi −σj )
p( Xij ) = (5.6)
1 + e(θi −σj )
p( Xij ) steht dabei für die Wahrscheinlichkeit, dass Person i das Item j
„richtig“ löst. Der Parameter θ bezeichnet eine latente Personenvariable („Fä-
higkeit“), während σ für einen Itemparameter („Schwierigkeit“) steht. Beide
Parameter nehmen Ausprägungen auf einem einzigen, eindimensionalen
Kontinuum ein.
46 5 Tests als Messinstrumente
4 Das veränderte Vorzeichen ist dabei kein Problem, da die Parameter keine über die Modell-
vorhersagen hinausgehende Bedeutung haben.
5.3 Item Response Theory 47
Die Antwort auf die erste Frage liegt dabei augenscheinlich auf der Hand.
Da die empirische Basis von IRT-Modellen die Antwortmatrix einer be-
stimmten Population in Bezug auf die Items eines Tests sind, ergeben sich
zwei natürliche empirische Objektmengen: die der Personen (P) und die der
betrachteten Items (I). Die nächstliegende Vermutung bezüglich der abge-
bildeten Relation wäre, eine Untermenge des kartesischen Produktes P × I
zu definieren – zum Beispiel in Form einer Dominanzrelation , welche
darin bestehen könnte, dass eine bestimmte Person aus P ein bestimmtes
Item aus I richtig löst.
5 Dabei handelt es sich um ein Messmodell, das wie die extensive Messung auf dem Zu-
sammenfügen von Objekten basiert, wobei die Zusammenfügeoperation nicht innerhalb
ein und derselben Variable, sondern durch die Kombination zweier unabhänger Faktoren
realisiert wird (vgl. Luce & Tukey, 1964 oder Michell, 1990 für eine weniger mathematische
und leicht verständliche Einführung).
48 5 Tests als Messinstrumente
Die Betrachtung derartiger Relationen ist jedoch nicht mit dem IRT-
Modellen inhärenten Probabilismus zu vereinbaren6 . Lediglich für den
Fall, dass nur die Antwortwahrscheinlichkeiten 1 und 0 vorkommen, lässt
sich die relevante Relation direkt auf P × I definieren. Man hätte dann ein
deterministisches Modell (Guttman, 1950).
Laut Kyngdon (2008b) sind die abzubildenden Relationen daher nicht
auf den empirischen Objektmengen selbst, sondern auf den durch ein IRT-
Modell postulierten Lösungswahrscheinlichkeiten zu definieren. Das bedeutet,
dass die durch das parametrisierte Modell festgelegten Antwortwahrschein-
lichkeiten eine neue Objekmenge W bilden, wodurch sich eine ganze Reihe
von Relationen auf W × W ergeben. Es handelt sich also um Relationen
zwischen Antwortwahrscheinlichkeiten (z.B. ≥, = etc.). Kyngdon argumen-
tiert nun, dass es sich bei Wahrscheinlichkeiten um Zahlen handelt, und
dass folglich sämtliche auf W definierten Relationen im Grunde numeri-
scher Natur sind. Er gelangt daher zu der Schlussfolgerung, dass es sich
bei IRT-Modellen nicht um Messmodelle handeln kann. Ähnlich wie im
Fall der Strukturgleichungsmodelle (vgl. Abschnitt 5.2) würde es sich nach
Kyngdon um Homomorphismen aus dem Intervall [0, 1] der reellen Zah-
len in die Menge aller reellen Zahlen handeln. Nach repräsentationaler
Messtheorie wäre das keine Messung.
Borsboom und Scholten (2008) hingegen vertreten die Meinung, man
könne Wahrscheinlichkeiten durchaus als empirische Größen interpretieren.
Dafür müsse man sich jedoch von der frequentistischen Definition der Wahr-
scheinlichkeit lösen und sie stattdessen im Sinne der real existierenden „Ver-
wirklichungstendenz“ (engl. „propensity“) eines bestimmten Ereignisses
interpretieren. Wahrscheinlichkeiten wären demnach empirische Größen,
welche zwar nur fehlerhaft geschätzt werden können, nichtsdestotrotz aber
tatsächlich vorhanden sind (Hacking, 1965; Popper, 1959, 1995).
Ob man im Falle der Item Response Theory von Messung im repräsen-
tationalen Sinn sprechen kann, hängt somit von der Frage ab, ob man
Wahrscheinlichkeiten als empirisch begreift oder nicht. In dieser Hinsicht
unterscheiden sich IRT-Modelle deutlich von axiomatischen Messmodellen
wie dem in Abschnitt 3.2.1 vorgestellten Modell der extensiven Messung.
Um diesem Unterschied Rechnung zu tragen, bietet sich für die mittels
IRT-Modellen abgebildeten Strukturen die Bezeichnung quasi-empirisch an.
Wenn überhaupt, lassen sich die mittels der Item Response Theory gewon-
nenen Testwerte somit als Quasi-Messung betrachten.
6 Für eine Erweiterung des repräsentationalen Messbegriffs auf probabilistische Relationen sei
auf Heyer und Niederée (1992) verwiesen.
6 Fazit
Das Ziel von Teil I war es, einen Überblick über Bedeutung und Gebrauch
der Begriffe „Messen“ und „Testen“, sowie über die damit assoziierten
psychometrischen Praktiken zu verschaffen. Vor dem Hintergrund der
etymologischen Herkunft der beiden Begriffe ergab sich, dass „Testen“
ursprünglich eine rein diagnostische, theorielose Feststellungsprozedur
bezeichnete, während „Messen“ sich auf den quantitativen Vergleich von
Objekteigenschaften bezog. Diese Bedeutungen finden sich noch heute im
Begriff des Eignungstests bzw. in der technischen Definition des Messens
durch DIN 1319. Heutzutage bedeutet „messen“ das homomorphe Abbilden
empirischer Relationen in numerische Relationen. „Testen“ hingegen bezeichnet
in der Psychologie jedwede standardisierte Prozedur zur Verhaltenserhebung
und deren Beschreibung mittels Kategorien oder Zahlenwerten. Diese Zahlenwer-
te oder Kategorien können Messungen darstellen, müssen es aber nicht.
In der modernen Psychologie spielen Tests in drei verschiedenen Kontex-
ten eine Rolle:
• psychologische Diagnostik
• definitorische Operationalisierungen
• hypothetische Operationalisierungen
Lediglich für den letzten Fall müssen psychologische Tests die in Ab-
schnitt 3.2 genannten Bedingungen für das Vorliegen einer Messung er-
füllen. Wenn ein Test auf einer empirisch (messtheoretisch) bewährten
Hypothese beruht, kann er selbstverständlich auch als Diagnostikum ver-
wendet werden. Die Verwendung eines Tests zu Diagnosezwecken allein
rechtfertigt jedoch nicht die Bezeichnung als Messinstrument. Ebensowenig
erfordert die Anwendung eines Tests zu Diagnosezwecken eine messtheore-
tische Begründung. Im Falle der definitorischen Operationalisierung kann
streng genommen überhaupt nicht von Messung gesprochen werden. Ist
ein psychologischer Begriff allein über eine Testprozedur definiert, sind
Tests nicht als Messinstrumente auffassen. Als Resultat ergibt sich eine Test-
praxis, die zwar in sich konsistent und vor diagnostischem Hintergrund
zu rechtfertigen ist, jedoch theoretisch inkompatibel mit den angewandten
formalen Kriterien ist. Immer dann, wenn
Die meisten psychologischen Tests zielen darauf ab, ein oder mehrere psy-
chologische Konstrukte zu erfassen (z.B. „Intelligenz“, „Selbstwirksamkeit“,
„Depressivität“ etc.). Dabei ist nicht immer klar, was genau unter einem
Konstrukt verstanden werden soll – ist es die Bezeichnung für eine tatsäch-
lich vorhandene Personenvariable; oder für eine Variable, die existieren
könnte; oder für eine mathematische Abstraktion von Testverhalten; oder
einfach ein Name für die Fragen in einem Test (vgl. Slaney & Racine, 2013)?
Es ist daher notwendig, auf die wichtigsten Interpretationsmöglichkeiten
des Konstruktbegriffs einzugehen, um eine theoretische Basis für die zu
entwickelnde formal begründete Auswertung zu liefern.
Grundbegriffe
Formal lässt sich das Konzept der Fuzzy-Menge umsetzen, indem jedem
Objekt eine reelle Zahl (normalerweise zwischen 0 und 1) zugeordnet wird.
Diese Zahl steht für den Zugehörigkeitsgrad eines Objekts zu einer Menge.
Niedrige Werte bedeuten dementsprechend geringe Zugehörigkeit, hohe
Werte große Zugehörigkeit. Für den Fall, dass nur die Zugehörigkeitswerte
0 und 1 vorkommen, ergibt sich eine Menge im klassischen Sinne mit
den Werten 1 und 0 als charakteristischen Funktionen, welche ein Objekt
entweder als Element der Menge ausweisen oder als kein Element der
Menge. Zur besseren Abgrenzung soll in einem solchen Fall im Folgenden
von einer scharfen Menge gesprochen werden. Formal lässt sich eine Fuzzy-
Menge folgendermaßen definieren:
Definition 6. Eine Fuzzy-Menge ist ein Paar ( A, m), wobei A eine Menge ist
und m : A → [0, 1]. Für jedes x ∈ A, bezeichnet m( x ) den Zugehörigkeitsgrad
von x in ( A, m) und A die zu Grunde gelegte Trägermenge.
Definition 6 beschreibt den Zugehörigkeitsgrad aller Objekte zu einer
bestimmten Fuzzy-Menge über eine Funktion m. Für eine endliche Menge
A = { x1 , ..., xn }, lässt sich diese Funktion durch die Aufzählung sämtlicher
Elemente mit ihren entsprechenden Zugehörigkeitsgraden eindeutig be-
stimmen. Eine endliche Fuzzy-Menge ( A, m) lässt sich dementsprechend
vollständig durch die charakteristische Funktion m beschreiben:
| A| := ∑ m( x ) (8.2)
x∈X
A = B := m A ( x ) = m B ( x ) (8.3)
für alle x ∈ X.
Eine Fuzzy-Menge A ist Untermenge von B genau dann, wenn beide auf
derselben Trägermenge X definiert sind und für jedes Objekt die Zugehö-
rigkeit zu A kleiner oder gleich der Zugehörigkeit zu B ist:
A ⊆ B := m A ( x ) ≤ m B ( x ) (8.4)
für alle x ∈ X.
c : [0, 1] → [0, 1]
c(m A ( x )) = m A ( x ) (8.5)
c x ( a) = (1 − aw )1/w (8.8)
mit w ∈ (0, ∞). Wenn w = 1 gesetzt wird, ergibt sich daraus die von Zadeh
eingeführte ursprüngliche Komplementärfunktion c( a) = 1 − a.
Die Wahl einer Komplementärfunktion erscheint zunächst recht willkür-
lich, da es unendlich viele Funktionen gibt, die die obigen Bedingungen
erfüllen. Welche Funktion die jeweils angemessene Verallgemeinerung der
klassischen Komplementärmenge darstellt, ist von der jeweils beabsichtig-
ten Anwendung abhängig.
m( A∪ B) ( x ) = u(m A ( x ), m B ( x )) (8.10)
für alle x ∈ X.
Die Bedingungen, die für eine Funktion u erfüllt sein müssen, ähneln
denen der Schnittmengen-Funktion:
1. u ist monoton: Wenn b ≤ d, dann gilt u( a, b) ≤ u( a, d)
2. u ist kommutativ: u( a, b) = u(b, a)
3. u ist assoziativ: u( a, u(b, d)) = u(u( a, b), d)
4. u hat 0 als neutrales Element: u( a, 0) = a
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 69
Bis auf die letzte Bedingung stimmen sämtliche Forderungen überein. Funk-
tionen, welche diese Bedingungen erfüllen, heißen auch t-Conorm. Der
Name „Co-Norm“ rührt daher, dass sich zu jeder gegebenen t-Norm eine
entsprechende t-Conorm finden lässt, sofern man entsprechend der klas-
sischen Mengenlehre die Gültigkeit der De Morganschen Gesetze fordert
(Zimmermann, 2001). Diese besagen, dass das Komplement einer Vereini-
gungsmenge gleich der Schnittmenge der jeweiligen Komplemente sein
muss, sowie das Komplement der Schnittmenge der Vereinigung der ent-
sprechenden Komplemente entsprechen muss:
Diese Attribute sollen in einem Fragebogen direkt abgefragt werden. Dabei gehören
(a) und (d) sehr stark zum Konstruktbegriff, (b) etwas weniger und (c) nur ein
bisschen. Um dieser Gewichtung Ausdruck zu verleihen, werden die Items mit
entsprechenden Zugehörigkeitsgraden versehen, so dass sich die Bedeutung des
Konstruktbegriffs „Höflichkeit“ in Form einer Fuzzy-Menge H spezifizieren lässt:
Obwohl der Begriff von Natur aus vage ist, kann seine Bedeutung mittels einer
Fuzzy-Menge explizit gemacht werden. Die genannten Attribute und Zugehö-
rigkeiten erheben selbstverständlich nicht den Anspruch darauf, die tatsächliche
Bedeutung des Begriffs „Höflichkeit“ wiederzugeben, sondern dienen nur der Er-
läuterung des Prinzips.
Innerhalb der Menge der A-Bedeutungen kann die in Abschnitt 8.4.1 ein-
geführte Untermengen-Relation ⊆ als Unter- bzw. Oberbegriffsrelation inter-
pretiert werden (vgl. Goguen, 1969). Ein Konstrukt wäre demnach Ober-
begriff für alle Konstrukte, deren Bedeutungen durchweg niedrigere oder
höchstens gleiche Attributzugehörigkeiten aufweisen. Die Gleichheit von
Fuzzy-Mengen lässt sich ebenso intuitiv im Sinne einer Äquivalenzrelation
zwischen Konstruktbedeutungen verstehen. Zwei Konstruktbedeutungen
wären demnach genau dann synonym, wenn ihre Zugehörigkeitsfunktionen
identisch sind. Ferner sei der semantische Gehalt eines Konstrukts definiert
als die skalare Kardinalität der entsprechenden Fuzzy-Menge.
Die Menge der A-Bedeutungen bildet in Kombination mit der Oberbe-
griffsrelation eine Struktur (A, ⊆), welche als Halbordnung bezeichnet wird.
Das bedeutet, dass (A, ⊆) folgende Eigenschaften aufweist:
Untermengen sein können, wenn sie gleich sind – das wäre die Eigenschaft
der Antisymmetrie.
Während die Menge der A-Bedeutungen alle Konstruktbedeutungen
umfasst, die theoretisch mittels einer bestimmten Menge von Attributen
beschreibbar sind, ist in der Praxis nur eine relativ geringe Teilmenge aus A
praktisch relevant. Eine solche, endliche, Teilmenge von A (geschrieben als
A ) lässt sich in anschaulicher Weise mit einem Hasse-Diagramm darstellen.
Dabei handelt es sich um einen gerichteten Graphen, bei welchem die Ele-
mente aus A durch Knoten repräsentiert werden. Die Kanten des Graphen
werden so gesetzt, dass für alle Elemente a ⊆ b mit a, b ∈ A , die in Relation
a ⊆ b zueinander stehen und für die es kein Element c mit a ⊆ c ⊆ b gibt,
eine Kante von a nach b verläuft (Berghammer, 2008).
Diese Art der Darstellung ermöglicht es, auch komplexe hierarchische
Konstruktbedeutungen in anschaulicher Weise zu strukturieren. Im Gegen-
satz zu üblichen Darstellungen psychologischer Konstrukte in hierarchi-
schen Strukturen (z.B. im Kontext der faktorenanalytischen Modellierung)
handelt es sich hier ganz explizit um die Darstellung begrifflicher Relationen.
Dies ist konsistent mit der Interpretation psychologischer Konstrukte als
sprachliche Abstraktionen, welche weder die Existenz latenter Variablen
noch deren Messung voraussetzt.
Beispiel 2. Gegeben sei eine Grundmenge wohldefinierter Attribute A, welche
durch die Fragebogenitems a, b, c, d, e ∈ A spezifiziert werden:
a Ich lerne gerne neue Leute kennen.
b Ich gehe gern auf Parties.
c Ich stehe gern im Mittelpunkt.
d Ich habe viele Freunde.
e Die meisten meiner Mitmenschen mögen mich.
Die Attribute a bis e konstituieren einen semantischen Konstruktraum A auf
der Menge A, welcher durch sämtliche mögliche Zuordnungskombinationen der
Items in das reellwertige Intervall [1,0] festgelegt ist. Es sei nun eine scharfe Menge
A ⊂ A auf A definiert durch die in Tabelle 8.1 gegebenen Zugehörigkeiten.
Die auf diese Weise definierten Konstrukte bilden jeweils eine Fuzzy-Menge auf
A und bilden in Kombination mit der Unterbegriffs/Oberbegriffsrelation ⊆ eine
Halbordnung, welche sich durch das in Abbildung 8.1 gezeigte Hasse-Diagramm
abbilden lässt. Weiter oben stehende Konstruktbegriffe haben jeweils einen höheren
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 75
Konstruktbegriff a b c d e
Aufgeschlossen 0.9 0.7 0.6 0.8 0.8
Sozial orientiert 0 0.2 0 0.8 0.8
Beliebt 0 0 0 0.7 0.8
Kontaktfreudig 0.9 0.2 0 0.5 0
Extrovertiert 0.8 0.7 0.5 0 0
Geltungsbedürftig 0 0.4 0.6 0 0
semantischen Gehalt und stellen Oberbegriffe für die weiter unten stehenden, mit
Linien verbundenen Konstruktbegriffe. Das Diagramm veranschaulicht die logisch-
begrifflichen Relationen zwischen den Konstrukten, insbesondere die hierarchische
Natur des gewählten Konstruktraums.
Aufgeschlossen
1 Das Semantic Web stellt einen Versuch dar, Inernetinhalte hinsichtlich ihrer Bedeutungen zu
strukturieren, so dass Bezüge zwischen Informationen aus verschiedenen Quellen auch
automatisiert erkannt werden können (Davies, Fensel & Van Harmelen, 2003).
8.4 Formale Modellierung abstrakter Konstruktbedeutungen 77
hinsichtlich ihrer Zielsetzung als auch in Bezug auf die konkrete Umset-
zung des Formalismus unterscheiden. Die Konzepte der Konstruktbedeutung
und des semantischen Konstruktraums weisen zwar an verschiedenen Stellen
Querverbindungen zu bestehenden Arbeiten auf, lassen sich jedoch sowohl
inhaltlich als auch formal hinreichend abgrenzen.
9 Tests als Mittel logischer Inferenz
9.1.1 Aussagenlogik
Die klassische Aussagenlogik befasst sich mit der Formalisierung von Aus-
sagen, welche entweder wahr oder falsch sein können. Aussagen setzen sich
dabei aus elementaren Bausteinen, so genannten Propositionen, zusammen.
Je nachdem, welche Wahrheitswerte („wahr“ bzw. 1 oder „falsch“ bzw. 0)
diese elementaren Einheiten einnehmen, ergeben sich die Wahrheitswerte
aller aus ihnen gebildeten Aussagen. Darüber hinaus werden Schlussregeln
gegeben, welche die Bildung neuer (wahrer) Aussagen aus bereits bekann-
ten (wahren) Aussagen erlauben. Eine solche formale Sprache wird auch
als logischer Kalkül bezeichnet.
Die Struktur eines Kalküls, also die zulässigen Symbole und deren Ver-
knüpfungsregeln, sowie zulässige Schlussregeln, nennt man die Syntax
einer Logik. Eine Interpretation der verwendeten Symbole, welche jeder
Aussage ϕ einen Wahrheitswert w [ ϕ] (mit den möglichen Ausprägungen
„wahr“ und „falsch“) zuordnet, stellt eine entsprechende Semantik bereit.
Eine Aussage ist herleitbar (oder auch beweisbar), wenn sie sich als Ergebnis
einer endlichen Folge von Aussagen mit korrekt angewendeten Schlussre-
9.1 Aussagenlogische Formalisierung klinischer Tests 83
Syntax
Als Alphabet der Aussagenlogik sollen folgende Zeichen dienen:
Semantik
Für die semantische Interpretation ist das Prinzip der Extensionalität von
entscheidender Bedeutung. Es besagt, dass die Wahrheitswerte der Ein-
zelbestandteile einer Aussage den Wahrheitswert der gesamten Aussage
eindeutig bestimmen. Dies wird durch die Einführung von Wahrheitsfunk-
tionen bewerkstelligt, welche für jede logische Verknüpfung angeben, wie
der Wahrheitswert einer zusammengesetzten Aussage sich jeweils aus den
Wahrheitswerten der verknüpften Aussagenbestandteile ergibt. Diese Wahr-
heitsfunktionen lassen sich in anschaulicher Weise in Form so genannter
Wahrheitstafeln darstellen. Die linke Spalte steht dabei für die Wahrheits-
werte der ersten Elementaraussage, die obere Zeile für die Wahrheitswerte
der zweiten Elementaraussage einer Verknüpfung. Die übrigen Spalten
beinhalten die entsprechend zugeordneten Wahrheitswerte für die gemäß
der angezeigten logischen Verknüpfung zusammengesetzten Aussagen1 .
1 Der Vollständigkeit halber wird auch die Wahrheitstafel für die Äquivalenzverknüpfung
angegeben, obwohl diese aufgrund der Definition von ≡ redundant ist.
9.1 Aussagenlogische Formalisierung klinischer Tests 85
→ 0 1 ∨ 0 1
0 1 1 0 0 1
1 0 1 1 1 1
x ¬x ∧ 0 1 ≡ 0 1
0 1 0 0 0 0 1 0
1 0 1 0 1 1 0 1
Axiomatisierung
Der aussagenlogische Kalkül lässt sich axiomatisieren, indem folgende
Tautologien für alle Aussagen ϕ, ψ, χ zu Grunde gelegt werden:
• ϕ → (ψ → ϕ)
• ( ϕ → (ψ → χ)) → (( ϕ → ψ) → ( ϕ → χ))
• (¬ ϕ → ¬ψ) → (ψ → ϕ)
Das erste Axiom besagt, dass aus einer Aussage stets folgt, dass sie aus
einer anderen Aussage folgen muss. Das zweite Axiom besagt, dass, wenn
aus einer Aussage folgt, dass eine zweite Aussage eine dritte impliziert,
gelten muss, dass für den Fall, dass aus der ersten Aussage die zweite folgt,
aus ihr ebenfalls die dritte folgen muss. Das dritte Axiom schließlich setzt
fest, dass aus der Implikation zwischen negierten Aussagen folgt, dass die
nicht negierten Aussagen sich in entgegengesetzter Richtung implizieren.
Die Schlussregel der Aussagenlogik ist der Modus Ponens: Aus ϕ → ψ und
ϕ leite ψ her. Alle weiteren Schlussregeln (wie beispielsweise der Modus
Tollens) sind aus dieser Regel und den Axiomen abgeleitet.
86 9 Tests als Mittel logischer Inferenz
(Kriterien) ≡ ( Diagnose),
S = { G1; G2; G3; B1; B2; B3; C1; C2; C3; C4; C5; C6; C7; D }
(( G1 ∧ G2 ∧ G3)∧
( B1 ∧ B2 ∧ B3)∧
((C1 ∧ C2 ∧ C3 ∧ C4 ∧ C5)∨
(C1 ∧ C2 ∧ C3 ∧ C4 ∧ C6) ∨ · · · ∨ (C3 ∧ C4 ∧ C5 ∧ C6 ∧ C7))∧
( D ))
Sind in einem spezifischen Fall nun die Wahrheitswerte der elementaren Aus-
sagen bekannt, ergibt sich der Wahrheitswert von ( F32.3) eindeutig aus den
Wahrheitsfunktionen der logischen Verknüpfungen ∨ und ∧. Somit lässt sich
der Wahrheitswert der Aussage (SDE) eindeutig aus dem Vorliegen oder Nicht-
vorliegen der genannten Symptome ableiten. Ein klinischer Fragebogen, welcher
die unter F.32.2 festgelegten Symptome abfragt, könnte daher mittels der obigen
Formalisierung im Sinne eines aussagenlogischen Inferenzschlusses ausgewertet
werden – ohne die Notwendigkeit eines messtheoretischen Modells.
9.2.1 Prädikatenlogik
Während in der klassischen Aussagenlogik die elementaren Bestandteile
einer Aussage (Propositionen) selbst keine innere Struktur aufweisen, geht
die Prädikatenlogik (oder auch Logik erster Stufe) einen Schritt weiter. So
genannte atomare Aussagen bestehen aus einem Prädikat und einer Menge
von Termen, welche als Argumente des Prädikats fungieren. Eine besondere
Art Terme bilden Objektvariablen. Sie bezeichnen zunächst unspezifische Ob-
jekte, welche mit Hilfe so genannter Quantoren gebunden werden können.
So können beispielsweise Aussagen über „alle Vertreter einer bestimm-
ten Objektklasse“ getroffen werden oder über „mindestens eine Person“
(Rautenberg, 2008).
Syntax
Ebenso wie die Aussagenlogik handelt es sich bei der Prädikatenlogik um
eine formale Sprache. Das Vokabular dieser Sprache setzt sich zusammen
aus:
Es ist möglich, dass die Substitution eines Terms dazu führt, dass zuvor
freie Variablen durch einen Quantor gebunden werden, welcher sich ei-
gentlich auf eine andere Variable bezog. Ersetzt man zum Beispiel das y in
∀( x ) P( x, y) durch die Variable x, erhält man die Aussage ∀( x ) P( x, x ). Das
zweite Argument des Prädikats P, welches ursprünglich eine freie Variable
darstellt, würde durch eine derartige Substitution ebenfalls an den Allquan-
tor gebunden. Dies würde die Bedeutung der Aussage jedoch völlig ver-
ändern. Dieses Problem kann auf verschiedene Arten gelöst werden: zum
einen dadurch, dass nur solche Variablen als substituierbar definiert werden,
welche durch die Substitution nicht zu gebundenen Variablen werden, und
zum anderen, indem man die betreffenden Variablen vor der Substitution
umbenennt. Da diese Unterscheidung für die folgenden Anwendungen
unerheblich ist, wird zugunsten eines sparsameren Formalismus auf die
Möglichkeit der Umbenennung verzichtet.
Semantik
Analog zur Aussagenlogik bestehen semantische Interpretationen darin, dass
sämtlichen Aussagen Wahrheitswerte zugeordnet werden. Dabei gilt eben-
falls das Prinzip der Extensionalität, also dass die Wahrheitswerte zusam-
mengesetzter Aussagen sich eindeutig aus den Wahrheitswerten der grund-
legenden Bausteine (in diesem Fall nicht Propositionen sondern atomare
Aussagen) ergeben. Zusätzlich zu den Wahrheitsfunktionen der logischen
Verknüpfungen, welche mit denen der Aussagenlogik übereinstimmen,
werden jedoch Regeln zur Wahrheitswertzuordnung für atomare Aussagen
in Abhängigkeit der in ihnen enthaltenen Terme benötigt. Dies geschieht,
indem für jede atomare Aussage bestimmt wird, ob die semantisch zuge-
ordnete Relation für die spezifizierten Objekte zutreffend ist oder nicht.
Trifft die entsprechende Relation auf eine bestimmte geordnete Menge von
Objekten zu, ist der Wahrheitswert 1, ansonsten 0. Schließlich wird der
Wahrheitswert der Aussage (∀ x ) ϕ definiert als das Minimum der Wahrheits-
werte, welche ϕ in Bezug auf die Variable x zugeordnet sind. Das bedeutet,
dass der Wahrheitswert genau dann 1 ist, wenn alle in Bezug auf x zugeord-
neten Wahrheitswerte 1 sind – also wenn das Prädikat auf alle Elemente der
durch (∀ x ) gebundenen Variable zutrifft. Analog dazu wird der Wahrheits-
wert der Aussage (∃ x ) ϕ als das Maximum der Wahrheitswerte, welche ϕ in
Bezug auf die Variable x zugeordnet sind, definiert. Das bedeutet, dass der
Wahrheitswert genau dann 1 ist, wenn mindestens einer der in Bezug auf x
9.2 Prädikatenlogische Formalisierung klinischer Tests 93
Axiomatisierung
Nachdem Syntax und Semantik der Prädikatenlogik nunmehr eingeführt
sind, wird im Folgenden ein Axiomsystem des entsprechenden Kalküls
vorgestellt. Es handelt sich dabei um eine einfache Erweiterung des aussa-
genlogischen Kalküls. Die Axiome der Prädikatenlogik sind:
• ϕ → (ψ → ϕ)
• ( ϕ → (ψ → χ)) → (( ϕ → ψ) → ( ϕ → χ))
• (¬ ϕ → ¬ψ) → (ψ → ϕ)
• (∀ x ) ϕ( x ) → ϕ(t), wenn t in ϕ( x ) für x substituierbar ist
DSDE = { G1; G2; G3; B1; B2; B3; C1; C2; C3; C4; C5; C6; C7; D;
Karl;
SDE}.
( IstPerson( p) ∧ IstDiagnose(d)) →
((∀ x )(Krit( x, d) → Hat( p, x ))) ≡ Hat( p, d)
Syntax
Das Alphabet des dreiwertigen Aussagenkalküls Ł3 besteht aus:
Semantik
Entsprechend dem Prinzip der Extensionalität, werden für die logischen
Verknüpfungen auch in Ł3 Wahrheitstafeln angegeben. Diese stellen die
Semantik des dreiwertigen Kalküls Ł3 :
→ 0 0.5 1 ∨ 0 0.5 1
0 1 1 1 0 0 0.5 1
0.5 0.5 1 1 0.5 0.5 0.5 1
1 0 0.5 1 1 1 1 1
x ¬x ∧ 0 0.5 1 ≡ 0 0.5 1
0 1 0 0 0 0 0 1 0.5 0
0.5 0.5 0.5 0 0.5 0.5 0.5 0.5 1 0.5
1 0 1 0 0.5 1 1 0 0.5 1
102 10 Testtheoretische Anwendung mehrwertiger Logiken
Axiomatisierung
Łukasiewicz selbst nahm keine Axiomatisierung vor, sondern definierte
seinen Kalkül rein semantisch. Eine entsprechende Axiomatisierung des
Kalküls Ł3 wurde jedoch von Wajsberg (1931) vorgelegt:
• ϕ → (ψ → ϕ)
• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))
• (¬ψ → ¬ ϕ) → ( ϕ → ψ)
• (( ϕ → ¬ ϕ) → ϕ) → ϕ
Als Schlussregel kommt – wie in der Aussagenlogik – lediglich der Modus
Ponens zum Tragen: Aus ϕ → ψ und ϕ schließe ψ.
Das erste und das dritte Axiom sind bereits aus dem in Abschnitt 9.1.1
vorgestellten zweiwertigen Aussagenkalkül bekannt. Das zweite Axiom
besagt, dass, sofern eine Aussage aus einer anderen folgt, gelten muss, dass
wenn aus dieser etwas drittes folgt, dieses dritte ebenfalls aus der ersten
Aussage folgen muss. Dieses Axiom stellt die Transitivität der Implikation
sicher. Das vierte Axiom schließlich erscheint auf den ersten Blick paradox,
da die Aussage ϕ → ¬ ϕ in der klassischen Aussagenlogik stets falsch ist (d.h.
die Verneinung dieser Aussage ist eine Tautologie). Betrachtet man jedoch
den gesamten Ausdruck, zeigt sich, dass er auch im aussagenlogischen
Kalkül tautologisch ist: Da der Wahrheitswert von ϕ → ¬ ϕ stets 0 ist,
kann ( ϕ → ¬ ϕ) → ϕ nur wahr sein, wenn w [ ϕ] = 1 ist. Demzufolge gilt
die letzte Implikation genau dann, wenn ϕ wahr ist. Somit ergibt sich die
(offensichtlich wahre) Aussage ϕ → ϕ.
Die Axiome stellen jeweils Tautologien in Ł3 dar. Das bedeutet, dass sie
unter allen möglichen Interpretationen wahr sind. Der Modus Ponens ist
genau dann anwendbar, wenn sowohl eine bestimmte Aussage ϕ als auch
die Aussage ϕ → ψ wahr sind.
x ◦x
0 0.5
0.5 0.5
1 0.5
Das Symbol ◦ steht somit dafür, dass – egal welchen Wahrheitswert die
Aussage ϕ aufweist, ◦ ϕ stets unbestimmt ist. Man könnte ◦ daher auch als
Unbestimmtheitsjunktor bezeichnen. Eine alltagssprachliche Übersetzung
von ◦ ϕ könnte zum Beispiel lauten „ϕ könnte der Fall sein“.
Um die syntaktische Verwendung von ◦ festzulegen, muss das obige
Axiomsystem um zwei weitere Axiome ergänzt werden:
• ◦ ϕ → ¬(◦ ϕ)
• ¬(◦ ϕ) → ◦ ϕ
Demnach muss stets gelten, dass die Negation einer unbestimmten Aussage
ebenfalls unbestimmt ist und umgekehrt. Diese Forderung ist unmittelbar
einsichtig: Wenn es sein könnte, dass etwas der Fall ist, könnte es ebenso
gut nicht sein, dass es der Fall ist – und umgekehrt genau so.
Der so ergänzte Kalkül Ł3 S ist nunmehr nicht nur semantisch korrekt,
sondern auch vollständing (Bolc & Borowik, 1992).
(Kriterien) ≡ ( Diagnose)
schreiben. (Kriterien) ist wie im obigen Beispiel eine Aussage, welche sich
aus einer Menge elementarer Aussagen zusammensetzt, welche mit den
logischen Verknüpfungen ∨ und ∧ verbunden werden. w [Kriterien] ergibt
sich dabei aus den Wahrheitsfunktionen der entsprechenden Verknüpfun-
gen. w [ Diagnose] ist entsprechend der Wahrheitsfunktion von ≡ identisch
mit w [Kriterien].
Da die Formalisierung sich syntaktisch nicht von der aussagenlogischen
unterscheidet, wird an diese Stelle kein weiteres Beispiel gegeben. Statt-
dessen soll kurz darauf eingegangen werden, welche Konsequenzen die
Erweiterung von ICD-Diagnosen um einen zusätzlichen Wahrheitswert
nach sich zieht.
Grundsätzlich lässt sich der zusätzliche Wert auf zwei verschiedene Arten
interpretieren: entweder im Sinne von „es ist nicht bekannt, ob ein Symptom
vorliegt oder nicht“ oder im Sinne von „Ein Symptom liegt teilweise vor“.
Die erste Interpretation ermöglicht die Modellierung von unvollständiger
Informationslage, die zweite erlaubt die Einbeziehung von nur teilweise
erfüllten Diagnosekriterien. In Bezug auf die Diagnosen wäre der zusätzli-
che Wahrheitswert entsprechend als „es könnte sein, dass eine bestimmte
Störung vorliegt“ oder als „eine bestimmte Störung liegt nur teilweise vor“
zu verstehen.
Entsprechend der Wahrheitsfunktion von ∧ liegt die Diagnose nur dann
vor, wenn alle Kriterien erfüllt sind – das heißt, sobald mindestens ein Krite-
rium nur unbestimmt erfüllt ist, liegt die Diagnose ebenfalls unbestimmt vor.
Nach der ersten Interpretation von Unbestimmtheit würde dies bedeuten,
dass bei Unsicherheit auch nur bezüglich eines Symptoms Unsicherheit in
Bezug auf die Diagnose folgt. Nach der zweiten Interpretation von Unbe-
stimmtheit als „teilweise zutreffend“ hingegen würde – vorausgesetzt alle
übrigen Symptome liegen vor – bei einem oder mehr nur teilweise zutref-
fenden Kriterien die Diagnose als „teilweise zutreffend“ gestellt werden.
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 105
Syntax
Das Alphabet von Łℵ umfasst folgende Zeichen:
Semantik
Bezüglich der Semantik von Łℵ gilt – wie in allen bisher vorgestellten
Kalkülen – das Prinzip der Extensionalität. Aufgrund der unendlich vielen
kombinatorischen Möglichkeiten, zwei Elementaraussagen Wahrheitswerte
zuzuordnen, ist es jedoch nicht möglich, die semantischen Zuordnungen
der logischen Verknüpfungen in Łℵ mittels Wahrheitstafeln vorzunehmen.
Stattdessen werden entsprechende Wahrheitsfunktionen festgelegt:
f ¬ (x) = 1 − x (10.1)
f ∧ ( x, y) = min( x, y) (10.2)
f ∨ ( x, y) = max( x, y) (10.3)
1, wenn x ≤ y
f → ( x, y) = (10.4)
1 − x + y, wenn x > y
Axiomatisierung
Als Axiome für Łℵ dienen folgende Tautologien3 :
• ϕ → (ψ → ϕ)
• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))
• (¬ ϕ → ¬ψ) → (ψ → ϕ)
• (( ϕ → ψ) → ψ) → ((ψ → ϕ) → ϕ)
• (( ϕ → ψ) → ψ) ≡ ( ϕ ∨ ψ)
• ( ϕ ∧ ψ) ≡ ¬(¬ ϕ ∨ ¬ψ)
3 DasSystem weicht etwas von Łukasiewiczs ursprünglichem System ab, welcher mit nur
vier Axiomen auskommt, dafür jedoch einige zusätzliche Definitionen benötigt.
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 107
Die einzige zur Anwendung kommende Schlussregel ist der Modus Ponens.
Die ersten beiden Axiome sind aus den bisher vorgestellten Kalkülen wohl-
bekannt – für sich genommen bilden sie das axiomatische Gerüst der klassi-
schen Aussagenlogik (vgl. Abschnitt 9.1.1). Als spezifisches Axiom kommt
das vierte hinzu, welches ergänzt wird durch zwei Forderungen bezüglich
der Verwendung von ∧ und ∨. Ebenso wie die bisherigen Kalküle ist Łℵ
semantisch korrekt und vollständig.
(Kriterien) ≡ ( Diagnose),
Beispiel 5. Gegeben sei ein Test, welcher die ICD-Kriterien G1 bis D für die
Störung F32.2 – „schwere depressive Episode ohne psychotische Symptome“(SDE)
– abfragt.
Aufgrund der syntaktischen Entsprechungen zwischen Łℵ und der klassischen
Aussagenlogik kann die Formalisierung aus Beispiel 3 vollständig übernommen
werden. Den Ausgangspunkt bildet somit die Aussage
( F32.2) ≡ (SDE),
wobei gilt:
( F32.2) ≡ (( G1 ∧ G2 ∧ G3)∧
( B1 ∧ B2 ∧ B3)∧
((C1 ∧ C2 ∧ C3 ∧ C4 ∧ C5)∨
(C1 ∧ C2 ∧ C3 ∧ C4 ∧ C6) ∨ · · · ∨ (C3 ∧ C4 ∧ C5 ∧ C6 ∧ C7))∧
( D ))
f ∧ ( x, y) = min( x, y)
und
f ∨ ( x, y) = max( x, y)
sieht folgendermaßen aus:
w [ F.32.2] =
min(w [ G1] , w [ G2] , w [ G3] , w [ B1] , w [ B2] , w [ B3] ,
max(min(w [C1] , w [C2] , w [C3] , w [C4] , w [C5]),
min(w [C1] , w [C2] , w [C3] , w [C4] , w [C6]), . . . ,
min(w [C3] , w [C4] , w [C5] , w [C6] , w [C7])))
110 10 Testtheoretische Anwendung mehrwertiger Logiken
w [ F.32.2] =
min(1, 1, 0.99, 0.7, 0.8, 1, max( min(0.5, 1, 0.1, 0.5, 0.8),
min(0.5, 1, 0.1, 0.5, 0.6), . . . ,
min(0.1, 0.5, 0.8, 0.6, 0)))
=0.5
Aus dem Antwortmuster des betrachteten Klienten ergibt sich somit, dass die
Diagnose „schwere depressive Episode ohne psychotische Symptome“ zum Grad
0.5 zutreffend ist. Das bedeutet, die Aussage „Person A ist schwer depressiv (ohne
psychotische Symptome)“ ist zur Hälfte wahr4 .
4 Man beachte, dass „zur Hälfte wahr“ sich nicht auf die Wahrscheinlichkeit für das Zutreffen
der Diagnose bezieht, sondern ausdrückt, dass die Kriterien eben nur teilweise erfüllt sind
(vgl. hierzu Abschnit 8.4.1).
10.3 Quantifizierung scharf definierter Konstrukte durch kontinuierliche Wahrheitswerte 111
1 DerBegriff des Residuums ist an dieser Stelle nicht zu verwechseln mit den „Residuen“
eines Regressions- oder Strukturgleichungsmodells.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 115
Syntax
Das Alphabet des grundlegenden Fuzzy-Aussagenkalküls besteht aus fol-
genden Symbolen:
• einer Menge proposositionaler Variablen p1 , p2 , . . . ,
• den Wahrheitskonstanten 0 und 1
• den logischen Verknüpfungen & („starke Konjunktion“) und → („Impli-
kation“) – Alle weiteren Verknüpfungen werden aus diesen definiert2 .
2 Würde man – wie in den bisherigen Kalkülen – die zusätzlichen Verknüpfungen zu den
grundlegenden Symbolen des Kalküls hinzunehmen, müsste man ihre Semantik für jede t-
Norm einzeln definieren. Da es unendlich viele t-Normen gibt, ist diese Herangehensweise
nicht sinnvoll.
116 11 Testtheoretische Anwendung unscharfer Logiken
Aussagen werden wie gehabt definiert: Jede propositionale Variable ist eine
Aussage; 0 und 1 sind ebenfalls Aussagen; Wenn ϕ und ψ Aussagen sind,
dann sind ϕ&ψ, sowie ϕ → ψ ebenfalls Aussagen.
Ausgehend von den logischen Verknüpfungen & und → werden des
Weiteren die Verknüpfungen ∧ („schwache Konjunktion“), ∨ („schwache
Disjunktion“), ¬ („Negation“) und ≡ („Äquivalenz“) nach folgenden Re-
geln gebildet:
• ϕ ∧ ψ bedeutet ϕ&( ϕ → ψ)
• ϕ ∨ ψ bedeutet (( ϕ → ψ) → ψ) ∧ ((ψ → ϕ) → ϕ)
• ¬ ϕ bedeutet ϕ → 0
• ϕ ≡ ψ bedeutet ( ϕ → ψ)&(ψ → ϕ)
Semantik
Eine semantische Interpretation in BL besteht in der Zuordnung von Wahr-
heitswerten zu beliebigen Aussagen. Ebenso wie im klassischen Fall gilt
das Prinzip der Extensionalität – die Wahrheitswerte zusammengesetzter
Aussagen ergeben sich stets eindeutig aus den Wahrheitswerten der Ele-
mentaraussagen. Wie bereits im Kalkül Łℵ werden statt Wahrheitstafeln
Wahrheitsfunktionen angegeben. Da es nur zwei elementare logische Ver-
knüpfungen gibt, genügt es die beiden Wahrheitsfunktionen für & und →
anzugeben – die Wahrheitsfunktionen der anderen Verknüpfungen ergeben
sich dann aus den oben genannten Definitionen.
Als Wahrheitsfunktion für die starke Konjunktion & soll eine beliebi-
ge, kontinuierliche t-Norm dienen (vgl. hierzu Abschnitt 8.4). Die t-Norm-
Operation zur Bestimmung des Wahrheitswertes einer Konjunktion ϕ&ψ
wird dabei geschrieben als
Gleichzeitig soll der Modus Ponens möglichst hohe Wahrheitswerte für die
Konklusion ergeben. Daher soll der Wahrheitswert der Implikation dem
höchstmöglichen Wert entsprechen, bei dem die obige Bedingung erfüllt ist.
Das ist gleichbedeutend mit der Forderung, dass w [ ϕ → ψ] dem maximalen
Wert z entspricht, welcher in Konjunktion mit dem ersten Implikationsele-
ment kleiner oder gleich dem Wahrheitswert des zweiten Implikationsele-
ments ist:
Axiomatisierung
Es ist möglich, eine Menge von Tautologien anzugeben, aus denen sich
mittels einer einzigen Schlussregel sämtliche übrigen Tautologien in BL
herleiten lassen. Diese Axiome der fuzzy Aussagenlogik BL sind folgende
(vgl. Hájek, 1998a):
• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))
• ( ϕ&ψ) → ϕ
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 119
• ( ϕ&ψ) → (ψ&ϕ)
• ( ϕ&( ϕ → ψ)) → (ψ&(ψ → ϕ))
• ( ϕ → (ψ → χ)) → (( ϕ&ψ) → χ)
• (( ϕ&ψ) → χ) → ( ϕ → (ψ → χ))
• (( ϕ → ψ) → χ) → (((ψ → ϕ) → χ) → χ)
• 0→ϕ
Als Schlussregel kommt der Modus Ponens zur Anwendung: Aus ϕ und ϕ →
ψ leite ψ ab. Dabei ist zu beachten, dass der Modus Ponens sich nicht auf die
Verknüpfung von ϕ und ϕ → ψ mittels starker oder schwacher Konjunktion
bezieht. Das „und“ in der obigen Formulierung des Modus Ponens ist
ein metasprachlicher Ausdruck und weist lediglich auf das gleichzeitige
Vorliegen beider Aussagen hin. Etwas klarer wird diese Unterscheidung,
wenn man eine semantische Definition des Modus Ponens ergänzt: Wenn
der Wahrheitswert von ϕ und ϕ → ψ jeweils 1 ist, so schließe darauf, dass
der Wahrheitswert von ψ ebenfalls 1 ist.
tŁ ( x, y) = max(0, x + y − 1) (11.5)
lässt sich leicht zeigen, dass das Residuum von tŁ der Łukasiewicz’schen
Wahrheitsfunktion f → ( x, y) entspricht: Da ein Residuum laut Definition
dem größten Wert z entsprechen muss, für den x ∗ z ≤ y gilt, muss gelten:
max(0, x + z − 1) ≤ y. (11.6)
Für den Fall, dass x ≤ y, kann z beliebig groß sein, ohne dass die obige
Ungleichung verletzt wird – denn max(0, x + z − 1) kann dann höchstens
gleich x werden. Der Wahrheitswert der Implikation ist somit für diesen
120 11 Testtheoretische Anwendung unscharfer Logiken
Fall 1. Sollte jedoch x > y der Fall sein, muss x + z − 1 kleiner oder gleich y
sein. Aus
x+z−1 ≤ y (11.7)
ergibt sich durch einfaches Umstellen der Ungleichung
z ≤ 1 − x + y. (11.8)
Da z den größtmöglichen Wert einnimmt, für den diese Ungleichung gilt,
ergibt sich
z = 1 − x + y. (11.9)
Das Residuum der t-Norm max(0, x + y − 1) ist somit identisch mit der
Łukasiewicz’schen Wahrheitsfunktion f → ( x, y).
In ähnlicher Weise ist die Wahrheitsfunktion der Negation,
f ¬ (x) = 1 − x (11.10)
Das ist genau dann der Fall, wenn [ ϕ] = 0. Wenn jedoch w [ ϕ] > 0, dann ist
w ϕ → 0 = 1 − w [ ϕ] + w 0 . (11.12)
w [¬ ϕ] = 1 − w [ ϕ] , (11.13)
¬¬ ϕ → ϕ
ein Axiomsystem formulieren, dessen Menge der 1-Tautologien identisch
mit der Menge der Tautologien in Łℵ ist (vgl. Hájek, 1998b für einen entspre-
chenden Beweis). Der einzige Unterschied zwischen BL in Kombination
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 121
mit dem zusätzlichen Axiom und der ursprünglichen Logik Łℵ besteht dar-
in, dass letztere ohne Rückgriff auf die logische Verknüpfung der starken
Konjunktion auskommt (welche jedoch im Prinzip aus den übrigen Ver-
knüpfungen definierbar wäre). Der Kalkül Łℵ stellt somit einen Spezialfall
einer Fuzzy-Aussagenlogik dar.
• ¬r ≡ f ¬ (r )
Die Bedeutung dieser Axiome ist leicht zu erfassen: Wahrheitskonstan-
ten werden miteinander verknüpft, indem die entsprechenden semanti-
schen Operationen auf den zugehörigen Wahrheitswerten durchgeführt
122 11 Testtheoretische Anwendung unscharfer Logiken
( ϕ, r ), ( ϕ → ψ, s)
(ψ, r ∗ s)
Syntax
Ebenso wie in der zweiwertigen Prädikatenlogik kommen Prädikaten so ge-
nannte Terme zu, welche entweder Objektkonstanten oder Objektvariablen
sein können. Objektvariablen können ebenfalls durch Quantoren gebunden
werden. Das Alphabet des Kalküls BL∀ besteht aus:
• einer nichtleeren Menge von Prädikaten P, Q, R . . . , welchen jeweils
eine natürliche Zahl – ihre Stelligkeit zugeordnet ist
• einer (möglicherweise leeren) Menge von Objektkonstanten c, d, . . .
• einer (möglicherweise leeren) Menge von Objektvariablen x, y, . . .
• den logischen Verknüpfungen → (Implikation) und & (starke Konjunkti-
on)
• den Wahrheitskonstanten 0 und 1
• dem Allquantor ∀ („für alle“) und dem Existenzquantor ∃ („Es gibt
mindestens ein“)
124 11 Testtheoretische Anwendung unscharfer Logiken
• ϕ ∧ ψ bedeutet ϕ&( ϕ → ψ)
• ϕ ∨ ψ bedeutet (( ϕ → ψ) → ψ) ∧ ((ψ → ϕ) → ϕ)
• ¬ ϕ bedeutet ϕ → 0
• ϕ ≡ ψ bedeutet ( ϕ → ψ)&(ψ → ϕ)
Atomare Aussagen bestehen aus jeweils einem Prädikat und einer entspre-
chenden Anzahl Terme (Objektkostanten oder Objektvariablen). Prädikate
werden als n-stellige Fuzzy-Relationen auf einer Domäne M verstanden.
Aussagen werden analog zu den bisherigen Kalkülen definiert:
Die Konzepte der Gebundenheit und der Substituierbarkeit werden auf diesel-
be Weise definiert wie in der zweiwertigen Prädikatenlogik.
Semantik
Eine semantische Interpretation besteht in der Zuordnung von Wahrheitswer-
ten zu Aussagen. Es gilt das Prinzip der Extensionalität. Dementsprechend
werden die Wahrheitsfunktionen der Verknüpfungen & und → aus der
Fuzzy-Aussagenlogik übernommen – eine beliebige t-Norm für die starke
Konjunktion und das dazugehörige Residuum für die Implikation. Den
Wahrheitskonstanten 0 und 1 werden die Wahrheitswerte 0 und 1 zuge-
ordnet. Darüber hinaus werden die Wahrheitswerte atomarer Aussagen
in Abhängigkeit der in ihnen vorkommenden Terme festgelegt. Hierfür
wird jedem Prädikat eine Fuzzy-Relation entsprechender Stelligkeit auf der
4 Dasich für jede t-Norm eine eigene Semantik ergibt, ist es nicht sinnvoll, sie zu den grundle-
genden Zeichen des Kalküls zu zählen.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 125
Axiomatisierung
Die folgenden Tautologien sind die Axiome des Fuzzy-Prädikatenkalküls
BL∀ :
• ( ϕ → ψ) → ((ψ → χ) → ( ϕ → χ))
• ( ϕ&ψ) → ϕ
• ( ϕ&ψ) → (ψ&ϕ)
• ( ϕ&( ϕ → ψ)) → (ψ&(ψ → ϕ))
• ( ϕ → (ψ → χ)) → (( ϕ&ψ) → χ)
• (( ϕ&ψ) → χ) → ( ϕ → (ψ → χ))
5 Die „größte untere Schranke“
126 11 Testtheoretische Anwendung unscharfer Logiken
• (( ϕ → ψ) → χ) → (((ψ → ϕ) → χ) → χ)
• 0→ϕ
(∀ x )( De f ( x, k) → Hat( p, x )).
Um die Objektkonstanten k und p als Konstrukte und Personen festlegen
zu können, werden zwei einstellige Prädikate IstPerson: „ist eine Person“
und IstKonstrukt: „ist ein Konstrukt“ benötigt. Sie dienen dazu, Objekt-
konstanten als Personen oder Konstrukte zu kennzeichnen, so dass eine
128 11 Testtheoretische Anwendung unscharfer Logiken
( IstPerson( p) ∧ IstKonstrukt(k)) →
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k) .
Umgangssprachlich bedeutet diese Aussage in etwa: „Eine Person hat
genau dann ein bestimmtes Konstrukt, wenn sie alle Attribute aufweist, die
das Konstrukt definieren“.
f → ( x, y) = min(1, 1 − x + y) (11.16)
sowie das Infimum der Ausprägungsgrade in x in Hinblick auf ein Prädikat
P für den Wahrheitswert der Aussage (∀ x ) P( x ). Bei einer endlichen Do-
mäne (also im Fall eines Tests einer endliche Menge an Fragebogenitems)
entspricht dies der minimalen vorkommenden Prädikatausprägung.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 129
Wendet man die Wahrheitsfunktionen von PL∀ auf die notwendigen und
hinreichenden Bedingungen für die Zuschreibung von Konstrukten an,
ergibt sich der entsprechende Wahrheitswert in Abhängigkeit von der zu
Grunde liegenden Konstruktbedeutung De f ( x, k) und den vorliegenden
Testantworten Hat( p, x ):
w [ ϕ ≡ ψ] = w [( ϕ → ψ)&(ψ → ϕ)]
= f → ( ϕ, ψ) ∗ f → (ψ, ϕ)
(11.18)
= max(0, min(1, 1 − w [ ϕ] + w [ψ])
+ min(1, 1 − w [ψ] + w [ ϕ]) − 1).
gilt weiter
max(0, min(1, 1 − w [ ϕ] + w [ψ])
(11.20)
+ min(1, 1 − w [ψ] + w [ ϕ]) − 1) = 1.
Diese Gleichung trifft genau dann zu, wenn die Terme 1 − w [ ϕ] + w [ψ] und
1 − w [ψ] + w [ ϕ] jeweils größer oder gleich 1 sind. Das ist genau dann der
Fall, wenn w [ ϕ] = w [ψ] gilt. Dementsprechend gilt wegen Gleichung 11.17:
Beispiel 6. Ein Test T soll das in Abschnitt 8.4.2 eingeführte Konstrukt „Höf-
lichkeit“ erfassen. Entsprechend werden die definierenden Attribute in Form von
Fragebogenitems zusammengestellt und numerische Antworten auf einer visuellen
Analogskala erhoben. Die Antwortskala reicht von 0: „Trifft überhaupt nicht auf
mich zu“ bis 1: „Trifft voll und ganz auf mich zu.“.
Die Items des Tests, ihre Zugehörigkeitsgrade (m) zum Konstrukt „Höflichkeit“,
sowie die hypothetischen Antworten (a) einer getesteten Person „Karla“ sind in
Tabelle 11.1 abgebilet.
Fragebogenitem m a
H1) Ich halte mich an Gruß- und Abschiedsformeln 0.9 0.8
H2) Ich schaue Gesprächspartnern in die Augen 0.7 0.8
H3) Ich bin Vorgesetzten gegenüber zurückhaltend 0.1 0.5
H4) Ich halte Anderen die Tür auf 0.9 0.6
Da „Höflichkeit“ ein Konstrukt ist und „Karla“ eine Person, lautet die prädika-
tenlogische Formalisierung in PL∀ vereinfacht:
Entsprechend Gleichung 11.21 gilt für den Wahrheitswert der Aussage „Karla
weist das Konstrukt „Höflichkeit“ auf“:
( IstPerson( p) ∧ IstKonstrukt(k)).
Diese Formalisierung soll nun derart erweitert werden, dass auch Fälle be-
schrieben werden können, bei denen das Ergebnis eines Tests nur teilweise
auf das Vorliegen eines Konstrukts schließen lässt.
132 11 Testtheoretische Anwendung unscharfer Logiken
Testung( p, k, t) →
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k)∧
Val (t, k ) .
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 133
Es lässt sich in PL∀ herleiten, dass eine Person das entsprechende Kon-
strukt genau dann aufweist, wenn sie allen Attributen zustimmt, die das
Konstrukt definieren und im Test enthalten sind6 :
(∀ x )(( In( x, t) ∧ De f ( x, k)) → Hat( p, x )) ≡ Hat( p, k) .
Dies ergibt sich daraus, dass genau dann alle definierenden Attribute im
Test enthalten sind, wenn die definierenden Attribute identisch sind mit
der Konjunktion dieser Attribute und den im Test enthaltenen Attributen:
(∀ x )( De f ( x, k) → In( x, t)) ≡ (∀ x )( De f ( x, k) ≡ ( De f ( x, k) ∧ In( x, t))) .
Testung( p, k, t) →
(∀ x )(( In( x, t) ∧ De f ( x, k)) → Hat( p, x )) ≡ Hat( p, k) .
Da der Ausdruck
sich darauf bezieht, inwieweit die in einem Test erfragten Attribute auf
eine Person zutreffen, soll er im Folgenden „Erfüllt“: Er f ( p, k, t) genannt
werden. Dieser wird „Person p erfüllt die im t erhobenen Bedingungen
zur Zuschreibung von Konstrukt k“ gelesen7 . Somit lässt sich folgende
allgemeine Regel bestimmen:
Testung( p, k, t) → ((∀ x )( De f ( x, k ) → Hat( p, x )) ≡ Hat( p, k ))∧
Val (t, k )
→ Testung( p, k, t) → ( Er f ( p, k, t) ≡ Hat( p, k)) .
6 Da die abgeleiteten Aussagen vergleichsweise trivial sind, wird auf eine formale Beweisfüh-
rung in PL∀ verzichtet.
7 Im weiteren Verlauf dieser Arbeit wird Er f ( p, k, t ) auch als „Testverhalten“ oder „Testscore“
bezeichnet.
134 11 Testtheoretische Anwendung unscharfer Logiken
schließen, wenn dieses sich auf eine Menge wohldefinierter Attribute zurückführen
lässt und wenn der Test für das entsprechende Konstrukt inhaltlich valide ist8 .
Konkret bedeutet das: Vorausgesetzt ein Konstrukt k liegt genau dann
vor, wenn alle das Konstrukt k definierenden Attribute auf eine Person p
zutreffen, und alle diese Attribute im Test t abgefragt werden, dann lässt
sich aus dem Zutreffen der abgefragten Attribute auf Person p erschließen,
dass sie das Konstrukt k aufweist.
per Definition als wahr angesehen, hat also den Wahrheitswert 1. Auch der
Grad, in dem diese Forderung in Konjunktion mit Val (t, k) hinreichend für
die Äquivalenz zwischen Testverhalten und Konstruktausprägung sind, ist
gleich 1.
Da aufgrund der Wahrheitsfunktion der Łukasiewicz’schen Implikation
gilt, dass
w [ Testung( p, k, t) →
((∀ x )( De f ( x, k) → Hat( p, x ))) ≡ Hat( p, k) ∧
(11.22)
Val (t, k ) ]
≤ w [ Er f ( p, k, t) ≡ Hat( p, k)],
ergibt sich durch die Anwendung der Wahrheitsfunktion für ∧ und das
Einsetzen der oben festgelegten Wahrheitswerte:
8 Diese
Regel bezieht sich auf jede beliebige Testung, da die obigen Ausführungen auch in der
quantifizierten Form mit ∀ gültig sind.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 135
Somit ist die abgeleitete Aussage, das Erfüllen der abgefragten Bedin-
gungen sei äquivalent zum Aufweisen des Konstrukts, mindestens in dem
Maße wahr, wie der Test inhaltlich valide ist.
Laut Gleichung 11.18 gilt ferner für den Wahrheitswert einer Äquivalenz:
min(1, 1 − w [ ϕ] + w [ψ])
Da (1 − w [ψ] + w [ ϕ]) nicht kleiner als 0 sein kann, lässt sich vereinfacht
schreiben:
w [ ϕ ≡ ψ] = 1 − w [ψ] + w [ ϕ] . (11.26)
Wenn w [ψ] < w [ ϕ] ist, wird
zu 1 und w [ ϕ ≡ ψ] entspricht
1 − w [ ϕ] + w [ψ] .
oder einfacher
w [ ϕ ≡ ψ ] = 1 −
w [ ϕ ] − w [ ψ ]
. (11.28)
Setzt man dieses Ergebnis in Gleichung 11.23 ein, erhält man:
w [Val (t, k )] ≤ 1 −
w [ Er f ( p, k, t)] − w [ Hat( p, k )]
, (11.29)
136 11 Testtheoretische Anwendung unscharfer Logiken
Berechnung der Validität Das Ausmaß, in dem ein Test t die Bedeutung
eines Konstrukts k erfasst, ist laut der Definition des Prädikats Val (t, k)
gegeben durch:
(∀ x )( De f ( x, k) → In( x, t)).
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 137
erhält man den Wahrheitswert von Val (t, k ), indem man den größten Wahr-
heitswert der nicht im Test abgefragten definierenden Attribute von 1 subtrahiert.
Aussage als:
w [ In( x, t) ∧ De f ( x, k )) → Hat( p, x )] =
(11.40)
min 1, 1 − w [ De f ( x, k)] + w [ Hat( p, x )]
ergibt.
Zur Berechnung des Testscores w [ Er f ( p, k, t)] wird somit dieselbe Re-
chenoperation durchgeführt, wie für die Konstruktausprägung im Fall
vollständig erfassbarer Konstrukte:
3. Ist die Testantwort kleiner als der Zugehörigkeitsgrad, ergibt sich das
Resultat, indem die Differenz von Zugehörigkeitsgrad und Testant-
wort von 1 abgezogen wird.
4. Der kleinste dieser Werte entspricht dem Testscore einer Person für
das betreffende Konstrukt.
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 139
( Er f ( p, k, t) ≡ Hat( p, k)) →
( Er f ( p, k, t) → Hat( p, k)).
Um nun aus der Aussage Er f ( p, k, t) die Aussage Hat( p, k ) erschließen
zu können, kommt die Schlussregel des Modus Ponens zum Einsatz – und
zwar in der abgeleiteten Form für beliebige Wahrheitswerte der Prämissen:
( ϕ, r ), ( ϕ → ψ, s)
(ψ, r ∗ s)
mit r ∗ s = max(0, r + s − 1).
Wendet man die Schlussregel auf den obigen Fall an, so entspricht
ϕ der Aussage Er f ( p, k, t) und ( ϕ → ψ) der Aussage Er f ( p, k, t) →
Hat( p, k ). Der Wert r wäre dann w [ Er f ( p, k, t)] und s entsprechend
w [ Er f ( p, k, t) → Hat( p, k )]. Somit ergibt sich für den aus dem Testverhalten
erschließbaren Wahrheitswert der Aussage Hat( p, k ):
w [ Hat( p, k )] =w [ Er f ( p, k, t)] ∗
w [ Er f ( p, k, t) → Hat( p, k )]
(11.41)
= max(0, w [ Er f ( p, k, t)] +
w [ Er f ( p, k, t) → Hat( p, k )] − 1)
w [ Er f ( p, k, t) → Hat( p, k )] = 1, (11.42)
Beispiel 7. Der im vorigen Beispiel eingeführte Test zur Erfassung des Konstrukts
„Höflichkeit“ soll nun in einer gekürzten Version verwendet werden. Da das Item
H3 nur zu einem recht geringen Grad zum Konstrukt gehört, wird es in der
gekürzten Version weggelassen.
Bedingt durch die Kürzung erfasst der Test nun nicht mehr die gesamte Bedeu-
tung des Konstrukts – damit ist das Konstrukt „Höflichkeit“ durch den resultieren-
den Test nur noch unvollständig erfassbar.
Die Formalisierung in PL∀ geht von einer Testung( p, k, t) aus, wobei gelten
soll:
• p =„Peter“
• k =„Höflichkeit“
• t =„Höflichkeitstest, revidierte Form (HTR)“.
Laut der allgemeinen Regel aus Abschnitt 11.2.3 liefert der Wahrheitswert dieser
Ausgangsbedingungen die untere Schranke für den Wahrheitswert der Aussage
wobei
Er f ( Peter, H ö f lichkeit, HTR)
für die Aussage
steht.
Die definierenden Attribute liegen wieder in Form von Fragebogenitems vor.
Ferner werden numerische Antworten auf einer visuellen Analogskala erhoben.
Die Antwortskala reicht von 0: „Trifft überhaupt nicht auf mich zu“ bis 1: „Trifft
voll und ganz auf mich zu.“.
Die Prädikate De f ( x, H ö f lichkeit) und Hat( Peter, x ) werden, wie gehabt,
durch die Zugehörigkeitsgrade mi der Testitems und die empirischen Itemantworten
11.2 Quantifizierung unscharf definierter Konstrukte mittels Fuzzy-Logik 143
ai gegeben. Des Weiteren wird In( x, HTR) bestimmt, indem allen Attributen, die
im HTR erfragt werden, eine 1 zugeordnet wird und allen anderen eine 0.
Um das resultierende Intervall für den Wahrheitswert der Aussage
Hat( Peter, H ö f lichkeit) zu bestimmen, müssen zunächst die Wahrheitswer-
te der Ausdrücke Er f ( Peter, H ö f lichkeit, HTR) und Val ( HTR, H ö f lichkeit)
berechnet werden. Dies erfolgt gemäß der Gleichungen 11.38 und 11.33. Es werden
dabei dieselben Werte wie in Beispiel 6 verwendet. Für die Validität des Tests HTR
in Bezug auf das Konstrukt Höflichkeit ergibt sich daraus:
w [Val ( HTR, H ö f lichkeit] = inf (min(1, 1−0.9 + 1),
(min(1, 1−0.7 + 1),
(min(1, 1−0.1 + 0),
(11.50)
(min(1, 1−0.9 + 1))
= inf (1, 1, 0.9, 1)
= 0.9.
Dies entspricht erwartungsgemäß der Differenz zwischen 1 und dem kleinsten
Zugehörigkeitsgrad der nicht im Test enthaltenen definierenden Attribute. Für den
Wahrheitswert der Aussage Er f ( Peter, H ö f lichkeit, HTR) gilt entsprechend:
w [ Er f ( Peter, H ö f lichkeit, HTR] = inf min 1, 1 − min(1, 0.9) + 0.8 ,
min 1, 1 − min(1, 0.7) + 0.8 ,
min 1, 1 − min(0, 0.1) + 0.5 ,
min 1, 1 − min(1, 0.9) + 0.6
= inf min(1, 1 − 0.9 + 0.8),
min(1, 1 − 0.7 + 0.8),
min(1, 1 − 0 + 0.5),
min(1, 1 − 0.9 + 0.6)
= inf min(1, 0.9),
min(1, 1.1),
min(1, 1.5),
min(1, 0.7)
= inf (0.9, 1, 1, 0.7)
= 0.7.
(11.51)
144 11 Testtheoretische Anwendung unscharfer Logiken
darstellen. Somit ist es relativ problemlos möglich, für alle Kalküle jeweils
dieselben logischen Zeichensysteme (bzw. Teile davon) zu verwenden.
Was die testtheoretischen Formalisierungen angeht, lässt sich ebenfalls
eine Reihe von Gemeinsamkeiten aufzeigen. Bereits erwähnt wurde die
semantische Äquivalenz der aussagenlogischen und prädikatenlogischen
Formalisierung klinischer Diagnosen in den Abschnitten 9.1.1 und 9.2.1. Der
aussagenlogische Ansatz lässt sich seinerseits als Spezialfall des Ansatzes
zur Modellierung unbestimmter Symptomlagen (Abschnitt 10.2.1) mit nur
zwei vorkommenden Wahrheitswerten (0 und 1) betrachten. Dieser wieder-
um ist ein Spezialfall des Ansatzes zur Quantifizierung scharfer Konstrukte
aus Abschnitt 10.3 – mit drei diskreten Wahrheitswerten statt unendlich vie-
ler. Eine ähnliche Entsprechung gibt es zwischen dem prädikatenlogischen
Ansatz aus Abschnitt 9.2.1 und der Formalisierung vollständig erfassbarer
Konstrukte (Abschnitt 11.2.3).
Von diesen Ansätzen abzugrenzen ist die Inferenz unvollständig erfass-
barer Konstrukte (Abschnitt 11.2.3), da sie als einzige von einer logischen
Schlussregel Gebrauch macht (dem graduellen Modus Ponens). Die übrigen
Ansätze stellen streng genommen keine logischen Inferenzschlüsse dar,
sondern übertragen lediglich die Definition eines Konstrukts in eine forma-
le Sprache. Aufgrund der Extensionalität der verwendeten Kalküle kann
daher jeweils der Wahrheitswert des Konstrukts aus den Wahrheitswerten
der Definition bestimmt werden.
In Abschnitt 11.2.3 hingegen werden tatsächliche Inferenzschlüsse getä-
tigt. Dabei dienen die Definition des Konstruktes und die Forderung der
Inhaltsvalidität als Prämissen, aus welchen zunächst die Äquivalenz zwi-
schen Testverhalten und Konstruktwert abgeleitet wird. Durch Anwendung
des graduellen Modus Ponens wird darauf aufbauend von den Testantwor-
ten und dem Validitätsgrad eines Tests auf das Vorliegen eines Konstruktes
geschlossen.
Da die logische Äquivalenz sich in allen vorgestellten Kalkülen auch als
wechselseitige Implikation darstellen lässt, wäre es zwar auch möglich ge-
wesen, sämtliche Ansätze in Form logischer Inferenzschlüsse darzustellen.
Allerdings hätte dies die Schreibweise unnötig verkompliziert, denn auf
semantischer Ebene gelangt man ohnehin zu denselben Ergebnissen (vgl.
Abschnitt 11.2.3).
Auf formaler Ebene lassen sich daher alle vorgestellten Ansätze unter ei-
nem gemeinsamen formalen Rahmen subsummieren – nämlich dem Fuzzy-
Prädikatenkalkül PL∀ . Was das konkret für die testdiagnostische Praxis
bedeutet, soll im nächsten Abschnitt erörtert werden.
12.2 Empirische Anwendungsmöglichkeiten 147
12.2.1 Anwendungsgebiete
Im Gegensatz zur psychometrischen Sichtweise werden psychologische
Tests im sprachlich-logischen Ansatz nicht als Messinstrumente angesehen.
Stattdessen werden sie als Werkzeug zum logischen Erschließen des Vorlie-
gens bestimmter Konstrukte betrachtet. Dies ist vor allem dann von Vorteil,
wenn die durch psychometrische Methoden vorausgesetzten Annahmen
nur schwer zu rechtfertigen sind.
Konkret bedeutet dies, dass die Anwendung psychometrischer Methoden
immer zumindest implizite Annahmen über das Vorliegen einer Messung
beinhaltet. Das bedeutet, dem Test muss eine quantitative, latente Variable
zu Grunde liegen, deren Ausprägungen durch den Test abgebildet werden.
Wann immer es Zweifel an der Gültigkeit dieser Annahmen gibt, ist die
Verwendung psychometrischer Methoden problematisch.
Für solche Fälle liefert der vorgestellte sprachlich-logische Ansatz eine
mögliche Alternative. Insbesondere wenn
• die Frage der Messung für die Anwendung des Tests irrelevant ist,
die Inhalte der Items zu einem abstrakten Oberbegriff (dem Konstrukt) zu-
sammenfassen lassen – dieser Begriff kann eine reale Entsprechung haben,
muss es aber nicht.
Dementsprechend ergibt sich ein sehr breites Anwendungsspektrum
für den vorgestellten Ansatz. Dieses reicht von Persönlichkeitstests über
klinische Screenings bis hin zu Eignungstests oder spontan entworfenen
Befragungen. Von besonderem Interesse ist sicher die potenzielle Anwen-
dung zur Quantifizierung kategorial definierter Konstrukte (wie z.B. ICD-
Diagnosen).
Immer, wenn die Items eines Fragebogens nicht als solche interessieren,
sondern als Beispielinstanzen eines abstrakten Konstruktbegriffs betrachtet
werden, ist der beschriebene Ansatz anwendbar. Entsprechend beschränkt
er sich nicht auf den naturwissenschaftlichen Bereich der Psychologie, son-
dern umfasst auch die empirischen Anteile eher geisteswissenschaftlich
orientierter Forschung.
12.2.2 Testkonstruktion
Beabsichtigt man, einen Test nach dem sprachlich-logischen Ansatz zu
verwenden, sollte man dies im Idealfall bereits bei der Testkonstruktion
berücksichtigen.
Das grundsätzliche Vorgehen ist der herkömmlichen Testkonstruktion
nicht unähnlich. Allerdings gibt es einige entscheidende Unterschiede, ins-
besondere was die formale Berechnung von Testgütekriterien und damit
verbundene Testrevisionen angeht.
Die zentrale Frage zu Beginn des Konstruktionsprozesses lautet im
sprachlich-logischen Ansatz stets: Was ist die Konstruktbedeutung? Da-
bei geht es nicht um eine verbale Umschreibung dessen, was mit einem
Konstrukt gemeint ist, sondern um die Erstellung einer mathematisch ex-
akten Konstruktdefinition mittels konkreter Attribute und entsprechender
Zugehörigkeitsgrade zum Konstruktbegriff. Das heißt, ein Konstruktbegriff
muss in eine Menge konkreter Attribute aufgeschlüsselt werden, deren
Zugehörigkeit zum Konstrukt mit einer Zahl zwischen 0 und 1 festgelegt
wird. Bevor ein Test konstruiert wird, muss dementsprechend genau geklärt
sein, was (konkret!) erfragt werden soll.
Dabei gibt es im Wesentlichen zwei mögliche Wege. Zum einen kann man
von einem bestimmten Konstruktbegriff ausgehen und ihn analytisch in eine
Menge möglichst konkreter und eindeutiger Einzelattribute zerlegen. Die in
12.2 Empirische Anwendungsmöglichkeiten 149
Analytisches Vorgehen
Steht einigermaßen fest, welche Items inhaltlich zu welchen Konstrukten
gehören sollen, sind die einzelnen Zugehörigkeitsgrade der Items zu den zu
erfassenden Konstrukten zu bestimmen. Dies ist der wichtigste und wohl
auch schwierigste Teil der Testkonstruktion, denn die Zugehörigkeitsgrade
entscheiden in starkem Maße über die resultierenden Testergebnisse.
Die einfachste Art, um die Konstruktzugehörigkeiten der Items zu bestim-
men, ist sicher die Expertenbefragung. Dabei werden die potenziellen Frage-
bogenitems einem oder mehreren „Experten“ vorgelegt, welche ihnen auf
direktem Wege numerische Zugehörigkeitsgrade zu den entsprechenden
Konstruktbegriffen zuordnen. Die Zahlenzuordnung kann selbstverständ-
lich auch auf indirektem Wege über die Bildung von Rangfolgen („Welches
Item gehört mehr zum Konstrukt“), Distanzvergleiche („Welche Itempaare
unterscheiden sich hinsichtlich ihrer Zugehörigkeit mehr?“) oder die Beur-
teilung des Verhältnisses („Wieviel mal mehr als jenes Item gehört dieses
Item dazu?“) von Zugehörigkeiten geschehen.
Die Einfachheit der Prozedur geht leider auch mit einer relativ hohen
Angreifbarkeit einher. Welche Experten werden befragt und wie? Warum
gerade diese Experten und nicht andere? Wie wird mit unterschiedlichen
Einschätzungen verfahren etc.? Die Verwendung von Expertenurteilen bie-
tet sich daher vor allem dann an, wenn der Test zur Beurteilung von Ei-
genschaften hinsichtlich ganz spezifischer Kriterien dienen soll – also zum
Beispiel im Rahmen von Personalfragebögen, bei denen die Konstruktzuge-
hörigkeiten anhand von Anforderungsanalysen festgelegt werden sollen.
Statt Experten könnte man selbstverständlich auch eine ganze Population
befragen. Dazu könnte man einer Stichprobe von Personen die zu erfassen-
den Konstruktbegriffe vorlegen und sie bitten, möglichst konkrete Attribute
aufzuzählen, die die Zuschreibung des entsprechenden Konstruktbegriffs
rechtfertigen würden. Auf diese Weise würde man eine Menge von Attribu-
ten erhalten (welche hinsichtlich inhaltlicher Überschneidungen gruppiert
150 12 Diskussion
werden sollten). Zu jedem Attribut hat man gleichzeitig auch den relati-
ven Anteil der Personen, welche das Attribut als notwendige Bedingung
zur Konstruktzuschreibung betrachten. Diese relativen Anteile könnten
ebenfalls als Zugehörigkeitsgrade verwendet werden. Ein solches Vorgehen
bietet sich vor allem dann an, wenn es darum geht, Konstrukte zu erfas-
sen, welche dem allgemeinen Sprachgebrauch entspringen – wie zum Beispiel
Persönlichkeitseigenschaften (Buss & Craik, 1980, 1981; Buss, 1983) oder
Emotionen (J. A. Russell & Fehr, 1994).
Ein alternativer Weg, um die Zugehörigkeitsgrade zu bestimmen, wäre
die Verwendung semantischer Netzwerke. Ausgehend von Wortassoziationen
(wie im beschriebenen Verfahren) oder tatsächlichem Sprachgebrauch (z.B.
durch das Konstruieren einer Metrik über die Frequenz des gemeinsamen
Auftretens von Wörtern) könnte auf diese Weise eine ganze Reihe abstrakter
Konstrukte formal definiert werden.
Allen diesen Verfahren ist gemeinsam, dass sie von bestehenden (va-
gen) Begriffen ausgehen und versuchen, deren Bedeutung in eine Menge
möglichst eindeutiger Attribute zu zerlegen. Das Ziel ist in diesem Fall die
Analyse von Sprachgebrauch. Wesentlich ist daher stets die Bezugspopulation,
also die Sprachgemeinschaft, für welche die analytische Begriffszerlegung
gelten soll – im Falle der Expertenbefragung wäre dies unter Umständen
nur eine einzige Person.
Begriffsbildendes Vorgehen
Neben den Methoden der analytischen Konstruktdefinition sollen auch
Verfahren zu begriffsbildenden Konstruktdefinitionen Erwähnung finden.
Geht man nämlich von einer Menge Items aus, ohne über a priori Annah-
men in Bezug auf abstrahierende Konstruktbegriffe zu verfügen, muss das
Vorgehen entsprechend angepasst werden.
Um nicht willkürlich neue Begriffe zu bilden, sondern sinnvolle Konstruk-
te zu generieren, bietet sich ein empirisches Vorgehen an. Die resultierenden
Konstrukte sollten dementsprechend möglichst sparsame, treffende und spezi-
fische Beschreibungen der getesteten Personen liefern. Das bedeutet, es wird
eine möglichst kleine Anzahl Itemsets gesucht, welche möglichst gut zwi-
schen den getesteten Personen differenziert. Derartige Methoden existieren
bereits und kommen bisher im Bereich des so genannten „Data-Mining“ zur
Anwendung. Der vorgestellte Ansatz erfordert keine besonderen Voraus-
setzungen bezüglich der zu verwendenden Methode – dementsprechend
sollte ein Algorithmus zur Generierung von Itemsets (und ggf. Zugehörig-
12.2 Empirische Anwendungsmöglichkeiten 151
Itemselektion
Um die Anzahl der Items in einem Test auf ein vertretbares Maß zu re-
duzieren, ohne seinen Nutzen wesentlich einzuschränken, ist es möglich,
Items aus dem Test zu entfernen, sofern sie wenig zusätzliche relevante
Informationen bezüglich des Konstrukts liefern.
Um diesen Prozess zu erleichtern, bietet sich das Konzept der Inhaltsvali-
dität an, welches gegeben ist durch:
12.2.3 Testauswertung
Die Auswertung eines nach sprachlich-logischen Kriterien konstruierten
Tests erfolgt durch die Anwendung der jeweiligen Wahrheitsfunktion des
Konstruktwertes. Konkret bedeutet dies, dass die empirisch gewonnenen,
subjektiven Wahrheitswerte (also die Testantworten) entsprechend der ver-
wendeten logischen Formalisierung aggregiert werden1 .
Wie bereits in Abschnitt 12.1 angedeutet, lassen sich auf semantischer
Ebene sämtliche vorgenommenen Formalisierungen als Spezialfälle der
Testantworten müssen dafür gegebenenfalls zunächst auf das Intervall [0, 1] abgebildet
1 Die
werden. Dies geschieht durch die Anwendung einer einfachen, linearen Transformation.
12.2 Empirische Anwendungsmöglichkeiten 153
w [ Hat( p, x )i ] = ai (12.6)
mit ai als den Antworten der getesteten Person auf die abgefragten Attribu-
te.
154 12 Diskussion
2 Eine
Implementierung der beschriebenen Prozedur in das Statistikprogramm R findet sich
im Anhang.
12.3 Ausblick 155
12.3 Ausblick
Ziel der vorliegenden Arbeit war es, einen formalen Ansatz zur Auswertung
und Interpretation psychologischer Tests zu entwickeln, welcher auf der
Annahme fußt, dass psychologische Konstrukte keine messbaren Größen
darstellen, sondern abstrakte Oberbegriffe für mehr oder weniger scharf
abzugrenzende konkrete Personenattribute. Da Konstrukte nach dieser
Interpretation sprachliche Gebilde darstellen, wurde für die Interpretation
psychologischer Tests das Prinzip der logischen Inferenz verwendet. Der
Inferenzschluss vom Testverhalten einer Person auf die ihr zukommen-
den Eigenschaften/Konstrukte wurde dabei vor dem Hintergrund formaler
Logik spezifiziert. Ausgehend von verschiedenen Logik-Kalkülen wurde zu-
nächst eine Formalisierung der Testung auf eindeutig definierte Konstrukte
(wie z.B. psychologische Diagnosen) vorgenommen. Diese wurde mittels
mehrwertiger Logiken so erweitert, dass das Phänomen der Unbestimmtheit
156 12 Diskussion
> #Beispiel
>
> werte <− matrix ( ncol =3 ,
+ c (0.2 ,0.3 ,0.2 ,0.6 ,0.7 ,0.4 ,0.9 ,0.3 ,0.5) ,
+ byrow=T )
> dat <− as . data . frame ( werte )
> colnames ( dat ) <− c ( " Item 1 " , " Item 2 " , " Item 3 " )
> rownames ( dat ) <− c ( " Person 1 " , " Person 2 " , " Person 3 " )
>
> dat
Item 1 Item 2 Item 3
Person 1 0.2 0.3 0.2
Person 2 0.6 0.7 0.4
Person 3 0.9 0.3 0.5
>
> d e f i n i t i o n <− c ( 0 . 5 , 0 . 3 , 0 . 6 )
> dat $ Konstruktwert <− p l . t e s t ( dat , d e f i n i t i o n )
>
> dat
Item 1 Item 2 Item 3 Konstruktwert
Person 1 0.2 0.3 0.2 0.6
Person 2 0.6 0.7 0.4 0.8
Person 3 0.9 0.3 0.5 0.9
Symbolverzeichnis
∧ „und“
A Mengensymbol – bezeichnet eine (möglicherweise unscharfe) Menge
a Mengensymbol – bezeichnet ein Element der Menge A
w [ ϕ] Wahrheitswert der Aussage ϕ
Literaturverzeichnis
Biddle, B. & Marlin, M. (1987). Causality, confirmation, credulity, and structural equation
modeling. Child Development, 58, 4–17.
Binet, A. & Simon, T. (1904). Méthodes nouvelles pour le diagnostic du niveau intellectuel des
anormaux. L’Année Psychologique, 11 (1), 191–244.
Binet, A. & Simon, T. (1908). Le développement de l’intelligence chez les enfants. L’Annee
Psychologique, 14 (1), 1–94.
Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability.
In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 397–479).
Reading, MA: Addison-Wesley.
Bluhme, H. (2005). Etymologisches Wörterbuch des deutschen Grundwortschatzes. München:
Lincom Europa.
Blumer, H. (1940). The problem of the concept in social psychology. American Journal of
Sociology, 45, 707–719.
Bobertag, O. (1911). Über Intelligenzprüfungen (nach der Methode von Binet und Simon) [Teil
1]. Zeitschrift für angewandte Psychologie und psychologische Sammelforschung, 5, 105–210.
Bobertag, O. (1912). Über Intelligenzprüfungen (nach der Methode von Binet und Simon) [Teil
2]. Zeitschrift für angewandte Psychologie und psychologische Sammelforschung, 6, 495–538.
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in
two or more nominal categories. Psychometrika, 37 (1), 29–51.
Bolc, L. & Borowik, P. (1992). Many valued logics. 1 theoretical foundations. Berlin, Heidelberg:
Springer.
Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley.
Boole, G. (1948). The mathematical analysis of logic. Being an essay towards a calculus of deductive
reasoning. New York: Philosophical Library.
Boring, E. (1923). Intelligence as the tests test it. New Republic, 36, 35–37.
Borsboom, D. (2005). Measuring the mind. Conceptual issues in contemporary psychometrics.
Cambridge: Cambridge University Press.
Borsboom, D. & Mellenbergh, G. (2004). Why psychometrics is not pathological. Theory and
Psychology, 14 (1), 105–120.
Borsboom, D., Mellenbergh, G. & Van Heerden, J. (2003). The theoretical status of latent
variables. Psychological Review, 110 (2), 203.
Borsboom, D. & Scholten, A. (2008). The Rasch model and conjoint measurement theory from
the perspective of psychometrics. Theory and Psychology, 18 (1), 111–117.
Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evaluation. Berlin, Heidelberg: Springer.
Browne, M. & Cudeck, R. (1992). Alternative ways of assessing model fit. Sociological Methods
and Research, 21 (2), 230–258.
Bruchmüller, K. & Meyer, T. D. (2008). Diagnostically irrelevant information can affect the
likelihood of a diagnosis of bipolar disorder. Journal of Affective Disorders, 116, 148–51.
Büttner, M. (1984). Diagnostik der intellektuellen Minderbegabung Untersuchung über die
Zuverlässigkeit von Testbefunden. Praxis der Kinderpsychologie und Kinderpsychiatrie, 33,
123–133.
Buckley, J. (2004). Fuzzy statistics. Berlin, Heidelberg: Springer.
Buckley, J. (2005). Fuzzy statistics: hypothesis testing. Soft Computing – A Fusion of Foundations,
Methodologies and Applications, 9 (7), 512–518.
Bühner, M. (2004). Einführung in die Test-und Fragebogenkonstruktion. München: Pearson
Studium.
Buss, D. M. (1983). Act prediction and the conceptual analysis of personality scales: Indices
of act density, bipolarity, and extensity. Journal of Personality and Social Psychology, 45,
1081–1095.
Literaturverzeichnis 169
Buss, D. M. & Craik, K. H. (1980). The frequency concept of disposition: Dominance and
prototypically dominant acts. Journal of Personality, 48, 379–392.
Buss, D. M. & Craik, K. H. (1981). The act frequency analysis of interpersonal dispositions:
Aloofness, gregariousness, dominance and submissiveness. Journal of Personality, 49,
175–192.
Cattell, R. B. (1943). The description of personality: Basic traits resolved into clusters. The
Journal of Abnormal and Social Psychology, 38 (4), 476.
Cattell, R. B. (1963). Theory of fluid and crystallized intelligence: A critical experiment. Journal
of Educational Psychology, 54 (1), 1–22.
Chang, C. C. (1958a). Algebraic analysis of many valued logics. Transactions of the American
Mathematical Society, 88, 476—490.
Chang, C. C. (1958b). A new proof of the completeness of the Łukasiewicz axioms. Transactions
of the American Mathematical Society, 93, 74—80.
Cintula, P. & Hájek, P. (2010). Triangular norm based predicate fuzzy logics. Fuzzy Sets and
Systems, 161 (3), 311 - 346.
Clogg, C. (1979). Some latent structure models for the analysis of likert-type data. Social Science
Research, 8 (4), 287–301.
Cohen, P., Cohen, J., Teresi, J., Marchi, M. & Velez, C. (1990). Problems in the measurement of
latent variables in structural equations causal models. Applied Psychological Measurement,
14 (2), 183.
Cudeck, R. & Browne, M. (1983). Cross-validation of covariance structures. Multivariate
Behavioral Research, 18 (2), 147–167.
Davies, J., Fensel, D. & Van Harmelen, F. (2003). Semantic web technologies: Trends and research in
ontology-based systems. New York: Wiley.
Deutsches Institut für Normung (Hrsg.). (1999). DIN-Taschenbuch 22. Einheiten und Begriffe für
physikalische Größen. 9.Auflage. Berlin, Wien, Zürich: Beuth.
Dilling, H., Mombour, W., Schmidt, M. H. & Schulte-Markwort, E. (Hrsg.). (2011). Internationale
Klassifizierung psychischer Störungen. ICD-10 Kapitel V(F). Diagnostische Kriterien für
Forschung und Praxis. 5. überarbeitete Auflage. Bern: Hans Huber.
Driankov, D., Hellendoorn, H. & Reinfrank, M. (1996). An introduction to fuzzy control. Berlin,
Heidelberg: Springer.
Dubois, D. (2011). The role of fuzzy sets in decision sciences: Old techniques and new
directions. Fuzzy Sets and Systems, 184 (1), 3–28.
Dummett, M. (1959). A propositional calculus with denumerable matrix. Journal of Symbolic
Logic, 24, 97–106.
Ebbinghaus, H. (1897). Über eine neue Methode zur Prüfung geistiger Fähigkeiten und ihre
Anwendung bei Schulkindern: Erweitert nach einem auf dem III. Internationalen Kongreß für
Psychologie zu München gehaltenen Vortrag. Hamburg: Voss.
Edgeworth, F. (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51
(3), 598–635.
Edwards, J. & Bagozzi, R. (2000). On the nature and direction of relationships between
constructs and measures. Psychological Methods, 5 (2), 155–174.
Everitt, B. S. (1999). Making sense of statistics in psychology: A second-level course. New York:
Oxford University Press.
Eysenck, H. (1967). The biological basis of personality. New Brunswick, New Jersey: Transaction
Pub.
Falmagne, J.-C. (1976). Random conjoint measurement and loudness summation. Psychological
Review, 83, 65–79.
170 Literaturverzeichnis
Gottwald, S. (2010). Many-valued logic. In E. N. Zalta (Ed.), The stanford encyclopedia of philo-
sophy (Spring 2010 ed.). Online einsehbar unter: http://plato.stanford.edu/archives/
spr2010/entries/logic-manyvalued/.
Gottwald, S. & Hájek, P. (2005). Triangular norm-based mathematical fuzzy logics. In
E. Klement & R. Mesiar (Eds.), Logical, algebraic, analytic, and probabilistic aspects of
triangular norms (pp. 257-299). Amsterdam: Elsevier.
Grabot, B. & Caillaud, E. (1996). Imprecise knowledge in expert systems: A simple shell. Expert
Systems With Applictions, 10 (1), 99–112.
Gregory, R. J. (2004). Psychological testing: History, principles, and applications. Boston: Allyn and
Bacon.
Grimm, J. & Grimm, W. (2004). Deutsches Wörterbuch (DWB), Der Digitale Grimm, elektronische
Ausgabe der Erstbearbeitung (1854). Frankfurt am Main: Zweitausendeins.
Gulliksen, H. (1950). Theory of mental tests. New York: Wiley.
Guttman, L. (1950). The basis for scalogram analysis. In S. A. Stouffer (Ed.), Measurement
and prediction: studies in social psychology in World War II (Vol. 4, pp. 60-90). New York:
Princeton University Press.
Hacking, I. (1965). The logic of statistical inference. Cambridge: Cambridge University Press.
Haghighi, M. (2012). A fuzzy multiple attribute decision making (MADM) approach for
employee evaluation and selection process. American Journal of Scientific Research, 58,
75–84.
Hampton, J. A. (2006). Concepts as prototypes. Psychology of Learning and Motivation, 46,
79-113.
Hathaway, S. & McKinley, J. C. (1940). A multiphasic personality schedule (Minnesota): I.
Construction of the schedule. The Journal of Psychology, 10 (2), 249–254.
Hathaway, S. & McKinley, J. C. (1942). A multiphasic personality schedule (Minnesota): III.
The measurement of symptomatic depression. Journal of Psychology: Interdisciplinary and
Applied.
Haynes, S., Richard, D. & Kubany, E. (1995). Content validity in psychological assessment: A
functional approach to concepts and methods. Psychological Assessment, 7 (3), 238.
Herrera, F., Herrera-Viedma, E. & Martínez, L. (2008). A fuzzy linguistic methodology to deal
with unbalanced linguistic term sets. Fuzzy Systems, IEEE Transactions on Fuzzy Systems,
16 (2), 354–370.
Heyer, D. (1990). Booleschwertige und probabilistische Meßtheorie. Frankfurt a.M., Bern, New
York, Paris: Peter Lang.
Heyer, D. & Mausfeld, R. (1987). On errors, probabilistic measurement and Boolean valued
logic. Methodika, 1, 113–138.
Heyer, D. & Niederée. (1992). Generalizing the concept of binary choice systems induced by
rankings: One way of probabilizing deterministic measurement structures. Mathematical
Social Sciences, 23, 31–44.
Hilbert, D. & Ackermann, W. (1949). Grundzüge der theoretischen Logik, 3. Auflage. Berlin:
Springer.
Hájek, P. (1998a). Basic fuzzy logic and BL-algebras. Soft Computing, 2, 124–128.
Hájek, P. (1998b). Metamathematics of fuzzy logic. Dordrecht, Boston, London: Kluwer Academic
Publishers.
Hájek, P. (2006). What is mathematical fuzzy logic. Fuzzy Sets and Systems, 157 (5), 597-603.
Hájek, P., Paris, J. & Shepherdson, J. (2000). Rational Pavelka predicate logic is a conservative
extension of Łukasiewicz predicate logic. Journal of Symbolic Logic, 65 (2), 669-682.
Hölder, O. (1901). Die Axiome der Quantität und die Lehre vom Masse. Berichte über
die Verhandlungen der Königlich Sächsischen Gesellschaft der Wissenschaften zu Leipzig,
172 Literaturverzeichnis
Kyngdon, A. (2008b). The Rasch model from the perspective of the representational theory of
measurement. Theory and Psychology, 18 (1), 89–109.
Lamberti, G. (2006). Intelligenz auf dem Prüfstand: 100 Jahre Psychometrie. Göttingen: Vanden-
hoeck and Ruprecht.
Langfeldt, H., Tent, L. & Stelzl, I. (1999). Pädagogisch-psychologische Diagnostik. Göttingen:
Hogrefe.
Lazarsfeld, P. & Henry, N. (1968). Latent structure analysis. Boston: Houghton, Mifflin.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. München: Beltz.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental scores. Reading, MA: Addison–
Wesley.
Lovasz, N. & Slaney, L. (2013). What makes a hypothetical construct “hypothetical”? tracing
the origins and uses of the ‘hypothetical construct’ concept in psychological science.
New Ideas in Psychology, 31 (1), 22 – 31.
Luce, R. D. & Narens, L. (1994). Fifteen problems concerning the representational theory of
measurement. In P. Humphreys (Ed.), Patrick suppes: Scientific philosopher (Vol. 2, pp.
219–249). Dordrecht, Boston, London: Kluwer.
Luce, R. D. & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of
fundamental measurement. Journal of Mathematical Psychology, 1 (1), 1–27.
Łukasiewicz, J. (1920). O logice trojwartosciowej. Ruch Filozoficny, 5, 170–171. [Englische
Übersetzung in: Łukasiewicz (1970)].
Łukasiewicz, J. (1970). On three-valued logic. In Borkowski, L. (Ed.) Jan Łukasiewicz. Selected
works. Amsterdam: North-Holland.
MacCorquodale, K. & Meehl, P. (1948). On a distinction between hypothetical constructs and
intervening variables. Psychological Review, 55 (2), 95.
Maraun, M. D., Slaney, K. L. & Gabriel, S. M. (2009). The augustinian methodological family
of psychology. New Ideas in Psychology, 27 (2), 148-162.
Markus, K. A. & Borsboom, D. (2011). The cat came back: Evaluating arguments against
psychological measurement. Theory and Psychology, 22 (4), 452-466.
Massaro, D. & Cohen, M. (2000). Fuzzy logical model of bimodal emotion perception:
Comment on “The perception of emotions by ear and by eye” by De Gelder and
Vroomen. Cognition and Emotion, 14 (3), 313–320.
Masters, G. (1982). A Rasch model for partial credit scoring. Psychometrika, 47 (2), 149–174.
McArcle, J. J. & McDonald, R. P. (1984). Some algebraic properties of the reticular action
model for moment structures. British Journal of Mathematical and Statistical Psychology,
37, 234–251.
McCloskey, M. E. & Glucksberg, S. (1978). Natural categories: Well defined or fuzzy sets?
Memory and Cognition, 6, 462-472.
McKeen Cattell, J. (1890). Mental tests and measurements. Mind, 15, 373-380.
Mechefske, C. & Wang, Z. (2003). Using fuzzy linguistics to select optimum maintenance
and condition monitoring strategies. Mechanical Systems and Signal Processing, 17 (2),
305–316.
Michalak, J., Kosfelder, J., Meyer, F. & Schulte, D. (2003). Messung des Therapieerfolgs.
Zeitschrift für klinische Psychologie und Psychotherapie, 32 (2), 94–103.
Michell, J. (1990). An introduction to the logic of psychological measurement. Hillsdale: Lawrence
Erlbaum Associates.
Michell, J. (1999). Measurement in psychology: Critical history of a methodological concept. Cam-
bridge: Cambridge University Press.
Michell, J. (2000). Normal science, pathological science and psychometrics. Theory and
Psychology, 10 (5), 639–667.
174 Literaturverzeichnis
Michell, J. (2008). Conjoint measurement and the Rasch paradox. Theory and Psychology, 18 (1),
119–124.
Mordeson, J. N. & Malik, D. S. (2002). Fuzzy automata and languages: Theory and applications.
Boca Raton: Chapman and Hall/CRC.
Munakata, T. (2008). Fundamentals of the new artificial intelligence: Neural, evolutionary, fuzzy and
more. London: Springer.
Münsterberg, H. (1913). Grundzüge der Psychotechnik. Leipzig: Barth.
Murray, H. (1943). Thematic apperception test. Harvard: Harvard University Press.
Nagel, L. (1931). Measurement. Erkenntnis, 2, 313–333.
Novák, V. (1992). Fuzzy sets in natural language processing. In An introduction to fuzzy logic
applications in intelligent systems. Dordrecht, Boston, London: Kluwer.
Novák, V. (2012). Reasoning about mathematical fuzzy logic and its future. Fuzzy Sets and
Systems, 192 (1), 25-44.
Oden, G. C. (1977a). Fuzziness in semantic memory: Choosing exemplars of subjective
categories. Memory and Cognition, 5, 198-204.
Oden, G. C. (1977b). Integration of fuzzy logical information. Human Perception and Performance,
3, 565-575.
Oden, G. C. (1979). A fuzzy logical model of letter identification. Journal of Experimental
Psychology: Human Perception and Performance, 5 (2), 336.
Ost, F. (1984). Faktorenanalyse. In L. Fahrmeir & A. Hamerle (Hrsg.), Multivariate statistische
Verfahren (S. 575–632). Berlin, New York: Walter de Gruyter.
Ostendorf, F. & Angleitner, A. (2004). NEO-Persönlichkeitsinventar (NEO-PI-R). Göttingen:
Hogreve.
Otis, A. S. (1918). An absolute point scale for the group measurements of intelligence. Journal
of Educational Psychology, 9 (5), 239–261.
Papineau, D. (1996). Philosophy of science. New York: Wiley.
Pavelka, J. (1979). On fuzzy logic i, ii, iii. Zeitschrift für mathematische Logik und Grundlagen der
Mathematik, 25, 45–52,119–134,447–464.
Pearl, J. (2000). Causality: models, reasoning and inference. Cambridge: Cambridge University
Press.
Peirce, C. S. (1983). Existential graphs. In H. Pape (Hrsg.), Charles Sanders Peirce: Phänomen und
Logik der Zeichen. Berlin: Suhrkamp.
Perline, R., Wright, B. D. & Wainer, H. (1979). The rasch model as additive conjoint measure-
ment. Applied Psychological Measurement, 3, 237-255.
Pfanzagl, J. (1968). Theory of measurement. New York: Wiley.
Pfeifer, W. (1993). Etymologisches Wörterbuch des Deutschen. 2. Auflage (Bd. 2). Berlin: Akademie-
Verlag.
Pollandt, S. (1997). Fuzzy-Begriffe. Formale Begriffsanalyse unscharfer Daten. Berlin, Heidelberg:
Springer.
Popescu, A. (2004). A general approach to fuzzy concepts. Mathematical Logic Quarterly, 50 (3),
265-280.
Popper, K. R. (1959). The propensity interpretation of probability. British Journal of the Philosophy
of Science, 37, 25–42.
Popper, K. R. (1995). Eine Welt der Propensitäten. Tübingen: Mohr Siebeck.
Post, E. L. (1921). Introduction to a general theory of elementary propositions. American Journal
of Mathematics, 43, 163–185.
Priest, G. (2008). An Introduction to Non-Classical Logic. From if to is. 2nd edition. Cambridge:
Cambridge University Press.
Literaturverzeichnis 175
Rasch, G. (1960). Probabilistic models for some intelligence and achievement tests. Kopenhagen:
Danish Institute for Educational Research (Expanded edition, 1980. Chicago: University
of Chicago Press).
Rautenberg, W. (2008). Einführung in die Mathematische Logik. Berlin, Heidelberg: Springer.
Raven, J. C. (1965). Advanced progressive matrices, sets i and ii. London: H. K. Lewis.
Raven, J. C. & Court, J. H. (1990). Standard progressive matrices. Oxford: Oxford Psychologists
Press.
Ribeiro, R. A. (1996). Fuzzy multiple attribute decision making: A review and new preference
elicitation techniques. Fuzzy Sets and Systems, 78 (2).
Rieger, C. (1888). Beschreibung der Intelligenzstörungen in Folge einer Hirnverletzung nebst
einem Entwurf zu einer allgemein anwendbaren Methode der Intelligenzprüfung. Würzburg:
Stahel’schen Universitäts-Buch- und Kunsthandlung.
Rorschach, H. & Oberholzer, E. (1923). Zur Auswertung des Formdeutversuchs für die
Psychoanalyse. Zeitschrift für die gesamte Neurologie und Psychiatrie, 82 (1), 240–274.
Rosch, E. H. (1973). Natural categories. Cognitive Psychology, 4, 328-350.
Rost, D., Sparfeldt, J. & Schilling, S. (2006). Hochbegabung. Leistung und Leistungsdiagnostik,
187–222.
Rost, J. (2004). Lehrbuch Testtheorie, Testkonstruktion. Zweite, vollständig überarbeitete und erweiterte
Auflage. Bern, Stuttgart, Wien: Verlag Hans Huber.
Roubens, M. (1997). Fuzzy sets and decision analysis. Fuzzy Sets and Systems, 90 (2), 199–206.
Rozeboom, W. W. (1958). Studies in the empiricist theory of scientific meaning. Philosophy of
Science, 27 (4), 359-373.
Rozeboom, W. W. (1962). The factual content of theoretical concepts. In H. Feigl & G. Maxwell
(Eds.), Minnesota studies in the philosophy of science (Vol. 3, pp. 257-273). Minneapolis:
University of Minnesota Press.
Russell, B. (1908). Mathematical logic as based on the theory of types. American Journal of
Mathematics, 30 (3), 222–262.
Russell, J. A. & Fehr, B. (1994). Fuzzy concepts in a fuzzy hierarchy: Varieties of anger. Journal
of Personality and Social Psychology, 67 (2), 186-205.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.
Psychometrika Monograph Supplement, 34.
Schlaudt, O. (2009). Messung als konkrete Handlung. Eine kritische Untersuchung über die Grundla-
gen der Bildung quantitativer Begriffe in den Naturwissenschaften. Würzburg: Königshausen
und Neumann.
Scott, D. & Suppes, P. (1958). Foundational aspects of theories of measurement. The Journal of
Symbolic Logic, 23 (2), 113–128.
Seising, R. (2012). Fuzzy sets and systems before the fuzzy boom. Communications in Computer
and Information Science, 297 (1), 541-551.
Sheng, Y. & Wikle, C. (2008). Bayesian multidimensional IRT models with a hierarchical
structure. Educational and Psychological Measurement, 68 (3), 413–430.
Skala, H. J. (1978). On many-valued logics, fuzzy sets, fuzzy logics and their applications.
Fuzzy Sets and Systems, 1 (2), 129–149.
Slaney, K. (2001). On empirical realism and the defining of theoretical terms. Journal of
Theoretical and Philosophical Psychology, 21 (2), 132-152.
Slaney, K. & Racine, T. (2013). What’s in a name? psychology’s ever evasive construct. New
Ideas in Psychology, 31 (1), 4-12.
Słupecki, J. (1936). Der volle dreiwertige Aussagenkalkül. Comptes rendus des séances de la
Société des Sciences et des Lettres de Varsovie, Classe III, 29, 9–11.
176 Literaturverzeichnis
Sörbom, D. (1974). A general method for studying differences in factor means and factor
structure between groups. British Journal of Mathematical and Statistical Psychology, 27
(2), 229–239.
Soto, d. A. R. (2011). A hierarchical model of a linguistic variable. Information Sciences, 181,
4394-4408.
Spearman, C. (1904). „General intelligence“, objectively determined and measured. The
American Journal of Psychology, 15 (2), 201–292.
Spray, J. (1987). Recent developments in measurement and possible applications to the
measurement of psychomotor behavior. Research Quarterly for Exercise and Sport, 58 (3),
203–209.
Stace, W. T. (1958). Some misinterpretations of empiricism. Mind, 67 (2), 465-484.
Stern, W. (1912). Die psychologischen Methoden der Intelligenzprüfung und deren Anwendung an
Schulkindern. Leipzig: Barth.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677–680.
Suppes, P. (1951). A set of independent axioms for extensive quantities. Portugaliae Mathematica,
10 (2), 163–172.
Suppes, P., Krantz, D. M., Luce, R. D. & Tversky, A. (1989). Foundations of measurement, vol. 2:
Geometrical, threshold, and probabilistic representations. New York: Academic Press.
Suppes, P. & Winet, M. (1955). An axiomatization of utility based on the notion of utility
differences. Management Science, 1 (3), 259–270.
Taheri, S. (2003). Trends in fuzzy statistics. Austrian Journal of Statistics, 32 (3), 239–257.
Tan, P., Steinbach, M. & Kumar, V. (2006). Introduction to data mining. Boston: Pearson Addison
Wesley.
Taylor, J. R. (1997). An introduction to error analysis: The study of uncertainties in physical
measurements, 2nd edition. Sausalito: University Science Books.
Taylor, J. R. (2003). Linguistic categorization: Prototypes in liguistic theory. 3rd edition. Oxford:
Oxford University Press.
Terman, L. M. (1916). The measurement of intelligence: An explanation of and a complete guide for
the use of the Stanford revision and extension of the Binet-Simon intelligence scale. Boston:
Houghton Mifflin Company.
Tewes, U. & Wechsler, D. (1991). Hamburg-Wechsler-Intelligenztest für Erwachsene: HAWIE-R.
Bern: Huber.
Thurstone, L. L. (1931). The measurement of social attitudes. Journal of Abnormal and Social
Psychology, 26, 249–269.
Thurstone, L. L. (1938). Primary mental abilities. In Psychometric monographs, No 1. Chicago:
University of Chicago Press.
Thurstone, L. L. (1954). An analytical method for simple structure. Psychometrika, 19, 173–182.
Van Fraassen, B. (1980). The scientific image. Oxford: Oxford University Press.
von Davier, M. & Carstensen, C. (2007). Multivariate and mixture distribution Rasch models:
Extensions and applications. Berlin, Heidelberg: Springer.
Wajsberg, M. (1931). Axiomatization of the 3-valued propositional calculus. Comptes rendus des
séances de la Société des Sciences et des Lettres de Varsovie, Classe III, 24, 126–148.
Wang, Y. (2009). Qualification and quantification of fuzzy linguistic variables and fuzzy
expressions. In Proceedings of the 2009 8th IEEE International Conference on Cognitive
Informatics, ICCI 2009 (pp. 256-263).
Wechsler, D. (1949). Manual for the Wechsler Intelligence Scale for Children. New York: Psycholo-
gical Corporation.
Weiß, R. (2006). Grundintelligenztest Skala 2, CFT 20-R. Göttingen: Hogrefe.
Literaturverzeichnis 177
Wermke, M., Klosa, A., Kunkel-Razum, K. & Scholze-Stubenrecht, W. (Hrsg.). (2001). Du-
den. Herkunftswörterbuch. Etymologie der deutschen Sprache. 3., völlig neu bearbeitete und
erweiterte Auflage. Mannheim, Leipzig, Wien, Zürich: Dudenverlag.
Westermann, R. (1982). Zur Messung von Einstellungen auf Intervallskalenniveau. Zeitschrift
für Sozialpsychologie, 13, 97-108.
Westmeyer, H. (1997). On the causal status of structural concepts in personality psychology.
Personality Psychology in Europe, 6, 17–26.
Wiley, D., Schmidt, W. & Bramble, W. (1973). Studies of a class of covariance structure models.
Journal of the American Statistical Association, 86, 317–323.
Williamson, T. (1994). Vagueness. London: Routledge.
Woodworth, R. S. (1919). Examination of emotional fitness in warfare. Psychological Bulletin,
16, 59–60.
Worrall, J. (1982). Scientific realism and scientific change. The Philosophical Quarterly, 32 (128),
201-231.
Xu, B., Kang, D., Lu, J., Li, Y. & Jiang, J. (2005). Mapping fuzzy concepts between fuzzy
ontologies. Lecture Notes in Computer Science, 3683, 199–205.
Yager, R. R. (1997). Fuzzy logics and artificial intelligence. Fuzzy Sets and Systems, 90 (2),
193–198.
Yager, R. R. & Zadeh, L. A. (1992). An introduction to fuzzy logic applications in intelligent systems.
Dordrecht, Boston, London: Kluwer.
Ying, H. (2000). Fuzzy control and modeling: Analytical foundations and applications. New York:
Wiley.
Zadeh, L. A. (1965). Fuzzy sets. Information and Control, 8 (3), 338–353.
Zadeh, L. A. (1971). Quantitative fuzzy semantics. Information Sciences, 3 (2), 159–176.
Zadeh, L. A. (1972). Fuzzy languages and their relation to human and machine intelligence.
In Proceedings of the International Symposium on System Science and Cybernetics (pp. 1607–
1617). Oxford University.
Zadeh, L. A. (1975a). The concept of a linguistic variable and its application to approximate
reasoning i. Information Sciences, 8 (3), 199–251.
Zadeh, L. A. (1975b). The concept of a linguistic variable and its application to approximate
reasoning ii. Information Sciences, 8 (4), 301–357.
Zadeh, L. A. (1975c). The concept of a linguistic variable and its application to approximate
reasoning iii. Information Sciences, 9, 43–80.
Zadeh, L. A. (1978). PRUF—a meaning representation language for natural languages.
International Journal of Man-Machine Studies, 10 (4), 395–460.
Zadeh, L. A. (1979). A theory of approximate reasoning. In J. E. Hayes, D. Michie & L. Mikulich
(Eds.), , Machine intelligence (3rd edition) (pp. 149–194). Amsterdam: Elsevier.
Zadeh, L. A. (1982). A note on prototype theory and fuzzy sets. Cognition, 12 (3), 291–297.
Zeteni, T. E. (1988). Fuzzy sets in psychology. Amsterdam: Elsevier.
Ziehen, T. (1908). Die Prinzipien und Methoden der Intelligenzprüfung: nach einem Vortrag auf dem
Internationalen Kongreß in Amsterdam i. J. 1907. Berlin: Karger.
Zimmermann, H. (2001). Fuzzy set theory – and its applications. Berlin, Heidelberg: Springer.