Sie sind auf Seite 1von 30

83

4. Zielexplikation und
Bewertungskriterien

Evaluation ist nie Selbstzweck. Die Bewertung Evaluationsprojekt skizziert. Prinzipiell die glei-
von Maßnahmen, Organisationsformen oder che Struktur läßt sich auch auf die anderen ty-
Einzelpersonen macht nur dann Sinn, wenn pischen Fragestellungen (Vergleich einer Alter-
auf der Grundlage dieser Ergebnisse praktische native mit einem normativen Standard bzw. das
Konsequenzen eingeleitet werden, etwa die Aufzeigen von subjektiven Defiziten gegenüber
Auswahl der «besseren» Alternative oder die Erwartungen; vgl. Abschnitt 2.1.3) anwenden.
Durchführung von «Verbesserungen» durch In- Leider sind die Fragen der Zielsetzung in vielen
terventionen (Organisationsänderungen, Wei- Evaluationsprojekten die größte Schwachstelle,
terbildung etc.). Dieses «besser/schlechter» setzt deren insuffiziente Ausfüllung die Praxisrele-
ein (subjektiv bewertetes) Ziel voraus, das durch vanz (und damit in den meisten Fällen auch
die einzelnen Alternativen in mehr oder weni- die Rechtfertigung) des Projektes beeinträchtigt.
ger vollkommener Weise erreicht wird. Oder Es ist gerade bei sozialwissenschaftlich interes-
anders formuliert: Die Evaluation dient dazu, santen Themen nicht einfach, überhaupt zu
die Grundlage für ein nutzenmaximierendes Beginn des Projektes einen Konsens über Ziel-
Verhalten zu optimieren. Der Begriff «Nutzen» setzung und Nutzenaspekte herbeizuführen;
ist natürlich in voller Breite zu verstehen, und noch schwieriger ist es, solche Vereinbarungen
in keiner Weise auf finanzielle Aspekte be- auch als Grundlage für die nachträgliche Be-
schränkt. wertung von Projekten beizubehalten, wenn
«unerwünschte» Ergebnisse auftraten oder die
Für die effiziente Gestaltung eines Projektes ist inzwischen stark geänderten Rahmenbedin-
es daher unverzichtbar, zu wissen gungen eine andere Projektausrichtung hätten
sinnvoll erscheinen lassen.
• in welchem Verwertungszusammenhang die
Ergebnisse zu sehen sind (Zielexplikation,
4.1) 4.1 Zielexplikation
• welche Kriterien dafür herangezogen werden
sollen (Bewertungsprozeß, 4.2) Die Freiräume des Evaluators schwanken in Ab-
• wie der Nutzen der aufgetretenen Ausprä- hängigkeit vom Auftraggeber und dem konkre-
gungsgrade der Kriterien einzuschätzen ist ten Arbeitsfeld sehr stark. Manchmal sind die
und wie auf dieser Basis eine globale Alter- Vorgaben so strikt, daß sich eine Überlegung
nativenbewertung erfolgen kann (Bewer- zur Zielsetzung erübrigt, wenn man persönlich
tungs- und Entscheidungshilfemethoden, bereit ist, auch ohne Kenntnis der späteren Ver-
4.3) wendung ein solches Projekt durchzuführen
(etwa: «Stellen Sie fest, wieviele Personen die
Im Diagramm IV/1 ist die Struktur dieses Problem- von uns zugeschickten Informationsbroschü-
bereiches als Leitfaden für die folgenden Aus- ren gelesen haben»). Der Evaluator beschränkt
führungen am Beispiel eines Problems der sich dann auf die Rolle eines Datensammlers,
Alternativenauswahl (summativ) durch ein der die gewünschte Teil-Sachinformation liefert
84 Zielexplikation und Bewertungskriterien

Diagramm IV/1
Phasen eines Evaluationsprojektes am Beispiel eines Problems der Alternativenaus-
wahl (summativ)

Arbeitsschritte Hilfen

1. Nutzenbestimmung für wen?


(Identifizierung von Personen oder
Organisationen, deren Nutzen maximiert
werden soll)
Gesprächs- und Kommunikationstechniken
2. Nutzenbestimmung von was?
(Identifizierung des Problems, d.h. der
Entscheidung für die der berechnete
Nutzen relevant ist)

3. Identifizierung der zu evaluierenden


Alternative(n)

4. Zusammentragen der relevanten


Bewertungskriterien Zielexplikationsverfahren

5. Zielanalyse
(Wie soll die optimale Alternative auf der/
den Bewertungskriterien aussehen?)

6. Nutzenmessung
(Festlegung des Nutzens für jedes Verfahren der Nutzenmessung
Bewertungskriterium und jede Alternative)

7. Nutzenverrechnung
(Zusammenfassung der Nutzenwerte pro
Alternative) Bewertungs- und Entscheidungshilfe-
methoden
8. Entscheidung an Hand der in der
Zielanalyse festgelegten Kriterien

– und sonst nichts. Die Fragen der Zielfindung Verwertbarkeit der Ergebnisse aufgrund seiner
werden dadurch natürlich nicht aufgehoben, Projektdurchführung übernehmen muß
sondern nur vom Evaluator auf den Auftragge- («Schauen Sie sich einmal unsere Weiterbil-
ber verlagert. dungsangebote an, irgend etwas läuft da nicht
Häufiger findet man bei sozialwissenschaft- so ganz richtig «, «Stellen Sie fest, welche Psy-
lich gestützter Evaluation das andere Extrem: chotherapie für unsere speziellen Patienten am
Der potentielle Auftraggeber hat eine so vage besten ist»). Hier ist eine besonders intensive
Vorstellung von seinen Wünschen, daß der Aufklärung des Auftraggebers nötig, die manch-
Evaluator die faktische Verantwortung für die mal bei Vorhaben der Öffentlichen Hand oder
Zielexplikation und Bewertungskriterien 85
größerer Konzerne zu einem Projekt für sich Probleme gegen das Selbstbild vieler Auftragge-
werden kann. ber verstößt. Wenn das Projekt aufgrund sol-
Der Regelfall ist, daß von Seiten des Auftrag- cher Schwierigkeiten suboptimal wird, ist dies
gebers zu Beginn des Projektes eine gewisse Vor- nur bedingt dem Evaluator anzulasten. Die
gabe der Zielsetzung vorliegt, daß sie aber nicht sinnvolle Verwendung von Rückmeldungen
so rational und konkretisiert ist, daß nicht durch empirische Evaluationen setzt eine ge-
durch die Hilfe des Evaluators noch wesentli- wisse Organisationskultur voraus (5.1.3), die
che Verbesserungen möglich wären. Einige nicht kurzfristig und schon gar nicht bezogen
dafür bewährte Vorgehensweisen werden in auf ein Einzelprojekt allein erreicht werden
den folgenden Abschnitten kurz skizziert. kann.
Behandelt werden Aspekte der Zielgruppenbe-
stimmung, der Konkretisierung der «Evalua-
tionsobjekte» sowie die Möglichkeiten antizipa- 4.1.1 Zielgruppenbestimmung
torischer Überlegungen der Verwendung von
Projektergebnissen. Es überrascht immer wieder, wie eingeschränkt
viele Auftraggeber zunächst das Evaluations-
projekt sehen. Dies betrifft sowohl die zu eva-
Konflikte luierenden Alternativen (oft kann man hier
Vorschläge hinzufügen, etwa bei vergleichend
Wesentlich erschwert kann die Arbeit zu diesen ins Auge gefaßten Therapiemaßnahmen oder
Punkten durch das Vorliegen von Konflikten in- Fördermöglichkeiten von Mitarbeitern), als
nerhalb des Auftraggebers werden. Halbwegs auch die «betroffenen» Personen. So werden
bewältigbar sind die dadurch verursachten Pro- zum Beispiel in Kliniken von unterschiedlichen
bleme bei institutionalisierten Konflikten, wenn Therapien nicht nur die Patienten, sondern
also die Kontrahenten aufgrund ihrer Funktion auch deren Angehörige, die Pfleger und Kran-
(verschiedene politische Parteien, partiell kon- kenschwestern, die Therapeuten und manch-
kurrierende Abteilungen eines Unternehmens, mal sogar, wenn etwa die allgemeine Zeit-
verschiedene organisierte Interessengruppen wie planung zu verändern ist, auch das gesamte
zum Beispiel im Gesundheitswesen) klar erkenn- Hilfspersonal (zum Beispiel Küche) tangiert,
bar sind und es aufgrund dieser Organisations- ganz zu schweigen von den Kostenträgern der
form auch zulässig ist, offen die unterschiedli- Maßnahme. Der Evaluator kann durch eigene
chen Schwerpunktsetzungen zu betonen. In Vorschläge den Gesichtskreis erweitern, und
solchen Fällen empfiehlt sich für den Evaluator dieses ist auch ein vor allem in Einzelgesprä-
absolute Offenlegung seiner Planungen, Integra- chen oft gewähltes Vorgehen. Es besteht aber
tion der unterschiedlichen Meinungen durch die Gefahr, daß solche «von außen» kommen-
Aufnahme möglichst vieler gewünschter Aspek- den Vorschläge vom Auftraggeber nicht ohne
te (zu dem damit verbundenen Vorgehen vgl. weiteres akzeptiert werden, daher ist es besser,
die entsprechenden Ausführungen im Abschnitt die Gesprächspartner selbst auf erweiterte Ideen
4.2), und, falls ein solcher Konsens nicht mög- kommen zu lassen. Hierbei kann man sich vor
lich ist, das Bestehen auf formalisierten Entschei- allem in Gruppensitzungen einer Fülle von im
dungen gemäß den in der jeweiligen Situation Bereich der betrieblichen Weiterbildung ein-
zwischen den Kontrahenten vereinbarten (de- geführten «Kreativitätstechniken» bedienen
mokratischen) Spielregeln. (vgl. dazu etwa Geschka, 1988; Preiser, 1976),
Nahezu unlösbar wird die Situation bei ver- für die Zielgruppenbestimmung besonders
deckten Konflikten, wie sie vor allem durch per- empfehlenswert sind hierarchisch gesteuerte
sönliche Antipathien oder Konkurrenz- Assoziationsketten.
situationen innerhalb der auftraggebenden
Institutionen entstehen können. Selbst wenn
der Evaluator rechtzeitig auf solche Probleme Beispiel für Assoziationsketten
aufmerksam wird (was häufig nicht der Fall ist),
hat er kaum die Möglichkeit, Konfliktlösungs- Dieses Vorgehen läßt sich am leichtesten an
techniken einzusetzen, da das Zugeben solcher einem Beispiel illustrieren. Ausgangspunkt sei
86 Zielexplikation und Bewertungskriterien

der Wunsch eines Schulbuchverlages, zu prü- • Klassenstufe / Schulform / Intelligenz / Vor-


fen, ob durch «advanced organizer» (vor jedem kenntnisse/Arbeitsmotivation/Geschlecht/
Kapitel bzw. Abschnitt wird eine Übersicht über Hausaufgabenbetreuung/u.s.w.
die folgenden Ausführungen geboten, um dem
Leser den schnellen Aufbau einer entsprechen- Es kann sein, daß man die einzelnen Einteilun-
den kognitiven Struktur zu ermöglichen; vgl. gen unverbunden nebeneinander stehen lassen
etwa Bruner, 1963) die Verständlichkeit von kann. In manchen Fällen ist es aber angezeigt,
Texten (und damit die Verbreitung des Buches) für eine genauere Zielgruppenbestimmung
verbessert werden kann. Man kann die so for- Kombinationen zu bilden, also etwa «Schüler
mulierte Fragestellung direkt aufgreifen und das der Klasse 6 am Gymnasium ohne Unter-
gesamte Projekt darauf beschränken. Man er- stützung bei den Hausaufgaben». Ob solche
hält dann ein laborexperimentelles Design, in «Ketten» notwendig sind, hängt davon ab, in
dem randomisierte Schülergruppen verschiede- wieweit Wechselwirkungen zwischen den ein-
nen Materialvariationen ausgesetzt und hin- zelnen Definitionsteilen hinsichtlich der Frage-
sichtlich ihres Textverständnisses geprüft wer- stellung plausibel sind.
den. Einfach, überschaubar und kostengünstig Eine weitere Verfeinerung entsteht durch die
durchführbar – aber nicht unbedingt ein für Kombination der Teilgruppen verschiedener
die praktische Entscheidung des Verlages wirk- Obermengen, soweit dies sachlich sinnvoll ist.
lich relevantes Evaluationsprojekt. Ein Beispiel: Schüler der Klasse 6 an einem
Möchte man mit Hilfe hierarchischer Asso- Gymnasium ohne Hausaufgabenbetreuung,
ziationsketten die Zielsetzung näher abklären, die bei einem älteren Lehrer mit besonderer
so kann man zunächst überlegen, welche Per- Vorliebe für Frontalunterricht das Fach Eng-
sonengruppen mit dem Buch unmittelbar Kon- lisch lernen, deren Eltern keine Kenntnisse in
takt haben werden, also etwa Englisch haben und wenig an dem Schulerfolg
ihrer Kinder interessiert sind.
• Autor/Lehrer/Schüler Die einfache Methodik des Bildens eventuell
relevanter Subgruppen durch Kombination aus
Kurzes Nachdenken zeigt, daß diese Gruppie- verschiedenen Obermengen ergibt eine nahezu
rung nicht vollständig ist; man muß zumindest unübersehbare Vielfalt von potentiellen Ziel-
erweitern auf gruppen, so daß die eigentliche Aufgabe der
Zielgruppenbestimmung dann nicht mehr in
• Autor/Verlag/Lehrer/Schüler/Eltern dem Finden von möglichen Ideen, sondern in
der Reduktion auf die wirklich wesentlich er-
Da Schulbücher auch zugelassen und gekauft scheinenden Teilgruppen besteht. Im Beispiel
werden müssen, sollte man erweitern auf der «advanced organizer» wird man zumindest
überlegen, das ursprüngliche Einfach-Design
• Autor/Verlag/Schulbehörden/Händler/Leh- um Aspekte des Entwicklungsgrades der Schü-
rer/Schüler/Eltern ler, des Faches, der Unterrichtsmethodik des
Lehrers und evtl. des Ausmaßes an Unterstüt-
Damit hat man eine Zusammenstellung von zung bei schulischen Aufgaben zu Hause zu
Personen-Obermengen, die eine ganz gute erweitern, wobei man natürlich nicht zwangs-
Grundlage für eine feinere Ausdifferenzierung läufig alles neu empirisch untersuchen muß,
bieten. Man greift jede dieser Begriffe heraus sondern teilweise auf vorhandene Forschungs-
und überlegt, welche Einteilung (Ausdifferen- ergebnisse zurückgreifen kann. Außerdem wird
zierung) irgendwie relevant für das zu evaluie- man darauf hingewiesen, daß nicht nur der
rende Problem sein könnte. Für die Population Lernerfolg, sondern auch Aspekte wie Akzep-
«Lehrer» wäre dies etwa tanz durch die Lehrer (ohne die sich ein Schul-
buch wohl nicht durchsetzen kann), der durch
• Alter/beruflicher Status/Fach/Unterrichts- solche didaktische Hilfen veränderte Umfang
methodik/Schulform/u.v.a. und natürlich auch der Preis mit berücksichtigt
werden müssen (vgl. dazu die Kriterienexpli-
oder für die «Schüler» kationen in Abschnitt 4.2).
Zielexplikation und Bewertungskriterien 87
4.1.2 Konkretisierung des züge? u.s.w.), «Psychotherapie bei Suchtkran-
Evaluationsobjektes ken», «Offener Strafvollzug» oder «Stationäre
Altenversorgung».

Die für Psychologen und andere empirisch ori-


Da vom Auftraggeber im allgemeinen nicht die
entierte Sozialwissenschaftler selbstverständli-
kreative Gestaltung aller möglichen Maßnah-
che Trennung zwischen theoretischem Begriff
men erwartet werden kann, sondern eher die
(Konstrukt) und operationalisierten, empirisch
Auswahl aus mehreren Vorschlägen des
erfaßbaren Indikator ist den meisten Auftrag-
Evaluators, empfiehlt es sich, zunächst eine
gebern von Evaluationsprojekten nicht geläu-
Vielzahl möglicher Gestaltungsdimensionen zu
fig. Wenn diese Frage überhaupt gesehen wird,
erarbeiten. Als Techniken dafür bieten sich, je
scheint man häufig zu meinen, daß ihre Lö-
nach Problemstellung, an:
sung ein Teil der Aufgabe des Evaluators sei.
Dieser kann aber die erforderlichen Konkreti- • Sorgfältige Analyse der bereits empirisch vor-
sierungen nur auf der Basis einer möglichst gu- handenen unterschiedlichen Ausprägungen
ten Kenntnis der Zielsetzung vorschlagen. Es der zu evaluierenden Maßnahme auf den re-
ist in Anbetracht der Wichtigkeit dieses Punk- levanten Dimensionen (Literaturstudium,
tes für die spätere Verwendung der Ergebnisse Hospitationen, Experteninterviews)
dringend zu empfehlen, die so erstellten Vor- • Gruppendiskussionen (mit verschiedenen
schläge vom Auftraggeber prüfen und mög- Betroffenen, Präponenten bestimmter Ent-
lichst formell festlegen zu lassen. scheidungsideen, Auftraggeber und eventu-
elle Experten)
Schon an einem so einfachen Problem wie die
• «Brain-Storming»-Techniken, insbesondere
mit Mitarbeitern des Auftraggebers und des
«advanced organizer» wird die Beeinflussung
Projektteams (siehe dazu Diagramm IV/2) und
der Ergebnisse durch die konkrete Festlegung
ähnliche kreativitätsfördernde Gruppenver-
dieses Begriffes in der Untersuchung deutlich.
fahren
Die Realisierungsmöglichkeiten für «advanced
organizer» reichen schon rein optisch von ei-
nem kleinen Kasten im Kleindruck mit aus-
Ausführliche Darstellungen finden sich bei
schließlicher Angabe der kommenden Zwi-
Osborn (1963), Ulmann (1968), Preiser (1976),
schenüberschriften bis hin zu mehrseitigen
Sturm (1978) und Geschka (1988).
Darstellungen; inhaltlich von einer bloßen Auf-
zählung der folgenden Hauptpunkte bis hin zu
Die verschiedenen Ausprägungsgrade der so er-
einer umfassenden, evtl. noch Sekundäraspekte
haltenen Gestaltungsdimensionen können
mit beinhaltenden Begründung gerade dieser
dann systematisch kombiniert werden, zum
Auswahl und Reihenfolge. Wahrscheinlich wir-
Beispiel in Anlehnung an die Faccettentheorie
ken sich diese Gestaltungs-«Details» stärker auf
(Guttman, 1957). Im allgemeinen werden nur
relevante Bewertungskriterien, wie Verständ-
wenige Kombinationen aus Sachgründen ent-
lichkeit, Akzeptanz und Kosten aus als die blo-
fallen (etwa bei den advanced organizern die
ße Unterscheidung zwischen dem Vorhanden-
Kombination von «Maximal 5 Zeilen Platz»
sein oder Nichtvorhandenseins irgendeines
und «Sorgfältige inhaltliche Begründung der
advanced organizers.
folgenden Abschnitte»), so daß selbst bei nur
wenigen dem Auftraggeber und dem Evaluator
Je komplexer die zu evaluierende Maßnahme relevant erscheinenden Gestaltungsdimensio-
ist, um so vielfältiger wird der Gestaltungs- nen eine viel zu große Vielfalt potentieller
spielraum. Man denke etwa an Begriffe wie «Ge- Konkretisierungen vorliegt. Bei der für ein
samtschule» (halbtags oder ganztags? freiwillige durchführbares Projekt nicht vermeidbaren Be-
oder gegen ihren Wunsch dorthin versetzte grenzung auf wenige Varianten sollten die spä-
Lehrer? normale Schüler/Eltern oder an dieser tere praktische Verwendung der Ergebnisse und
Schulform besonders interessierte? additiv, in- die in Zukunft zu erwartenden Rahmenbedin-
tegriert oder kooperativ? Anzahl der Parallel- gungen beachtet werden (vgl. 4.3.3).
88 Zielexplikation und Bewertungskriterien

Diagramm IV/2
Kurzdarstellung der «Brain-Storming»-Methode (nach Osborn, 1963)

Grundlagen Richtlinien für die Durchführung (vgl. Sturm,


1979):
Beim Brainstorming handelt es sich um eine
Technik zur kreativen Problemlösung, die 1. Vorbereitung
nach dem Prinzip der freien Assoziation Brain-Storming-Sitzungen sollten nicht spon-
arbeitet. Sie zielt darauf ab, die negativen Er- tan einberufen werden, sondern sind gut vor-
scheinungen von Konferenzen und Diskus- zubereiten. Komplexe Probleme sollten auf-
sionsrunden wie z.B. destruktive Kritik, Riva- gespalten und in getrennten Sitzungen
lität unter den Teilnehmern, Verzettelung in aufgearbeitet werden.
unwichtige Einzelheiten zu überwinden. Beim
2. Teilnehmerzahl
klassischen Brainstorming sind grundsätzlich
Die angemessene Teilnehmerzahl für eine
die Phasen «Ideenfindung» und «Ideen-
Brain-Storming-Sitzung liegt zwischen vier bis
bewertung» voneinander zu unterscheiden. In
sieben Teilnehmern.
der Phase der Ideefindung, auch «green-light-
stage» genannt, werden die Teilnehmer vom 3. Killerphrasen
Moderator aufgefordert, zu einem spezifi- Während der Phase der Ideenfindung («green-
schen Problem möglichst viele Ideen zu pro- light-stage») ist jegliche Kritik – sowohl posi-
duzieren. Die Betonung liegt hier also zu- tive als auch negative – an den einzelnen Vor-
nächst auf der Quantität der Einfälle, nicht schlägen der Teilnehmer untersagt. Dazu sind
auf der Qualität. In der anschließenden Phase auch nonverbale Äußerungen zu rechnen.
der Ideenbewertung («red-light-stage») wer-
den die einzelnen, zuvor protokollierten Ideen 4. Problempräsentation
an Hand festgelegter Kriterien bewertet. Bei komplexen Problemen ist es empfehlens-
Ulmann (1966) hat zu diesem Zweck eine spe- wert, den Mitgliedern der Gruppe Gelegen-
zielle Technik entwickelt, die die Auswahl heit zu geben, die Problemstellung von einem
sinnvoller Ideen erleichtern soll. Dazu bewer- Fachexperten erläutern zu lassen, so daß mög-
ten die Teilnehmer der Brainstorming-Sitzung liche Fragen beantwortet und Unklarheiten
alle Ideen an Hand der folgenden Kriterien: beseitigt werden können.

• Einfachheit 5. Ideenfluß
• Realisierbarkeit Die Teilnehmer sollten dazu aufgefordert wer-
• Schwierigkeitsgrad den, alle Ideen, die aufkommen, auch unge-
wöhnliche oder unrealistisch erscheinende,
Der Grad der «Einfachheit», «Realisierbarkeit» auszusprechen. Die Einfälle brauchen nicht
bzw. «Schwierigkeit» wird dazu auf einer ausführlich erläutert zu werden, es reicht die
Punkte-Skala eingetragen. Voraussetzung für Andeutung des Gedankenganges.
das Gelingen einer Brainstorming-Sitzung
sind eine gute Vorbereitung und ein erfah- 6. Zeitlimit
rener Moderator, der die unbedingte Einhal- Eine Brain-Storming-Sitzung sollte den zeit-
tung der Grundregeln des Brainstormings lichen Rahmen von 30 Minuten nicht über-
kontrolliert. schreiten.
Zielexplikation und Bewertungskriterien 89
4.1.3 Antizipatorische Für eine grobe Abschätzung der durch die
Ergebnisverwertung Projektergebnisse denkbaren Situationsverän-
derungen und darauf gestützte zusätzliche
Untersuchungsziele kann man auch die Metho-
Gerade größere sozialwisssenschaftliche Evalua- de des Planspieles einsetzen (Diagramm IV/4; vgl.
tionsvorhaben leiden hinsichtlich der prakti- Rohn, 1980, 1986; Baehr & Eberle, 1986;). Da-
schen Verwendbarkeit besonders unter zwei bei muß man nicht an die (in anderen Berei-
strukturellen Gegebenheiten: chen häufigen) stark formalisierten und EDV-
gestützten Varianten denken, es genügen ganz
• Projektunabhängige Veränderungen der Rah- einfache Formen, die man vielleicht zur Ver-
menbedingungen bzw. Zielsetzungen. Durch
meidung von Mißverständnissen «koordinierte
die Dauer der Projekte (meist mehrere Jahre)
Rollenspiele» nennen könnte und kaum tech-
haben sich die Rahmenbedingungen und da-
nischen Aufwand erfordern. Den Teilnehmern
mit auch die Zielsetzungen des Auftraggebers
(evtl. tatsächlich «Betroffene» oder Projekt-
verändert; die erzielten Resultate sollen aber
mitarbeiter) werden fiktive Projektergebnisse
gerade für die neuen Umstände aussagekräf-
vorgelegt und gebeten, gemäß der von ihnen
tig sein.
zu vertretenen Rolle das weitere Vorgehen für
• Nachträgliche, ergebnisabhängige Verschie- die Lösung des mit dem Evaluationsprojektes
bungen. Die konkreten Ergebnisse des Pro-
bearbeiteten Problems zu diskutieren.
jektes können die Problemsicht der Beteilig-
Es stehen inzwischen genügend viele und
ten bzw. Betroffenen stark verändern, so daß
auch im Kontext anderer Verwertungszusam-
jetzt neue Aspekte wichtig werden – die man
menhänge ausreichend ausgebaute Sozial-
aber aufgrund einer ursprünglich anderen
techniken zur Verfügung, um die Zielsetzung
Zielsetzung nicht untersucht hat.
von Evaluationsprojekten wesentlich besser zu
fundieren, als es derzeit (noch) üblicher Praxis
Die Lösung dieser beiden Probleme würde eine entspricht. Die fehlende rechtzeitige elaborierte
exakte Zukunftsprognose voraussetzen, die Ausarbeitung der Zielsetzung ist zum Teil nicht
natürlich nicht möglich ist. Zumindest für grö- vermeidbar, etwa aufgrund von Ressourcen-
ßere Evaluationsvorhaben sollte man aber ver- mangel des Auftraggebers oder, häufiger, in An-
suchen, wenigstens grob die spätere Verwer- betracht der Zeitperspektive (für die auch nur
tungssituation zu antizipieren. Ein hierzu grobe Anwendung der in diesem Abschnitt skiz-
geeignetes Mittel ist die Szenario-Technik zierten Techniken müßte man in einem größe-
(vgl. Reibnitz, 1983), deren Grundgedanke im ren Projekt etwa 4 Monate veranschlagen). Wo
Diagramm IV/3 dargestellt ist. Es wird aufgrund es aber möglich ist, sollte man eine detaillier-
des Aufwandes selten möglich sein, eine «idea- tere und möglichst begründete Zielexplikation
le» Szenario-Studie für die Zielsetzung von Eva- anstreben.
luationsprojekten durchzuführen; aber schon
eine relativ grobe Abschätzung der erwartbaren
Veränderungen kann helfen, bei der Definition 4.2 Bewertungsprozeß
der Zielgruppe oder der Konkretisierung von
Evaluationsdetails Fehler zu vermeiden. Das Er- Nach Festlegung der (Teil-)Ziele muß man sich
gebnis kann durchaus der Verzicht auf das darüber einigen, an welchen empirischen Be-
Evaluationsvorhaben selbst sein (als fiktives Bei- obachtungen man das Ausmaß der Ziel-
spiel: Evaluierung eines Ausbildungskonzeptes erreichung beurteilen möchte. Letztlich baut
der Bundesanstalt für Arbeit für die Umschulung der empirisch-wissenschaftliche Informations-
von Arbeitslosen zu Technischen Zeichnern in gewinn stets auf der Menge der erhobenen Aus-
Anbetracht der Verbreitung von CAD-Anlagen), prägungsgrade der ausgewählten Indikatoren
meistens werden Projektteile dadurch akzentu- auf, so daß das gesamte Ergebnis entscheidend
iert (etwa Evaluation von Maßnahmen zur Kran- von der konkreten Auswahl abhängt. Ob man
kenversorgung in Anbetracht der erwartbaren den «Lernerfolg» von Schülern in verschiede-
Bevölkerungszahl, Altersverteilung und Beitrags- nen schulischen Organisationsformen an den
aufkommen für die Krankenversicherung). von den Lehrern vergebenen Noten, objekti-
90 Zielexplikation und Bewertungskriterien

Diagramm IV/3
Kurzdarstellung der Szenario-Technik (vgl. v. Reibnitz, 1983)

Definition Hauptachse des Trichters, die Extremszenarien


definieren die äußere Hülle, der Trichter hat
«Szenario-Technik» ist eine systematische Me- seine punktförmige Spitze in der Gegenwart
thodik zur Entwicklung und Beschreibung (hier fallen ja alle Szenarien zusammen) und
möglicher zukünftiger Situationen sowie zum erweitert sich im Verlauf der Zeit immer mehr,
Aufzeigen des Entwicklungsverlaufes, der zu so daß dann die verschiedenen Szenarien im-
diesen Situationen geführt hat. Die Szenario- mer stärker auseinanderklaffen. Je mehr Zeit
Technik besteht aus acht logisch aufeinander vergeht, um so unsicherer wird auch die Pro-
aufbauenden Schritten, die den gesamten Pro- gnose, da immer mehr unkontrollierte und
zeß transparent und in allen Phasen nachvoll- nicht vorhergesehene Störereignisse die Ent-
ziehbar machen. wicklung verändern werden.
Ziel solcher Studien ist es vor allem, durch
Charakteristika rechtzeitig eingelegte Maßnahmen dafür zu
sorgen, daß prognostizierte unerwünschte
• Sorgfältige Analyse der gegenwärtigen Situa- Szenarien nicht Realität werden.
tion Selbstverständlich darf man auch die Ergeb-
• Einbeziehung von quantitativen und quali- nisse sorgfältiger Szenario-Studien nicht als
tativen Aspekten unfehlbare Orakel interpretieren; sie bieten
• Ermittlung von Annahmen für die Haupt- aber immer dann, wenn man zukünftige Ent-
einflußfaktoren wicklungen sinnvoll steuern möchte – wie
• Verfahrensmäßig relativ problemlose Verar- dies bei allen Fragen der antizipatorischen
beitung von Störereignissen oder prognostischen Evaluation der Fall ist –
• Entwicklung von alternativen, in sich kon- eine rationalere Grundlage als die persönli-
sistenten (= stimmigen) Zukunftsbildern (= chen Zukunftserwartungen.
Szenarien)
Ablauf
Zugrundeliegendes Denkmodell der Szenario-
Technik 1. Strukturierung und Definition des Unter-
suchungsfeldes
Aus der Fülle der plausiblen, in sich stimmi- 2. Identifizierung und Strukturierung der wich-
gen Szenarien wird jenes ausgewählt, das die tigsten Einflußbereiche auf das Unter-
höchste Plausibilität (nach den vorliegenden suchungsfeld
Expertenangaben) aufweist, das sogenannte 3. Ermittlung von Entwicklungstendenzen
«Trendszenario». Zusätzlich werden minde- und kritische Beschreibung der Umfelder
stens zwei weitere «Extremszenarien» ausge- 4. Bildung und Auswahl konstanter Annahme-
wählt, eines mit einer besonders positiven, das bündel
andere mit einer extrem negativen Entwick- 5. Interpretation der ausgewählten Umfelds-
lungstendenz; falls zweckmäßig, können auch zenarien
verschiedene «Extrementwicklungen» antizi- 6. Einführung und Auswirkungsanalyse signi-
piert werden. fikanter Störereignisse
Die Vorstellung ist, daß man mit der Aus- 7. Ausarbeitung der Szenarien bzw. Ableiten von
wahl von mindestens drei Szenarien ein Konsequenzen für das Untersuchungsfeld
«Trichtermodell» der zukünftigen Entwick- 8. Konzeption von Maßnahmen und Planun-
lung hat. Das Trendszenario entspricht der gen.
Zielexplikation und Bewertungskriterien 91
ven Testverfahren, Einschätzungen der Eltern bei ebenfalls noch erhebliche Freiräume (und
oder der späteren leistungsmäßigen Entwick- damit Veränderungen der Ergebnisse durch
lung der Schüler in folgenden Klassen mißt, die Auswahl) vorhanden sind; wichtig er-
kann einen großen Unterschied in dem scheint hier vor allem eine Konsensfindung
Bewertungsergebnis ausmachen. Im einzelnen mit dem Auftraggeber bzw. mit den relevan-
sind folgende Punkte zu klären: ten Teilgruppen innerhalb des Auftraggebers,
da ansonsten mit einer nachträglichen Ab-
• Auswahl der Bewertungskriterien; hierzu wertung der Meßinstrumente bei «uner-
müssen zunächst die Ziele möglichst detail- wünschten» Ergebnissen gerechnet werden
liert erfaßt und anschließend möglichst ide- muß (4.2.3).
enreich für die Teilziele geeignete Vorschläge
gefunden werden, danach ist eine Reduktion Wie aufwendig die einzelnen Teile in einem
auf eine bewältigbare Arbeitsmenge notwen- konkreten Projekt durchgeführt werden kön-
dig (4.2.1) nen, muß im Einzelfall unter Kosten/Nutzen-
• Nebenfolgenabschätzung; unabhängig von Aspekten entschieden werden. In keinem Fall
den eigentlichen Zielen ist damit zu rech- sollte man auf eine «offizielle» Konsensfindung
nen, daß jede Maßnahme auch mit nicht be- bzgl. der Meßinstrumente verzichten.
absichtigten und evtl. unerwünschten zu-
sätzlichen Konsequenzen verbunden ist, zu
deren hypothetischen Formulierung die Ver- 4.2.1 Auswahl der
wendung von Handlungsmodellen nützlich Bewertungskriterien
erscheint (4.2.2)
• Als letzter Schritt ist die Operationalisierung Bevor man zu den einzelnen Beurteilungs-
für die einzelnen abstrakten Bewertungs- dimensionen übergeht, muß zunächst die Ziel-
kriterien (und Nebenfolgen) festzulegen, wo- setzung der zu evaluierenden Maßnahmen

Diagramm IV/4
Kurzdarstellung der Planspiel-Technik (vgl. Baehr und Eberle, 1986)

• Beim Planspiel handelt es sich um eine im Reduktion der Realität auf zielrelevante Fak-
militärischen Bereich entstandene Unter- toren des Planspiels.
weisungsmethode, die speziell dem Ent- • Aktives Handeln in Form abstrakter Denk-
scheidungshilfetraining dient. Dem Plan- tätigkeit bzw. Interaktion der Spieler in der
spiel liegt immer eine reale Situation simulierten Realität.
zugrunde, die in einem Modell simuliert • Hohe Motivationskraft durch Ausnutzung
wird. Auf diese Weise soll die wechselseitige des dem Menschen innewohnenden Spiel-
Abhängigkeit der einzelnen Systemelemen- triebes und damit Wirkung und Verstärkung
te verdeutlicht werden und die Wirkung des sachbezogenen Interesses.
einzelner Entscheidungen auf das Gesamt- • Rollenspielartige Übernahme bestimmter
system transparent gemacht werden. Beim Verhaltensweisen innerhalb der Simula-
Planspiel übernehmen die Teilnehmer die tionssituation.
Rolle von Entscheidungsinstanzen. • Konflikttraining verursacht durch abwei-
Auf Grund der modellartigen Simulation chende Zielvorstellungen zwischen den
des Gesamtsystems können die Folgen der Spielgruppen, sowie innerhalb der einzel-
Entscheidungen ermittelt und bewertet wer- nen Gruppen.
den. • Training der Kommunikationsfähigkeit, da
die gestellte Aufgabe einen Informations-
Die wichtigsten Elemente des Planspiels sind: austausch innerhalb der Gruppen, zwischen
• Nachahmung der Realität im Modell bzw. den Gruppen und zum Spielleiter erfordert.
92 Zielexplikation und Bewertungskriterien

möglichst detailliert werden. Das einfachste Team erfolgen, da Gruppen für solche Auf-
Vorgehen ist, wieder Hierarchien, wie in 4.1.1, gabentypen wesentliche Vorteile bieten, wobei
auszuarbeiten. Für das dort verwendete «ad- eine interessens- und vorbildungsmäßig hete-
vanced organizer»-Beispiel wären dabei folgende rogene Gruppenzusammensetzung empfeh-
Schritte erforderlich (Beispiele nur aus der Sicht lenswert sein kann. Statt oder ergänzend zum
der Zielsetzung des Lehrers): brainstorming (vgl. Diagramm IV/2) können für
solche Gruppensitzungen auch Metaplan-Tech-
Erfassung von: niken erfolgreich eingesetzt werden, die Grund-
1. Analyse der Ist-Situation: struktur davon findet sich im Diagramm IV/5.
Eine ausführliche Darstellung geben Klebert et
• dem durchschnittlichen Leistungsniveau in al. (1988),Schnelle (1982).
der unterrichteten Klasse
Der Konsens zwischen allen Beteiligten, ge-
• der Motivation der Schüler, mit dem alten rade auch bei offenen oder verdeckten Konflik-
Lehrbuch zu arbeiten
ten innerhalb der Institutionen des Auftragge-
• den auftretenden Problemen, die sich bei der bers, wird bzgl. der Kriterienauswahl im Prinzip
Arbeit mit dem alten Lehrbuch ergeben
am leichtesten erreicht, wenn alle auch nur an-
nähernd sinnvoll erscheinenden Vorschläge in
2. Festlegung der Richtziele (Grobziele):
die Projektplanung aufgenommen werden. In
a) schulische Ziele einem solchen Fall kann sich jeder an dem
b) persönliche Ziele Findungsprozeß Beteiligte im Projektplan wie-
derfinden, und man kann auch sehr schwer
3. Bestimmung der Feinziele: sachlich argumentieren, daß das Erheben ir-
gendeines Aspektes mit Sicherheit unnötig oder
mögliche Feinziele von a):
gar schädlich sei.
• diadaktische Verbesserung des Unterrichtes Man sollte aber zur Qualitätssicherung be-
• Straffung des Unterrichts strebt sein, im Konsens der potentiellen
• Verbesserung des Klassendurchschnitts «Konfliktpartner» eine Eingrenzung der Vor-
• zeitökonomische Aspekte schläge zu erreichen. Dabei können Techniken,
• Steigerung der Motivation der Schüler wie sie im Abschnitt 4.3 besprochen werden
• Erleichterung der Informationsaufnahme (Diagramm IV/9) nützlich sein.
• usw.

mögliche Feinziele von b): 4.2.2 Nebenfolgenabschätzung


• Demonstration von Innovationsfreudigkeit
Prinzipiell ist bei jeder Maßnahmenbewertung
• Erhöhung der eigenen Motivation
damit zu rechnen, daß diese nicht nur die ge-
• Hoffnung auf höheres Ansehen/Status
wünschten Effekte in mehr oder weniger star-
• Zeitersparnis bei der Themenauswahl und
kem Ausmaß zeigen wird, sondern zusätzliche
Vorbereitung
Auswirkungen zeigt, die in keiner Weise der
• Durchsetzung im Kollegium Ausgangsintention entsprechen (das Problem
• wissenschaftliche Orientierung ist strukturell ähnlich wie die Trennung von
• usw. Haupt- und Nebenwirkungen im Therapiebe-
reich). Dies betrifft sowohl die zu evaluierenden
4. Hierarchisierung der Ziele nach (subjektiven) Kri- Sachverhalte, als auch die Evaluationsstudie
terien. selbst, die ihrerseits unerwartete Konsequenzen
haben kann, die nichts mit der eigentlichen
In gleicher Weise lassen sich natürlich die Zielsetzung zu tun haben (etwa erhöhter Ein-
«Ziele» anderer Gruppen von Betroffenen (vgl. satz der «mit-evaluierten» Lehrer im Schul-
4.1.1) verfolgen. bereich, die Aufwertung von an sich nicht so
Das Finden von Zielhierarchien und dazu wichtigen Projekten durch hohen Evaluations-
passenden Bewertungsdimensionen sollte nach aufwand, die Förderung der Durchsetzung ei-
Möglichkeit nicht als Einzelarbeit, sondern im ner Innovation, da diese zu Überprüfungs-
Zielexplikation und Bewertungskriterien 93

Diagramm IV/5
Grundstruktur der Metaplan-Methode (nach Schnelle, 1982)

Definition • Kleingruppenarbeit
• Vorstellen der Ergebnisse in der Gruppe
Die Metaplan-Methode ist eine Gesprächs- • Feedback entweder durch die Teilnehmer
bzw. Diskussionstechnik, die durch hierarchie- selbst oder durch den Moderator
freies Arbeiten Teilnehmer motiviert und de-
ren Kreativität fördert. Phase 3: Finale
• Erstellen eines Tätigkeitskatalogs in der
Die Teilnehmer sammeln Gruppe/Kleingruppe
• durch Kartenabfrage Beiträge zu einer be- • Feststellen der Zufriedenheit und des Grup-
stimmten Problematik; penklimas durch den Moderator
• gewichten diese Probleme;
• fassen die Beiträge zu Problembündeln zu-
sammen; Anwendungsgebiete

Der Moderator sorgt für • häufig in konfliktträchtigen Situationen (z.


• den organisatorischen Ablauf der Modera- B. sehr gut geeignet zur Bildungsbedarfs-
tion; analyse)
• Visualierung der Sach- und Beziehungs- • zur Erarbeitung neuer Problemstellungen
probleme in der Gruppe;
• Gleichberechtigung der Teilnehmer; Vorteile
• Selbstverantwortlichkeit der Teilnehmer
• Anhäufung verschiedener Informationen,
Ablauf der Moderation Meinungen, Ideen zu einer bestimmten Pro-
blematik
Phase 1: Einstieg
• Warming-up Nachteile
• Problembewußtsein der Teilnehmer schaffen • hoher personeller und finanzieller Aufwand
• Interessen sichtbar machen (häufig sind zwei Moderatoren nötig)
• Ist die reale Ungleichheit der Teilnehmer
Phase 2: Bearbeitung der Problematik überhaupt ausgleichbar?
• Problemfragen formulieren • In welchem Maß engen nicht-veränderliche
• Problemspeicherung Strukturen den Entscheidungsraum ein?

zwecken im kleinen Rahmen realisiert werden nen auswirken könnten, also ob sie für die je-
muß). Zu einer umfassenden Bewertung gehört weiligen Personen
es, auch solche Nebenfragen schon bei der Pro-
jektplanung mit zu beachten. Das rechtzeitige
• ein (neues oder zusätzliches) Problem dar-
stellen bzw. zur Folge haben
Entdecken potentieller Nebenwirkungen ist be-
sonders schwierig, weil diese ja eben nicht zu
• die Mittel für die Bearbeitung bestehender
Probleme verändern bzw. erweitern
den ursprünglich intendierten Maßnahmen-
zielen gehören. Eine nützliche Hilfe, um an
• die Handlungsziele beeinflussen
möglichst viele denkbare, aber nicht intendierte
• die Bewertung der Konsequenzen von Ziel-
erreichungen verändern
Folgen zu denken, ist die Berücksichtigung von
Handlungsplänen (vgl. Diagramm I/2). Für jede
irgendwie von den Evaluationsobjekten oder
Einige Beispiele:
der Evaluationsstudie selbst betroffenen Perso-
nengruppen (vgl. 4.1.1) wird überlegt, in wel- • Eine politische Partei hat sich seit Jahren ve-
cher Weise sich die Maßnahmen in diesen Plä- hement für eine bestimmte Schulorganisa-
94 Zielexplikation und Bewertungskriterien

tion eingesetzt; ein gegenteiliges Evaluations- Maßnahmen im Partei/Schulsystem-Beispiel,


ergebnis könnte u.a. die Glaubwürdigkeit der insbesondere eine möglichst weitgehende Ver-
Aussagen und ihr Prestige herabsetzen, so meidung von Einflußnahme auf die Ausgestal-
daß dieses zu einem «Problem» würde (er- tung und Berichtlegung des Projektes. Ein Pro-
wartbare Folge: Maßnahmen zur Vermei- blem kann sein, daß die Ausarbeitung solcher
dung «unerwünschter» Resultate). denkbarer Nebenfolgen als «zynisch» bezeich-
• Lehrer, die einen methodisch schlecht gestal- net und von den Beteiligten als eine unsachge-
teten Unterricht halten, können in der mäße Unterstellung zurückgewiesen wird –
Verfügbarkeit didaktisch gut aufbereiteter irrationales Verhalten politischer Parteien, feh-
Lernprogramme ein Mittel zur (partiellen) lende Innovationsfreudigkeit bei Lehrern, Ei-
Problemlösung sehen und daher darauf ver- gennutz sowie die Berücksichtigung nicht-me-
zichten, ihren eigenen Unterricht adäquat zu dizinischer Kriterien bei der Bestimmung der
verbessern (Folge: Reduktion des Bestrebens, Behandlung durch Ärzte verstoßen gegen die
sich selbst optimaler zu verhalten bzw. wei- sozial akzeptierten Normen der jeweiligen
terzubilden). Gruppe. Bei einer solchen Erhebung sollte man
• Der Entwickler eines speziellen Seminarpro- daher die Ideensammlung mit Anonymisie-
grammes zur Einführung in die Textverarbei- rungstechniken (etwa Metaplan, u.U. auch
tung hat großes persönliches Interesse an ei- wirklich vertrauliche Interviews) durchführen
nem «guten Abschneiden» dieser Methodik und als Evaluator deutlich machen, daß diese
im Vergleich zu anderen Angeboten, so daß Ideen nicht von dem Projektteam selbst ent-
für ihn ein entsprechendes Ergebnis als an- wickelt, sondern von praxiserfahrenen Außen-
zustrebendes Ziel anzusehen ist (mögliche stehenden genannt wurden.
Folge: Einfluß auf die Auswahl der Alternati-
ven, ganz besondere Anstrengung in den
evaluierten, von ihm selbst gestalteten Semi- 4.2.3 Operationalisierungsfragen
naren).
• Eine Veränderung in der Kostenerstattung für Nach Auswahl der theoretischen Bewertungs-
Rettungsfahrten (bezahlt wird nur noch, kriterien der zu evaluierenden Maßnahmen
wenn der Patient mindestens einen Tag lang müssen diese in konkreter Weise faßbar ge-
stationär im Krankenhaus behandelt wird) macht werden. Dabei ergeben sich sowohl in-
verändert die nicht unmittelbar medizini- haltliche als auch methodische Probleme.
schen Konsequenzen des ärztlichen Han- Die inhaltliche Problematik (an welchen Be-
delns; wird nur ambulant versorgt, hat dies obachtungen kann man das Ausmaß von «The-
auch bei ausreichendem Behandlungserfolg rapie-Erfolg» oder «Lernfortschritt» erfassen?)
für den Patienten negative finanzielle Konse- ist nicht Gegenstand einer empirischen Wis-
quenzen, die vom Arzt evtl. nicht gewünscht senschaft, sondern erfordert eine geisteswissen-
werden. Noch massiver können die Auswir- schaftlich begründete Setzung, etwa anhand
kungen bezüglich des «Hilfeverhaltens» von von subjektiver Plausibilität, Verträglichkeits-
Mitmenschen sein, da die Fahrtkosten (die kriterien mit «etablierten» Ansätzen oder unter
durchaus 300 DM betragen können) nicht Berücksichtigung von Nutzen-Überlegungen
immer vom potentiellen Patienten, sondern (für das prinzipielle Problem, daß sich die in-
im Konfliktfall von dem zu tragen sind, der haltliche Seite der Operationalisierung der Be-
den Wagen bestellt hat. urteilung durch empirische Forschung entzieht,
siehe etwa Wottawa, 1988, Seite 73). Dies
In all diesen Fällen wäre es prinzipiell möglich, macht eine intensive Abstimmung mit dem
bei rechtzeitiger Berücksichtigung durch Erwei- Auftraggeber erforderlich, selbst dann, wenn
terung des Projektes dessen Leistungsfähigkeit man auf «bewährte» Tests zurückgreift.
zu erhöhen, sei es durch Ergänzung des Kri-
terienkataloges, methodischer Vorkehrungen Die methodischen Probleme der Operationali-
(zum Beispiel die Vermeidung von direkter oder sierung sind zwar nahezu ebenso schwierig,
auch nur indirekter Selbstevaluation) oder doch aber wissenschaftlich leichter bearbeitbar. Im
zumindest die Empfehlung vorbereitender folgenden wird auf die Punkte eingegangen:
Zielexplikation und Bewertungskriterien 95
• Ideographische Ansätze einzelfallbezogener Darstellung) und «Fallbei-
• Nomothetische Ansätze; die Itemmengen spiele». Solche Ausarbeitungen haben oft einen
sind definiert durch hohen heuristischen Wert, bereiten aber
– Stoffgebiete Schwierigkeiten bzgl. der Verallgemeinerung
– Konstruktionsregeln der Ergebnisse. Auffallend ist auch, daß etwa
– eindimensionale Modelle im Zusammenhang mit den sehr kontrovers
beurteilten Gesamtschulevaluationen in Nord-
Die Wahl des methodischen Ansatzes sollte in rhein-Westfalen einzelfallorientierte Ausarbei-
jedem Evaluationsprojekt möglichst nach tungen (Diederich und Wulf, 1979) eine we-
Sachaspekten getroffen werden, auch wenn sentlich geringere öffentliche Resonanz fanden
vielfach eine Berücksichtigung von Ressourcen- als auf nomothetischer Messung aufbauende
mangel nicht zu vermeiden ist. Studien (etwa Haenisch et al., 1979, Lukesch et
al., 1979), obwohl alle diese Berichte in der glei-
chen Veröffentlichungsreihe erschienen sind
und man annehmen könnte, daß zumindest
Ideographische Ansätze
für die Öffentlichkeit Fallbeschreibungen an-
schaulicher sind als Testergebnisse. Der Grund
An Methoden dieser Art wird man denken,
dafür könnte darin liegen, daß solche «wei-
wenn die Evaluationsergebnisse stark in Abhän-
chen» Ausarbeitungen deutlich erkennbar in
gigkeit von Individuen bewertet werden müs-
erheblichem Ausmaße von der subjektiven Vor-
sen. Typische Beispiele:
einstellung der Untersucher abhängen, so daß
• Erfolgskrontrolle von psychologischer Bera- die Glaubwürdigkeit von darauf gestützten Be-
tung oder Psychotherapien; für einen Klienten wertungen vor allem in kontroversen Situatio-
kann die Reduktion des übertriebenen Selbst- nen herabgesetzt ist. Man sollte solche Verfah-
wertgefühls, für einen anderen die Steigerung ren daher vor allem bei allgemeinem Konsens
dieser Dimension ein wesentliches Inter- und insbesondere bei formativen Fragestellun-
ventionsziel sein, so daß einer die Personen gen einsetzen.
umfassende Mittelung dysfunktional wäre. Die (unbeabsichtigte) Einflußnahme des Un-
• Bewertung von einzelnen Maßnahmen un- tersuchers auf die Ergebnisse wird geringer,
ter besonderer Berücksichtigung singulärer wenn man die ideographische Datenerhebung
Aspekte, vor allem im Zusammenhang mit stärker methodisch strukturiert. Beispiele dafür
formativer Evaluation; typisch dafür ist etwa sind Ansätze, deren Ziel es ist, die für die jewei-
die «wissenschaftliche Begleitung» von Mo- lige Fragestellung relevanten kognitiven Struk-
dellversuchen, die nicht auf normativ-verall- turen der Gesprächspartner (auch «subjektive
gemeinerte Aussagen hin orientiert ist, son- Theorien» oder «Entscheidungsregeln» ge-
dern vorwiegend den Zweck hat, für den nannt) zu erheben. Frühe Beispiele dafür fin-
einen zu evaluierenden Einzelfall möglichst den sich etwa im diagnostischen Bereich
optimale Gestaltungshinweise zu geben. (Kleinmuntz, 1963) oder auch der Erfassung
• Interventionen, die qualitative Veränderun- subjektiver Theorien von Lehrern (vgl. dazu
gen von Zusammenhangsstrukturen zum Hofer, 1975). Für das Vorgehen bei solchen
Ziel haben, zum Beispiel Veränderung von Erhebungen kann man sich zum Beispiel der
Abläufen in Organisationen oder die bessere Strukturlegetechnik (Scheele & Groeben, 1984)
Gestaltung kognitiver Strukturen durch Wei- oder des Prinzips von HYPAG/Structure (Wotta-
terbildung; hier kann nur der Vergleich der wa & Echterhoff, 1982) bedienen. Diese An-
strukturellen Gegebenheiten vor und nach sätze sind im Diagramm IV/6 bzw. IV/7 kurz skiz-
der Intervention die Evaluationsgrundlage ziert. Ein Anwendungsbeispiel für den Bereich
bilden, was eine individuumsorientierte Er- der Evaluation (Auswirkung einer Weiterbil-
hebung voraussetzt. dungsmaßnahme) findet sich etwa in Wottawa
& Hof, 1987.
Die häufigsten, aber auch «weichsten» metho-
dischen Ansätze für diese Art von Datenerhe- Für manche Fragestellungen ist die entschei-
bung sind Interviews (mit anschließender dende Operationalisierung zwar nur individu-
96 Zielexplikation und Bewertungskriterien

ell möglich, eine methodisch möglichst eindeu- Ziele in Punktwerte ist zwar sicher subjektiv be-
tige Zusammenfassung der Einzelergebnisse zu einflußt und entspricht nicht den Vorstellungen
einer Gesamtbewertung aber unbedingt erfor- harter nomothetischer Messung, ermöglicht aber
derlich (was die beiden vorhergehend bespro- eine objektivere und besser nachkontrollierbare
chenen Ansätze kaum leisten können), gerade Zusammenfassung der Einzelergebnisse als die
im Bereich der Therapie-Evaluation. Hier ist das anderen hier besprochenen ideographisch orien-
Ziel nicht nur eine Betrachtung des Interven- tierten Vorgehensweisen. Beispiele für die An-
tionserfolges im Einzelfall, sondern eine ver- wendung der GAS für Evaluationsfragen finde
gleichend-verallgemeinernde Aussage über die sich u.a. in Sherman, R. (1977).
relative Bewährung verschiedener Therapie-
methoden für spezielle Indikationsstellungen.
Ein speziell dafür entwickelter Operationali- Nomothetische Messung
sierungsansatz ist die «Goal-Attainment-Scale»
(GAS; s. Franklin & Trasher, 1976, Wittmann Wird ein für die Evaluation ausgewählter theo-
1985), deren Grundprinzip im Diagramm IV/8 dar- retischer Konstrukt für eine nomothetische
gestellt ist, beinhaltet auch Bewertungsaspekte Messung, also für alle betroffenen Personen in
und wird daher im Abschnitt 4.3 besprochen. der gleichen Form, operationalisiert, so stellt
Die dort vorgenommene «Umrechnung» des re- sich die Frage nach der Rechtfertigung gerade
aktiven Ausmaßes des Erreichens verschiedener dieser Indikatorenwahl – schließlich hängt das

Diagramm IV/6
Kurzdarstellung der Struktur-Lege-Technik (SLT) (nach Groeben und Scheele, 1984)

Gundlagen 2. Die Vp erhält zur Vorbereitung auf die fol-


gende Sitzung, in der sie ihre subjektive
Ziel der SLT ist die Rekonstruktion subjektiver Theorie konstruieren soll, den Struktur-
Theorien. Lege-Leitfaden, der die Grundprinzipien
Darunter verstehen die Autoren «… ein Ag- des Verfahrens erläutert.
gregat aktualisierbarer Kognitionen der Selbst- 3. Die Vp legt auf Grund der Interview-
und Weltsicht mit zumindest impliziter informationen für sich bereits mit Hilfe
Argumentationsstruktur, die eine (wenigstens der Kärtchen eine seiner Meinung nach
partielle) Explikation bzw. Rekonstruktion die- für die Vp relevante Theoriestruktur fest.
ses Aggregates in Parallelität zur Struktur wis- 4. In der Sitzung wird die Vp aufgefordert,
senschaftlicher Theorien erlaubt.» (Groeben & ihre eigene Theoriestruktur zu rekonstru-
Scheele, 1984, S. 2), ieren. Sie kann dazu auch andere Konzept-
Zur Explikation dieser subjektiven Theorien karten benutzen, als die, die vom VL erar-
werden eine Reihe von Kästchen verwendet, beitet wurden.
die Begriffe und Konzepte repräsentieren so- 5. Die Theoriestruktur der Vp wird mit der
wie Kästchen, die die formalen Beziehungen des VL verglichen und die Vp entscheidet,
zwischen diesen Begriffen und Konzepten an welchen Stellen sie der Rekonstruktion
festlegen. des VL zustimmt oder aber der eigenen
Version den Vorzug gibt.
6. Aus dem Vergleich der beiden Rekonstruk-
Arbeitsablauf tionen soll sich schließlich eine endgül-
tige, beide Versuche integrierende Version
1. Durchführung eines halbstandardisierten entwickeln.
Interviews mit der Vp, wobei sog. hypo-
thesen-ungerichtete, hypothesen-gerichtete
und Störfragen eingesetzt werden.
Zielexplikation und Bewertungskriterien 97

Diagramm IV/7
Kurzdarstellung von HYPAG/Structure

Grundlagen dungsprozedur selten auf klar formulierten


Regeln, sondern meist auf Nachahmungs-
Ausgangspunkt ist die Überlegung, daß lernen oder erst in anwendbare Regeln zu
• die meisten Personen bei bloßem Befragen transformierenden Wissensbasen beruhte;
ihre eigenen Entscheidungsregeln auch in • daher eine Situation geschaffen werden
häufig auftretenden Situationen (Diagno- muß, in der die zu analysierende Person
stik, Indikationsstellung) nicht zutreffend durch ein Wechselspiel von der Abgabe sub-
explizieren können; jektiver Begründungen und deren Vergleich
• der normale Entscheidungs- oder Auswahl- mit dem tatsächlichen Entscheidungen ver-
ablauf auch keinerlei Veranlassung bietet, anlaßt wird, allmählich «zutreffende» Be-
sein Regelsystem zu explizieren; dies um so gründungen ihres eigenen Verhaltens zu
mehr, als die Einarbeitung in die Entschei- kommen.

Verhalten Befragung
Beobachtung des Frage: «Warum so entschie-
realen Entschei- den?» Antwort: «Wenn (Indikato-
dungsverhaltens ren) …, dann (Entscheidung) …»

Speicherung Übersetzung der subjektiven Begründung in ein


(mögl. auf EDV) Modell: Darstellung der Antworten in
konfiguraler´bzw. logischer Form (evtl. EDV)
Erneute Verhaltensbeobachtung

Anwendung des vorläufigen Modells auf einen


Speicherung (neuen) Entscheidungsfall
Mögliche Folgen:
• Fehler (andere Modellentscheidungen als durch
Mensch): Rückmeldung an Befragten und Modell-
veränderung
• Nicht entscheidbar (wenn-Teile des Modells
tref fen nicht zu): Rückmeldung an Befragten und
Modellergänzung
• Treffer (Modell trif ft gleiche Entscheidung wie
befragter Entscheider)

Testung des geänderten Modells an


allen schon abgearbeiteten Fällen

Kreuzvalierung des als gültig angesehenen der Maßnahme (z.B. Training, Beratung,
Regelsystems an Fällen, die nicht zur Erstel- Therapie)
lung herangezogen wurden. • Aufbereitung von Informationen in einer
Einleitung praktischer Maßnahmen, je nach den Entscheidungsregeln entsprechenden
Zielsetzung etwa: Form (Akzeptanz von Materialien, Erleich-
• Intervention zur Änderung nicht optimal terung der Entscheidungsfindung)
erscheinender Teilregeln • Erarbeitung von Entscheidungshilfen, meist
• Bewertung von Interpretationen durch den computergestützt.
Vergleich des Regelsystems vor und nach
98 Zielexplikation und Bewertungskriterien

Diagramm IV/8
Kurzdarstellung des Goal-Attainment-Scaling (nach Wittmann, 1981)

Definition – Punktwert +1 bis +2: Kategorien von be-


GAS ist ein Oberbegriff für eine Vielzahl von sonders erwünschten Ausgängen, wobei +2
Techniken, die alle auf spezifische Klientenziele das bestmögliche Ergebnis darstellt;
und skalierbare Teilschritte zugeschnitten sind • Jeder Zielbereich wird seiner relativen Be-
(meist im klinischen Bereich eingesetzt). deutung nach in Relationen zu den ande-
ren gewichtet. Dadurch soll der Wert dieses
Ziel Zieles in Relation zu den anderen sichtbar
Bestimmung der durch eine Maßnahme zu er- werden.
reichenden Effekte
Anwendung
Durchführung • vor allem im klinischen Bereich Verbreitung
• Auswahl relevanter Kriterien für den kon- als Evaluationsinstrument, GAS beteiligt den
kreten Einzelfall (z.B. Festlegung und Spezi- Klienten besonders stark, bietet unmittelbare
fikation von klaren und realistischen Be- Rückmeldung der Behandlungsergebnisse
handlungszielen); aus dem Einzelfall an den Therapeuten
• Exakte, empirisch möglichst eindeutige Be- • auch einsetzbar für Ziele einer Einrichtung,
schreibung dieser Kriterien; die soziale oder pädagogische Programme
• Ziele werden auf einer 5-Punkte-Skala ska- durchführt
liert:
– Punktwert 0: ein erwarteter wahrschein- Probleme
licher Ausgang unter der Annahme einer ef- • Subjektive Bewertung aller Aspekte, vor al-
fektiven Behandlung lem Beliebigkeit der Ziele
– Punktwert -1 bis -2: Kategorien weniger • Validität des Verfahrens ist auf Grund der
erwünschter Ausgänge Individualspezifität schwer abschätzbar

Evaluationsergebnis ja ganz wesentlich von der schnitt 4.1.1), eine nachträgliche Aufnahme für
genauen Ausformung des Meßinstrumentes ab. die Nicht-Berücksichtigung weiterer Vorschläge
ist schwierig, und stets bleibt offen, ob die im
Eine denkbare Möglichkeit ist es, unsystema- Nachhinein den Datensatz zugrundegelegten
tisch eine größere Anzahl von Einzelindi- Dimensionen den eigentlich angestrebten theo-
katoren (Items, Beobachtungen u. dgl.) zu sam- retischen Bewertungskonstrukten entsprechen.
meln und über die einzelnen Fragen einen Aus diesen Gründen sollte ein solches «per-
Konsens herbeizuführen. Da für die meisten fiat»-Vorgehen nur dann gewählt werden,
Kriterien die Erfassung mit einem einzelnen wenn aufgrund gegebener Rahmenbedingungen
Item zu wenig aussagekräftig ist (Einteilung der ein sorgfältiger strukturiertes Vorgehen nicht
Personen nur in so viele verschiedene Klassen möglich ist.
als Antwortmöglichkeiten vorgesehen sind, ge-
ringe Meßgenauigkeit) kann man im Nachhin- Eine andere Möglichkeit ist es, für die einzel-
ein mit deskriptiven Verfahren wie der Fakto- nen Kriterien auf bereits vorhandene und mög-
renanalyse versuchen, die Informationsmenge lichst gut konstruierte Test- oder Erhebungs-
in Richtung auf einige besonders «wesentliche» verfahren zurückzugreifen. Man kann damit
Kriterien hin zusammenzufassen. eine eigene Entwicklungsarbeit sparen, der Ver-
Ein solches Vorgehen dürfte in der Eva- gleich mit anderen Untersuchungen wird we-
luationspraxis gar nicht so selten sein, bringt sentlich erleichtert und die Verantwortung für
aber erhebliche Nachteile mit sich. Eine un- evtl. doch bestehende Schwachstellen der Mes-
strukturierte oder nur schwach an Kriterien- sung wird an die ursprünglichen Autoren de-
vorstellungen orientierte Itemsammlung wird legiert. Prüfen muß man allerdings, ob die
im allgemeinen weniger Einfälle erbringen als konkrete Operationalisierung auch tatsächlich
ein systematisiertes Vorgehen (vgl. dazu Ab- einer Evaluationsfragestellung, die meist Verän-
Zielexplikation und Bewertungskriterien 99
derungsaspekte zum Inhalt hat, auch gerecht Festlegung von Stoffgebieten
wird. Dazu einige Beispiele:
Vor allem im pädagogisch-psychologischen Be-
• Erfassung des Therapieerfolges an einer Be-
reich liegen für manche Teilgebiete komplette
findlichkeitsskala, die auf maximale Relia-
Operationalisierungen der Bewertungskriterien
bilität hin konstruiert wurde – es besteht die
vor, vor allem bzgl. kognitiver Lerninhalte. Der
Gefahr, daß durch die Itemselektion bei der
Wissensstoff für ein bestimmtes Fach ergibt sich
Testkonstruktion gerade die besonders ände-
im Prinzip aus der Zusammenfassung aller da-
rungssensitiven Items eliminiert wurden, was
für zugelassenen Lehrbücher, die (bisherigen)
die Aussagekraft für eine Interventionsbewer-
Abituranforderungen finden sich in der Menge
tung senkt.
aller gestellten Prüfungsthemen, Kriterien der
• Anwendung eines Fragebogens für «Füh-
«Schulreife» ergeben sich durch eine zusam-
rungsstil», bei dem die Probanden das ihrer
menfassende Sammlung der für die erfolgrei-
Meinung nach richtige Verhalten in vorge-
che Einschulung erforderlichen Verhaltens-
gebenen Beispielsituation anzugeben haben
weisen. Daher wird in diesem Bereich die
– unabhängig von Evaluationsprojekten kann
Testkonstruktion stärker als in anderen Teilge-
ein solches Vorgehen durchaus Informatio-
bieten auf der sogenannten «kriteriumsorien-
nen über das tatsächliche Führungsverhalten
tierten Messung» (vgl. dazu Klauer, 1987) auf-
indirekt erschließen lassen, nach gezielten
gebaut, wobei leider diese Bezeichnung zu
Interventionsprogrammen ist aber die Ge-
Mißverständnissen führen kann – gemeint ist
fahr hoch, daß die Teilnehmer im Sinne der
nicht eine Erhöhung der Test/Kriteriumsbezie-
Veranstaltungsinhalte antworten, ohne auch
hung im Sinne einer korrelativen Kriteriums-
nur im geringsten daran zu denken, ihre Ein-
validität, sondern die sachgerechte Zusammen-
stellungen oder gar das Verhalten zu modifi-
stellung von Itemsätzen aus einer das Kriterium
zieren.
definierenden Gesamtmenge (vgl. dazu auch
• Verwendung eines in internationalen Ver-
den Begriff der Inhaltsvalidität etwa bei
gleichsstudien entwickelten Tests für Fremd-
Cronbach, 1978).
sprachen für die Evaluation einer neuen
Kann man von einer solchen Stoffmenge aus-
Lehrmethode; war die Zielsetzung der Aus-
gehen, ist es nur noch erforderlich, ein objekti-
gangsstudie (zum Beispiel der Erwerb von
ves Verfahren zur Umsetzung in konkrete Meß-
Grundfertigkeiten wie Wortschatz oder ele-
instrumente vorzunehmen. Dies ist manchmal
mentare Grammatik) und die Spezifität der
völlig unproblematisch, etwa ein Zusammen-
Intervention (zum Beispiel «Verbesserung der
stellen aller in den zulässigen Englisch-Lehr-
kommunikativen Fähigkeiten») nicht ausrei-
büchern verwendeten Vokabeln und Bildung
chend ähnlich, ist dieses Meßinstrument
einer Zufallstichprobe daraus für einen Wort-
auch dann nicht zu empfehlen, wenn es me-
schatztest. Der Aufwand ist höher, wenn für
thodisch noch so fundiert ist.
die Fragenerstellung Umformungen erforder-
lich sind, aber auch dann leistbar – man kann
Die besondere Zielrichtung von Evaluations-
etwa die Beherrschung des Faches «Geschich-
projekten erfordert leider im Prinzip häufig eine
te» so erfassen, daß man aus der Menge aller
spezifische Neukonstruktion der Meßinstru-
Absätze in den zulässigen Lehrbüchern wieder-
mente, auch wenn eine solche aus Zeit- und
um nach Zufall auswählt und für jeden dieser
Kostengründen in der Praxis häufig nicht gelei-
Absätze nach möglichst objektiv befolgbaren
stet werden kann. Zumindest in großen Projek-
Regeln eine Frage erstellt. Zwar wird in einem
ten und vor allem dann, wenn die Verwendung
solchen Fall die Abhängigkeit vom Itemersteller
der Meßinstrumente im Längsschnitt vorgese-
relativ hoch sein (insbesondere bei multiple-
hen ist, sollte man aber stets eine sorgfältige
choice-Aufgaben, wenn die Wahl der Dystrak-
Meßkonstruktion anstreben. Hierbei können
toren eine Rolle spielt), aber bei entsprechen-
folgende drei Ansätze wichtig werden:
der Schulung sollte sich daraus keine ent-
• Stoffgebiete mit Umsetzungsregeln scheidende Verzerrung der Meßinstrumente
• Systematisierte Itemkonstruktion gegenüber der Gesamtheit der Stoffmenge er-
• Eindimensionale probabilistische Modelle geben.
100 Zielexplikation und Bewertungskriterien

Ein solches Vorgehen hat, wenn die Voraus- unrealistischer Zielvorgabe (häufig wird dies
setzung einer konsensmäßig akzeptierten Stoff- etwa bei Lehrplänen unterstellt) die danach
menge tatsächlich gegeben ist, eine Reihe von konstruierten Itemmengen insgesamt viel zu
Vorteilen, insbesondere schwierig werden und damit nur eine geringe
Differenzierungsfähigkeit zwischen den einzel-
• objektive, nachprüfbare und damit sehr nen Probanden erlauben.
kritikresistente Fragenkonstruktion Da diese Probleme aber weniger oder über-
• eine Kontrolle der Einhaltung normativer haupt nicht ins Gewicht fallen, wenn man
Standards wird aufgrund objektiver Zielvor- nicht am Vergleich von Einzelpersonen, son-
gaben möglich (schließlich sollten die Inhal- dern von ganzen Gruppen (Schulen etc.) inter-
te der Lehrbücher bzw. der Lehrpläne ja auch essiert ist, sollte man an diese Technik der
tatsächlich beherrscht werden!); dies ermög- Testerstellung vor allem dann denken, wenn
licht eine bessere Ergebnisbewertung als die viele Einzelergebnisse zu relativ globalen (Insti-
mit üblichen Verfahren erzielten Vergleiche tutions-) Bewertungen zusammengefaßt wer-
verschiedener Teilgruppen. den, was ja gerade im pädagogischen Bereich
• Es sind wiederholte Messungen bei Sicher- häufig ist. Bei der praktischen Anwendung sollte
stellung der Vergleichbarkeit ohne Vertrau- man darüber hinaus zu einer Erhöhung der
lichkeits- und Coaching-Probleme möglich; Differenziertheit der Aussagen versuchen, die
gelingt eine objektive Umsetzung von Stoff- Stoffmenge nicht zu global festzulegen, son-
menge in Items, so kann man von Meß- dern verschiedene Untergruppen (etwa Wort-
zeitpunkt zu Meßzeitpunkt nach diesen schatz, passive Sprachbeherrschung etc.) zu bil-
Regeln neue Tests zusammenstellen, die den, aus denen jeweils eine Itemstichprobe
trotzdem die gleiche Stoffmenge erfassen gezogen wird.
und mit Ausnahme von Zufallsschwan-
kungen auch die gleiche durchschnittliche
Schwierigkeit aufweisen. Da stets andere Fra- Systematische Itemkonstruktion
gen verwendet werden, ist auch Verletzung
der Vertraulichkeit und eine an den in den Um die Nachteile einer willkürlichen oder nur
vorgehenden Untersuchungen verwendeten vage assoziativ zu einem Oberbegriff passenden
Items orientierte Testvorbereitung nicht Itemerstellung zu vermeiden, kann man versu-
möglich, und ein anderes sinnvolles chen, sich an explizite Konstruktionsregeln zu
Tranining wäre identisch mit dem ohnedies halten. Hierfür sind zwei verwandte Denkan-
vorgegebenen Ziel, die definierte Stoffmenge sätze verbreitet:
möglichst umfassend zu erlernen.
• Die «Facettentheorie» (Guttman, 1957; Borg
Problematisch sind bei diesem Vorgehen die 1981.) geht davon aus, daß verschiedene
Meßeigenschaften der so gewonnen Instru- Aspekte der Aufgaben (im Beispiel «Grund-
mente. Da die «Stoffmengen» in sich sehr hete- rechenfertigkeit» etwa die vier Grundrechen-
rogen sein können, können die einzelnen Items arten, die Teile des Zahlenraumes «Einer,
völlig unterschiedliche Aspekte ansprechen, de- Zehner, Hunderter» die Berücksichtigung po-
ren Zusammenfassung zu einem Kriteriums- sitiver und negativer Zahlen sowie nur gan-
wert nicht durch wissenschaftliche Aspekte, zer oder auch Dezimalzahlen) zu einzelnen
sondern nur durch die meist wissenschafts- «Facetten» kombiniert werden (eine solche
extern definierte Stoffmenge gerechtfertigt ist. wäre etwa die Kombination «Multiplikation
In Abhängigkeit von den Schwankungen der von positiven ganzen Zahlen mit höchstens
Itemschwierigkeiten (die u.a. von der jeweili- zweistelligen Ergebnissen».) Nach diesem
gen Ausgangsmenge, etwa der Gestaltung eines Prinzip lassen sich auch Skalen für die Be-
konkreten Lehrbuches, abhängt) kann es auch wertung von Therapien erarbeiten (etwa bei
sein, daß für verschiedene Testformen mit aus- Kernberg et al., 1972;). Dort wurden 16
reichend ähnlicher Schwierigkeit relativ große Aspekte mit jeweils 2 bis 7 Ausprägungs-
Itemmengen erforderlich sind. Zu den Meß- graden erarbeitet und aus der Vielzahl der
eigenschaften gehört auch das Problem, daß bei damit möglichen Facetten eine Teilmenge für
Zielexplikation und Bewertungskriterien 101
das Evaluationsinstrument ausgewählt. Für Gültigkeit eindimensionaler Modelle) inner-
die Konstruktion von Intelligenztests vgl. halb der einzelnen «Facetten» zu erhalten.
auch Jäger, (1967).
• Die «rationale» oder «regelgeleitete» Item-
konstruktion besteht in der systematischen Eindimensionale probabilistische Modelle
Kombination kognitiver Prozesse, die für die
Aufgabenlösung benötigt werden. Ähnlich Dieser sich an den methodischen Aspekten von
wie bei der Facettentheorie erleichtert dieses Messung orientierende Ansatz (für eine Über-
Vorgehen die Bildung großer, in ihrer Struk- sicht siehe Lord & Nowick, 1968; Fischer, 1974,
tur bekannter Itemmengen, wie sie insbeson- Henning 1974, betrifft in keiner Weise die in-
dere für maßgeschneidertes, computer- haltliche Festlegung der Indikatoren, sondern
gestütztes Testen (Vorgabe einer für jeden nur deren im Hinblick auf Meßeigenschaften
Probanden nach individueller Trennschärfe optimale Zusammenstellung. Da «eindimensio-
ausgewählten Itemmenge) benötigt werden. nal» als eine besondere Definition von «ähn-
Allerdings kann die Kombination von An- lich» aufgefaßt werden kann (vgl. dazu
forderungen unerwartete Effekte im Sinne Wottawa, 1979), ist es im Prinzip möglich, für
von Wechselwirkungen ergeben (zum Bei- jedes einzelne Item (etwa aus einer Stoffmenge
spiel die Möglichkeit, die Antwort auf einem ausgewählt oder auf andere Weise konsensmäßig
viel leichteren Weg zu finden, als bei der festgelegt) unabhängig von seiner psychologi-
Konstruktion intendiert), so daß die tatsäch- schen Komplexität durch das Hinzufügen ent-
liche Homogenität der Items zusätzlich zur sprechend gleich strukturierter Fragen (hierbei
Einhaltung der Konstruktionsprinzipien mit können die Prinzipien der rationalen Item-
probalistischen Testmodellen empirisch ge- konstruktion helfen) eine ganze Dimension zu
prüft werden muß. Ein Beispiel dafür gibt erstellen. Der Erfolg einer solchen Test-
Hornke, (1986). konstruktion hängt im allgemeinen nur vom
Einfallsreichtum des Untersuchers ab, so daß die
Verglichen mit der Festlegung von Stoffmengen Verwendung solcher Modelle im Prinzip keine
hat dieser Ansatz den Nachteil, keine an einem Einschränkung der inhaltlichen Vielfalt bedeu-
bereits bestehenden externen Maßstab orien- tet. Sie sind daher kein Ersatz, sondern eine Er-
tierte Aussage zur Bewertung der erbrachten gänzung der inhaltlich orientierten Ansätze.
Testergebnisse leisten zu können. Im übrigen Der Vorteil liegt in den Meßeigenschaften für
ist er mit dem zuerst diskutierten Vorgehen hin- Einzelpersonen, insbesondere durch die Anpas-
sichtlich der Leistungsfähigkeit vergleichbar, sung der Itemschwierigkeit an den Leistungs-
vor allem ist ebenfalls eine Testwiederholung stand verschiedener Subgruppen (Schulformen,
mit jeweils verschiedenen, aber strukturell glei- Leistungskurse, Altersstufen). Sie ermöglichen
chen Items möglich. Dies ist vor allem dann besser als alle Alternativen die Beobachtung
wichtig, wenn die gleiche «Dimension» im von Entwicklungsverläufen einzelner Personen
Längsschnitt erfaßt werden soll (Lernfortschritte im Längsschnitt. Für Evaluationsfragestellun-
einzelner Schüler, Veränderungen durch thera- gen genügt es übrigens im allgemeinen, mit re-
peutischen Eingriffe zu vielen Zeitpunkten lativ schwachen Modellen (Mokken-Skalierung
während der Behandlung, Kontrolle der Aus- oder dreiparametrige logistische Modelle) zu
wirkungen einer Werbeaktion unter Benutzung arbeiten, da Meßeigenschaften bzgl. der einzel-
eines Längsschnitts-Panels) und man zur Ver- nen Items (etwa ein spezifisch objektiver Ver-
meidung von Störeffekten mit jeweils unter- gleich der Items untereinander), die restriktive-
schiedlichen Items arbeiten möchte. Das Wech- re Modelle erfordern, für die Projektzielsetzung
seln der Aufgaben ist zum Beispiel ganz meist nicht erforderlich sind. Trotzdem kann
besonders wichtig bei wiederholten Evalua- der Aufwand für die Vortestung und entspre-
tionsmessungen im Schulsystem. Auch weiß chende Modifikation der vorgeschlagenen Ska-
man mehr über die Struktur der von den ein- len ganz erheblich sein, so daß unter Effizienz-
zelnen Items angesprochenen Dimensionen, gesichtspunkten der Verzicht auf diese Modelle
und man hat eine höhere Chance, besonders die bessere Alternative sein kann, vor allem
wünschenswerte Meßeigenschaften (effektive dann, wenn nur Gruppenvergleiche interessie-
102 Zielexplikation und Bewertungskriterien

ren. Ein sehr interessanter, auch unter Effizienz- übung in die jeweiligen Verfahren kann durch
gesichtspunkten für Evaluationsprojekte sinn- die theoretischen Konzepte nur unterstützt,
voller Ansatz auf dieser Basis ist das sogenannte aber sicher nicht ersetzt werden.
«Matrix-Sampling» (Miles und Huberman,
1984).
4.3.1 Explizite Verfahren
der Nutzenbestimmung
4.3 Bewertungs- und Für eine objektive, formalisierte Nutzenbestim-
Entscheidungshilfen mung sind folgende Teilschritte erforderlich:

Mit dem Erheben der Bewertungskriterien en- • für jedes Evaluationsobjekt muß der Aus-
det der «naturwissenschaftliche» Teil der Arbeit prägungsgrad auf den festgelegten Kriterien
an Evaluationsprojekten. Nach Abschluß dieser erhoben werden; zum Beispiel: Ergebnisse
Arbeit liegen im glücklichen Fall alle relevan- der Schüler eines Schulsystems (Evaluations-
ten, empirisch erfaßbaren Informationen für objekt) in einem Vokabeltest im Englischen
eine summative (Auswahl-) oder formative Ent- (eines der Bewertungskriterien).
scheidung vor, die wissenschaftliche Arbeit ist • für jeden empirisch gefundenen Ausprä-
eigentlich zu Ende. gungsgrad eines jeden Bewertungskriteriums
muß der «Nutzen» festgestellt werden; die-
Wie schon das Wort «Evaluation» sagt (vgl. Kap. sen Vorgang nennt man «Nutzenmessung»,
1), umfaßt die Arbeit des Evaluators aber mehr und dieser erfordert subjektive Setzungen (im
als das Aufzeigen von sinnvoll gewählten em- Beispiel muß jemand festlegen, wie nützlich
pirischen Fakten. Eine «Bewertung» ist nur zum Beispiel ein Ergebnis von durchschnitt-
möglich, wenn die objektiv bestehenden Fak- lich 20 richtigen Lösungen im Vergleich zu
ten in nur subjektiv existierenden «Nutzen» nur 15 richtigen Antworten ist).
übersetzt und das weitere Vorgehen nach dem • liegen mehrere Bewertungskriterien vor, muß
Prinzip der Nutzenmaximierung geplant wird. bestimmt werden, wie die einzelnen Ergeb-
Dieses erfordert einerseits eine Klärung der Fra- nisse zu einem «Gesamtnutzen» zusammen-
ge, wessen Nutzen optimiert werden soll (siehe gefaßt werden können; dies nennt man
dazu Abschnitt 4.1), ein Problem, das insbe- «Nutzenverrechnung» (im Beispiel wären
sondere in Folge des Bestehens von Abhängig- etwa die gefunden Nutzenwerte auf den Kri-
keitsverhältnissen zwischen Evaluator und Auf- terien Vokabeltest Englisch, Rechenaufga-
traggeber (etwa als Dienstherr, Arbeitgeber oder ben, Wohlbefinden in der Klassengemein-
Financier der Studie – und vielleicht noch fol- schaft etc. zu verrechnen – keine ganz leichte
gender!) die professionelle Ethik des Evaluators Aufgabe!).
berühren kann. Andererseits ist damit zu rech-
nen, daß die Umsetzung der empirischen Fak- Die Probleme werden noch dadurch verstärkt,
ten in Nutzenwerte oder Globalentscheidungen daß der «Nutzen» für verschiedene Gruppen
den «Abnehmern» der Evaluationsergebnisse von Betroffenen bzw. Entscheidern sehr unter-
oft sehr schwer fällt, so daß es mit die Aufgabe schiedlich gesehen werden kann. Werden etwa
des Evaluators ist, diesen Übersetzungsprozeß verschiedene Therapieformen für Alkoholkranke
durch geeignete Sozialtechniken zu unterstüt- anhand der Kriterien «Dauer des Aufenthaltes
zen. Hierzu liegt eine Fülle von Ansätzen vor, in einer Suchtklinik» und «Rückfallquote» eva-
die wichtigsten sind im Diagramm IV/9 zusam- luiert, können Patienten, Klinikleitung und
mengefaßt. Kostenträger sehr unterschiedliche Nutzenbe-
wertungen haben. Für die Klinikleitung mag
In den folgenden drei Abschnitten können für ein längerer Aufenthalt auch höheren Nutzen
die Bereiche Nutzenmessung, Entscheidung haben, zumindest bei unvollständiger Kapazi-
durch Experten und Entscheidung durch Be- tätsauslastung (Einnahmensicherung), für die
troffene jeweils nur die allerwichtigsten Ansätze Kostenträger ist jeder Tag weniger eine wich-
diskutiert werden. Die wichtige praktische Ein- tige Einsparung, und für den Patienten (und
Zielexplikation und Bewertungskriterien 103

Diagramm IV/9
Übersicht über einige wichtige Techniken zu Entscheidungs- und Bewertungshilfen (Auswahl)

Vorwiegend monetäre Ansätze Bewertung durch Experten


• Kosten-Nutzen-Analyse • Expertenurteil
• Kosten-Effektivitäts-Analyse • Gruppendiskussion
• Methoden der Kosten- und Investitions- • Szenario-Technik
rechnung • DELPHI-Technik
• Management Systems (z.B. Management
by Budgeting Systems PPBS) Elaborierte wissenschaftliche Ansätze
• Entscheidungsanalyse (EA)
Nutzenbestimmung durch Betroffene • Soziale Urteilsbildungstechnologie (SJT)
• Concret goal setting (GS) • Multi-Attributive Nutzentechnik (MAUT)
• Goal-Attainment-Scaling (GAS)
• Goal-Orientate + Automate + Progress Note
(GAP)
• Patient Progress Record (PPR)
• Informierte Einzelentscheidung
• Planungszelle

evtl. den Kostenträger) kann vor allem die Ver- formalisierte Verrechnungsmethoden er-
hinderung von Rückfällen die alles andere über- leichtern.
ragende Bedeutung haben. Sofern so stark diver-
gierende Bewertungen wirklich vorliegen, ist eine Die Vorteile einer auch nur auf Ranginfor-
«objektive» Nutzenbestimmung kaum möglich. mation aufbauenden Nutzenmessung werden
deutlich, wenn man sich überlegt, daß ein
Die hier angedeuteten Schwierigkeiten sollen monotoner Zusammenhang zwischen Krite-
nicht zu einer Abwertung expliziter Verrech- riumsausprägung und Nutzen in keiner Weise
nungsverfahren führen. Die Probleme bestehen selbstverständlich ist (für verschiedene Funk-
in gleicher Form bei allen anderen Entschei- tionsverläufe vgl. Diagramm IV/10). Zwar gibt es
dungsverfahren, nur werden sie dort weniger sicher oft monotone Zusammenhänge, doch
deutlich, was für eine sachgerechte Lösung oft sollte man dies nie ungeprüft voraussetzen,
von Nachteil ist. nicht einmal bei so einfachen Aspekten wie
«Preis» oder «Intellektuelle Leistungsfähigkeit»
– eine besonders billige Ware kann leicht nur
Nutzenmessung
wegen des Preises als qualitativ minderwertig
eingestuft werden (was den Nutzen des Kaufes
Die Übersetzung einzelner Kriteriumsausprä-
entsprechend subjektiv senkt), und ob eine
gungen in zugeordnete Nutzenwerte erfüllt
Spitzenintelligenz für einfachste Berufstätig-
zwei Funktionen:
keiten (wegen dem subjektiven Anspruchsni-
• Sie ermöglicht die Anwendung formalisier- veau) oder für Konzentration erfordernde Tä-
ter Bewertungs- bzw. Entscheidungsverfah- tigkeiten wie etwa Autofahren (etwa wegen der
ren, vor allem bei Vorliegen harter (Intervall- intensiven gedanklichen Beschäftigung mit ei-
oder Rational-) Skalen, etwa nach dem nem Problem) wirklich besser geeignet ist als
«Erwartungs-mal-Wert»-Prinzip (siehe dazu ein durchschnittlich begabter Mensch, ist zu-
Winterfeldt, 1974) mindest fraglich (man vergleiche etwa die eben-
• Auch bei schwachen (Rang-)Skalen trägt die falls inverte u-förmige Beziehung zwischen An-
Nutzenmessung zur Problemexplikation bei strengung und Leistung, siehe etwa Kleiner und
und kann damit eine rationale, konsens- Hukla, 1970). Zunächst monoton verlaufende
bezogene Entscheidungsfindung auch ohne und ab einem Grenzwert weitgehend konstant
104 Zielexplikation und Bewertungskriterien

bleibende Kriteriums/Nutzenbeziehungen fin- lung von Nutzenwerten für die einzelnen Krite-
den sich u.a. bei den sogenannten «Hygiene- riumsausprägungen über Personengruppen hin-
Faktoren» der Arbeitsplatzgestaltung (Herzberg weg die Aussagekraft stark reduzieren kann.
1959, S. 66). Die Verbesserung solcher Aspekte Größere Praxisrelevanz haben Verfahren, die
(etwa Senkung der Lärmbelastung) erhöht bis die Mehrdimensionalität des Nutzens von
zu einer gewissen Grenze den Nutzenaspekt Handlungsalternativen berücksichtigen. Auch
«Arbeitszufriedenheit», jenseits eines solchen wenn dort vergleichbare methodische Schwä-
kritischen Wertes führt eine weitere Verbesse- chen auftreten, liefert die Explikation der rele-
rung der objektiven Fakten aber nicht mehr zu vanten Teildimensionen an sich schon einen
einer Nutzensteigerung. Informationsgewinn, der selbst dann für die
Für das Erarbeiten der im konkreten Anwen- Entscheidungsfindung nützlich ist, wenn man
dungsfall vorliegenden Kriteriums/Nutzen- auf formalisierte Entscheidungen verzichtet.
beziehung wurde eine Reihe von technischen Ein für die multidimensionale Nutzenmessung
Vorgehensweisen entwickelt, die sich vor allem besonders wichtiger Ansatz ist die MAUT-
hinsichtlich des Aufwandes bei der Durchfüh- Technik, die schon in verschiedenen Anwen-
rung des nutzenbezogenen Vergleichs zwischen dungsbereichen von Evaluationsfragestellun-
den einzelnen Ausprägungsgraden und, damit gen eingesetzt wurde (siehe etwa Kasubek und
zusammenhängend, dem angestrebten Skalen- Aschenbrenner, 1978).
niveau der Nutzendimension unterscheiden. Das Vorgehen dieser Technik ist im folgenden
Einige wichtige Ansätze dazu finden sich im dargestellt:
Diagramm IV/11 (vgl. Fishburn 1967). Für Eva-
luationsfragestellungen ist die Anwendbarkeit 1. Identifizierung der Personen oder Organisa-
dieser Verfahren dadurch eingeschränkt, daß sie tionen, deren Nutzen zu maximieren ist.
im Prinzip für jeden Beteiligten (oder doch zu- 2. Erarbeitung des Problembereichs, das heißt
mindest jede beteiligten Gruppe) gesondert der Entscheidung, für den/die die Nutzen-
durchgeführt werden müßten und eine Mitte- maximierung relevant ist.

Diagramm IV/10
Übersicht über Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967)

Der funktionale Zusammenhang zwischen Kri- für die der Nutzen konstant bleibt; ein Beispiel ist
teriumsausprägung (k) und dem Nutzen davon etwa die Erledigungsgeschwindigkeit von (Teil-)
(N(k)) kann folgende Formen aufweisen: Arbeiten in einem Projekt, deren Erhöhung nur
• nicht-monotone: tritt auf, wenn ein mittlerer dann eine Nutzensteigerung erbringt, wenn nicht
Kriteriumswert besonders günstig ist, etwa bei auf andere Teilarbeiten gewartet werden muß (2)
dem Verhältnis von (psychischer) Anspannung • streng monotone: der Nutzen steigt zwar stets mit
und Leistung (1) steigendem Kriterium, aber nicht proportional; ty-
• monotone: der Nutzen steigt i. A. monoton mit pisch für alle Grenznutzenphänomene, etwa bei
dem Kriterium, es gibt aber Kriteriumsintervalle, finanziellen Anreizen durch Gehaltssteigerungen
(3)
N (k)
• lineare: gleichbleibender, proportionaler Nutzen-
anstieg bei steigenden Kriteriumswerten; empi-
3 risch relativ selten, aber zur Vereinfachung in vie-
len Nutzenmessungsmethoden als näherungweise
4 Abbildung ohne Überprüfung angenommen (Aus-
2 nahme: MAUT und EA mit expliziter Überprüfung
der Verlaufsform der Nutzenfunktion) (4)
5 • unstetige:der Funktionsverlauf verändert an ei-
nem Grenzwert seine Struktur; typisch für alle
Hygienefaktoren», die zunächst mit steigender
Ausprägung auch einen höheren Nutzen haben
1 (z.B. am Arbeitsplatz), aber jenseits eines sinnvol-
len Grenzwertes keine weitere Nutzensteigerung
mehr erbringen (5)
k
Zielexplikation und Bewertungskriterien 105

Diagramm IV/11
Übersicht über Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967)

Wichtige Unterscheidungskriterien von Nutzen- 2. Paarvergleich


messungsmethoden
Beim Paarvergleich werden alle in Frage stehenden Al-
– Skalenniveau der Messung ternativen jeweils bzgl. eines Bewertungskriteriums mit
– Subjektive, teilweise subjektive oder objektive allen anderen Alternativen verglichen. Dabei muß zu
Bewertungskriterien jedem Paar angegeben werden, welche Alternative be-
– Methode arbeitet mit Wahrscheinlichkeit oder nicht vorzugt wird.
– Methode basiert auf Präferenzurteilen, Indifferenz- Aus diesem Vergleich ergibt sich die Bevorzugungs-
urteilen, direkten Gleichheits- oder Ungleichheits- wahrscheinlichkeit jeder Alternative auf jeder Bewer-
urteilen über den Nutzen tungsdimension.
– Anzahl der Bewertungskriterien, die in ein Urteil ein- Von den Bevorzugungswahrscheinlichkeiten kann wie-
gehen derum auf die «Beliebtheit» jeder Alternative geschlos-
– Methode ist geeignet für diskrete und/oder kontinu- sen werden, die den Ausgangspunkt für die Zuordnung
ierliche Bewertungsfaktoren von Nutzenwerten darstellt.

3. Gewichtete Rangreihe
Gebräuchliche Verfahren der eindimensionalen Bei dieser Methode müssen die Alternativen für jedes
Nutzenmessung Bewertungskriterium getrennt in eine Rangreihe ge-
bracht werden. Danach erfolgt die Gewichtung der Al-
1. Einfache Rangreihenbildung ternativen, wobei die schlechteste Alternative einen
Ziel dieser Methode ist es, die Bewertungsalternativen festen Wert (z.B. 10 Punkte) zugeordnet bekommt. Alle
bzgl. ihres Nutzens auf jeder Bewertungsdimension in anderen Alternativen müssen nun hierzu und unter-
eine Rangreihe zu bringen. Der Rangplatz der Alterna- einander bzgl. ihrer Nützlichkeit auf dem Bewertungs-
tive kennzeichnet dann den Nutzenwert auf der ent- kriterium ins Verhältnis gebracht werden.
sprechenden Bewertungsdimension.

3. Identifizierung der Alternativen, die in die (Vorher müssen alle Werte normiert werden.)
Bewertung eingehen sollen.
4. Zusammentragen der relevanten Bewer- 10. Entscheidung: Wahl derjenigen Alternative
tungskriterien, anhand derer die Alterna- mit dem höchsten Nützlichkeitswert ui.
tiven bewertet werden sollen.
5. Einordnung der relevanten Bewertungs-
Für eine ausführliche Darstellung der multi-
kriterien in eine Zielhierarchie.
attributiven Nutzentechnik vgl. von Winterfeld
6. Gewichtung der Bewertungskriterien
(1974), Kaplan und Schwartz (1973), Wendt
7. Erstellung von Nutzenfunktionen für jedes
und Vlek (1975).
einzelne Bewertungskriterium.
Unabhängig von Verfahrensdetails sollte
8. Feststellung des Ausprägungsgrad jeder zu
man sich als Evaluator stets bewußt sein, daß
bewertenden Alternative auf jeder Bewer-
auch numerisch erhaltene «Nutzenwerte»
tungsdimension (gleicher Skalenbereich für
nichts an dem Faktum ändern können, daß sie
alle Kriterien wichtig!).
letztlich subjektive Setzungen sind. Das Ergeb-
9. Bestimmung des Gesamtnutzens jeder zu be-
nis entsprechender Auswertungen ist streng ge-
wertenden Alternative nach folgender Formel:
nommen nicht ein wissenschaftlich erfaßter
Nutzenwert, sondern die Aussage «Die Perso-
ui (Aj) = Summe (wi . ui (xij))
nen haben subjektiv folgenden Nutzen einge-
wobei u (Aj) = Gesamtnutzen schätzt» oder «Das Wahlverhalten der Personen
der Alternative Aj läßt sich durch Zugrundelegung folgender
u (Aij) = Teilnutzen von xij Nutzenstruktur beschreiben». Nutzenaspekte
xij = Ausprägung der Alter- bleiben stets eine Sache der Setzung durch In-
native A auf dem i-ten dividuen, deren Subjektivität auch nicht durch
wi = Gewicht des i-ten noch so elaborierte und objektive Erhebungs-
Kriteriums methoden beseitigt werden kann.
106 Zielexplikation und Bewertungskriterien

Nutzenverrechnung legen ist, wenn sie gleichzeitig in allen


Bewertungskriterien niedrigere Nutzenwerte
Die Zusammenfassung der Teilnutzen-Werte hat. So ist etwa im Diagramm IV/12 das Objekt A
auf den Bewertungskriterien erfolgt im einfach- in beiden Kriterien dem Objekt U unterlegen;
sten Fall in linearer Form. Die einzelnen Krite- unabhängig davon, wie man diese Kriterien ge-
rien erhalten je nach ihrer (subjektiven) Bedeu- wichtet, würde immer für A daher ein niedrige-
tung ein Gewicht zugeschrieben, und der rer Gesamtnutzen als für U folgen, so daß A
Gesamtnutzen eines Evaluationsobjektes ergibt innerhalb der dort dargestellten Vergleichsob-
sich aus der damit gewichteten Summe der jekte niemals das beste sein kann. Aus gleichen
Nutzenwerte dieses Objektes in den einzelnen Überlegungen scheiden B, C und D aus. Für die
Kriterien. Dieses Vorgehen wird zum Beispiel verbleibenden Objekte ist keine weitere Selekti-
bei MAUT gewählt, wo auch diese Art der Zu- on nach diesem Prinzip möglich. Z hat zwar
sammenfassung formal dargestellt wurde (s.o.). den höchsten Wert auf dem 1. Kriterium, ist
Eine so einfache Verrechnungsform ist aber aber den anderen im 2. Kriterium unterlegen,
nicht immer sinnvoll. Sie impliziert zum Bei- ähnliches gilt für U, X und Y.
spiel, daß ein Evaluationsobjekt mit durch-
schnittlichen Nutzenwerten auf den Bewer- Die Bildung der pareto-optimalen Teilmenge ist
tungskriterien den selben rechnerischen vor allem dann nützlich, wenn viele «Objekte»
Gesamtnutzen haben kann wie ein anderes, zu evaluieren sind und klare Verrechnungs-
daß auf einigen Kriterien sehr hohe, auf ande- regeln fehlen (gut anwendbar zum Beispiel bei
ren ganz geringe Nutzenwerte erbrachte. Sind Personalentscheidungen, Verpackungs- oder
nun die einzelnen Kriterien für verschiedene Textvarianten in der Werbung, Anbieter von
«Betroffene» unterschiedlich bedeutsam, wäre Weiterbildungsseminaren). Das Vorgehen lie-
eine solche «Gleichheit» rechnerischer Art in- fert i. A. keine endgültige Entscheidung, son-
haltlich nicht sinnvoll. Hinzu kommt, daß die dern nur eine Vorselektion der Objekte, die zu
Bildung von gewichteten Summen für die recht in die engste Wahl kommen.
Nutzenwerte die Messung auf dem Niveau von
mindestens Intervallskalen bedingt, was oft
nicht sinnvoll angenommen werden kann. Anwendung multipler cut-off-Strategien:
Unterstellt man vorsichtig-realistisch, daß die
Nutzenmessung von Ausnahmefällen abgese- Auch wenn eine klare Zusammenfassung der
hen nur auf Rangskalen erfolgen kann und ins- einzelnen Nutzendimensionen fehlt, kann man
besondere eine Gewichtung der einzelnen Teil- häufig plausibel machen, daß auf den einzel-
aspekte über Personen bzw. Personengruppen nen Teilnutzenaspekten jeweils gewisse Min-
hinweg unterschiedlich sein können, so ist auf destwerte überschritten werden müssen (dies
der Basis einer formalen Nutzenverrechnung hat auch den Vorteil, daß man mit Ordinal-
oft nur ein «screening» (damit meint man eine skalen bei der Nutzenmessung auskommt). Ein
möglichst einfache Vorauswahl letztlich nicht Beispiel dafür wäre etwa die Auswahl besonde-
relevanter Alternativen) der Evaluationsobjekte res guter Seminaranbieter für Weiterbildungs-
möglich. Man kann sich dazu des Gedankens programme (es kommen nur solche in Frage,
des Bildens der «pareto-optimalen Teilmenge» die für die einzelnen Teildimensionen wie Lern-
bedienen, das Prinzip ist anhand von nur 2 erfolg, Seminarklima oder Übertragbarkeit der
Nutzendimensionen im Diagramm IV/12 darge- Inhalte Mindestwerte überschritten haben),
stellt. Eine andere Möglichkeit sind Multiple- therapeutische Eingriffe (nur solche, die etwa
Cut-Off-Strategien. hinsichtlich unerwünschte Nebenwirkungen
Höchstgrenzen nicht überschreiten) oder die
Optimierung von Textgestaltungen (jeweils
Bilden von pareto-optimalen Teilmengen Mindest- bzw. Höchstwerte in Länge, Verständ-
lichkeit, emotionale Anmutung und dgl.). Die
Die Idee dabei ist, daß eine Alternative unab- gleiche Denkweise ist auch typisch für die Aus-
hängig von der speziellen Gewichtung oder wahl von Personen auf der Basis von Einzelfall-
Verrechnung immer dann einer anderen unter- bewertungen, etwa in der Eignungsdiagnostik,
Zielexplikation und Bewertungskriterien 107
der Potentialabschätzung oder bei Plazierungs- techniken vgl. Klebert et al. 1988). Typische
aufgaben. Man spricht dort gerne von «Screen- Beispiele dafür sind etwa Projektgruppen in
ing-Verfahren». Eine solche formale Vorselek- Wirtschaft oder Verwaltung, Lehrerkonferen-
tion erleichtert auch bei Fehlen expliziter zen, Sitzungen von Therapeutenteams. Für
Regeln der Nutzenverrechnung das weitere Vor- kompliziertere, spezielle Kenntnisse erfordernde
gehen, da die Zahl der noch zu berücksichti- Problemlagen ist es aber sinnvoll, zusätzlich das
genden Objekte reduziert wurde. Zwischen den Wissen von Spezialisten (zum Beispiel Evalua-
verbleibenden Alternativen muß anschließend toren) zusätzlich einzubeziehen.
mit weniger formalisierten Verfahren entschie- In der Praxis finden sich für die Beteiligung
den werden. Eine Möglichkeit ist die Konsens- von Experten an der Entscheidungsfindung viele
findung unter Betroffenen (vgl. 4.3.3), eine an- institutionalisierte Vorgehensweisen, etwa
dere der Einsatz von «Experten». Enquette-Kommissionen, Anhörungen oder Be-
gutachtungen. Solche Methoden sind solange
weitgehend unproblematisch, als es um das
4.3.2 Expertengestützte Darstellen von (wissenschaftlich) unumstritte-
Entscheidungsfindung nen Fakten geht. Setzen subjektive Bewertun-
gen mit ein oder sind die «Fakten» insbeson-
Am einfachsten ist die Zusammenfassung un- dere im Hinblick auf ihre Bedeutung und
terschiedlicher Aspekte durch eine persönliche Verursachung nicht so eindeutig beschreibbar
Einzelentscheidung (typisch in Teilen von (im sozialwissenschaftlichen Bereich gilt dies
Managementfunktionen, aber eher mit abneh- fast immer), bieten solche Anhörungen manch-
mender Tendenz) oder der Versuch, auf der Ba- mal ein das Ansehen der Wissenschaft nicht
sis der empirischen Ergebnisse einen Gruppen- gerade förderndes Bild.
konsens herbeizuführen. Bei nicht besonders Zur Vermeidung solcher Mißstände ist es an-
konfliktreichen Situationen genügt es oft, wenn gezeigt, anstatt öffentlicher «Schaukämpfe»
es gelingt, die für die jeweilige Entscheidung zumindest für politisch-emotional sehr umstrit-
zuständige oder davon unmittelbar betroffene tene Evaluationsfragestellungen Techniken ein-
Gruppe von Personen zusammenzuführen und zusetzen, die Rollenverhalten einschränken
unter sachgerechter, konsensfördernder Moti- und konsensbildend wirken. Einige Beispiele
vation diskutieren zu lassen (für Moderations- (etwa Meta-Plan) wurden bereits in den vorher-

Diagramm IV/12
Prinzip der Pareto-optimalen Teilmenge

Grundlagen Skizze des Entscheidungsverlaufes bei zwei


Nutzendimensionen
Liegt mehr als ein Bewertungskriterium vor, stellt sich
die Frage nach der Zusammenfassung der jeweiligen Die Alternative A ist auf beiden Dimensionen kleiner
Nutzenwerte zu einer Auswahlentscheidung. Unab- als U und wird ausgeschlossen, B und C werden von X
hängig von einer speziellen Gewichtung oder einer übertroffen, D von Y. Die übrigen (U, X, Y, Z) können
anderen Verrechnungsvorschrift kann aber jede Alter- nicht ausgeschlossen werden; zwar wird z.B. Y von Z
native von vorneherein ausgeschlossen werden, die auf der ersten Nutzendimension übertroffen, hat aber
gleichzeitig auf allen Nutzen-Teildimensionen von ei- auf der zweiten einen etwas höheren Wert, sodaß Y
ner anderen Alternative übertroffen wird. und U (z.B. bei wesentlich stärkerer Gewichtung der
zweiten gegenüber der ersten Dimension) in der
Gesamtbewertung doch über Z liegen könnte.
Nutzen 2
U Die verbleibende Alternativenmenge wird «pareto-
A X optimal» genannt.
B Y Z
C
D

Nutzen 1
108 Zielexplikation und Bewertungskriterien

gehenden Abschnitten besprochen. Für die Ar- ten angewandt; ein Beispiel im Zusammenhang
beit mit Experten besonders bewährt hat sich mit der Curriculumsentwicklung gibt Häußler
die sogenannte «Delphi-Methode», die in Dia- et al., 1980.
gramm IV/13 dargestellt ist (vgl. Linstone &
Turoff, 1975; Bortz, 1984). Die anonyme Rück-
meldung über die Angaben der Expertenkolle- 4.3.3. Entscheidungsfindung
gen vermeidet gruppendynamische Effekte, es durch Betroffene
fällt leichter, die von anderen vorgebrachten
Argumente ohne Emotionen zu prüfen und seine Eigentlich sind die Betroffenen (aus wissen-
ursprüngliche Aussage als Ergebnis solcher zu- schaftlicher Sicht meist Laien) jene Gruppe, die
sätzlicher Überlegungen ohne Gesichtsver- am ehesten befugt wäre, bei Evaluations-
lust zu verändern. Leider ist dieses Verfahren fragestellungen eine Entscheidung zu treffen.
von den Kosten her aufwendig, und es wider- Das Problem dabei ist, daß eine begründete
spricht auch dem Selbstverständnis vieler Wis- Auswahl oder Gestaltungsvorschläge doch eine
senschaftler – wer gibt schon gerne zu, daß er relativ weitgehende Sachkenntnisse der Grund-
auch in er Rolle als Sachverständiger zu einigen lagen und Nebenfolgen voraussetzen, über die
Themen dazu neigt oder doch zumindest nei- auch ein intelligenter und in der Sache enga-
gen könnte, auch sachfremde Einflüsse wie gierter «Laie» im allgemeinen nicht verfügt.
Emotionen in seine Aussagen einfließen zu las- Dazu kommt noch, daß Betroffene natürlich
sen? sehr dazu neigen, ihre persönlichen Nutzen-
Aus solchen Gründen wird die Delphi-Tech- aspekte besonders hoch zu veranschlagen und
nik (bisher) für Evaluationsfragen leider nur sel- evtl. sogar massive Nachteile für andere weni-

Diagramm IV/13
Übersicht über die Grundlagen der DELPHI-Technik (nach Bortz, 1984)

Definition • Die Ergebnisse der Umfrage werden durch das


Leitungsteam ausgewertet (qualitativ und quantita-
Bei der DELPHI-Methode handelt es sich um eine spe- tiv)
zielle Form der schriftlichen Befragung, mittels derer • Auf der Basis der Resultate dieser ersten Befragung
ein Kreis von Experten zu einem ausgewählten Pro- wird durch das Leitungsgremium ein neuer Fragen-
blembereich in einem mehrstufigen Prozeß individuell katalog entworfen.
befragt wird, sodaß gruppendynamische Effekte ausge- • In einer zweiten Befragungsrunde erhalten die ein-
schaltet werden können. Ein Leitungsgremium über- zelnen Experten den neuen Fragebogen zusammen
nimmt dabei eine Koordinationsfunktion, indem es mit den Ergebnissen der ersten Umfrage sowie zu-
einen Katalog von Ausgangsfragen und Zielen entwik- sätzliche Informationen über die Standpunkte und
kelt, die Antworten der Experten auswertet, sowie ei- Lösungsbeiträge der anderen Experten. Die Exper-
nen ständig verbesserten Fragenkatalog ausarbeitet. ten werden dabei um eine Kommentierung ihrer
Antwort im Vergleich zu den Gruppenergebnissen
Ziele gebeten, wobei eine gewisse Angleichung der An-
• Gewinnung von neuen Ideen durch Experten sichten erwartet wird.
• Annäherung der Standpunkte durch ständige Rück- • Weitere Auswertungen und Umfragen (meistens
meldung, sodaß ein übereinstimmender Lösungs- werden drei bis fünf Wiederholungsrunden nach
vorschlag für das behandelte Problem entwickelt dem obigen Ablaufschema durchlaufen). Dabei wer-
werden kann. den extreme Meinungen eliminiert und das Schwer-
gewicht auf strittige Punkte gelegt.
Ablauf der DELPHI-Technik • Liegt eine Ideensammlung von größerer Aussage-
fähigkeit vor, erarbeitet das Leitungsgremium
• Das Leitungsgremium erarbeitet für die anstehende schließlich einen umfassenden Lösungsvorschlag für
Problematik einen speziellen Fragebogen das relevante Problem.
• Ein ausgewähltes Expertenteam wird mit Hilfe des
vorbereiteten Fragebogens um seine Meinung gebe-
ten. Die schriftliche Befragung findet individuell
und anonym statt.
Zielexplikation und Bewertungskriterien 109
ger gravierend zu gewichten. Möchte man diese Modifikation wäre das Verfahren sicher auch
Störungen ausschalten, ist ein intensiver per- sehr gut geeignet, in anderen Bereichen eine
sönlicher Kontakt zwischen verschiedenen wirkliche Beteiligung der Betroffenen an der
Betroffenen mit unterschiedlichen Interessen, (politischen) Entscheidungsfindung zu ermög-
eine sorgfältige Information dieser «Entschei- lichen, deren Qualität weit über die in man-
der» sowie eine konsensfördernde Diskussions- chen Bereichen gesetzlich vorgesehenen «An-
gestaltung erforderlich. Wichtig ist auch eine hörungen» hinausgeht.
wirklich repräsentative Auswahl der «Entschei-
der» aus der Gesamtheit der Betroffenen, da Leider muß man feststellen, daß die Planungs-
sonst durch Selbstselektion oder Verbands- bzw. zelle in jüngster Zeit nur selten angewandt zu
Parteiennominierung ein stark verzerrtes Bild werden scheint, was nur zum Teil durch die
über die tatsächlich vorhandenen Interessen, nicht unerheblichen Kosten zu erklären ist.
noch verstärkt durch die bei den Experten ge- Man muß im Bereich der Evaluation damit le-
nannten Rollenzwängen, entstehen kann. ben, daß die Berechtigung zum Treffen von Ent-
Ein für die Lösung dieser Probleme hervorra- scheidungen mit sehr vielen zusätzlichen, für
gend geeigneter Ansatz ist die Planungszelle die Motivierung von Menschen wichtigen,
(Dienel, 1978), die im Diagramm IV/14 skizziert Nebenaspekten verbunden ist und sich daher
ist. Die dort getroffenen Maßnahmen schlie- kaum jemand subjektiv als bedeutend einge-
ßen den empirischen Erfahrungen zufolge schätzte Entscheidungen von anderen abneh-
nahezu alle klassischen Störeffekte einer Ent- men läßt. Die Delegation relevanter Entschei-
scheidungsbildung durch Laien aus, kompetente dungen etwa von politischen Mandatsträgern
Durchführung der einzelnen Teilschritte vor- auf informierte «Betroffene» dürfte vor diesem
ausgesetzt. Das Verfahren ist besonders dann Hintergrund nicht als Entlastung, sondern als
angemessen, wenn die «wissenschaftlichen» ein Verlust von Macht und Einfluß gesehen
Grundlagen für die Entscheidung entweder we- werden. Wozu braucht man eigentlich noch
nig wichtig oder leicht verständlich sind. Dies politische Parteien und deren Mandate, wenn
dürfte der Grund sein, warum diese Methode in wichtigen Angelegenheiten ohne oder sogar
vorwiegend für antizipatorische Evaluation von gegen sie entschieden wird? Da es für politische
Stadtplanungsmaßnahmen (siehe dazu Dienel, Entscheidungen sehr unglücklich wäre, zuerst
1978) eingesetzt wurde. Bei entsprechender eine Planungszelle einzuführen und später als

Diagramm IV/14
Übersicht über die Grundlagen der Planungszelle (nach Dienel, 1978)

Prinzip Merkmale des Modells:


Das Prinzip der Planungszelle liegt in der Zusammen- • Unerläßliche konstruktive Merkmale
fassung einer größeren Anzahl von Betroffenen in • Gruppenentscheid
mehreren Kleingruppen. Diese erhalten sorgfältige und • Akzeptable Rollenzuordnung für alle Teilnehmer
umfassenden Informationen durch Fachexperten. In • Freistellung der Teilnehmer von Arbeits- und
einer Diskussion der Informationen in der Kleingruppe Familienverpflichtungen
werden abschließend eine Bewertung des Problems • Vergütete Teilnahme
bzw. eine Beschlußfassung festgelegt. • Befristete Teilnahme
• Teilnehmerzufallsauswahl
Definition «Planungszelle» (nach Dienel, 1978, S. 74) • Laienteilnehmer
• Fachliche Begleitung
… ist eine Gruppe von Bürgern, die nach einem Zu- • Vorgegebenen Aufgabenstellung
fallsverfahren ausgewählt und für begrenzte Zeit von • Freizügigkeit des Einsatzes
ihren arbeitstäglichen Verpflichtungen vergütet freige- • Simultananwendbarkeit durch andere Gruppen
stellt worden sind, um, assistiert von Prozeßbegleitern, • Variable Merkmale
Lösungen für vorgegebene, lösbare Planungsprobleme • Teilnehmerzahl (meistens 25 Personen)
zu erarbeiten. • Dauer (meistens drei Wochen)
• Programmdichte (= Einflußmöglichkeit auf den
Programmablauf)
110 Zielexplikation und Bewertungskriterien

rechtlich verantwortliches (politisches) Gremi- Evaluation) meist einem umfassenden Dis-


um eine gegenteilige Entscheidung zu treffen kussionsprozeß vorbehalten, den man als
(man denken nur an die Darstellung eines sol- «freies Spiel der Argumente» charakterisie-
chen Vorgehens in den Massenmedien!), bedeu- ren könnte. In solchen Fällen ist die Ge-
tet die Einschaltung einer Planungszelle prak- fahr, daß der Evaluator zum Anwalt einer
tisch die Entscheidungsdelegation und damit bestimmten Richtung wird, besonders
eine sowohl subjektiv erlebte als auch objektiv hoch (vgl. Abschnitt 2.1.1).
gegebene «Entmachtung» in dieser Teilfrage. • Viele Entscheider würden vermutlich völlig
demotiviert, wenn sie alle oder doch die
wichtigsten beruflichen Entscheidungen auf
4.3.4 Grenzen objektiver einer rein rationalen, berechenbaren (und
Nutzenbewertung damit letztlich auch automatisierbaren) Ba-
sis treffen sollten. Die völlige Reduktion auf
Verfahren zur Nutzenmessung und Hilfen bei solche formalisierten Verfahren würde kei-
der Entscheidungsfindung können wesentlich nen Raum mehr für persönliche Vorlieben,
zu rationalen, auch konsensfähigen Entschei- Freude am auch in Grenzen «willkürlichen»
dungen auf der Basis von Evaluationsprojekten Gestalten und kreativen, den formal-rationa-
beitragen. Man darf aber nicht erwarten, daß len Rahmen übersteigende Ideen lassen. Ver-
solche «objektiven» Techniken stets anwend- mutlich wären viele gesellschaftliche Verän-
bar bzw. an sich akzeptabel sind. Manche Hin- derungen nie erfolgt, wenn man ihre
derungsgründe sind bedauerlich und nicht Überlegenheit gegenüber althergebrachten
prinzipiell (Innovationsscheu, Angst vor Reduk- Verfahrensweisen auf der Basis empirisch er-
tion des persönlichen Einflusses etc.), einige hobener und explizit verrechneter Nutzen-
aber auch sachlich gerechtfertigt: werte hätte begründen müssen.

• Die Setzung von Zielen «wie die Welt sein Diese Argumente sollten aber nicht als Abwer-
soll» ist keine empirische Frage, sondern eine tung einer sorgfältigen Nutzenerhebung ver-
subjektive Entscheidung; es ist daher durch- standen werden. Auch heute noch dürfte es
aus legitim, sich für die Erreichung eines Zie- eher einen Mangel als ein übertriebenes Aus-
les auch bei (zunächst?) widersprechenden maß rationaler Entscheidungen geben, selbst
Evaluationsergebnissen politisch bzw. argu- bei der Verwendung von empirischen Evalua-
mentativ einzusetzen. tionsergebnissen.
• Oft sind die Entscheider eingebettet in ein Es kommt immer wieder vor, daß sich der
Netzwerk von Einflüssen, und die von ih- Evaluator über sachfremde Einflüsse auf die
nen ausgewählte Alternative wirkt auf- Projektdurchführung und Ergebnisverwertung
grund der Reaktion der Betroffenen auf die ärgert, langfristig (vom Mittelalter bis heute) ist
Situation der Entscheider zurück. Dies ist aber eine evaluationsfreundliche Veränderung
typisch für politische Maßnahmen (Ge- der Gesellschaft unverkennbar. Auch muß man
setzesvorhaben, Gestaltung von Schulsy- damit rechnen, in diesem Berufsfeld immer
stemen, Organisationsmaßnahmen der wieder Entscheidungsträgern mit offensichtlich
Verwaltung) oder die Arbeit besonders be- feudalstaatlich geprägten Denkstrukturen zu
deutsamer Organisationen (Parteien, Ge- begegnen (und dies keineswegs nur in Politik
werkschaften, Krankenkassen u.ä.), in klei- und Verwaltung), doch kann gerade die Ex-
nerem Umfang auch in privaten Vereinen plikation der Zielsetzung und der Bewertungs-
wie etwa Berufsverbänden. In solchen Si- kriterien wesentlich dazu beitragen, den
tuationen bleibt die Bewertung von Al- Wirksamkeitsbereich solcher gesellschaftlicher
ternativen (insbesondere bei prospektiver Fossilien allmählich einzuschränken.
Zielexplikation und Bewertungskriterien 111

Übersicht Kapitel 4:
Zielexplikation und Bewertungskriterien
4.1
Zielexplikationen
Möglichkeiten
Strikte Vorgaben der Zielsetzung Vorliegen einer gewissen Zielset- Auftraggeber hat nur eine sehr
durch den Auftraggeber zung durch den Auftraggeber. vage Vorstellung von den Zielen
Evaluator muß diese aber der Evaluation. Evaluation muß
konkretisieren und verbessern intensive Zielexplikation betreiben

Regelfall
Problem: Zielexplikation bei Vorliegen von Konflikten innerhalb des Auftrages

Zielgruppenbestimmung Konkretisierung des Evaluations- Antizipatorische Ergebniswertung


• Bestimmung der von der projekts • Probleme bei Evaluationsvor-
Evaluation betroffenen • Erarbeitung von relevanten haben
Zielgruppe Ausprägungsgraden des • Veränderung der Rahmenbedin-
• Hilfsmittel: Evaluationsprojektes gungen
Kreativitätstechniken • Hilfsmittel: • Nachträgliche, ergebnis-
Situationsanalyse abhängige Verschiebung
Gruppendiskussion • Abhilfe durch Antizipation der
Brain-Storming Verwertungssituation
Hilfsmittel: Szenario-Technik
Planspiel

4.2
Bewertungsprozeß
Bewertungskriterien Nebenfolgenabschätzung Operationalisierungsfragen
Aufstellung einer Zielhierarchie Abschätzung der Nebenfolgen Operationalisierung der Bewertungs-
und Auswahl der passenden durch Untersuchung der Zielgrup- kriterien
Bewertungsdimensionen pen, ob Maßnahmen Konse- Inhaltliche und methodische
• Hilfstechniken: quenzen für die Handlungspläne Probleme
Brain-Storming der Zielgruppen haben könnte
Metaplan-Techniken • Hilfsmittel:
Metaplan-Techniken
vertrauliche Interviews

4.3
Bewertungs- und Entscheidungshilfen
Verfahren der Nutzenbestimmung
Teilschritte der Nutzenbestimmung
• eindimensional: • mehrdimensional:
funktionale Verknüpfung z. B. MAUT
Kriteriums-/Nutzenwert
Zusammenfassung der Nutzenwerte
zur Nutzenverrechnung
• Linearkombinationen
• pareto-optimale Teilmenge
• multiple cut-off-Strategien

Entscheidungsfindung durch Entscheidungsfindung durch Grenzen objektiver Nutzen-


Experten Betroffene bewertung
Hilfstechniken: Hilfstechniken: • Zielsetzung subjektiv
• Delphi-Methode • Planungszelle • vernetzte Einflüsse
• Meta-Plan • Moderation • Freiraum für Entscheider