Entdecken Sie eBooks
Kategorien
Entdecken Sie Hörbücher
Kategorien
Entdecken Sie Zeitschriften
Kategorien
Entdecken Sie Dokumente
Kategorien
4. Zielexplikation und
Bewertungskriterien
Evaluation ist nie Selbstzweck. Die Bewertung Evaluationsprojekt skizziert. Prinzipiell die glei-
von Maßnahmen, Organisationsformen oder che Struktur läßt sich auch auf die anderen ty-
Einzelpersonen macht nur dann Sinn, wenn pischen Fragestellungen (Vergleich einer Alter-
auf der Grundlage dieser Ergebnisse praktische native mit einem normativen Standard bzw. das
Konsequenzen eingeleitet werden, etwa die Aufzeigen von subjektiven Defiziten gegenüber
Auswahl der «besseren» Alternative oder die Erwartungen; vgl. Abschnitt 2.1.3) anwenden.
Durchführung von «Verbesserungen» durch In- Leider sind die Fragen der Zielsetzung in vielen
terventionen (Organisationsänderungen, Wei- Evaluationsprojekten die größte Schwachstelle,
terbildung etc.). Dieses «besser/schlechter» setzt deren insuffiziente Ausfüllung die Praxisrele-
ein (subjektiv bewertetes) Ziel voraus, das durch vanz (und damit in den meisten Fällen auch
die einzelnen Alternativen in mehr oder weni- die Rechtfertigung) des Projektes beeinträchtigt.
ger vollkommener Weise erreicht wird. Oder Es ist gerade bei sozialwissenschaftlich interes-
anders formuliert: Die Evaluation dient dazu, santen Themen nicht einfach, überhaupt zu
die Grundlage für ein nutzenmaximierendes Beginn des Projektes einen Konsens über Ziel-
Verhalten zu optimieren. Der Begriff «Nutzen» setzung und Nutzenaspekte herbeizuführen;
ist natürlich in voller Breite zu verstehen, und noch schwieriger ist es, solche Vereinbarungen
in keiner Weise auf finanzielle Aspekte be- auch als Grundlage für die nachträgliche Be-
schränkt. wertung von Projekten beizubehalten, wenn
«unerwünschte» Ergebnisse auftraten oder die
Für die effiziente Gestaltung eines Projektes ist inzwischen stark geänderten Rahmenbedin-
es daher unverzichtbar, zu wissen gungen eine andere Projektausrichtung hätten
sinnvoll erscheinen lassen.
• in welchem Verwertungszusammenhang die
Ergebnisse zu sehen sind (Zielexplikation,
4.1) 4.1 Zielexplikation
• welche Kriterien dafür herangezogen werden
sollen (Bewertungsprozeß, 4.2) Die Freiräume des Evaluators schwanken in Ab-
• wie der Nutzen der aufgetretenen Ausprä- hängigkeit vom Auftraggeber und dem konkre-
gungsgrade der Kriterien einzuschätzen ist ten Arbeitsfeld sehr stark. Manchmal sind die
und wie auf dieser Basis eine globale Alter- Vorgaben so strikt, daß sich eine Überlegung
nativenbewertung erfolgen kann (Bewer- zur Zielsetzung erübrigt, wenn man persönlich
tungs- und Entscheidungshilfemethoden, bereit ist, auch ohne Kenntnis der späteren Ver-
4.3) wendung ein solches Projekt durchzuführen
(etwa: «Stellen Sie fest, wieviele Personen die
Im Diagramm IV/1 ist die Struktur dieses Problem- von uns zugeschickten Informationsbroschü-
bereiches als Leitfaden für die folgenden Aus- ren gelesen haben»). Der Evaluator beschränkt
führungen am Beispiel eines Problems der sich dann auf die Rolle eines Datensammlers,
Alternativenauswahl (summativ) durch ein der die gewünschte Teil-Sachinformation liefert
84 Zielexplikation und Bewertungskriterien
Diagramm IV/1
Phasen eines Evaluationsprojektes am Beispiel eines Problems der Alternativenaus-
wahl (summativ)
Arbeitsschritte Hilfen
5. Zielanalyse
(Wie soll die optimale Alternative auf der/
den Bewertungskriterien aussehen?)
6. Nutzenmessung
(Festlegung des Nutzens für jedes Verfahren der Nutzenmessung
Bewertungskriterium und jede Alternative)
7. Nutzenverrechnung
(Zusammenfassung der Nutzenwerte pro
Alternative) Bewertungs- und Entscheidungshilfe-
methoden
8. Entscheidung an Hand der in der
Zielanalyse festgelegten Kriterien
– und sonst nichts. Die Fragen der Zielfindung Verwertbarkeit der Ergebnisse aufgrund seiner
werden dadurch natürlich nicht aufgehoben, Projektdurchführung übernehmen muß
sondern nur vom Evaluator auf den Auftragge- («Schauen Sie sich einmal unsere Weiterbil-
ber verlagert. dungsangebote an, irgend etwas läuft da nicht
Häufiger findet man bei sozialwissenschaft- so ganz richtig «, «Stellen Sie fest, welche Psy-
lich gestützter Evaluation das andere Extrem: chotherapie für unsere speziellen Patienten am
Der potentielle Auftraggeber hat eine so vage besten ist»). Hier ist eine besonders intensive
Vorstellung von seinen Wünschen, daß der Aufklärung des Auftraggebers nötig, die manch-
Evaluator die faktische Verantwortung für die mal bei Vorhaben der Öffentlichen Hand oder
Zielexplikation und Bewertungskriterien 85
größerer Konzerne zu einem Projekt für sich Probleme gegen das Selbstbild vieler Auftragge-
werden kann. ber verstößt. Wenn das Projekt aufgrund sol-
Der Regelfall ist, daß von Seiten des Auftrag- cher Schwierigkeiten suboptimal wird, ist dies
gebers zu Beginn des Projektes eine gewisse Vor- nur bedingt dem Evaluator anzulasten. Die
gabe der Zielsetzung vorliegt, daß sie aber nicht sinnvolle Verwendung von Rückmeldungen
so rational und konkretisiert ist, daß nicht durch empirische Evaluationen setzt eine ge-
durch die Hilfe des Evaluators noch wesentli- wisse Organisationskultur voraus (5.1.3), die
che Verbesserungen möglich wären. Einige nicht kurzfristig und schon gar nicht bezogen
dafür bewährte Vorgehensweisen werden in auf ein Einzelprojekt allein erreicht werden
den folgenden Abschnitten kurz skizziert. kann.
Behandelt werden Aspekte der Zielgruppenbe-
stimmung, der Konkretisierung der «Evalua-
tionsobjekte» sowie die Möglichkeiten antizipa- 4.1.1 Zielgruppenbestimmung
torischer Überlegungen der Verwendung von
Projektergebnissen. Es überrascht immer wieder, wie eingeschränkt
viele Auftraggeber zunächst das Evaluations-
projekt sehen. Dies betrifft sowohl die zu eva-
Konflikte luierenden Alternativen (oft kann man hier
Vorschläge hinzufügen, etwa bei vergleichend
Wesentlich erschwert kann die Arbeit zu diesen ins Auge gefaßten Therapiemaßnahmen oder
Punkten durch das Vorliegen von Konflikten in- Fördermöglichkeiten von Mitarbeitern), als
nerhalb des Auftraggebers werden. Halbwegs auch die «betroffenen» Personen. So werden
bewältigbar sind die dadurch verursachten Pro- zum Beispiel in Kliniken von unterschiedlichen
bleme bei institutionalisierten Konflikten, wenn Therapien nicht nur die Patienten, sondern
also die Kontrahenten aufgrund ihrer Funktion auch deren Angehörige, die Pfleger und Kran-
(verschiedene politische Parteien, partiell kon- kenschwestern, die Therapeuten und manch-
kurrierende Abteilungen eines Unternehmens, mal sogar, wenn etwa die allgemeine Zeit-
verschiedene organisierte Interessengruppen wie planung zu verändern ist, auch das gesamte
zum Beispiel im Gesundheitswesen) klar erkenn- Hilfspersonal (zum Beispiel Küche) tangiert,
bar sind und es aufgrund dieser Organisations- ganz zu schweigen von den Kostenträgern der
form auch zulässig ist, offen die unterschiedli- Maßnahme. Der Evaluator kann durch eigene
chen Schwerpunktsetzungen zu betonen. In Vorschläge den Gesichtskreis erweitern, und
solchen Fällen empfiehlt sich für den Evaluator dieses ist auch ein vor allem in Einzelgesprä-
absolute Offenlegung seiner Planungen, Integra- chen oft gewähltes Vorgehen. Es besteht aber
tion der unterschiedlichen Meinungen durch die Gefahr, daß solche «von außen» kommen-
Aufnahme möglichst vieler gewünschter Aspek- den Vorschläge vom Auftraggeber nicht ohne
te (zu dem damit verbundenen Vorgehen vgl. weiteres akzeptiert werden, daher ist es besser,
die entsprechenden Ausführungen im Abschnitt die Gesprächspartner selbst auf erweiterte Ideen
4.2), und, falls ein solcher Konsens nicht mög- kommen zu lassen. Hierbei kann man sich vor
lich ist, das Bestehen auf formalisierten Entschei- allem in Gruppensitzungen einer Fülle von im
dungen gemäß den in der jeweiligen Situation Bereich der betrieblichen Weiterbildung ein-
zwischen den Kontrahenten vereinbarten (de- geführten «Kreativitätstechniken» bedienen
mokratischen) Spielregeln. (vgl. dazu etwa Geschka, 1988; Preiser, 1976),
Nahezu unlösbar wird die Situation bei ver- für die Zielgruppenbestimmung besonders
deckten Konflikten, wie sie vor allem durch per- empfehlenswert sind hierarchisch gesteuerte
sönliche Antipathien oder Konkurrenz- Assoziationsketten.
situationen innerhalb der auftraggebenden
Institutionen entstehen können. Selbst wenn
der Evaluator rechtzeitig auf solche Probleme Beispiel für Assoziationsketten
aufmerksam wird (was häufig nicht der Fall ist),
hat er kaum die Möglichkeit, Konfliktlösungs- Dieses Vorgehen läßt sich am leichtesten an
techniken einzusetzen, da das Zugeben solcher einem Beispiel illustrieren. Ausgangspunkt sei
86 Zielexplikation und Bewertungskriterien
Diagramm IV/2
Kurzdarstellung der «Brain-Storming»-Methode (nach Osborn, 1963)
• Einfachheit 5. Ideenfluß
• Realisierbarkeit Die Teilnehmer sollten dazu aufgefordert wer-
• Schwierigkeitsgrad den, alle Ideen, die aufkommen, auch unge-
wöhnliche oder unrealistisch erscheinende,
Der Grad der «Einfachheit», «Realisierbarkeit» auszusprechen. Die Einfälle brauchen nicht
bzw. «Schwierigkeit» wird dazu auf einer ausführlich erläutert zu werden, es reicht die
Punkte-Skala eingetragen. Voraussetzung für Andeutung des Gedankenganges.
das Gelingen einer Brainstorming-Sitzung
sind eine gute Vorbereitung und ein erfah- 6. Zeitlimit
rener Moderator, der die unbedingte Einhal- Eine Brain-Storming-Sitzung sollte den zeit-
tung der Grundregeln des Brainstormings lichen Rahmen von 30 Minuten nicht über-
kontrolliert. schreiten.
Zielexplikation und Bewertungskriterien 89
4.1.3 Antizipatorische Für eine grobe Abschätzung der durch die
Ergebnisverwertung Projektergebnisse denkbaren Situationsverän-
derungen und darauf gestützte zusätzliche
Untersuchungsziele kann man auch die Metho-
Gerade größere sozialwisssenschaftliche Evalua- de des Planspieles einsetzen (Diagramm IV/4; vgl.
tionsvorhaben leiden hinsichtlich der prakti- Rohn, 1980, 1986; Baehr & Eberle, 1986;). Da-
schen Verwendbarkeit besonders unter zwei bei muß man nicht an die (in anderen Berei-
strukturellen Gegebenheiten: chen häufigen) stark formalisierten und EDV-
gestützten Varianten denken, es genügen ganz
• Projektunabhängige Veränderungen der Rah- einfache Formen, die man vielleicht zur Ver-
menbedingungen bzw. Zielsetzungen. Durch
meidung von Mißverständnissen «koordinierte
die Dauer der Projekte (meist mehrere Jahre)
Rollenspiele» nennen könnte und kaum tech-
haben sich die Rahmenbedingungen und da-
nischen Aufwand erfordern. Den Teilnehmern
mit auch die Zielsetzungen des Auftraggebers
(evtl. tatsächlich «Betroffene» oder Projekt-
verändert; die erzielten Resultate sollen aber
mitarbeiter) werden fiktive Projektergebnisse
gerade für die neuen Umstände aussagekräf-
vorgelegt und gebeten, gemäß der von ihnen
tig sein.
zu vertretenen Rolle das weitere Vorgehen für
• Nachträgliche, ergebnisabhängige Verschie- die Lösung des mit dem Evaluationsprojektes
bungen. Die konkreten Ergebnisse des Pro-
bearbeiteten Problems zu diskutieren.
jektes können die Problemsicht der Beteilig-
Es stehen inzwischen genügend viele und
ten bzw. Betroffenen stark verändern, so daß
auch im Kontext anderer Verwertungszusam-
jetzt neue Aspekte wichtig werden – die man
menhänge ausreichend ausgebaute Sozial-
aber aufgrund einer ursprünglich anderen
techniken zur Verfügung, um die Zielsetzung
Zielsetzung nicht untersucht hat.
von Evaluationsprojekten wesentlich besser zu
fundieren, als es derzeit (noch) üblicher Praxis
Die Lösung dieser beiden Probleme würde eine entspricht. Die fehlende rechtzeitige elaborierte
exakte Zukunftsprognose voraussetzen, die Ausarbeitung der Zielsetzung ist zum Teil nicht
natürlich nicht möglich ist. Zumindest für grö- vermeidbar, etwa aufgrund von Ressourcen-
ßere Evaluationsvorhaben sollte man aber ver- mangel des Auftraggebers oder, häufiger, in An-
suchen, wenigstens grob die spätere Verwer- betracht der Zeitperspektive (für die auch nur
tungssituation zu antizipieren. Ein hierzu grobe Anwendung der in diesem Abschnitt skiz-
geeignetes Mittel ist die Szenario-Technik zierten Techniken müßte man in einem größe-
(vgl. Reibnitz, 1983), deren Grundgedanke im ren Projekt etwa 4 Monate veranschlagen). Wo
Diagramm IV/3 dargestellt ist. Es wird aufgrund es aber möglich ist, sollte man eine detaillier-
des Aufwandes selten möglich sein, eine «idea- tere und möglichst begründete Zielexplikation
le» Szenario-Studie für die Zielsetzung von Eva- anstreben.
luationsprojekten durchzuführen; aber schon
eine relativ grobe Abschätzung der erwartbaren
Veränderungen kann helfen, bei der Definition 4.2 Bewertungsprozeß
der Zielgruppe oder der Konkretisierung von
Evaluationsdetails Fehler zu vermeiden. Das Er- Nach Festlegung der (Teil-)Ziele muß man sich
gebnis kann durchaus der Verzicht auf das darüber einigen, an welchen empirischen Be-
Evaluationsvorhaben selbst sein (als fiktives Bei- obachtungen man das Ausmaß der Ziel-
spiel: Evaluierung eines Ausbildungskonzeptes erreichung beurteilen möchte. Letztlich baut
der Bundesanstalt für Arbeit für die Umschulung der empirisch-wissenschaftliche Informations-
von Arbeitslosen zu Technischen Zeichnern in gewinn stets auf der Menge der erhobenen Aus-
Anbetracht der Verbreitung von CAD-Anlagen), prägungsgrade der ausgewählten Indikatoren
meistens werden Projektteile dadurch akzentu- auf, so daß das gesamte Ergebnis entscheidend
iert (etwa Evaluation von Maßnahmen zur Kran- von der konkreten Auswahl abhängt. Ob man
kenversorgung in Anbetracht der erwartbaren den «Lernerfolg» von Schülern in verschiede-
Bevölkerungszahl, Altersverteilung und Beitrags- nen schulischen Organisationsformen an den
aufkommen für die Krankenversicherung). von den Lehrern vergebenen Noten, objekti-
90 Zielexplikation und Bewertungskriterien
Diagramm IV/3
Kurzdarstellung der Szenario-Technik (vgl. v. Reibnitz, 1983)
Diagramm IV/4
Kurzdarstellung der Planspiel-Technik (vgl. Baehr und Eberle, 1986)
• Beim Planspiel handelt es sich um eine im Reduktion der Realität auf zielrelevante Fak-
militärischen Bereich entstandene Unter- toren des Planspiels.
weisungsmethode, die speziell dem Ent- • Aktives Handeln in Form abstrakter Denk-
scheidungshilfetraining dient. Dem Plan- tätigkeit bzw. Interaktion der Spieler in der
spiel liegt immer eine reale Situation simulierten Realität.
zugrunde, die in einem Modell simuliert • Hohe Motivationskraft durch Ausnutzung
wird. Auf diese Weise soll die wechselseitige des dem Menschen innewohnenden Spiel-
Abhängigkeit der einzelnen Systemelemen- triebes und damit Wirkung und Verstärkung
te verdeutlicht werden und die Wirkung des sachbezogenen Interesses.
einzelner Entscheidungen auf das Gesamt- • Rollenspielartige Übernahme bestimmter
system transparent gemacht werden. Beim Verhaltensweisen innerhalb der Simula-
Planspiel übernehmen die Teilnehmer die tionssituation.
Rolle von Entscheidungsinstanzen. • Konflikttraining verursacht durch abwei-
Auf Grund der modellartigen Simulation chende Zielvorstellungen zwischen den
des Gesamtsystems können die Folgen der Spielgruppen, sowie innerhalb der einzel-
Entscheidungen ermittelt und bewertet wer- nen Gruppen.
den. • Training der Kommunikationsfähigkeit, da
die gestellte Aufgabe einen Informations-
Die wichtigsten Elemente des Planspiels sind: austausch innerhalb der Gruppen, zwischen
• Nachahmung der Realität im Modell bzw. den Gruppen und zum Spielleiter erfordert.
92 Zielexplikation und Bewertungskriterien
möglichst detailliert werden. Das einfachste Team erfolgen, da Gruppen für solche Auf-
Vorgehen ist, wieder Hierarchien, wie in 4.1.1, gabentypen wesentliche Vorteile bieten, wobei
auszuarbeiten. Für das dort verwendete «ad- eine interessens- und vorbildungsmäßig hete-
vanced organizer»-Beispiel wären dabei folgende rogene Gruppenzusammensetzung empfeh-
Schritte erforderlich (Beispiele nur aus der Sicht lenswert sein kann. Statt oder ergänzend zum
der Zielsetzung des Lehrers): brainstorming (vgl. Diagramm IV/2) können für
solche Gruppensitzungen auch Metaplan-Tech-
Erfassung von: niken erfolgreich eingesetzt werden, die Grund-
1. Analyse der Ist-Situation: struktur davon findet sich im Diagramm IV/5.
Eine ausführliche Darstellung geben Klebert et
• dem durchschnittlichen Leistungsniveau in al. (1988),Schnelle (1982).
der unterrichteten Klasse
Der Konsens zwischen allen Beteiligten, ge-
• der Motivation der Schüler, mit dem alten rade auch bei offenen oder verdeckten Konflik-
Lehrbuch zu arbeiten
ten innerhalb der Institutionen des Auftragge-
• den auftretenden Problemen, die sich bei der bers, wird bzgl. der Kriterienauswahl im Prinzip
Arbeit mit dem alten Lehrbuch ergeben
am leichtesten erreicht, wenn alle auch nur an-
nähernd sinnvoll erscheinenden Vorschläge in
2. Festlegung der Richtziele (Grobziele):
die Projektplanung aufgenommen werden. In
a) schulische Ziele einem solchen Fall kann sich jeder an dem
b) persönliche Ziele Findungsprozeß Beteiligte im Projektplan wie-
derfinden, und man kann auch sehr schwer
3. Bestimmung der Feinziele: sachlich argumentieren, daß das Erheben ir-
gendeines Aspektes mit Sicherheit unnötig oder
mögliche Feinziele von a):
gar schädlich sei.
• diadaktische Verbesserung des Unterrichtes Man sollte aber zur Qualitätssicherung be-
• Straffung des Unterrichts strebt sein, im Konsens der potentiellen
• Verbesserung des Klassendurchschnitts «Konfliktpartner» eine Eingrenzung der Vor-
• zeitökonomische Aspekte schläge zu erreichen. Dabei können Techniken,
• Steigerung der Motivation der Schüler wie sie im Abschnitt 4.3 besprochen werden
• Erleichterung der Informationsaufnahme (Diagramm IV/9) nützlich sein.
• usw.
Diagramm IV/5
Grundstruktur der Metaplan-Methode (nach Schnelle, 1982)
Definition • Kleingruppenarbeit
• Vorstellen der Ergebnisse in der Gruppe
Die Metaplan-Methode ist eine Gesprächs- • Feedback entweder durch die Teilnehmer
bzw. Diskussionstechnik, die durch hierarchie- selbst oder durch den Moderator
freies Arbeiten Teilnehmer motiviert und de-
ren Kreativität fördert. Phase 3: Finale
• Erstellen eines Tätigkeitskatalogs in der
Die Teilnehmer sammeln Gruppe/Kleingruppe
• durch Kartenabfrage Beiträge zu einer be- • Feststellen der Zufriedenheit und des Grup-
stimmten Problematik; penklimas durch den Moderator
• gewichten diese Probleme;
• fassen die Beiträge zu Problembündeln zu-
sammen; Anwendungsgebiete
zwecken im kleinen Rahmen realisiert werden nen auswirken könnten, also ob sie für die je-
muß). Zu einer umfassenden Bewertung gehört weiligen Personen
es, auch solche Nebenfragen schon bei der Pro-
jektplanung mit zu beachten. Das rechtzeitige
• ein (neues oder zusätzliches) Problem dar-
stellen bzw. zur Folge haben
Entdecken potentieller Nebenwirkungen ist be-
sonders schwierig, weil diese ja eben nicht zu
• die Mittel für die Bearbeitung bestehender
Probleme verändern bzw. erweitern
den ursprünglich intendierten Maßnahmen-
zielen gehören. Eine nützliche Hilfe, um an
• die Handlungsziele beeinflussen
möglichst viele denkbare, aber nicht intendierte
• die Bewertung der Konsequenzen von Ziel-
erreichungen verändern
Folgen zu denken, ist die Berücksichtigung von
Handlungsplänen (vgl. Diagramm I/2). Für jede
irgendwie von den Evaluationsobjekten oder
Einige Beispiele:
der Evaluationsstudie selbst betroffenen Perso-
nengruppen (vgl. 4.1.1) wird überlegt, in wel- • Eine politische Partei hat sich seit Jahren ve-
cher Weise sich die Maßnahmen in diesen Plä- hement für eine bestimmte Schulorganisa-
94 Zielexplikation und Bewertungskriterien
ell möglich, eine methodisch möglichst eindeu- Ziele in Punktwerte ist zwar sicher subjektiv be-
tige Zusammenfassung der Einzelergebnisse zu einflußt und entspricht nicht den Vorstellungen
einer Gesamtbewertung aber unbedingt erfor- harter nomothetischer Messung, ermöglicht aber
derlich (was die beiden vorhergehend bespro- eine objektivere und besser nachkontrollierbare
chenen Ansätze kaum leisten können), gerade Zusammenfassung der Einzelergebnisse als die
im Bereich der Therapie-Evaluation. Hier ist das anderen hier besprochenen ideographisch orien-
Ziel nicht nur eine Betrachtung des Interven- tierten Vorgehensweisen. Beispiele für die An-
tionserfolges im Einzelfall, sondern eine ver- wendung der GAS für Evaluationsfragen finde
gleichend-verallgemeinernde Aussage über die sich u.a. in Sherman, R. (1977).
relative Bewährung verschiedener Therapie-
methoden für spezielle Indikationsstellungen.
Ein speziell dafür entwickelter Operationali- Nomothetische Messung
sierungsansatz ist die «Goal-Attainment-Scale»
(GAS; s. Franklin & Trasher, 1976, Wittmann Wird ein für die Evaluation ausgewählter theo-
1985), deren Grundprinzip im Diagramm IV/8 dar- retischer Konstrukt für eine nomothetische
gestellt ist, beinhaltet auch Bewertungsaspekte Messung, also für alle betroffenen Personen in
und wird daher im Abschnitt 4.3 besprochen. der gleichen Form, operationalisiert, so stellt
Die dort vorgenommene «Umrechnung» des re- sich die Frage nach der Rechtfertigung gerade
aktiven Ausmaßes des Erreichens verschiedener dieser Indikatorenwahl – schließlich hängt das
Diagramm IV/6
Kurzdarstellung der Struktur-Lege-Technik (SLT) (nach Groeben und Scheele, 1984)
Diagramm IV/7
Kurzdarstellung von HYPAG/Structure
Verhalten Befragung
Beobachtung des Frage: «Warum so entschie-
realen Entschei- den?» Antwort: «Wenn (Indikato-
dungsverhaltens ren) …, dann (Entscheidung) …»
Kreuzvalierung des als gültig angesehenen der Maßnahme (z.B. Training, Beratung,
Regelsystems an Fällen, die nicht zur Erstel- Therapie)
lung herangezogen wurden. • Aufbereitung von Informationen in einer
Einleitung praktischer Maßnahmen, je nach den Entscheidungsregeln entsprechenden
Zielsetzung etwa: Form (Akzeptanz von Materialien, Erleich-
• Intervention zur Änderung nicht optimal terung der Entscheidungsfindung)
erscheinender Teilregeln • Erarbeitung von Entscheidungshilfen, meist
• Bewertung von Interpretationen durch den computergestützt.
Vergleich des Regelsystems vor und nach
98 Zielexplikation und Bewertungskriterien
Diagramm IV/8
Kurzdarstellung des Goal-Attainment-Scaling (nach Wittmann, 1981)
Evaluationsergebnis ja ganz wesentlich von der schnitt 4.1.1), eine nachträgliche Aufnahme für
genauen Ausformung des Meßinstrumentes ab. die Nicht-Berücksichtigung weiterer Vorschläge
ist schwierig, und stets bleibt offen, ob die im
Eine denkbare Möglichkeit ist es, unsystema- Nachhinein den Datensatz zugrundegelegten
tisch eine größere Anzahl von Einzelindi- Dimensionen den eigentlich angestrebten theo-
katoren (Items, Beobachtungen u. dgl.) zu sam- retischen Bewertungskonstrukten entsprechen.
meln und über die einzelnen Fragen einen Aus diesen Gründen sollte ein solches «per-
Konsens herbeizuführen. Da für die meisten fiat»-Vorgehen nur dann gewählt werden,
Kriterien die Erfassung mit einem einzelnen wenn aufgrund gegebener Rahmenbedingungen
Item zu wenig aussagekräftig ist (Einteilung der ein sorgfältiger strukturiertes Vorgehen nicht
Personen nur in so viele verschiedene Klassen möglich ist.
als Antwortmöglichkeiten vorgesehen sind, ge-
ringe Meßgenauigkeit) kann man im Nachhin- Eine andere Möglichkeit ist es, für die einzel-
ein mit deskriptiven Verfahren wie der Fakto- nen Kriterien auf bereits vorhandene und mög-
renanalyse versuchen, die Informationsmenge lichst gut konstruierte Test- oder Erhebungs-
in Richtung auf einige besonders «wesentliche» verfahren zurückzugreifen. Man kann damit
Kriterien hin zusammenzufassen. eine eigene Entwicklungsarbeit sparen, der Ver-
Ein solches Vorgehen dürfte in der Eva- gleich mit anderen Untersuchungen wird we-
luationspraxis gar nicht so selten sein, bringt sentlich erleichtert und die Verantwortung für
aber erhebliche Nachteile mit sich. Eine un- evtl. doch bestehende Schwachstellen der Mes-
strukturierte oder nur schwach an Kriterien- sung wird an die ursprünglichen Autoren de-
vorstellungen orientierte Itemsammlung wird legiert. Prüfen muß man allerdings, ob die
im allgemeinen weniger Einfälle erbringen als konkrete Operationalisierung auch tatsächlich
ein systematisiertes Vorgehen (vgl. dazu Ab- einer Evaluationsfragestellung, die meist Verän-
Zielexplikation und Bewertungskriterien 99
derungsaspekte zum Inhalt hat, auch gerecht Festlegung von Stoffgebieten
wird. Dazu einige Beispiele:
Vor allem im pädagogisch-psychologischen Be-
• Erfassung des Therapieerfolges an einer Be-
reich liegen für manche Teilgebiete komplette
findlichkeitsskala, die auf maximale Relia-
Operationalisierungen der Bewertungskriterien
bilität hin konstruiert wurde – es besteht die
vor, vor allem bzgl. kognitiver Lerninhalte. Der
Gefahr, daß durch die Itemselektion bei der
Wissensstoff für ein bestimmtes Fach ergibt sich
Testkonstruktion gerade die besonders ände-
im Prinzip aus der Zusammenfassung aller da-
rungssensitiven Items eliminiert wurden, was
für zugelassenen Lehrbücher, die (bisherigen)
die Aussagekraft für eine Interventionsbewer-
Abituranforderungen finden sich in der Menge
tung senkt.
aller gestellten Prüfungsthemen, Kriterien der
• Anwendung eines Fragebogens für «Füh-
«Schulreife» ergeben sich durch eine zusam-
rungsstil», bei dem die Probanden das ihrer
menfassende Sammlung der für die erfolgrei-
Meinung nach richtige Verhalten in vorge-
che Einschulung erforderlichen Verhaltens-
gebenen Beispielsituation anzugeben haben
weisen. Daher wird in diesem Bereich die
– unabhängig von Evaluationsprojekten kann
Testkonstruktion stärker als in anderen Teilge-
ein solches Vorgehen durchaus Informatio-
bieten auf der sogenannten «kriteriumsorien-
nen über das tatsächliche Führungsverhalten
tierten Messung» (vgl. dazu Klauer, 1987) auf-
indirekt erschließen lassen, nach gezielten
gebaut, wobei leider diese Bezeichnung zu
Interventionsprogrammen ist aber die Ge-
Mißverständnissen führen kann – gemeint ist
fahr hoch, daß die Teilnehmer im Sinne der
nicht eine Erhöhung der Test/Kriteriumsbezie-
Veranstaltungsinhalte antworten, ohne auch
hung im Sinne einer korrelativen Kriteriums-
nur im geringsten daran zu denken, ihre Ein-
validität, sondern die sachgerechte Zusammen-
stellungen oder gar das Verhalten zu modifi-
stellung von Itemsätzen aus einer das Kriterium
zieren.
definierenden Gesamtmenge (vgl. dazu auch
• Verwendung eines in internationalen Ver-
den Begriff der Inhaltsvalidität etwa bei
gleichsstudien entwickelten Tests für Fremd-
Cronbach, 1978).
sprachen für die Evaluation einer neuen
Kann man von einer solchen Stoffmenge aus-
Lehrmethode; war die Zielsetzung der Aus-
gehen, ist es nur noch erforderlich, ein objekti-
gangsstudie (zum Beispiel der Erwerb von
ves Verfahren zur Umsetzung in konkrete Meß-
Grundfertigkeiten wie Wortschatz oder ele-
instrumente vorzunehmen. Dies ist manchmal
mentare Grammatik) und die Spezifität der
völlig unproblematisch, etwa ein Zusammen-
Intervention (zum Beispiel «Verbesserung der
stellen aller in den zulässigen Englisch-Lehr-
kommunikativen Fähigkeiten») nicht ausrei-
büchern verwendeten Vokabeln und Bildung
chend ähnlich, ist dieses Meßinstrument
einer Zufallstichprobe daraus für einen Wort-
auch dann nicht zu empfehlen, wenn es me-
schatztest. Der Aufwand ist höher, wenn für
thodisch noch so fundiert ist.
die Fragenerstellung Umformungen erforder-
lich sind, aber auch dann leistbar – man kann
Die besondere Zielrichtung von Evaluations-
etwa die Beherrschung des Faches «Geschich-
projekten erfordert leider im Prinzip häufig eine
te» so erfassen, daß man aus der Menge aller
spezifische Neukonstruktion der Meßinstru-
Absätze in den zulässigen Lehrbüchern wieder-
mente, auch wenn eine solche aus Zeit- und
um nach Zufall auswählt und für jeden dieser
Kostengründen in der Praxis häufig nicht gelei-
Absätze nach möglichst objektiv befolgbaren
stet werden kann. Zumindest in großen Projek-
Regeln eine Frage erstellt. Zwar wird in einem
ten und vor allem dann, wenn die Verwendung
solchen Fall die Abhängigkeit vom Itemersteller
der Meßinstrumente im Längsschnitt vorgese-
relativ hoch sein (insbesondere bei multiple-
hen ist, sollte man aber stets eine sorgfältige
choice-Aufgaben, wenn die Wahl der Dystrak-
Meßkonstruktion anstreben. Hierbei können
toren eine Rolle spielt), aber bei entsprechen-
folgende drei Ansätze wichtig werden:
der Schulung sollte sich daraus keine ent-
• Stoffgebiete mit Umsetzungsregeln scheidende Verzerrung der Meßinstrumente
• Systematisierte Itemkonstruktion gegenüber der Gesamtheit der Stoffmenge er-
• Eindimensionale probabilistische Modelle geben.
100 Zielexplikation und Bewertungskriterien
Ein solches Vorgehen hat, wenn die Voraus- unrealistischer Zielvorgabe (häufig wird dies
setzung einer konsensmäßig akzeptierten Stoff- etwa bei Lehrplänen unterstellt) die danach
menge tatsächlich gegeben ist, eine Reihe von konstruierten Itemmengen insgesamt viel zu
Vorteilen, insbesondere schwierig werden und damit nur eine geringe
Differenzierungsfähigkeit zwischen den einzel-
• objektive, nachprüfbare und damit sehr nen Probanden erlauben.
kritikresistente Fragenkonstruktion Da diese Probleme aber weniger oder über-
• eine Kontrolle der Einhaltung normativer haupt nicht ins Gewicht fallen, wenn man
Standards wird aufgrund objektiver Zielvor- nicht am Vergleich von Einzelpersonen, son-
gaben möglich (schließlich sollten die Inhal- dern von ganzen Gruppen (Schulen etc.) inter-
te der Lehrbücher bzw. der Lehrpläne ja auch essiert ist, sollte man an diese Technik der
tatsächlich beherrscht werden!); dies ermög- Testerstellung vor allem dann denken, wenn
licht eine bessere Ergebnisbewertung als die viele Einzelergebnisse zu relativ globalen (Insti-
mit üblichen Verfahren erzielten Vergleiche tutions-) Bewertungen zusammengefaßt wer-
verschiedener Teilgruppen. den, was ja gerade im pädagogischen Bereich
• Es sind wiederholte Messungen bei Sicher- häufig ist. Bei der praktischen Anwendung sollte
stellung der Vergleichbarkeit ohne Vertrau- man darüber hinaus zu einer Erhöhung der
lichkeits- und Coaching-Probleme möglich; Differenziertheit der Aussagen versuchen, die
gelingt eine objektive Umsetzung von Stoff- Stoffmenge nicht zu global festzulegen, son-
menge in Items, so kann man von Meß- dern verschiedene Untergruppen (etwa Wort-
zeitpunkt zu Meßzeitpunkt nach diesen schatz, passive Sprachbeherrschung etc.) zu bil-
Regeln neue Tests zusammenstellen, die den, aus denen jeweils eine Itemstichprobe
trotzdem die gleiche Stoffmenge erfassen gezogen wird.
und mit Ausnahme von Zufallsschwan-
kungen auch die gleiche durchschnittliche
Schwierigkeit aufweisen. Da stets andere Fra- Systematische Itemkonstruktion
gen verwendet werden, ist auch Verletzung
der Vertraulichkeit und eine an den in den Um die Nachteile einer willkürlichen oder nur
vorgehenden Untersuchungen verwendeten vage assoziativ zu einem Oberbegriff passenden
Items orientierte Testvorbereitung nicht Itemerstellung zu vermeiden, kann man versu-
möglich, und ein anderes sinnvolles chen, sich an explizite Konstruktionsregeln zu
Tranining wäre identisch mit dem ohnedies halten. Hierfür sind zwei verwandte Denkan-
vorgegebenen Ziel, die definierte Stoffmenge sätze verbreitet:
möglichst umfassend zu erlernen.
• Die «Facettentheorie» (Guttman, 1957; Borg
Problematisch sind bei diesem Vorgehen die 1981.) geht davon aus, daß verschiedene
Meßeigenschaften der so gewonnen Instru- Aspekte der Aufgaben (im Beispiel «Grund-
mente. Da die «Stoffmengen» in sich sehr hete- rechenfertigkeit» etwa die vier Grundrechen-
rogen sein können, können die einzelnen Items arten, die Teile des Zahlenraumes «Einer,
völlig unterschiedliche Aspekte ansprechen, de- Zehner, Hunderter» die Berücksichtigung po-
ren Zusammenfassung zu einem Kriteriums- sitiver und negativer Zahlen sowie nur gan-
wert nicht durch wissenschaftliche Aspekte, zer oder auch Dezimalzahlen) zu einzelnen
sondern nur durch die meist wissenschafts- «Facetten» kombiniert werden (eine solche
extern definierte Stoffmenge gerechtfertigt ist. wäre etwa die Kombination «Multiplikation
In Abhängigkeit von den Schwankungen der von positiven ganzen Zahlen mit höchstens
Itemschwierigkeiten (die u.a. von der jeweili- zweistelligen Ergebnissen».) Nach diesem
gen Ausgangsmenge, etwa der Gestaltung eines Prinzip lassen sich auch Skalen für die Be-
konkreten Lehrbuches, abhängt) kann es auch wertung von Therapien erarbeiten (etwa bei
sein, daß für verschiedene Testformen mit aus- Kernberg et al., 1972;). Dort wurden 16
reichend ähnlicher Schwierigkeit relativ große Aspekte mit jeweils 2 bis 7 Ausprägungs-
Itemmengen erforderlich sind. Zu den Meß- graden erarbeitet und aus der Vielzahl der
eigenschaften gehört auch das Problem, daß bei damit möglichen Facetten eine Teilmenge für
Zielexplikation und Bewertungskriterien 101
das Evaluationsinstrument ausgewählt. Für Gültigkeit eindimensionaler Modelle) inner-
die Konstruktion von Intelligenztests vgl. halb der einzelnen «Facetten» zu erhalten.
auch Jäger, (1967).
• Die «rationale» oder «regelgeleitete» Item-
konstruktion besteht in der systematischen Eindimensionale probabilistische Modelle
Kombination kognitiver Prozesse, die für die
Aufgabenlösung benötigt werden. Ähnlich Dieser sich an den methodischen Aspekten von
wie bei der Facettentheorie erleichtert dieses Messung orientierende Ansatz (für eine Über-
Vorgehen die Bildung großer, in ihrer Struk- sicht siehe Lord & Nowick, 1968; Fischer, 1974,
tur bekannter Itemmengen, wie sie insbeson- Henning 1974, betrifft in keiner Weise die in-
dere für maßgeschneidertes, computer- haltliche Festlegung der Indikatoren, sondern
gestütztes Testen (Vorgabe einer für jeden nur deren im Hinblick auf Meßeigenschaften
Probanden nach individueller Trennschärfe optimale Zusammenstellung. Da «eindimensio-
ausgewählten Itemmenge) benötigt werden. nal» als eine besondere Definition von «ähn-
Allerdings kann die Kombination von An- lich» aufgefaßt werden kann (vgl. dazu
forderungen unerwartete Effekte im Sinne Wottawa, 1979), ist es im Prinzip möglich, für
von Wechselwirkungen ergeben (zum Bei- jedes einzelne Item (etwa aus einer Stoffmenge
spiel die Möglichkeit, die Antwort auf einem ausgewählt oder auf andere Weise konsensmäßig
viel leichteren Weg zu finden, als bei der festgelegt) unabhängig von seiner psychologi-
Konstruktion intendiert), so daß die tatsäch- schen Komplexität durch das Hinzufügen ent-
liche Homogenität der Items zusätzlich zur sprechend gleich strukturierter Fragen (hierbei
Einhaltung der Konstruktionsprinzipien mit können die Prinzipien der rationalen Item-
probalistischen Testmodellen empirisch ge- konstruktion helfen) eine ganze Dimension zu
prüft werden muß. Ein Beispiel dafür gibt erstellen. Der Erfolg einer solchen Test-
Hornke, (1986). konstruktion hängt im allgemeinen nur vom
Einfallsreichtum des Untersuchers ab, so daß die
Verglichen mit der Festlegung von Stoffmengen Verwendung solcher Modelle im Prinzip keine
hat dieser Ansatz den Nachteil, keine an einem Einschränkung der inhaltlichen Vielfalt bedeu-
bereits bestehenden externen Maßstab orien- tet. Sie sind daher kein Ersatz, sondern eine Er-
tierte Aussage zur Bewertung der erbrachten gänzung der inhaltlich orientierten Ansätze.
Testergebnisse leisten zu können. Im übrigen Der Vorteil liegt in den Meßeigenschaften für
ist er mit dem zuerst diskutierten Vorgehen hin- Einzelpersonen, insbesondere durch die Anpas-
sichtlich der Leistungsfähigkeit vergleichbar, sung der Itemschwierigkeit an den Leistungs-
vor allem ist ebenfalls eine Testwiederholung stand verschiedener Subgruppen (Schulformen,
mit jeweils verschiedenen, aber strukturell glei- Leistungskurse, Altersstufen). Sie ermöglichen
chen Items möglich. Dies ist vor allem dann besser als alle Alternativen die Beobachtung
wichtig, wenn die gleiche «Dimension» im von Entwicklungsverläufen einzelner Personen
Längsschnitt erfaßt werden soll (Lernfortschritte im Längsschnitt. Für Evaluationsfragestellun-
einzelner Schüler, Veränderungen durch thera- gen genügt es übrigens im allgemeinen, mit re-
peutischen Eingriffe zu vielen Zeitpunkten lativ schwachen Modellen (Mokken-Skalierung
während der Behandlung, Kontrolle der Aus- oder dreiparametrige logistische Modelle) zu
wirkungen einer Werbeaktion unter Benutzung arbeiten, da Meßeigenschaften bzgl. der einzel-
eines Längsschnitts-Panels) und man zur Ver- nen Items (etwa ein spezifisch objektiver Ver-
meidung von Störeffekten mit jeweils unter- gleich der Items untereinander), die restriktive-
schiedlichen Items arbeiten möchte. Das Wech- re Modelle erfordern, für die Projektzielsetzung
seln der Aufgaben ist zum Beispiel ganz meist nicht erforderlich sind. Trotzdem kann
besonders wichtig bei wiederholten Evalua- der Aufwand für die Vortestung und entspre-
tionsmessungen im Schulsystem. Auch weiß chende Modifikation der vorgeschlagenen Ska-
man mehr über die Struktur der von den ein- len ganz erheblich sein, so daß unter Effizienz-
zelnen Items angesprochenen Dimensionen, gesichtspunkten der Verzicht auf diese Modelle
und man hat eine höhere Chance, besonders die bessere Alternative sein kann, vor allem
wünschenswerte Meßeigenschaften (effektive dann, wenn nur Gruppenvergleiche interessie-
102 Zielexplikation und Bewertungskriterien
ren. Ein sehr interessanter, auch unter Effizienz- übung in die jeweiligen Verfahren kann durch
gesichtspunkten für Evaluationsprojekte sinn- die theoretischen Konzepte nur unterstützt,
voller Ansatz auf dieser Basis ist das sogenannte aber sicher nicht ersetzt werden.
«Matrix-Sampling» (Miles und Huberman,
1984).
4.3.1 Explizite Verfahren
der Nutzenbestimmung
4.3 Bewertungs- und Für eine objektive, formalisierte Nutzenbestim-
Entscheidungshilfen mung sind folgende Teilschritte erforderlich:
Mit dem Erheben der Bewertungskriterien en- • für jedes Evaluationsobjekt muß der Aus-
det der «naturwissenschaftliche» Teil der Arbeit prägungsgrad auf den festgelegten Kriterien
an Evaluationsprojekten. Nach Abschluß dieser erhoben werden; zum Beispiel: Ergebnisse
Arbeit liegen im glücklichen Fall alle relevan- der Schüler eines Schulsystems (Evaluations-
ten, empirisch erfaßbaren Informationen für objekt) in einem Vokabeltest im Englischen
eine summative (Auswahl-) oder formative Ent- (eines der Bewertungskriterien).
scheidung vor, die wissenschaftliche Arbeit ist • für jeden empirisch gefundenen Ausprä-
eigentlich zu Ende. gungsgrad eines jeden Bewertungskriteriums
muß der «Nutzen» festgestellt werden; die-
Wie schon das Wort «Evaluation» sagt (vgl. Kap. sen Vorgang nennt man «Nutzenmessung»,
1), umfaßt die Arbeit des Evaluators aber mehr und dieser erfordert subjektive Setzungen (im
als das Aufzeigen von sinnvoll gewählten em- Beispiel muß jemand festlegen, wie nützlich
pirischen Fakten. Eine «Bewertung» ist nur zum Beispiel ein Ergebnis von durchschnitt-
möglich, wenn die objektiv bestehenden Fak- lich 20 richtigen Lösungen im Vergleich zu
ten in nur subjektiv existierenden «Nutzen» nur 15 richtigen Antworten ist).
übersetzt und das weitere Vorgehen nach dem • liegen mehrere Bewertungskriterien vor, muß
Prinzip der Nutzenmaximierung geplant wird. bestimmt werden, wie die einzelnen Ergeb-
Dieses erfordert einerseits eine Klärung der Fra- nisse zu einem «Gesamtnutzen» zusammen-
ge, wessen Nutzen optimiert werden soll (siehe gefaßt werden können; dies nennt man
dazu Abschnitt 4.1), ein Problem, das insbe- «Nutzenverrechnung» (im Beispiel wären
sondere in Folge des Bestehens von Abhängig- etwa die gefunden Nutzenwerte auf den Kri-
keitsverhältnissen zwischen Evaluator und Auf- terien Vokabeltest Englisch, Rechenaufga-
traggeber (etwa als Dienstherr, Arbeitgeber oder ben, Wohlbefinden in der Klassengemein-
Financier der Studie – und vielleicht noch fol- schaft etc. zu verrechnen – keine ganz leichte
gender!) die professionelle Ethik des Evaluators Aufgabe!).
berühren kann. Andererseits ist damit zu rech-
nen, daß die Umsetzung der empirischen Fak- Die Probleme werden noch dadurch verstärkt,
ten in Nutzenwerte oder Globalentscheidungen daß der «Nutzen» für verschiedene Gruppen
den «Abnehmern» der Evaluationsergebnisse von Betroffenen bzw. Entscheidern sehr unter-
oft sehr schwer fällt, so daß es mit die Aufgabe schiedlich gesehen werden kann. Werden etwa
des Evaluators ist, diesen Übersetzungsprozeß verschiedene Therapieformen für Alkoholkranke
durch geeignete Sozialtechniken zu unterstüt- anhand der Kriterien «Dauer des Aufenthaltes
zen. Hierzu liegt eine Fülle von Ansätzen vor, in einer Suchtklinik» und «Rückfallquote» eva-
die wichtigsten sind im Diagramm IV/9 zusam- luiert, können Patienten, Klinikleitung und
mengefaßt. Kostenträger sehr unterschiedliche Nutzenbe-
wertungen haben. Für die Klinikleitung mag
In den folgenden drei Abschnitten können für ein längerer Aufenthalt auch höheren Nutzen
die Bereiche Nutzenmessung, Entscheidung haben, zumindest bei unvollständiger Kapazi-
durch Experten und Entscheidung durch Be- tätsauslastung (Einnahmensicherung), für die
troffene jeweils nur die allerwichtigsten Ansätze Kostenträger ist jeder Tag weniger eine wich-
diskutiert werden. Die wichtige praktische Ein- tige Einsparung, und für den Patienten (und
Zielexplikation und Bewertungskriterien 103
Diagramm IV/9
Übersicht über einige wichtige Techniken zu Entscheidungs- und Bewertungshilfen (Auswahl)
evtl. den Kostenträger) kann vor allem die Ver- formalisierte Verrechnungsmethoden er-
hinderung von Rückfällen die alles andere über- leichtern.
ragende Bedeutung haben. Sofern so stark diver-
gierende Bewertungen wirklich vorliegen, ist eine Die Vorteile einer auch nur auf Ranginfor-
«objektive» Nutzenbestimmung kaum möglich. mation aufbauenden Nutzenmessung werden
deutlich, wenn man sich überlegt, daß ein
Die hier angedeuteten Schwierigkeiten sollen monotoner Zusammenhang zwischen Krite-
nicht zu einer Abwertung expliziter Verrech- riumsausprägung und Nutzen in keiner Weise
nungsverfahren führen. Die Probleme bestehen selbstverständlich ist (für verschiedene Funk-
in gleicher Form bei allen anderen Entschei- tionsverläufe vgl. Diagramm IV/10). Zwar gibt es
dungsverfahren, nur werden sie dort weniger sicher oft monotone Zusammenhänge, doch
deutlich, was für eine sachgerechte Lösung oft sollte man dies nie ungeprüft voraussetzen,
von Nachteil ist. nicht einmal bei so einfachen Aspekten wie
«Preis» oder «Intellektuelle Leistungsfähigkeit»
– eine besonders billige Ware kann leicht nur
Nutzenmessung
wegen des Preises als qualitativ minderwertig
eingestuft werden (was den Nutzen des Kaufes
Die Übersetzung einzelner Kriteriumsausprä-
entsprechend subjektiv senkt), und ob eine
gungen in zugeordnete Nutzenwerte erfüllt
Spitzenintelligenz für einfachste Berufstätig-
zwei Funktionen:
keiten (wegen dem subjektiven Anspruchsni-
• Sie ermöglicht die Anwendung formalisier- veau) oder für Konzentration erfordernde Tä-
ter Bewertungs- bzw. Entscheidungsverfah- tigkeiten wie etwa Autofahren (etwa wegen der
ren, vor allem bei Vorliegen harter (Intervall- intensiven gedanklichen Beschäftigung mit ei-
oder Rational-) Skalen, etwa nach dem nem Problem) wirklich besser geeignet ist als
«Erwartungs-mal-Wert»-Prinzip (siehe dazu ein durchschnittlich begabter Mensch, ist zu-
Winterfeldt, 1974) mindest fraglich (man vergleiche etwa die eben-
• Auch bei schwachen (Rang-)Skalen trägt die falls inverte u-förmige Beziehung zwischen An-
Nutzenmessung zur Problemexplikation bei strengung und Leistung, siehe etwa Kleiner und
und kann damit eine rationale, konsens- Hukla, 1970). Zunächst monoton verlaufende
bezogene Entscheidungsfindung auch ohne und ab einem Grenzwert weitgehend konstant
104 Zielexplikation und Bewertungskriterien
bleibende Kriteriums/Nutzenbeziehungen fin- lung von Nutzenwerten für die einzelnen Krite-
den sich u.a. bei den sogenannten «Hygiene- riumsausprägungen über Personengruppen hin-
Faktoren» der Arbeitsplatzgestaltung (Herzberg weg die Aussagekraft stark reduzieren kann.
1959, S. 66). Die Verbesserung solcher Aspekte Größere Praxisrelevanz haben Verfahren, die
(etwa Senkung der Lärmbelastung) erhöht bis die Mehrdimensionalität des Nutzens von
zu einer gewissen Grenze den Nutzenaspekt Handlungsalternativen berücksichtigen. Auch
«Arbeitszufriedenheit», jenseits eines solchen wenn dort vergleichbare methodische Schwä-
kritischen Wertes führt eine weitere Verbesse- chen auftreten, liefert die Explikation der rele-
rung der objektiven Fakten aber nicht mehr zu vanten Teildimensionen an sich schon einen
einer Nutzensteigerung. Informationsgewinn, der selbst dann für die
Für das Erarbeiten der im konkreten Anwen- Entscheidungsfindung nützlich ist, wenn man
dungsfall vorliegenden Kriteriums/Nutzen- auf formalisierte Entscheidungen verzichtet.
beziehung wurde eine Reihe von technischen Ein für die multidimensionale Nutzenmessung
Vorgehensweisen entwickelt, die sich vor allem besonders wichtiger Ansatz ist die MAUT-
hinsichtlich des Aufwandes bei der Durchfüh- Technik, die schon in verschiedenen Anwen-
rung des nutzenbezogenen Vergleichs zwischen dungsbereichen von Evaluationsfragestellun-
den einzelnen Ausprägungsgraden und, damit gen eingesetzt wurde (siehe etwa Kasubek und
zusammenhängend, dem angestrebten Skalen- Aschenbrenner, 1978).
niveau der Nutzendimension unterscheiden. Das Vorgehen dieser Technik ist im folgenden
Einige wichtige Ansätze dazu finden sich im dargestellt:
Diagramm IV/11 (vgl. Fishburn 1967). Für Eva-
luationsfragestellungen ist die Anwendbarkeit 1. Identifizierung der Personen oder Organisa-
dieser Verfahren dadurch eingeschränkt, daß sie tionen, deren Nutzen zu maximieren ist.
im Prinzip für jeden Beteiligten (oder doch zu- 2. Erarbeitung des Problembereichs, das heißt
mindest jede beteiligten Gruppe) gesondert der Entscheidung, für den/die die Nutzen-
durchgeführt werden müßten und eine Mitte- maximierung relevant ist.
Diagramm IV/10
Übersicht über Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967)
Der funktionale Zusammenhang zwischen Kri- für die der Nutzen konstant bleibt; ein Beispiel ist
teriumsausprägung (k) und dem Nutzen davon etwa die Erledigungsgeschwindigkeit von (Teil-)
(N(k)) kann folgende Formen aufweisen: Arbeiten in einem Projekt, deren Erhöhung nur
• nicht-monotone: tritt auf, wenn ein mittlerer dann eine Nutzensteigerung erbringt, wenn nicht
Kriteriumswert besonders günstig ist, etwa bei auf andere Teilarbeiten gewartet werden muß (2)
dem Verhältnis von (psychischer) Anspannung • streng monotone: der Nutzen steigt zwar stets mit
und Leistung (1) steigendem Kriterium, aber nicht proportional; ty-
• monotone: der Nutzen steigt i. A. monoton mit pisch für alle Grenznutzenphänomene, etwa bei
dem Kriterium, es gibt aber Kriteriumsintervalle, finanziellen Anreizen durch Gehaltssteigerungen
(3)
N (k)
• lineare: gleichbleibender, proportionaler Nutzen-
anstieg bei steigenden Kriteriumswerten; empi-
3 risch relativ selten, aber zur Vereinfachung in vie-
len Nutzenmessungsmethoden als näherungweise
4 Abbildung ohne Überprüfung angenommen (Aus-
2 nahme: MAUT und EA mit expliziter Überprüfung
der Verlaufsform der Nutzenfunktion) (4)
5 • unstetige:der Funktionsverlauf verändert an ei-
nem Grenzwert seine Struktur; typisch für alle
Hygienefaktoren», die zunächst mit steigender
Ausprägung auch einen höheren Nutzen haben
1 (z.B. am Arbeitsplatz), aber jenseits eines sinnvol-
len Grenzwertes keine weitere Nutzensteigerung
mehr erbringen (5)
k
Zielexplikation und Bewertungskriterien 105
Diagramm IV/11
Übersicht über Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967)
3. Gewichtete Rangreihe
Gebräuchliche Verfahren der eindimensionalen Bei dieser Methode müssen die Alternativen für jedes
Nutzenmessung Bewertungskriterium getrennt in eine Rangreihe ge-
bracht werden. Danach erfolgt die Gewichtung der Al-
1. Einfache Rangreihenbildung ternativen, wobei die schlechteste Alternative einen
Ziel dieser Methode ist es, die Bewertungsalternativen festen Wert (z.B. 10 Punkte) zugeordnet bekommt. Alle
bzgl. ihres Nutzens auf jeder Bewertungsdimension in anderen Alternativen müssen nun hierzu und unter-
eine Rangreihe zu bringen. Der Rangplatz der Alterna- einander bzgl. ihrer Nützlichkeit auf dem Bewertungs-
tive kennzeichnet dann den Nutzenwert auf der ent- kriterium ins Verhältnis gebracht werden.
sprechenden Bewertungsdimension.
3. Identifizierung der Alternativen, die in die (Vorher müssen alle Werte normiert werden.)
Bewertung eingehen sollen.
4. Zusammentragen der relevanten Bewer- 10. Entscheidung: Wahl derjenigen Alternative
tungskriterien, anhand derer die Alterna- mit dem höchsten Nützlichkeitswert ui.
tiven bewertet werden sollen.
5. Einordnung der relevanten Bewertungs-
Für eine ausführliche Darstellung der multi-
kriterien in eine Zielhierarchie.
attributiven Nutzentechnik vgl. von Winterfeld
6. Gewichtung der Bewertungskriterien
(1974), Kaplan und Schwartz (1973), Wendt
7. Erstellung von Nutzenfunktionen für jedes
und Vlek (1975).
einzelne Bewertungskriterium.
Unabhängig von Verfahrensdetails sollte
8. Feststellung des Ausprägungsgrad jeder zu
man sich als Evaluator stets bewußt sein, daß
bewertenden Alternative auf jeder Bewer-
auch numerisch erhaltene «Nutzenwerte»
tungsdimension (gleicher Skalenbereich für
nichts an dem Faktum ändern können, daß sie
alle Kriterien wichtig!).
letztlich subjektive Setzungen sind. Das Ergeb-
9. Bestimmung des Gesamtnutzens jeder zu be-
nis entsprechender Auswertungen ist streng ge-
wertenden Alternative nach folgender Formel:
nommen nicht ein wissenschaftlich erfaßter
Nutzenwert, sondern die Aussage «Die Perso-
ui (Aj) = Summe (wi . ui (xij))
nen haben subjektiv folgenden Nutzen einge-
wobei u (Aj) = Gesamtnutzen schätzt» oder «Das Wahlverhalten der Personen
der Alternative Aj läßt sich durch Zugrundelegung folgender
u (Aij) = Teilnutzen von xij Nutzenstruktur beschreiben». Nutzenaspekte
xij = Ausprägung der Alter- bleiben stets eine Sache der Setzung durch In-
native A auf dem i-ten dividuen, deren Subjektivität auch nicht durch
wi = Gewicht des i-ten noch so elaborierte und objektive Erhebungs-
Kriteriums methoden beseitigt werden kann.
106 Zielexplikation und Bewertungskriterien
Diagramm IV/12
Prinzip der Pareto-optimalen Teilmenge
Nutzen 1
108 Zielexplikation und Bewertungskriterien
gehenden Abschnitten besprochen. Für die Ar- ten angewandt; ein Beispiel im Zusammenhang
beit mit Experten besonders bewährt hat sich mit der Curriculumsentwicklung gibt Häußler
die sogenannte «Delphi-Methode», die in Dia- et al., 1980.
gramm IV/13 dargestellt ist (vgl. Linstone &
Turoff, 1975; Bortz, 1984). Die anonyme Rück-
meldung über die Angaben der Expertenkolle- 4.3.3. Entscheidungsfindung
gen vermeidet gruppendynamische Effekte, es durch Betroffene
fällt leichter, die von anderen vorgebrachten
Argumente ohne Emotionen zu prüfen und seine Eigentlich sind die Betroffenen (aus wissen-
ursprüngliche Aussage als Ergebnis solcher zu- schaftlicher Sicht meist Laien) jene Gruppe, die
sätzlicher Überlegungen ohne Gesichtsver- am ehesten befugt wäre, bei Evaluations-
lust zu verändern. Leider ist dieses Verfahren fragestellungen eine Entscheidung zu treffen.
von den Kosten her aufwendig, und es wider- Das Problem dabei ist, daß eine begründete
spricht auch dem Selbstverständnis vieler Wis- Auswahl oder Gestaltungsvorschläge doch eine
senschaftler – wer gibt schon gerne zu, daß er relativ weitgehende Sachkenntnisse der Grund-
auch in er Rolle als Sachverständiger zu einigen lagen und Nebenfolgen voraussetzen, über die
Themen dazu neigt oder doch zumindest nei- auch ein intelligenter und in der Sache enga-
gen könnte, auch sachfremde Einflüsse wie gierter «Laie» im allgemeinen nicht verfügt.
Emotionen in seine Aussagen einfließen zu las- Dazu kommt noch, daß Betroffene natürlich
sen? sehr dazu neigen, ihre persönlichen Nutzen-
Aus solchen Gründen wird die Delphi-Tech- aspekte besonders hoch zu veranschlagen und
nik (bisher) für Evaluationsfragen leider nur sel- evtl. sogar massive Nachteile für andere weni-
Diagramm IV/13
Übersicht über die Grundlagen der DELPHI-Technik (nach Bortz, 1984)
Diagramm IV/14
Übersicht über die Grundlagen der Planungszelle (nach Dienel, 1978)
• Die Setzung von Zielen «wie die Welt sein Diese Argumente sollten aber nicht als Abwer-
soll» ist keine empirische Frage, sondern eine tung einer sorgfältigen Nutzenerhebung ver-
subjektive Entscheidung; es ist daher durch- standen werden. Auch heute noch dürfte es
aus legitim, sich für die Erreichung eines Zie- eher einen Mangel als ein übertriebenes Aus-
les auch bei (zunächst?) widersprechenden maß rationaler Entscheidungen geben, selbst
Evaluationsergebnissen politisch bzw. argu- bei der Verwendung von empirischen Evalua-
mentativ einzusetzen. tionsergebnissen.
• Oft sind die Entscheider eingebettet in ein Es kommt immer wieder vor, daß sich der
Netzwerk von Einflüssen, und die von ih- Evaluator über sachfremde Einflüsse auf die
nen ausgewählte Alternative wirkt auf- Projektdurchführung und Ergebnisverwertung
grund der Reaktion der Betroffenen auf die ärgert, langfristig (vom Mittelalter bis heute) ist
Situation der Entscheider zurück. Dies ist aber eine evaluationsfreundliche Veränderung
typisch für politische Maßnahmen (Ge- der Gesellschaft unverkennbar. Auch muß man
setzesvorhaben, Gestaltung von Schulsy- damit rechnen, in diesem Berufsfeld immer
stemen, Organisationsmaßnahmen der wieder Entscheidungsträgern mit offensichtlich
Verwaltung) oder die Arbeit besonders be- feudalstaatlich geprägten Denkstrukturen zu
deutsamer Organisationen (Parteien, Ge- begegnen (und dies keineswegs nur in Politik
werkschaften, Krankenkassen u.ä.), in klei- und Verwaltung), doch kann gerade die Ex-
nerem Umfang auch in privaten Vereinen plikation der Zielsetzung und der Bewertungs-
wie etwa Berufsverbänden. In solchen Si- kriterien wesentlich dazu beitragen, den
tuationen bleibt die Bewertung von Al- Wirksamkeitsbereich solcher gesellschaftlicher
ternativen (insbesondere bei prospektiver Fossilien allmählich einzuschränken.
Zielexplikation und Bewertungskriterien 111
Übersicht Kapitel 4:
Zielexplikation und Bewertungskriterien
4.1
Zielexplikationen
Möglichkeiten
Strikte Vorgaben der Zielsetzung Vorliegen einer gewissen Zielset- Auftraggeber hat nur eine sehr
durch den Auftraggeber zung durch den Auftraggeber. vage Vorstellung von den Zielen
Evaluator muß diese aber der Evaluation. Evaluation muß
konkretisieren und verbessern intensive Zielexplikation betreiben
Regelfall
Problem: Zielexplikation bei Vorliegen von Konflikten innerhalb des Auftrages
4.2
Bewertungsprozeß
Bewertungskriterien Nebenfolgenabschätzung Operationalisierungsfragen
Aufstellung einer Zielhierarchie Abschätzung der Nebenfolgen Operationalisierung der Bewertungs-
und Auswahl der passenden durch Untersuchung der Zielgrup- kriterien
Bewertungsdimensionen pen, ob Maßnahmen Konse- Inhaltliche und methodische
• Hilfstechniken: quenzen für die Handlungspläne Probleme
Brain-Storming der Zielgruppen haben könnte
Metaplan-Techniken • Hilfsmittel:
Metaplan-Techniken
vertrauliche Interviews
4.3
Bewertungs- und Entscheidungshilfen
Verfahren der Nutzenbestimmung
Teilschritte der Nutzenbestimmung
• eindimensional: • mehrdimensional:
funktionale Verknüpfung z. B. MAUT
Kriteriums-/Nutzenwert
Zusammenfassung der Nutzenwerte
zur Nutzenverrechnung
• Linearkombinationen
• pareto-optimale Teilmenge
• multiple cut-off-Strategien