Sie sind auf Seite 1von 32

113

5. Planung von Evaluationsprojekten

Wie schon im 1. Kapitel dargestellt, ist das Da für diese Arten von Evaluation aber am ehe-
Berufsfeld Evaluation so heterogen, daß eindeu- sten Hinweise in der vorhandenen Literatur
tige «Vorschriften» für die Planung solcher Vor- verfügbar sind (siehe dazu etwa Prell, 1984;
haben nicht zu erstellen sind. Hinzu kommt Hellstern und Wollmann, 1984), wird im fol-
noch, daß die Planung von Projekten naturge- genden von einem kommerziell orientierten
mäß eine Gestaltungsaufgabe ist, für die es auch Evaluationsvorhaben ausgegangen.
im konkreten Einzelfall viele verschiedene Das folgende Kapitel ist nach dem zeitlichen
durchaus gute «Lösungen» gibt. Ablauf der Arbeit an einem Evaluationsprojekt
Um wenigstens einen ersten Einblick in die gegliedert, die Hauptpunkte dabei sind in Dia-
Planungsarbeit geben zu können, wird in den gramm V/1 zusammengefaßt.
folgenden Abschnitten von einem typischen
Fall, nämlich der Reaktion auf eine Projektaus- Diagramm V/1
schreibung, ausgegangen. Die Projektarbeit Besonders wichtige Punkte bei der Planung
beginnt dann mit der Angebotserstellung, wo- von Evaluationsprojekten
bei vor allem Fragen des Projektmanagements
(5.1.) wichtig sind. Kommt ein Auftrag zustande, Beginn der Projektarbeit
beginnt die eigentliche, intensive Vorbereitung
Angebotserstellung
(Design-Fragen, Abschnitt 5.2.) und darauf auf-
bauend die Vorbereitung der Auswertung (5.3).
Projektmanagement • Informationsbeschaffung
Auf andere Auftragsverhältnisse bei der Evalua- • Entwicklung eines vor-
läufigen Arbeitsplans
tion, etwa • Zeit- und Kosten-
schätzung
• Einholen eines einzigen Angebots bei einem
besonders vertrauten oder als besonders Designfrage • Identifizierung u. Über-
kompetent geltenden Experten, prüfung potentieller Stör-
• Finanzierung des Vorhabens aus Stiftungs- und Fehlerquellen
oder anderen Förderungsmitteln, • Entwicklung eines Unter-
suchungsplanes
• Planung einer Evaluation mit ausschließlich • Auswahl und Applikation
«hausinternen Mitteln», über die evtl. der spezifischer Datenerhe-
Evaluator selbst im Rahmen seiner berufli- bungsverfahren
chen Zuständigkeit ohne finanzielles Risiko
(Vorbereitung der) • Entscheidung für be-
verfügen kann,
Auswertung stimmte Maße an
• Durchführung des Vorhabens im Rahmen ei- Effektstärke
ner Diplomarbeit, o.ä. • Wahl eines spezifischen
• Selbstevaluation Auswertungsverfahrens
(z.B. lineare Modellan-
sätze vs. qualitativer
sind einige der in den folgenden Abschnitten Auswertungstechniken)
dargestellten Ausführungen nicht anwendbar.
114 Planung von Evaluationsprojekten

5.1 Projektmanagement sentlichen Inhalt des (meist schriftlichen) An-


gebotes bildet (5.1.2). Auf der Basis dieser vor-
läufigen Planung wird ein Zeit- und Kostenplan
Die für die Projektorganisation entscheidende erstellt, bei dem man prinzipiell vor einem Di-
Phase ist die Planung, die auch die Grundlage lemma steht:
jeder professionellen Angebotserstellung ist.
Gelingt es, diese vorbereitenden Arbeiten sach-
• veranschlagt man den Aufwand zu niedrig,
können erhebliche finanzielle Belastungen
gerecht durchzuführen, kann sich das spätere
des Institutes die Folge sein, auch die Quali-
Projektmanagement im wesentlichen auf die
tät der Arbeitsausführung leidet darunter er-
Kontrolle der Einhaltung des Planes beziehen,
heblich
was gegenüber ad-hoc-Lösungen für nicht
rechtzeitig überlegte Probleme sehr entlastet
• kalkuliert man zu großzügig, kann der über-
zogen Betrag die Ursache sein, den Zuschlag
und die Qualität der Projektarbeit fördert.
nicht zu erhalten, mit allen Konsequenzen
In diesem Abschnitt kann nur ein erster Ein-
daraus (zum Beispiel Kündigung von ohne
blick in technische Hilfen für die Planung und
weitere Projekte nicht länger finanzierbaren
Abwicklung von Evaluationsprojekten gegeben
Mitarbeitern)
werden. Meist beginnen die Probleme schon
mit unzureichenden Informationen für ein
auch nur annähernd aussagekräftiges Angebot. Diese Entscheidung wird oft weniger auf der
Für Evaluationsvorhaben (und ähnliche Fra- Basis solider Fachkenntnisse getroffen, sondern
gestellungen auf der Basis sozialwissenschaftli- bleibt der Zuständigkeit des jeweiligen Instituts-
cher Kenntnisse) sind Ausschreibungen mei- leiters vorbehalten, der aufgrund seiner Stel-
stens nur bedingt informativ. Man kann in lung letztlich die Entscheidung zu verantwor-
einer für die Angebotserstellung halbwegs aus- ten hat. Von der Fachseite kann nur eine
reichenden Weise ein Bauprojekt, die Erledi- Kalkulation der erforderlichen Mindestauf-
gung von EDV-Arbeiten oder den Ankauf einer wendungen geleistet werden (vgl. Abschnitt
bestimmten Menge einer Ware mit vorgegebe- 5.1.3).
nen Qualitätsstandards ausschreiben, die Pla-
nung eines Evaluationsprojektes setzt aber eine
wesentlich intensivere Kenntnis der speziellen 5.1.1 Informationen zu Projekt-
Rahmenbedingungen voraus. Häufig ist dieses details und Rahmenbedingungen
Faktum, und insbesondere die genaue Ausdiffe-
renzierung der notwendigen Vorinformatio- Es empfiehlt sich, zunächst eine Liste von
nen, dem potentiellen Auftraggeber gar nicht Aspekten anzufertigen, die man vor der kon-
bekannt – wenn im eigenen Hause erfahrene kreten Projektarbeit gerne geklärt hätte. Im Dia-
Evaluatoren wären, wäre ja vermutlich eine gramm V/2 sind einige Bereiche genannt, die
Ausschreibung für externe Auftragnehmer man zum Beispiel in einem Vorgespräch über
nicht erforderlich. Hinzu kommt, daß es zwar eine Evaluation einer laufenden Werbekampa-
zur Allgemeinbildung gehört, Grundkenntnisse gne klären sollte (nur eine Auswahl aus allen
in naturwissenschaftlichen oder technischen vermutlich wichtigen!). Man muß allerdings
Bereichen zu haben, im allgemeinbildenden davon ausgehen, daß aufgrund der ersten, rela-
Schulwesen aber ebenso wie innerhalb der mei- tiv vagen Vorkenntnisse zunächst relevante
sten universitären Studiengänge kaum sachlich Punkte übersehen werden.
zutreffende Darstellungen über psychologische Ein Teil der benötigten Informationen, ins-
oder sozialwissenschaftliche Inhalte zu finden besondere zum allgemeinen Hintergrund, läßt
sind. Die Einholung der erforderlichen Infor- sich auf der Basis von schriftlichen Unterlagen
mationen stößt daher von Seiten der potentiel- beschaffen. Allgemeine Informationen wie Grö-
len Auftraggeber manchmal auf Unverständnis ße des Unternehmens, Zahl der Zweigstellen,
(siehe 5.1.1). Nach Lösung dieser Probleme Umsatz- und Gewinndaten kann man den jähr-
kann ein vorläufiger Arbeitsplan erstellt wer- lichen Geschäftsberichten entnehmen, die sich
den, dessen möglichst übersichtliche und entweder an Universitätsbibliotheken (Wirt-
gleichzeitig «werbende» Darstellung den we- schaftswissenschaften!) befinden oder bei dem
Planung von Evaluationsprojekten 115
potentiellen Auftraggeber direkt angefordert haben. Das Gespräch muß möglichst flexibel
werden können. Eine nicht ganz problemlos geführt werden, um auch gegenüber zunächst
zugängliche Informationsquelle sind nach nicht berücksichtigten Aspekten offen zu sein,
Stichworten aufbereitete Archive von Zeitungs- gleichzeitig muß aber sichergestellt werden,
bzw. Zeitschriftenartikeln, wie sie insbesondere daß alle relevanten Bereiche angesprochen wer-
die großen Verlage in der Bundesrepublik un- den. Man kann eine entsprechende Aufstellung
terhalten und gelegentlich auch externen In- von abzuklärenden Punkten (vgl. dazu auch Dia-
teressenten zugänglich machen. gramm V/2) durchaus als Arbeitsgrundlage neh-
men.
Eine besonders wichtige Grundlage sind persön- Auch bei sorgfältigster Vorbereitung hängt
liche Gespräche mit dem potentiellen Auftrag- der Gesprächserfolg stark vom Verhalten des
geber, die in jedem Fall herbeigeführt werden Evaluators ab, wertvolle Hinweise dazu geben
sollten. Über Fakten hinaus kann man dabei die psychologiegestützten Ausarbeitungen für
auch Hintergründe, erwartete Probleme und effektive Gesprächsführung (siehe dazu etwa
evtl. Konflikte zwischen Mitarbeitern oder Ab- Kopperschmidt, 1976 Holly, 1979.) Bei der
teilungen des Auftraggebers erfahren oder doch Übertragung auf Informationsgespräche dieser
erahnen (gerade in dieser Hinsicht ist der direkte Art muß man allerdings bedenken, daß diese
persönliche Kontakt dem leichter erreichbaren Ansätze meist aus dem klinischen Bereich her-
Telefongespräch weit überlegen). Die Informa- aus entwickelt wurden und gewisser Modifizie-
tionsbeschaffung für die Angebotserstellung ist rungen bedürfen.
häufig nicht nur ein sachliches Problem, son- Die explizite Nachbereitung der Informa-
dern auch ein taktisch-psychologisches. tionserhebungsphase unterbleibt leider oft.
Die beste Vorbereitung für ein persönliches Anfänger nehmen sie zu wenig wichtig, und
Gespräch ist das Erstellen einer Fragenliste, die erfahrene Evaluatoren haben das Gefühl, ohne-
man aber in keinem Fall als «Fragebogen» ver- dies alles an relevanten Ergebnissen auch ohne
stehen darf. Ein Informationsgespräch mit ei- schriftliche Fixierung präsent zu haben. Meist
nem potentiellen Auftraggeber sollte niemals gilt dies aber nur kurzfristig, man vergißt auch
den Charakter eines standardisierten Interviews entscheidende Punkte relativ schnell.

Diagramm V/2
Auflistung des besonders relevanten Informationsbedarfes am Beispiel «Werbestrategie»

Anforderungen u. Auflagen von Seiten des Auftraggebers Restriktionen von Seiten der Auftraggebers

• Klärung der Intention bzw. der Zielsetzung • Definition des kalkulierten Zeit- und
• Berücksichtigung der Firmenphilosophie Kostenvolumens
• Verständigung über die Produkt- , Sortiments-, • Erfragen von Kapazitätsbeschränkungen etc.
Distributions- und Finanzpolitik der Unternehmung
• Abklärung der Konkurrenzsituation etc.

Informationen über spezifische Eigenschaften u. Fragen der Entwicklung, Beschaffung,


Qualitäten des betreffenden Produktes Finanzierung u. Distribution des Werbematerials

• Abklärung (produktions-)technischer Details • Erfassung von akzeptierten Mieten u.


• Stellung des Produktes im Sortiment des Anbieters Bürokosten
• innovative Eigenschaften u. Funktionen des Produktes • Erfragen von Volumen für Löhne u. Gehälter
etc. • Klärung der Frage «Make or Buy» etc.

Informationen über die von der Unternehmung in der


Vergangenheit durchgeführten Werbeaktionen

• Strategien, Aufmachung
• Erfolge, Defizite etc.
116 Planung von Evaluationsprojekten

5.1.2 Vorläufiger Arbeitsplan Arbeiten zur Angebotserstellung bestenfalls bei


Auftragserteilung in Rechnung gestellt werden
können, so daß man zwischen der sachlichen
Schon für mittlere und erst recht für große Pro-
Fundierung des Angebots und dem möglicher-
jekte empfiehlt es sich, die notwendigen Teil-
weise finanziell nicht ersetzten Arbeitsaufwand
schritte in Form eines strukturierten Arbeits-
für die Angebotserstellung abwägen muß. Dies
planes niederzulegen. Dieser muß nicht
ist für kleinere Institute oder gar freiberuflich
aufwendig formalisiert sein, sollte aber doch
tätige Wissenschaftler, die kommerziell Evalua-
alle Punkte berücksichtigen, die ein Angebot
tionsprojekte durchführen, ein erhebliches Pro-
unbedingt enthalten muß:
blem. Bei mittelgroßen Evaluationsprojekten
• Die einzelnen vorgesehenen Arbeitsschritte muß man für alle Arbeitsschritte der Detail-
in der für das Projekt notwendigen zeitlichen planung bis zu einem vollen Mannmonat rech-
Abfolge nen, die Selbstkosten dafür sind beträchtlich.
• Entscheidungspunkte, die im Verlaufe der Zum eigentlichen Bruttogehalt kommen die
Arbeit durch den Auftraggeber geklärt wer- Lohnnebenkosten (etwa 80%), Ausgaben für
den müssen Raummiete, Heizung, Telefon und Arbeitsmit-
• Zu den einzelnen Arbeitsschritten den unge- tel sowie der von diesem Mitarbeiter zu erbrin-
fähr dafür vorgesehenen Aufwand (etwa An- gende Deckungsbetrag für die übrigen Instituts-
zahl der Beobachtungseinheiten, ungefähre kosten (anteilige Umlage von zum Beispiel
Dauer der Datenerhebung für die einzelnen Ausgaben für Verwaltungspersonal, technische
Interviewfälle usw.), evtl. mit Angabe emp- Einrichtungen wie etwa EDV-Anlagen, Werbe-
fohlener Mindest- und Höchstgrenzen und PR-Aktionen, Aufwendungen für Weiter-
• Eine sorgfältige Auflistung aller Arbeiten, die bildung wie Kongresse und dgl.). Ein Mann/
vom Arbeitgeber erbracht oder von diesen Monat kann daher auch bei kostengünstig ge-
außerhalb des Angebotes in Auftrag gegeben führten Instituten leicht einem halben Jahres-
werden sollen (etwa interne Entscheidungen nettoeinkommen eines akademisch vorgebilde-
nach einzelnen Projektteilen) ten Mitarbeiters entsprechen. Da selbst bei
• Alle vom Auftraggeber zu verantwortenden gezielten Ausschreibungen, die von vorn her-
Vorarbeiten, die aufgrund der Vorgespräche ein nur an für geeignet gehaltene Institutionen
in Aussicht gestellt wurden und eine uner- ausgegeben werden, von dem potentiellen Auf-
läßliche Grundlage des Angebotes sind (zum traggebern meist 3 bis 6 Angebote eingeholt
Beispiel die Zustimmung des Betriebsrates, werden (bei offenen Ausschreibungen ist die
der ausgewählten Schulen etc.) Zahl der Mitbewerber meist deutlich größer),
müßte man im Durchschnitt für jeden tatsäch-
Hinzu kommen natürlich möglichst exakte Ter- lich erhaltenen Auftrag mit Vorbereitungs-
minangaben und die erforderlichen finanziel- kosten von 2 bis 3 Jahresnettoeinkommen
len Aufwendungen. Da sich der Auftraggeber rechnen. Es wäre sehr schwer, solche Beträge
im Falle des Zustandekommens eines Vertrages zusätzlich in der Kostenkalkulation einzubrin-
selbstverständlich auf diese Kalkulationen be- gen und trotzdem noch unter finanziellen Ge-
rufen wird, ist dies ein nicht ganz einfaches sichtspunkten wettbewerbsfähig zu bleiben.
Vorhaben. Der sinnvolle Aufwand für diesen Schon aus diesem Grund beschränkt sich die
(vorläufigen) Arbeitsplan ist schwer einzuschät- Ausarbeitung des Projektplanes für die An-
zen. Eine zu oberflächliche Analyse ist un- gebotserstellung auf eine grobe Vorplanung.
verantwortbar, da man ja später an die Arbeits- Überdies sind viele Auftraggeber nicht bereit,
schritte (auch hinsichtlich der Kosten) die auch für sie zeitaufwendigen Arbeiten für
gebunden ist. Streng genommen könnte man die Bereitstellung der notwendigen Detail-
ein verantwortbares Angebot erst dann vorle- informationen für neue Anbieter zu leisten. So
gen, wenn alle Detailplanungen abgeschlossen wäre es etwa einer Weiterbildungsabteilung
sind, da sich erst zu diesem Zeitpunkt eine halb- nicht zumutbar, wegen einer fundierten An-
wegs exakte Kostenplanung erstellen läßt. Dem gebotserstellung die Mitarbeiter von etwa 6
steht aber entgegen, daß in den meisten (in oder gar 10 verschiedenen Anbietern während
keiner Weise allen) Ausschreibungsfällen die jeweils mehrtägiger Hospitationen zum Zwecke
Planung von Evaluationsprojekten 117
einer detaillierteren Zielexplikation mit den 5.1.3 Zeit- und Kostenabschätzung
Details der Bildungsarbeit vertraut zu machen.
Vieles wird erleichtert, wenn eine längere ver- Für dieses Fragestellungen wurden eine Vielzahl
trauensvolle Kooperation mit dem potentiellen von Techniken entwickelt, vor allem im wirt-
Auftraggeber besteht oder zumindest fundierte schafts- und ingenieurwissenschaftlichen Be-
Erfahrungen mit ähnlichen Projekten vorlie- reich. Einige davon sind in Diagramm V/3 zu-
gen, von denen aus man die ungefähren Ko- sammengestellt.
sten übertragen kann. Für Anfänger, die ohne Den gebräuchlichsten Verfahren (Balkenplan-
eine längere Mitarbeit in einer eingeführten Un- und Netzplantechnik sowie Ableitungen davon)
ternehmung selbständig Evaluationsprojekte geht eine Struktur- und eine Zeitanalyse voraus.
einwerben wollen, ist der dem Angebot zugrun-
deliegende Arbeitsplan leider eine sehr risikorei-
che Hürde, an der man auch bei sehr guten Fach- Strukturanalyse
kenntnissen (etwa durch Erfahrungen in
wissenschaftsbezogenen Projekten) scheitern Das Ziel der Strukturanalyse ist die Zerlegung
kann. des Gesamtprojektes in die es konstituierenden:

Diagramm V/3
Übersicht über die Methoden der Projektplanung und -kontrolle

Methoden der Kostenplanung und -kontrolle Methoden der Zeitplanung und -kontrolle

• Abweichungsanalyse • Nutzen-Kosten- • Balkenplantechnik • Netzplantechnik


• Außerplanmäßige Analyse • Einsatzmittelüber- • Planmäßige Berichte
Berichte • Planmäßige Berichte sicht • Präsentationen
• Einsatzmittelüber- • Präsentationen • Graphen, Netze • Sofort-Maßnahmen-
sicht • Sofort-Maßnahmen- Verfahren
• Kostenentwicklungs- Verfahren • Soll-Ist-Vergleich
plan • Soll-Ist-Vergleich • Termin-Trend-
• Kostenschätzung und • Zahlungskontrolle Darstellung
-erfassung
• Kosten-Trend-
Rechnung
• Netzplantechnik

Methoden der Durchführungsplanung und


-kontrolle

• Änderungsverfahren • Nutzenwertanalyse
• Auftragsvergabe • Planmäßige Berichte
• Außerplanmäßige • Planspiele
Berichte • Präsentationen
• Brainstorming • Projektbesprechung
• Checklisten • Projekt-
• Einsatzmittelüber- strukturanalyse
sicht • Relevanz- und
• Dokumentation z.B. Entscheidungsbaum-
Projektstrukturplan verfahren
• Graphen, Netze • Szenario-Schreiben
• Kontrollbesuche • Sofort-Maßnahmen-
• Morphologische Verfahren
Methoden • Soll-Ist-Vergleich

Für eine ausführliche Beschreibung der einzelnen Methoden siehe: Der Bundesminister für Bildung, Forschung,
Wissenschaft u. Technologie (Hrsg.), 1977
118 Planung von Evaluationsprojekten

Diagramm V/4
Strukturanalyse zur Durchführung und Bewertung am Beispiel «Werbekampagne»

VORGANG EREIGNIS ANORDNUNGSBEZIEHUNG


zeitforderndes Geschehen mit Eintreten eines definierten quantifizierbare Abhängigkeit zw.
definiertem Anfang u. Ende Zustandes im Projektverlauf den Vorgängen

1. Gespräch mit Auftraggeber • Exposé ––– 2


2. Konzeptphase (Ist-Zustands- • Konzeptvorlage 1 3, 5, 8
Analyse, Zielgruppenanalyse,
Standortauswahl) • Projektdurchführungsplan 2 4
3. Planungsentwicklung
(Konzeption des Marketing,
Festlegung der Marketing-
strategie) • Entwurf des Werbematerials 3 7
4. Gespräche mit Werbeagen-
turen u. Designern • Kostenübersicht 2 6
5. Einholen von Kostenvoran-
schlägen • Auftragsvergabe 5 7
6. Angebotsauswertung • Werbemittel 6 10
7. Herstellung des Werbe-
materials • Personalauswahl 2 9
8. Stellenausschreibung für
Distributoren/Interviewer
9. Personalschulung • einsatzfähige Interviewer 8 11
10. Projektdurchführungsphase • Werbekampagne 7 11
11. Erhebung/Interviews • Rohdaten 10 12
12. Auswertung der Erhebungs- • Abschlußbericht, Evaluation 11
daten –––

Diagramm V/5 • Vorgänge: zeiterfordernde Geschehnisse mit


Zeitanalyse für das Werbekampagne- definiertem Anfang und Ende
Beispiel (vgl. Diagramm V/4) • Ereignisse: Eintreten eines definierten Zu-
standes im Ablauf (des Projektes)
• Anordnungsbeziehungen: quantifizierbare
Vorgangs- Gemäß dem Gemäß dem
nummer deterministischen stochastischen
Abhängigkeiten zwischen den Vorgängen,
Konzept Konzept deren Gesamtheit die Ablaufstruktur (des
Bestimmung d. Bestimmung d. Projektes) bildet.
Zeitvariablen Zeitvariablen (vgl. REFA, 1985)
aufgrund von aufgrund von
Erfahrungswerten Wahrscheinlichkeiten
Zur Kennzeichnung der Anordnungsbezie-
hungen zwischen den einzelnen Vorgängen wer-
1 1 0,5 – 2
den die «Vorgänger» (dem betreffenden Vorgang
2 6 4 –7
unmittelbar vorgeordneter Vorgang) bzw. «Nach-
3 2 1 –3 folger» (unmittelbar nachgeordneter Vorgang) zu
4 2 1 –3 jedem Vorgang ermittelt und festgehalten.
5 1 0,5 – 2 Es empfiehlt sich, den Projektablauf zunächst
6 1 0,5 – 2 global und danach mit fortschreitender Detail-
7 5 4 –6 lierung aufzugliedern.
8 2 1 –3 Die Aufstellung aller Vorgänge, Ereignisse und
9 1 0,5 – 2 Abhängigkeiten (Anforderungsbeziehungen), aus
10 1 0,5 – 2
denen sich das Projekt zusammensetzt, erfolgt in
der Regel auf Grund der Einbeziehung von Erfah-
11 1 0,5 – 2
rungen aus derartigen Problemstellungen.
12 3 2 –4
Ein Beispiel für eine solche Strukturanalyse
gibt Diagramm V/4.
Planung von Evaluationsprojekten 119

Diagramm V/6
Graphische Darstellung der Ergebnisse aus Struktur- und Zeitanalyse als Balkenplan
zum Beispiel «Werbekampagne»
Wochen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Vorgänge
Gespräche mit
Auftraggebern
Konzeptphase
Planungsentwicklung
Gespräche mit
1
Werbeagenturen
Kostenvoranschläge
Bewertung:
2
Auftragserteilung
Herstellung des
Werbematerials
Stellenausschreibung
für Interviewer
Personalauswahl und
Schulung
Projektdurchführungs-
phase
Erhebungen;
Interviews
Auswertung;
Evaluation

Legende: deterministische Zeitvariable

Erläuterung: Durch den Balkenplan können sog. «Oder-Beziehungen» (d.h. der Nachfolger eines Vorganges
X kann der Nachfolger Y oder Z sein) nicht dargestellt werden. Zur Illustration s. 1: Verlaufen
die Gespräche mit den Werbeagenturen erfolgreich, kann im Anschluß daran sofort die Pro-
duktion des Werbematerials beginnen; oder scheitern die Gespräche, so verzögert sich der
Anfangstermin für die Herstellung. Eine «Oder-Beziehung» kann auch für 2 angenommen
werden; die Bewertung der Kostenvoranschläge führt zur Auftragserteilung und zieht die Her-
stellung des Werbematerials nach sich oder die Kostenbewertung führt zur Einholung neuer
Kostenvoranschläge anderer Firmen.

Zeitanalyse jekte «deterministisch» (mit fest angenomme-


nen Zeiten). Rein technische Variablen (zum
Das Ziel der Zeitanalyse ist es, die Dauer der durch Beispiel die Dauer für die Fertigung des Werbe-
die Strukturanalyse gefundenen Vorgänge und materials) lassen sich durch Rücksprachen mit
deren Anordnungsbeziehungen zu ermitteln. potentiellen Auftragnehmern unter Berücksich-
Die Dauer wird in Zeiteinheiten angegeben. tigung vorhandener Kapazitäten ermitteln. Für
Die damit verbundenen numerischen Größen das Werbekampagne-Beispiel sind entsprechen-
erhält man in der Regel entweder durch Ab- de (grobe) Abschätzungen für den Zeitbedarf
schätzung plausibel erscheinender Zeitinter- der einzelnen Vorgänge aus Diagramm V/4 im
valle (sog. «stochastisches Konzept») oder durch Diagramm V/5 eingetragen. Auf diesen Grundla-
Rückgriff auf die Erfahrungswerte früherer Pro- gen bauen dann die spezifischen Techniken auf.
120 Planung von Evaluationsprojekten

Diagramm V/7
Graphische Darstellung eines Quick-Look-Plans zum Beispiel «Werbekampagne»

Wochen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Vorgänge
Gespräche mit
Auftraggebern 1
Konzeptphase
Planungsentwicklung 2 3
Gespräche mit
Werbeagenturen
Kostenvoranschläge
Bewertung:
Auftragserteilung
Herstellung des
Werbematerials
Stellenausschreibung
für Interviewer
Personalauswahl und
Schulung
Projektdurchführungs-
phase
Erhebungen;
Interviews
Auswertung;
Evaluation

Legende: geplante Terminsituation (deterministische Zeitvariable)


eingetretene Terminsituation
Abhängigkeiten zwischen den Vorgängen

Erläuterung: Anmerkungen zu den Balken- und Terminverlagerungen: z.B. ermöglicht der vorzeitige Ab-
schluß der Gespräche mit den Auftraggebern eine terminliche Verlagerung der Konzeptphase
(2), wodurch auch die Planungsentwicklung (3) zu einem früheren Zeitpunkt aufgenommen
werden kann. Durch die zusätzlich zur Verfügung stehende Zeit kann diese dann profunder
durchgeführt werden.

Balkenplantechnik Bundesminister für Forschung und Technolo-


gie, 1977). Ein ausführliches Beispiel für die
Das für die Zeitplanung bei sozialwissenschaft- Studienplanung, insbesondere im Zusammen-
lichen Projekten wohl gebräuchlichste Verfah- hang mit der Diplomarbeit, gibt Wottawa,
ren ist die Balkenplan-Technik. Die Zeiten für (1996).
die einzelnen Arbeitsvorgänge werden abge-
schätzt, die einzelnen Arbeiten der zeitlichen Dieses Verfahren ist leicht verständlich, auch
Sequenz nach geordnet und unter Berücksich- für Laien übersichtlich und für einfache Pro-
tigung von Überlappungsbereichen in Dia- jektvorhaben voll ausreichend. Schwierigkeiten
grammform dargestellt. Ein Beispiel dafür fin- treten auf, wenn die einzelnen Arbeitsteile in
det sich im Diagramm V/6, ausführlichere komplizierter Weise miteinander verknüpft
Darstellungen dieser Methode sowie auch Hin- sind, also etwa die Erledigung von drei spezifi-
weise auf verwandte Verfahren gibt Brand, 1974 schen Vorarbeiten mit jeweils unterschiedlicher
Planung von Evaluationsprojekten 121

Diagramm V/8
Arbeitsschritte der Netzplantechnik nach (REFA, 1985)

Problemstellung

1. Zeitplan (Kostenplan) für alle Arbeitsschritte eines Projektes?


2. Kontrolle und Termin- (Kosten-) Überwachung?
3. Darstellung der logischen Zusammenhänge vom Anfang bis zum Endtermin?
4. Auffinden der potentiellen kritischen Engpässe des Projektes?

anderes
Nein Planungsverfahren

Ja

Netzplantechnik

Phase 1: Ereignisse, Vorgänge/Arbeitsschritte Phase 2: Dauer (Kosten) der Vorgänge/


(«Strukturanalyse» s. Balkenplantechnik) Arbeitsschritte («Zeitplananlyse» s. Balkenplantechnik)

ja Zeit-Kostenvariablen bekannt? nein

Bestimmung des «kritischen» Weges auf Netzplanberechnung auf Grund von


Grund von Erfahrungswerten Schätzwerten (stochastisches Konzept)‚
(deterministisches Konzept)‚

Phase 3: Erstellung des Netzplanes

Bestandteile/Elemente zur Grundsätze/Nebenbedingungen


Konstruktion eines Netzplanes:
1. Alle Vorgänge und Ereignisse müssen genau defi-
a) Elemente zur Darstellung strukturanalytischer niert sein
Ergebnisse: 2. das Netzwerk hat nur einen Start- und Endpunkt
• Ereignisse = «Knoten» p 3. das Netz ist lückenlos verknüpft, d.h. jedes Ereig-
• (reale) Vorgänge/Arbeitsschritte = Pfeile nis ist über ein Kette von Vorgängen mit dem Start
• fiktive Vorgänge/Arbeitsschritte, die eingeführt und Ende verbunden
werden, um den Nebenbedingungen zu genügen = 4. zwei Ereignisse dürfen nur durch einen einzigen
Scheinvorgänge Vorgang verbunden sein
5. jedem Vorgang ist eine Zeitvariable zugeordnet,
b) Darstellung zeitanalytischer Werte (bei dieser Methode sagt die Länge des Pfeiles
• Zeitangaben (deterministisch und oder stochastische) nichts über den Zeitbedarf aus!)
• die Zeitvariablen werden nur den realen Vorgängen 6. das Netz muß schleifenfrei verlaufen
zugeordnet, Scheinvorgänge haben grundsätzlich die 7. parallel verlaufende Vorgänge werden durch
Zeitdauer null. «Scheinvorgänge» miteinander verbunden (damit
Bedingung 4 nicht verletzt wird)

Phase 4: Graphische Darstellung des Netzplans

Phase 5: Netzplanberechnung

Unter verschiedenen Wegen vom Anfang bis zum Endpunkt gibt es einen Weg von längster Zeitdauer (sog. «kriti-
scher Weg»), dieser Weg bestimmt den frühestmöglichen Zeitpunkt für das Projektende, d.h. addiert man alle
Zeitvariablen, die den Vorgängen des «kritischen Weges» zugeordnet sind, so repräsentiert die Summe den frühest-
möglichen Endzeitpunkt
122 Planung von Evaluationsprojekten

Diagramm V/9
Graphische Darstellung eines Netzplans zum Beispiel «Werbekampagne»

3 4
B C D
(2) (2)
(1–3) (1-3)

1 2 5 6 7 10 11
A E F G J K
(1) (6) (1) (1) (5) (1) (1)
(0,5–2) (5–7) (0,5–2) (0,5–2) (4–6) (0,5–2) (0,5–2) (3)
12 (2–4)
8 9
H I L
(2) (1)
(1–3) (0,5–2)

Legende: x Ereignis (x) (A = 1, B = 2, etc. aus Diagramm


V/4)
(n)
Vorgang (n)

Scheinvorgang
(…) deterministische Zeitvariable
(…–…) stochastische Zeitvariable

Zeitdauer die Voraussetzung sind, mit einem dieses Vorgehens sind in Diagramm V/8 darge-
vierten Projektschritt beginnen zu können, falls stellt. Die Übertragung des Balkenplanes aus Dia-
dieser nicht auf Grundlage eines anderen, üb- gramm V/6 in diese Darstellungsform gibt Dia-
licherweise länger andauernden Projektfort- gramm V/9.
schrittes aufgebaut werden kann. Für solche
komplizierten Fälle und insbesondere für eine Das Diagramm V/9 zeigt die logische Verknüp-
sachgerechte Zeitabschätzung bei sehr komple- fung der Vorgänge und Ereignisse des Projek-
xen Arbeitsvorhaben wurde die sogenannte tes. Jedes Ereignis ist über eine Kette von Vor-
«Netzplantechnik» (s.u.) entwickelt, die auch gängen mit dem Start- und Endpunkt
den Vorteil hat, EDV-gestützten Optimierungs- verbunden.
abschätzungen zugänglich zu sein.
Ein Spezialfall der Balkenplantechnik ist der Zur Bestimmung des frühestmöglichen Projekt-
sogenannte Quick-Look-Plan. Er dient zur Kon- termins ist es zunächst erforderlich, die Dauer
trolle der Projektfortschritte. Die geplante Ter- aller möglichen Wege, die (vom Startpunkt aus-
minsituation wird mit der tatsächlichen ver- gehend) zum Endpunkt des Netzes führen, zu
glichen (Soll-Ist-Vergleich), um Abweichungen berechnen. Dieses geschieht durch Addition al-
möglichst frühzeitig zu erkennen. ler (deterministischen) Zeitvariablen, die den
Das Vorgehen ist einfach. Unter den Balken Vorgängen eines Weges zugeordnet sind. Aus
mit der geplanten Dauer wird zusätzlich der den verschiedenen Summenwerten wird dann
tatsächlich benötigte Zeitaufwand eingetragen der Wert minimaler numerischer Größe
(für ein Beispiel s. Diagramm V/7). selegiert; dieser repräsentiert die Dauer des sog.
«kritischen Weges».

Netzplantechnik Der kritische Weg im Beispiel aus Diagramm V/9


wäre mit 15 Zeiteinheiten verbunden:
Für komplizierte Projekte mit vielfältig abhän-
gigen Vorgängen ist der Balkenplan ungeeig- (1 6 2 2 5 1 1 3) = 21
net, in diesen Fällen wird meist die Netzplan- (1 6 1 1 5 1 1 3) = 19
technik gewählt. Die einzelnen Arbeitsphasen (1 6 2 1 1 1 3) = 15
Planung von Evaluationsprojekten 123
Möchte man den ungünstigsten (spätesten) • realistische Festlegung von Terminen
Projektendtermin ermitteln, so addiert man je- • potentielle Engpässe/Störungen können klar
weils den maximalen stochastischen Wert aller erkannt werden, da der Netzplan eine syste-
Vorgänge, die auf dem «kritischen Weg» liegen. matische und lückenlose Darstellung der zwi-
Im Beispiel: schen den Vorgängen bestehenden Zusam-
menhänge ermöglicht.
(2 7 3 3 6 2 2 4) = 29
Für wirklich komplexe Projekte (diese sind al-
Netzpläne erlauben es auch, in Abhängigkeit
lerdings bei normalen Evaluationsfragestellun-
von «Entscheidungsknoten» von Anfang an ver-
gen selten, am ehesten treten sie noch bei einer
schiedene Projektvarianten vorzusehen. Ist es
langfristigen, formativen Programmevaluation
zum Beispiel unsicher, ob die Stellenausschrei-
auf) sind grafische Darstellungen allerdings
bung der Interviewer (Vorgang 8 in dem Netz-
nicht mehr übersichtlich genug, so daß man
plan aus Diagramm V/9) ausreichend viele gut
dann entsprechende EDV-Hilfen benötigt, was
geeignete Mitarbeiter erbringt, können zwei ver-
die Arbeit erschwert. Außerdem ist die Zuver-
schiedene weitere Arbeitspläne erstellt werden
lässigkeit der Zeitabschätzungen immer ein Pro-
(zum Beispiel zusätzlicher Einbau einer länge-
blem, da man stets mit unerwarteten Ereignis-
ren Schulungsphase oder Änderung der Materia-
sen rechnen muß. Netzpläne sind daher zwar
lien in der Form, daß man mit weniger gutem
ein der «Intuition» der Projektleitung sicher
Personal auskommt). Solche Vorausplanungen
überlegenes Mittel, man darf sie aber auch
von mehr oder weniger wahrscheinlichen «Ka-
nicht als absolut sicher und durch spätere Er-
tastrophen» erleichtern die Bewältigung von
fahrung im laufenden Projekt nicht zu korrigie-
Problemen während der Projektdurchführungs-
rende Tatsachenfeststellungen fehlinterpretie-
phase außerordentlich. Leider geht die Über-
ren.
sichtlichkeit des Netzplanes verloren, wenn man
zu viele Entscheidungknoten vorsieht, so daß
man selten mehr als zwei dieser Knoten gleich-
Kostenschätzung
zeitig aufnehmen kann.
Erweitert man diesen Ansatz um eine Ab-
Im Prinzip ist die Berechnung der durch das
schätzung der Eintretenswahrscheinlichkeit der
Projekt ausgelösten Kosten relativ leicht, wenn
Ausgänge des Entscheidungsknoten (im Bei-
die einzelnen Vorgänge und die dafür erforder-
spiel: erfolgreiche Personalsuche bzw. Mißer-
lichen Zeiten wirklich gut in den Zeitplan auf-
folg), lassen sich Netzpläne zum Entscheidungs-
genommen wurden. Man braucht dann nur die
netzplan-Verfahren ausbauen, die den Vorteil
Personalkosten für die jeweiligen Arbeiten (un-
haben, auch «oder-Beziehungen» zwischen den
ter Einrechnung aller Lohnnebenkosten, vgl.
Vorgängen zu erfassen. Als Beispiel etwa: «Mit
Einleitung zu Kap. 5) mit den Zeiten zu multi-
der Erhebung kann begonnen werden, wenn
plizieren. Die Sachkosten (Material etc.) sind
entweder die Stellenausschreibung den er-
meist aus vorliegenden Angeboten bekannt.
wünschten Erfolg hatte oder weitere, zusätzli-
Eine solche Kalkulation ist etwa die Grundla-
che Schulungen abgeschlossen wurden oder die
ge eines Universitätsinstituts für die Beantra-
Erhebungsmaterialien entsprechend modifi-
gung von Förderungsmitteln bei der Deutschen
ziert wurden». Mit dieser Erweiterung ist die
Forschungsgemeinschaft oder einer Stiftung, da
Netzplan-Vorgehensweise dann den Balken-
in solchen Fällen die Fixkosten (Verwaltungs-
plänen auch qualitativ überlegen.
apparat, «Leerläufe» ohne finanzierte Projekte,
Weiterbildungs- und Vorbereitungszeiten, Ko-
Als besondere Stärke von Netzplänen sind zu
sten für Räume und Grundausstattung) von der
nennen:
Öffentlichen Hand getragen werden und die
• Übersichtliche Darstellung termingebun- erheblichen steuerlichen Belastungen privater
dener Projekte Unternehmen ebenfalls keine Rolle spielen. Die
• geringer Rechenaufwand «tatsächlichen» Kosten bei Finanzierung der
• der Planer wird gezwungen, alle Projekte zu- Institution über Evaluationsprojekte können
sammenhängend gründlich zu durchdenken leicht, je nach Ausmaß der erforderlichen Bei-
124 Planung von Evaluationsprojekten

träge zu den laufenden Institutskosten, das BO F HH M BO 224 495 780 610 2110
Doppelte der zunächst kalkulierten Beträge aus- BO F M HH BO 224 400 780 349 1753
machen. Sozialwissenschaftlich gestützte ange- BO M HH F BO 614 780 495 224 2113
wandte Tätigkeit ist bedauerlicherweise teuer. BO M F HH BO 614 400 495 349 1858
Eine sehr gute Übung ist es, sich für eine klei-
ne, überschaubare Arbeit (zum Beispiel die ei-
gene Diplomarbeit) die gesamten Kosten durch-
zurechnen, und dabei neben der eigentlichen Leider steigt der Aufwand mit der Zahl der Städ-
Arbeitszeit auch die von der Universität getra- te enorm an. Schon für 10! = 3 628 800 Mög-
genen Aufwendungen, so insbesondere für lichkeiten ist auch ein schneller Rechner sehr
hochspezialisierte Beratung, mit zu berücksich- gefordert, die Rechenzeiten können teurer wer-
tigen. Vor diesem Hintergrund werden die den als die Einsparungen durch die optimale
manchen Anfängern traumhaften «Tagessätze» Reihenfolge. In solchen Fällen kann man mit
von erfolgreichen freiberuflich tätigen Kollegen «begrenzter Enumeration» arbeiten. Man be-
verständlich, die je nach Kalkulationsart und ginnt mit einer plausibel erscheinenden Rei-
persönlichem Marktwert durchaus bei der Hälf- henfolge (so wird niemand meinen, daß man
te (und mehr) eines Monatseinkommens eines die Strecke M–HH–F wählen sollte) und ver-
Anfängers im öffentlichen Dienst mit akademi- sucht davon ausgehend, weitere Verbesserun-
scher Vorbildung liegen. gen durch Permutation zu finden.
Eine umfangreichere Übersicht über die hier
skizzierten Techniken gibt Ziegenbein, 1984;
Entscheidungsbaumverfahren Bramsemann, 1978.

In manchen Evaluationsprojekten stellt sich


unter Kostenaspekten die Frage nach der opti- 5.2 Designfragen
malen Reihenfolge von Teilarbeiten. Besonders
typisch dafür sind Terminvereinbarungen an War das Angebot erfolgreich, kann die Detail-
verschiedenen Orten (etwa zur Durchführung planung beginnen. Gewisse Vorstellungen über
von Datenerhebung durch das gleiche Team die anzuwendenden Methoden, Designs und
oder die Abhaltung von Experteninterviews). Auswertungstechniken mußten natürlich schon
Das konzeptuell einfachste Vorgehen dabei vorliegen, um den Arbeitsplan gemäß Ab-
ist die sogenannte Voll-Enumeration. Dabei schnitt 5.1 zu erstellen. Die Detailarbeit erfolgt
werden einfach alle möglichen Reihenfolgen aus Kostengründen aber meist erst nach Auf-
durchpermutiert und der für jede Variante er- tragserteilung.
forderliche Aufwand (etwa die Fahrstrecken)
bestimmt. Es gibt zahlreiche Bücher, in denen die verschie-
Würde etwa in dem Werbekampagne-Beispiel denen Möglichkeiten der formalen Design-
jeweils ein Gespräch zwischen dem Projektlei- planung entweder aus grundlagenwissenschaft-
ter (Sitz Bochum, BO) und Geschäftsführern in licher Sicht (vgl. dazu Schulz, 1981; Cook,
Frankfurt (F), Hamburg (HH) und München (M) 1979) oder speziell für Evaluationsprojekte dar-
zu führen sein, ergibt sich für jede Reihenfolge gestellt sind, etwa in Rutman, 1977; Trochim,
der Gespräche der Fahrtaufwand annähernd 1984. Die Vielfältigkeit des Aufgabenfeldes
durch die Addition der Entfernungskilometer. «Evaluation» (vgl. dazu Diagramm II/2) läßt es
Da drei Städte in der Reihenfolge zu permutie- kaum möglich erscheinen, im Rahmen eines
ren sind (Bochum steht ja als Ausgangs- und einzelnen Kapitels die Designproblematik er-
Endpunkt fest), erhält man 3! = 6 verschiedene schöpfend zu behandeln. In den folgenden 3
Möglichkeiten, und zwar: Unterabschnitten kann nur auf die wichtigsten
Fehlerquellen, typischen Untersuchungspläne
Reihenfolge Einzeldistanzen Summe und bewährte Erhebungstechniken verwiesen
werden, die Detailproblematik der einzelnen
BO HH F M BO 349 495 400 610 1854 Verfahren findet sich in der jeweiligen Spezial-
BO HH M F BO 349 780 400 224 1753 literatur.
Planung von Evaluationsprojekten 125
5.2.1 Fehlerquellen baren Teilgruppen (mit bzw. ohne Maßnah-
menwirkung) zumindest schwierig.
Im Prinzip gibt es nahezu unübersehbar viele
Fehlerquellen bei der Durchführung von Eva-
luationsprojekten. Besonders oft stören fol-
Äquvivalenzprobleme
gende:
• Reifung An die Nicht-Äquivalenz denkt man vor allem,
• Nicht-Äquivalenz (von Vergleichsgruppen) wenn es nicht möglich ist, die Probanden nach
• Mortalität (im statistischen Sinne) einem Zufallsprinzip den verschiedenen Eva-
luationsbedingungen zuzuweisen; dies ist
Wichtig ist, daß man diese Störquellen nicht typischerweise bei (partieller) Selbstselektion
nur im engsten Sinn der Begriffsdeutung sieht, der Probanden der Fall, etwa bei der freiwilli-
sondern das Prinzip, die dahinterstehenden gen Anmeldung von Schülern zu bestimmten
Strukturprobleme, auch in verschiedene Kon- Schulformen (man kann – zum Glück – in de-
texte überträgt. Als Beispiele: mokratischen Staaten niemand zwingen, sein
Kind zu Untersuchungszwecken einer bestimm-
ten Schulart oder gar einer Versuchsschule an-
Reifung zuvertrauen) oder bei der Zuordnung von
Treatment-Gruppen im Konsens mit den Be-
«Reifung» im Sinne einer Fehlerquelle von De- troffenen (so wäre es kaum vorstellbar, daß man
signs liegt dann vor, wenn es generelle Verän- zum Zwecke einer Evaluation verschiedener
derungen gibt, die nicht auf gezielt gesetzte chirurgischer Eingriffsmöglichkeiten bei Brust-
Maßnahmen zurückgehen (etwa eine zuneh- krebs die betroffenen Frauen nach Zufall ent-
mende Akzeptanz von EDV in Verwaltungs- weder einer radikalen Entfernung oder einer
berufen). Sie finden sich u.a. bei: teilweise die Brust erhaltenden operativen Maß-
nahme zuführt); gleichermaßen wäre es bei
• Bewertung von Werbekampagnen (durch einer psychologischen Intervention nicht ver-
«Gewöhnung» an die Konsumgewohnheiten
tretbar, auch schwierige Fälle (zum Beispiel
der sozialen Umgebung)
hoch selbstmordgefährdete Patienten) aus
• den medizinisch-therapeutischen Bereich Untersuchungsgründen einer «Warteliste» zu-
(zum Beispiel Coping-Strategien bei chroni-
zuführen und zunächst auf eine Hilfestellung
schen Krankheiten)
zu verzichten oder sie einem neuen, bisher
• Aufklärungsaktionen, etwa bzgl. neuer ge- nicht bewährten Ansatz als Therapietechnik
setzlicher Bestimmungen, zum Beispiel für
auszusetzen.
von der Öffentlichen Hand gewährten Un-
Das gleiche Problem der Nicht-Äquivalenz
terstützungen (durch langsames Gewöhnen
liegt auch vor, wenn sich die Schaffung von
der Betroffenen und der Verwaltungsstellen
Bedingungskonstellationen für die Evaluations-
an die routinemäßige Beantragung und Ver-
maßnahme nicht willkürlich gestalten läßt,
gabe dieser Mittel) .
sondern bestimmte Kombinationen aus Sach-
• Schuluntersuchungen, die ohne ausreichen- gründen vorgegeben sind; typische Beispiele
de Kontrollgruppen im Längsschnitt durch-
dafür:
geführt werden und keine Trennung von Pro-
gramm- und Entwicklungseffekten zulassen. • die Kombination von Lehrern und Schul-
formen (freiwillige Meldungen zu bestimm-
Generell zwingt dieser Verfälschungsaspekt zu ten Schulformen verzerren die Ergebnisse
Designs, die nicht nur die Entwicklung der zu u. U. ebenso wie Zwangsversetzungen mit
evaluierenden Maßnahme über die Zeit hinweg den darauf folgenden negativen emotiona-
verfolgen, sondern auch Beobachtungsgruppen len Einstellungen der Betroffenen),
ohne die Auswirkungen der Maßnahme vorse- • die Kombination des didaktischen Vorge-
hen. Leider ist dies manchesmal technisch hens und der Trainer für Weiterbildungs-
unmöglich (zum Beispiel bei gesetzlichen Maß- maßnahmen (selbst wenn hier durch
nahmen) oder wegen der Frage nach vergleich- Anweisung zum Beispiel für zufällig ausge-
126 Planung von Evaluationsprojekten

wählte Trainer ein spezieller Seminarstil vor- ohne der Möglichkeit, bei schlechten Leistun-
geschrieben werden könnte, wäre das für die gen aufgrund der Beurteilung der Lehrer eine
Aussagekraft des Ergebnisses aufgrund der zu Klasse wiederholen zu müssen, was im Quer-
erwartenden Wechselwirkungen zwischen schnittsvergleich der Klassenstufen eine Verzer-
Trainerpersönlichkeit und didaktischem rung der durchschnittlichen Leistungsstärken
Konzept zweifelhaft) ergibt.
• die Herstellung von Bedingungskombina- Es ist die Aufgabe des Evaluators, durch die
tionen, die gefährliche Auswirkungen haben Gestaltung des Untersuchungsplanes und der
könnten (man denke etwa an einen Feld- Rahmenbedingungen alle denkbaren Stör-
versuch zur Verkehrslenkung und die Kom- quellen so gering wie möglich zu halten. Es ist
bination des Verkehrszeichens «Schule» und aber unter den üblichen quasi-experimentellen
«Geschwindigkeitsbeschränkung auf 120 Bedingungen faktisch nicht möglich, alle oder
km/h»). auch nur alle plausibel erscheinenden Verzer-
rungen auszuschließen, woraus sich die prinzi-
pielle Angreifbarkeit jeder zumindest größeren
Statistische Mortalität Evaluationsstudie im Feld ergibt.

Die statistische «Mortalität» stammt ursprüng-


lich aus dem medizinischen Bereich (das Ster- 5.2.2 Untersuchungspläne
ben der Patienten während der unterschiedli-
chen Behandlungen mit schwierigen Folgen für
Eine Übersicht über einige besonders wichtige
die Auswertung, vgl. dazu Cook und Campbell,
Untersuchungspläne (in Anlehnung an Cook
1976). Bei im engeren Sinne sozialwissenschaft-
& Campbell, 1976) ist im Diagramm V/10 enthal-
licher Evaluation tritt das gleiche Phänomen
ten.
auf, wird aber dort bedauerlicherweise oft nicht
Das Grundbestreben aller Designansätze ist
ausreichend beachtet, da das «Sterben» bzw.
es, Störquellen (insbesondere die im vorherge-
Aussscheiden von Probanden in diesem Bereich
henden Abschnitt skizzierten) soweit wie mög-
im Gegensatz zur medizinischen Behandlung
lich auszuschließen. Wie schon der Name «Ver-
nicht besonders eng und systematisch mit der
suchspläne» andeutet, kommen sie zum
Intervention verknüpft erscheint. Das struktu-
größten Teil aus Entwicklungen im Bereich der
rell gleiche Phänomen zeigt sich aber, wenn
experimentellen Grundlagenforschung, wo
sich Probanden einer als unangenehm empfun-
sich auch das Ausschalten von Störeffekten in
denen Situation entziehen (spezielle Schule,
annähernd idealer Weise realisieren läßt. Sie
längerfristiges Weiterbildungsprogramm, zum
passen daher im wesentlichen zu einer summa-
Zwecke der Evaluation neu gestaltete Arbeits-
tiven Evaluation verschiedener, möglichst dis-
bedingung). Analysiert man ohne Berücksichti-
junkter Maßnahmen.
gung dieser Ausscheider die Maßnahme, bauen
Für die meisten Fälle der Programmevalua-
alle Vergleiche nur auf den Personen auf, de-
tion im Feld kommen nur quasi-experimentelle
nen die spezifische Interventionsbedingung re-
Designs in Frage, die deshalb ausführlich in Dia-
lativ zugesagt hat, was eine Überschätzung der
gramm V/10 enthalten sind. Die für echte experi-
positiven Auswirkung der Maßnahme zur Fol-
mentelle Designs erforderliche Bildung von
ge hat (vor allem dann, wenn einer neuen Vari-
wirklich äquivalenten Vergleichsgruppen ist
ante, zum Beispiel bei der Arbeitsgestaltung,
nur in manchen, der Grundlagenforschung na-
ausgewichen werden kann, währendem sich
hestehenden Evaluationsvorhaben möglich.
ein Verbleiben in den bisherigen Bedingungen
Typische Beispiele dafür sind:
nur wesentlich schwerer vermeiden ließe, vgl.
3.3.3). Der strukturell gleiche, aber anders ver- • Fragestellungen, bei denen wichtige Teilas-
ursachte Problemkreis liegt vor, wenn die «Mor- pekte in kontrollierten Untersuchungen ge-
talität» durch die spezifischen Gegebenheiten prüft werden können; zum Beispiel Verständ-
der jeweils zu evaluierenden Maßnahmen be- lichkeit von Textvarianten, Akzeptanz von
einflußt wird. Ein Beispiel dafür ist der Ver- Werbemitteln, Prüfung der Benutzerfreund-
gleich von Schulorganisationsformen mit und lichkeit von Geräten. Hier ist eine echte Zu-
Planung von Evaluationsprojekten 127

Diagramm V/10
Übersicht über besonders wichtige Versuchspläne (vgl. Cook & Campell, 1976)

Quasi-experimentelles Design: Design mit entgegengesetztem Treatment,


Design mit unbehandelter Kontrollgruppe, nicht-äquivalenter Kontrollgruppe,
Vortest und Nachtest Vortest und Nachtest

¡1 X ¡2 ¡1 X+ ¡2
¡1 ¡2 ¡1 X

¡2

Design mit entfernten Treatments, Design mit wiederholtem Treatment


Vortest und Nachtest

¡1 X ¡2 ¡3 X ¡4 ¡1 X ¡2 ¡3 X ¡4

Selektives-Kohorten-Design

X ¡ 1. Kohorte ¡1 1. Kohorte
¡ 2. Kohorte X ¡1 2. Kohorte

Regressions-Discontinuity-Design mit Zeitreihenanordnung


Vor- und Nachtest
¡ 1¡ 2¡ 3¡ 4 X ¡ 5¡ 6¡ 7¡ 8

Zeitreihenmodell mit
⊕⊕
30 ⊕ ⊕ nicht-äquivalenter Kontrollgruppe
Nachtestwerte

⊕⊕⊕
⊕⊕⊕
⊕ ¡1¡2¡3¡4¡5 X ¡5¡6¡7¡8¡9¡10
10 ¡1¡2¡3¡4¡5 ¡5¡6¡7¡8¡9¡10
-10
-10 0 10 20 Vortestwerte Zeitreihenmodelle mit nicht-äquivalenten
abhängigen Variablen

¡1a¡2a¡3a X¡4a¡5a¡6a
¡1b¡2b¡3b X¡4b¡5b¡6b

Korrelationsdesigns • gekreuzte Panelstudie


• Pfadanalyse

a 0,8
X1 X1 A1 A2
b 0,6
d c 0,55 0,5
e 0,45
X1 f X1 B1 B2
0,8
128 Planung von Evaluationsprojekten

teilung nach Zufall zu den verschiedenen lich zugesagter Leistungen (was ja ein wesentli-
Gruppen möglich. ches Element des Qualitätsmanagement ist) zu
• Studien, die wegen der hohen Bedeutung der überprüfen, oder um Hinweise auf Schwach-
Ergebnisse unter Konsens aller Beteiligten stellen (in welchen Bereichen wurde die erwar-
trotz erheblicher praktischer Konsequenzen tete Leistung nicht erbracht?) zu geben. Es kann
randomisiert erfolgen können; typisch dafür aber daraus nicht abgeleitet werden, ob die eva-
sind etwa Prüfungen von Pharmazeutika, luierte Maßnahme tatsächlich die «Ursache»
wenn ein neues, vorgetestetes Präparat mit der Zielerreichung (oder der Zielverfehlung)
dem bisherigen Standardmittel im Doppel- war, da stets auf eine Vielzahl möglicher weite-
Blind-Versuch verglichen wird. Die Grenzen rer förderlicher oder das Ergebnis beeinträchti-
der zufälligen Zuteilung liegen dort, wo die gender Faktoren verwiesen werden kann. Für
unmittelbaren Folgen des Treatments für die manche Fragestellungen ist der Verweis auf sol-
Betroffenen gravierend sind (zum Beispiel bei che Drittvariablen allerdings nicht nahelie-
der Prüfung des Nutzens einer Vollampu- gend, vor allem bei der Überprüfung von Lei-
tation gegenüber einer brusterhaltenden stungen, die unmittelbar für Kunden bzw.
Operation bei Brustkrebs). Leistungsempfänger erbracht wurden (wenn
• Feldexperimente zu Fragen, die eine Grup- Teilnehmer ohne entsprechende Vorkenntnisse
penzuweisung nach (fast) zufälliger Auswahl zu einer drei-tägigen EDV-Schulung geschickt
erlauben, da die Probanden gar nicht wissen, werden, und danach die zugesagten Leistungs-
daß sie an einer Evaluationsstudie mitwir- ergebnisse im Abschlußtest erzielen, ist es kaum
ken; dies gilt etwa für die Bewertung von ver- glaubhaft, daß dies auf andere Faktoren als die
schiedenen Formen einer Seminargestaltung Trainingsmaßnahme selbst zurückgeht). Je we-
in der Weiterbildung bei zufälliger Aufteilung niger direkt aber die Wirkung der Maßnahmen
ohnehin vorhandener Parallelgruppen, das geprüft wird, um so problematischer wird der
Erproben verschiedener Interviewtechniken mögliche Einfluß von Zusatzaspekten. So wäre
oder, mit gewissen Einschränkungen bezüg- etwa im gewählten Beispiel die Feststellung des
lich der Gruppenäquivalenz, bei Maßnah- Trainingserfolges an zugesagten Transferleistun-
men zur Verkehrslenkung. gen (also die tatsächliche Nutzung der Lern-
inhalte in der beruflichen Praxis) schon wesent-
Solche Studien sind aus wissenschaftlich-me- lich weniger stringent auf das Training
thodischer Sicht natürlich besonders aussage- zurückzuführen, da positive Ergebnisse zum
kräftig, sollten aber wegen der für viele Frage- Beispiel durch die Hilfestellung von Vorgesetz-
stellungen unrealistisch hohen Anforderungen ten oder Kollegen erreicht werden können
nicht als die einzig zulässige Vorgehensweise (selbst bei einem völlig unzureichenden Trai-
angesehen werden. ning), und die Nicht-Erfüllung der Ergebnis-
vereinbarung auch bei hoher Trainingsqualität
durch Rahmenbedingungen (zu großer zeitli-
Sonderfall: Überprüfung der Zielereichung
cher Abstand zwischen Training und der tat-
Die hier diskutierten Designfragen stellen sich sächlichen Möglichkeit der Nutzung der
im Prinzip nicht, wenn das Ziel der Evaluations- Trainingsergebnisse durch vorübergehend feh-
studie (zum Beispiel im Rahmen des Qualitäts- lende technische Möglichkeiten am Arbeits-
managements, siehe Abschnitt 2.2.4) die Kon- platz, Widerstände gegen die Nutzung der
trolle des Erreichens eines vorher festgelegten Trainingsinhalte durch eine zum Beispiel sub-
Ergebnisprofils ist. Da in diesem Fall keine ver- jektiv verschlechtert erlebte Arbeitssituation bei
gleichende Evaluation vorliegt, erübrigt sich die Anwendung der neuen Kenntnisse, Behinde-
Notwendigkeit, durch entsprechende Designs rung des Trainingstransfers durch Vorgesetzte
aussagekräftige Gruppenvergleiche zu sichern. oder Kollegen, die auf das Beibehalten der bis-
Allerdings muß man sich bei einem solchen herigen Verfahrensweisen drängen und sofort)
Ansatz darüber im klaren sein, daß die damit verursacht werden kann. Es empfiehlt sich da-
erzielten Ergebnisse keinerlei Aussagen über her auch bei solchen Evaluationsstudien, die
Kausalursachen zulassen. Sie sind daher zum zunächst kein unmittelbares Designproblem
Beispiel gut geeignet, um die Erfüllung vertrag- stellen, mögliche fördernde oder hemmende
Planung von Evaluationsprojekten 129
Aspekte rechtzeitig in den Untersuchungsplan tung wichtigsten Faktoren kombiniert, ergibt
aufzunehmen um damit zumindest korrelativ, sich der im Diagramm V/11 dargestellte «Plan»,
wenn auch nicht kausal-experimentell, zu ei- der gegen alle Prinzipien der Auswertbarkeit (im
ner weiteren Aufklärung des Bedingungsgefüges Sinne des Allgemeinen Linearen Modells, vgl.
beitragen zu können. Ein solches Vorgehen ist dazu etwa Rochel, 1983) verstößt. Die Ursache
insbesondere dann unverzichtbar, wenn die dafür ist natürlich nicht Inkompetenz oder
Zielsetzung formativer Art ist, also eine Verbes- böser Wille der Verantwortlichen, sondern die
serung der Gestaltung der evaluierten Maßnah- bei Evaluationsstudien im Feld kaum vermeid-
men erfolgen soll. bare Berücksichtigung wissenschafts- bzw.
untersuchungsexterner Faktoren. Was soll der
Evaluator zum Beispiel tun, wenn aufgrund
Grenzen der Realisierbarkeit von
programmatischer Einstellungen der verant-
Idealforderungen
wortlichen Bildungspolitiker die Gesamtschu-
Wie schwierig die Erfüllung strenger Design- len in einem Bundesland praktisch nur in
forderungen selbst in sorgfältigen, mit hohem Ganztagsform realisiert wird, währendem sich
Aufwand durchführbaren Evaluationsstudien Ganztagsschulen im gegliederten Schulwesen
ist, zeigen etwa die «Konstanzer Studien» zur nicht repräsentativ finden?
Gesamtschulevaluation in den Bundesländern Außerhalb der summativen Evaluation kann
Niedersachsen, Hessen und Nordrhein-Westfa- man oft überhaupt nicht von einem «Versuchs-
len. Selbst wenn man nur für die Schulgestal- plan» sprechen (etwa bei antizipatorischer Eva-

Diagramm V/11
Beispiel eines unvollständigen, daher nicht auswertbaren Designs der Konstanzer
Studien (aus Wottawa, 1982)

a) Klasse 6

TS GS
Lehrer Lehrer

normal freiwillig normal freiwillig


ganztags 0 0 0 0
freiwillige halbtags 0 0 0 0
Schüleranmeldungen ganztags 0 0 0 0
normal halbtags NW 0 He 0

b) Klasse 9

TS GS
Lehrer Lehrer

normal freiwillig normal freiwillig


ganztags 0 0 0 0
freiwillige halbtags 0 0 0 0
Schüleranmeldungen ganztags 0 0 0 0
normal halbtags NW, NS 0 He 0

0 = diese Bedingungskombination wurde nicht erfaßt


He, NW, NS = diese Bedingungskombination wurde in Hessen, Nordrhein-Westfalen, Niedersachsen erfaßt
130 Planung von Evaluationsprojekten

luation), und für viele Fragestellungen der for- • eine Untersuchung nur deswegen als unwis-
mativen Evaluation entsprechen die realisier- senschaftlich abzulehnen und nicht durch-
ten «Designs» keinen vertretbaren Forderun- zuführen, weil sie aus unvermeidbaren, sach-
gen. Man denke etwa daran, daß im Laufe eines inhärenten Gründen den Designforderungen
längerfristigen Prozesses ein Therapeutenteam nicht voll entsprechen kann
die Details einer bestimmten Therapietechnik, • nicht alles zu tun, um die für die Vermei-
inklusive der dafür erforderlichen Indikations- dung von Störquellen sinnvollen Design-
stellung, optimieren möchte. Die Einhaltung forderungen soweit wie möglich zu errei-
von Versuchsplanbestimmungen, etwa eine chen
randomisierte Zuteilung von Personen, würde • eine veröffentlichte Evaluationsstudie nur
vor allem bei einer ausführlichen Indikations- deswegen negativ zu charakterisieren, weil
stellung an der Verfügbarkeit vergleichbarer sie idealen methodischen Anforderungen
Probanden in einem überschaubaren Zeitraum nicht entspricht.
scheitern. Gleiche Probleme finden sich bei vie-
len Arten der berufsbegleitenden formativen Dieser letzte Punkt ist von besonderer prakti-
Evaluation, zum Beispiel bei der Verbesserung scher Bedeutung bei Projekten, die aus überge-
des didaktischen Vorgehens von Lehrern, Ver- ordneten Gesichtspunkten heraus kontrovers
änderungen im Führungsverhalten von Mana- beurteilt werden, was für viele gerade gesamt-
gern oder die Fortentwicklung von Werbe- gesellschaftlich besonders relevante Vorhaben
maßnahmen. In diesen Fällen ist der zutrifft. Da sich bei größeren Vorhaben im Re-
entscheidende Zweck der Datenerhebung nicht gelfall nicht vermeidbare Methodenschwächen
eine vergleichende Bewertung im Sinne des oder der Zwang ergeben, entweder den einen
«Hypothesentestens», sondern soll primär heu- oder den anderen Nachteil in Kauf zu nehmen,
ristischen Wert haben, Hinweise auf mögliche ist eine darauf gestützte nachträgliche Kritik im
und sinnvolle Verbesserungsvorschläge liefern. Sinne einer Abwertung der Aussagekraft der
Solche dynamischen Prozesse widersetzen sich erreichten Ergebnisse praktisch immer möglich
im Regelfall einer wissenschaftlich exakten und damit letztlich nicht aussagekräftig. Das
Versuchsplanung. Problem ist, daß es andererseits natürlich auch
Evaluationsprojekte gibt, die wesentlich
schlechter als notwendig durchgeführt bzw.
Notwendig: Praktikable Kompromisse
weit überinterpretiert wurden und zu Schlüs-
Eine möglichst gute Kenntnis der Techniken sen kommen, die sich gerade auch aufgrund
der Versuchsplanung zur Vermeidung von Stör- der Methodenschwächen wirklich nicht auf
effekten ist eine unverzichtbare kognitive die gefundenen Daten stützen lassen. Ob es
Grundlage für ein sinnvolles Arbeiten im Be- sich im Einzelfall um eine professionell sehr
reich von Evaluationsprojekten. Man darf nur gute, unter den gegebenen Rahmenbedingun-
nicht den Fehler machen, «sklavisch» an den gen ptimale Designlösung handelt oder eine
entsprechenden, von der Grundlagenforschung auch fachlich sehr schwache Studie vorliegt,
her geprägten Vorbildern zu hängen. Diese sind kann auf der Basis des veröffentlichten Berich-
zwar bei entsprechenden Voraussetzungen op- tes oft nicht entschieden werden, da dort die
timale Bearbeitungswege, aber in keiner Weise schwierige Hintergrundsituation häufig nicht
die einzige Möglichkeit, heuristisch verwertbare mehr ausreichend dargestellt ist (bzw. der Ver-
Informationen zu sammeln. Nur für den relativ dacht entstehen kann, daß Schwierigkeiten
kleinen, aber das Bild des Evaluators zumindest aufgebauscht werden, um unnötige methodi-
in der Literatur stark prägenden Teilbereich sche Schwächen im Nachhinein zu rechtferti-
summativer Evaluation können Idealvorstel- gen). Für die Abwägung zwischen den beiden
lungen bezüglich der Designs gelegentlich wirk- Übeln «Ungerechtfertigte Kritik» und «Kritik-
lich realisiert werden. In den übrigen Fällen lose Hinnahme nicht vertretbarer Studien»
stellen die Designforderungen häufig nur eine fehlen derzeit professionelle Standards, die
Denkhilfe in Form eines nicht-erreichbaren Ide- vielleicht bei einer qualitativen und quantita-
als dar, dessen Annäherung man soweit wie tiven Zunahme von praktisch tätigen Evalua-
möglich versuchen sollte. Falsch wäre es: toren allmählich entstehen werden.
Planung von Evaluationsprojekten 131
5.2.3 Datenerhebungsverfahren • Die Konstrukte, für die die jeweiligen Test-
verfahren Operationalisierungen darstellen,
Auf die besondere Problematik einer sinnvol- sind überwiegend nach den Bedürfnissen der
len Definition der jeweiligen Bewertungs- Forschung oder der Diagnostik ausgewählt;
kriterien wurde bereits im Abschnitt 4.2.3 ver- sie decken oft nicht den Operationalisie-
wiesen. Für die konkrete Erhebung der jeweils rungsbedarf von Evaluationsprojekten ab. Als
ausgewählten Kriterien stellt sich das aus Beispiel: Um einen Schüler mit Schwierigkei-
grundlagenwissenschaftlicher Sicht bedauerli- ten im Sprachbereich zu helfen, ist für die
che Problem, daß nicht selten gilt: Je exakter Differentialdiagnose ein die einzelnen Berei-
die Art des Meßverfahrens, um so geringer der che der Sprachbeherrschung ausdifferenzie-
praktische Nutzen. rendes Testverfahren von großem Vorteil –
aber wie faßt man Wortschatz, Satzstruktur,
Beherrschung der Zeitformen, Wortflüssig-
Tests bzw. Fragebögen
keit etc. zu einer Maßzahl zusammen, die die
Evaluation zweier verschiedener Lehrbuch-
Aus Gründen der Exaktheit besonders wün-
varianten gestattet?
schenswert wären sorgfältig konstruierte (psy-
• Der Zusammenhang zwischen Testwert und
chologische) Testverfahren, die einer problem-
Nutzen (vgl. Abschnitt 4.3.1) ist entweder
adäquaten Testtheorie genügen. Es dürfte aber
überhaupt nicht bekannt oder dem Auftrag-
kaum Evaluationsprojekte geben, in denen es
geber zumindest schwer vermittelbar; was
möglich ist, den dafür erforderlichen Konstruk-
würde es zum Beispiel an praxisrelevanten
tionsaufwand zusätzlich zu den sonstigen Ar-
Nutzen bedeuten, wenn ein Führungskräfte-
beiten abzudecken. Man ist daher im Regelfall
training im Durchschnitt bei den Teilneh-
darauf angewiesen, auf vorhandene Meßverfah-
mern eine Steigerung des Faktors Q2 im 16
ren oder einfachere Konzepte zurückzugreifen.
PF um einen Staninwert (eine Normierungs-
Die üblichen, am Markt erhältlichen Testver-
art, bei der den Prozenträngen 0 bis 10 der
fahren sind aus naheliegenden Gründen entwe-
Wert 1, zwischen 11 und 20 der Wert 2 etc.
der für Forschungszwecke (mit starker Anlehnung
zugeordnet wird) erbringt?
an theoretisch-psychologische Konstrukte) oder
für angewandt-diagnostische Fragen entwickelt
In Anbetracht dieser Sachlage gibt es nur weni-
worden, nicht für Evaluationszwecke. Dies be-
ge Bereiche, in denen der Einsatz von wissen-
reitet insbesondere folgende Probleme:
schaftlich konstruierten «allgemeinen» Testver-
• Oft geringe Änderungssensitivität; meist sind fahren wirklich empfehlenswert ist. Häufig
die Items so ausgewählt, daß sie auch eine finden sich solche Evaluationsprojekte in den
hohe Testwiederholungsreliabilität zeigen, USA für den pädagogischen Bereich, da dort
und damit gerade nicht kurzfristig fluk- Tests auch als schulische Prüfungen eingesetzt
turierende, leichter einer Intervention zu- werden (vergleichbar damit ist in der Bundesre-
gängliche Aspekte erfassen (besonders deut- publik Deutschland etwa die Bewertung der
lich im Intelligenzbereich). Ausbildung verschiedener medizinischer Fakul-
• Die Länge der Testverfahren ist auf die Be- täten anhand der bundesweit einheitlichen
dürfnisse der Einzelfalldiagnostik abgestellt, Prüfungen im ersten medizinischen Staatsex-
so daß sie für maßnahmebezogene Evaluati- amen), zum gleichen Zweck können auch die
on (die auf der Basis von Gruppendaten er- Bundesländer mit Zentralabitur (in manchen
folgt) häufig unter Effizienzaspekten zu auf- Bundesländern, zum Beispiel Baden-Württem-
wendig sind; die Reduktion der Testlänge berg, werden in jedem Jahr für das ganze Land
verändert aber, soweit nicht aufgrund des je- gleiche Abituraufgaben gestellt) diese Arbeiten
weiligen Verfahrens von einer annähernden heranziehen, ohne daß dort der Anspruch an
Parallelität der einzelnen Items auszugehen «Testkonstruktion» bei den Prüfungsaufgaben
ist, auch die inhaltlichen Aspekte und beein- erfüllt wäre. Für manche therapeutische Inter-
trächtigt somit stark die Bezugnahme auf die ventionen bei Kindern können Entwicklungs-
wissenschaftlichen Grundlagen und sonsti- bzw. Reifetests eingesetzt werden, bei Erwach-
ge mit dem Test gewonnenen Erfahrungen. senen wird man häufig mit speziellen Konstruk-
132 Planung von Evaluationsprojekten

tionen (etwa GAS, vgl. Diagramm IV/8) vorteil- tensbeobachtung und mündliche Interviews)
hafter arbeiten. wesentlich kostengünstiger ist. Einige beson-
Das Bestreben vieler Evaluatoren, objektive ders wichtige Probleme, wie sie bei Fragebögen
Testverfahren einzusetzen, ist verständlich. wissenschaftlich untersucht sind, finden sich
Man muß aber auch die Grenzen der Möglich- im Diagramm V/12. Auch bei sorgfältiger Gestal-
keiten dieser Instrumente zumindest bei ihrem tung kann natürlich nicht verhindert werden,
derzeitigen Entwicklungsstand sehen, und es daß man immer nur die (Selbst-) Einschätzung
kann sinnvoller sein, mit einer «weichen», we- der Befragten erfährt und damit der Verhaltens-
niger exakten und elaborierten Methode ein in- und Praxisbezug immer angezweifelt werden
teressantes Kriterium zu messen als mit hoher kann.
Präzision etwas, was inhaltlich nicht zu den ei-
gentlichen Evaluationszielen paßt. Allerdings
ist der «Verteidigungswert» von sog. bewährten Beobachtung
Testverfahren gegen spätere Kritik höher als bei
ad-hoc konstruierten Instrumenten. Die Vermeidung der «Realitätsferne», die man
Testergebnissen und Fragebögen zuschreiben
Eine etwas weniger fundierte Meßmethode ist kann, ist mit Methoden der Verhaltens-
der Versuch, im Rahmen des Evaluations- beobachtung möglich (vgl. etwa König, 1972).
projektes Fragebögen für die interessanten Diese Methoden sind dann ideal, wenn der
Variablen selbst zu konstruieren. Oft ist dies das technische Aufwand bewältigbar ist und sich
einzig denkbare Vorgehen, da die schriftliche die Evaluationskriterien wirklich auf beob-
Vorgabe von Fragebögen gegenüber den Wer- achtbare Verhaltensweisen beziehen. Typische
ten unter besprochenen Alternativen (Verhal- Beispiele:

Diagramm V/12
Probleme der Fragebogenkonstruktion (nach König, 1972)

• Klärung der Frage, welche Auskünfte von den Befragten gewünscht werden
• Klärung der Frage, an welche Personen-(Gruppen) sich der Fragebogen richten soll
• Wahl des testtheoretischen Ansatzes (Modellwahl)
• Auswahl der einzelnen Fragen; die verschiedenen Einzelfragen müssen so aufeinander abgestimmt werden, daß
eine logische Fortentwicklung der Fragen gegeben und somit ein einheitliches Ganzes vorhanden ist.
• Formulierung der Fragen
1. Wahl assoziationsarmer, unbelasteter und subgruppenspezifischer Formulierungen sowie einfacher und klarer
Syntax
2. Bei heiklen Themen: Formulierung muß so gewählt werden, daß der Befragte bei bestimmten Antworten keinen
Prestigeverlust befürchten muß und somit Abwehrmechanismen auf ein Mindestmaß beschränkt werden können
3. Verwendung offener vs. geschlossener Fragen
4. Wahl der möglichen Antwortalternativen (bei geschlossenen Fragen) Dichotomie vs. Auswahl zwischen meh-
reren Möglichkeiten
5. Verwendung indirekter oder direkter Frage (Face-Validität für die Befragten)
6. Probleme, die sich bei indirekten Fragen ergeben: Selbstdarstellungstendenzen oder Fragebeantwortung im
Hinblick auf soziale Erwünschtheit von Seiten der Befragten, Widerstände des Respondenten, etc.
7. Probleme die sich bei direkten Fragen ergeben: Probleme, die Gültigkeit derartiger Fragen zu bewerten
8. Fragen müssen so formuliert werden, daß die Befragten zur Mitarbeit bereit sind
9. Fragen dürfen nicht die ggf. vorhandenen Erwartungen des Testkonstrukteurs widerspiegeln
• Anzahl der Fragen und Stellung der Fragen in der Fragenfolge (Abfolge von den einfacheren zu den komplizier-
teren Fragen, Berücksichtigung potentieller Ermüdungseffekte bei exzessivem Fragenumfang
• Aufzeichnung der Fragebogendaten
1. Feldverschlüsselung
2. wörtliche Aufzeichnung
3. Gewichtung der verschiedenen Antwortalternativen
Planung von Evaluationsprojekten 133
• Verhaltenstherapien, etwa hinsichtlich pho- mierung der jeweiligen Maßnahmen geben
bischer Reaktionen können, müssen von Beobachtern im Nachhin-
• Trainings in Sozialtechniken, etwa Diskus- ein in die objektiv beobachtbaren Fakten hin-
sionsverhalten, Kommunikationstechniken eininterpretiert werden, was natürlich zu Ver-
oder Gesprächsführung zerrungen führen kann.
• Lehrverfahren oder Lehrmethoden mit ko-
gnitiven Inhalten und unmittelbarer Hand-
lungsrelevanz, etwa die Bedienung von Interviewtechniken
Maschinen, EDV-Anlagen oder auch die
«Postkorb-Übung» aus dem Assessmentcenter. Für die Erfassung der subjektiven Erklärungen
für das Verhalten sowie generell für sehr kom-
Für diese Beispiele wird es angemessen sein, das plexe kognitive Strukturen und deren Verände-
Verhalten unmittelbar (etwa die Reaktion auf rungen ist das offene oder teils strukturierte
einen vorher massiv Angst auslösenden Reiz, Interview ein sehr aufwendiges, aber unver-
Aufbau und Durchführung eines Vortrages, die zichtbares Hilfsmittel. Hinweise dazu gibt Dia-
Art des Umganges mit der Maschine) zu erhe- gramm V/13.
ben anstatt indirekt über Fragebögen oder Tests Bei normaler Gesprächsführung bleibt für die
Meinungen bzw. Kompetenzen zu erfassen. Interpretation der subjektiv gesehenen Zusam-
Was Verhaltensbeobachtungen aber nicht di- menhänge ein für Evaluationsfragestellungen
rekt leisten können, ist die Erfassung der sub- manchesmal nicht vertretbarer Spielraum des
jektiv gesehenen Zusammenhänge und Ursa- Interviewers, so daß sich der Einsatz spezieller
chen für die jeweilige Verhaltensweise. Diese Techniken empfiehlt, wenn gerade die Verän-
Strukturen, die vor allem Hinweise auf Opti- derung solcher subjektiven Theorien das Ziel

Diagramm V/13
Das Interview – Grundbegriffe und Probleme (König, 1972)

Aufgaben des Interviews


• Entdeckung: Auffinden der relevanten Variablen, die zur Herstellung der theoretischen Zusammenhänge benö-
tigt werden oder die eine Abgrenzung der relevanten Befragtengruppen erlauben
• Messung: von Ausprägung der Variablen. (Mit welcher Häufigkeit sind bestimmte Variablen in einer bestimm-
ten Population verteilt?)
• Interpretation u. Verfeinerung statistischer Beziehungen: Deutung unerwarteter Korrelationen oder sog. «Aus-
reißer-Fälle»
Formen
Unterscheidung strukturiert – unstrukturiert bezieht sich darauf, ob ein Fragebogen verwendet wird
• strukturiert: mit Fragebogen, Inhalt, Anzahl u. Reihenfolge der Fragen festlegt
• unstrukturiert: kein Fragebogen oder nur Gesprächsleitfaden, hoher Freiheitsspielraum. Fragen sind dem
Befragten jeweils individuell anpaßbar
Unterscheidung geschlossene – offene Fragen bezieht sich auf die Form der einzelnen Fragen
• geschlossen: Auswahl der zutreffenden Alternativen aus einer Reihe von Antwortmöglichkeiten
• offen: erfordert freies Antwortverhalten
Unterscheidung standardisiert – nicht-standardisiert. Bezieht sich auf die Verwendung von Antwortkategorien
• standardisiert: individuelle Antworten nach Kategorien geordnet, sodaß sich für die befragte Gruppe Häufig-
keitsverteilungen ergeben
• nicht-standardisiert: Verzicht auf Kategorisierung, nur sinnvoll, wenn auf Häufigkeitsverteilungen und Ver-
gleichbarkeit verzichtet werden kann.
Unterscheidung weiches, neutrales, hartes Interview, anhängig davon, wie autoritär der Interviewer das Interview
leitet.
• Problem: Einfluß des Interviewers (Auftreten, Art d. Frageformulierung, Tonfall, etc.), Einfluß d. Situation
(Störfaktoren wie Lärm, unerwartete Unterbrechungen durch Telefonanrufe während des Interviews, etc.)
• Ist die Vergleichbarkeit der Einzeldaten derart garantiert, daß sie tatsächlich als Häufigkeiten bestimmten
Variablen zuordbar sind?
• Entsprechen die erhobenen Daten normalen, alltäglichen Verhaltensweisen u. Einstellungen der Befragten
oder spiegeln die Daten lediglich Artefakte wider?
134 Planung von Evaluationsprojekten

von Interventionsmaßnahmen sind. Dafür ste- an Einsparungen sind durchaus realistisch. Die-
hen u.a. die Verfahren zur Verfügung, die schon ses Vorgehen sollte daher insbesondere dann
in 4.2.3 (Diagramm IV/6 und IV/7) besprochen gewählt werden, wenn die Probanden stark be-
wurden. lästigt oder gar geschädigt (und sei es nur in
Form des Unterbleibens einer an sich mögli-
Die Fülle der im sozialwissenschaftlichen Be- chen besseren Förderung) werden. Da dadurch
reich eingeführten Erhebungsmethoden konnte überdies wesentliche Kosten eingespart werden,
hier nur in dieser groben Form vorgestellt wer- sollte sie für viele Evaluationsstudien das be-
den, ausführlichere Einblicke gibt etwa Bortz, vorzugte statistische Herangehen sein. Aller-
1984. dings gibt es auch Gründe, die dagegen spre-
chen:
• Die Kosten der Datenerhebung sind nicht im
5.3 Auswertungsverfahren Vornherein kalkulierbar; die Probandenzahl
hängt ja, im Gegensatz zu festen Stich-
Die vorgesehenen Auswertungsverfahren soll-
probengrößen, von den erst zu erhebenden
ten schon in der Planungsphase möglichst ge-
Resultaten ab.
nau mit dem Auftraggeber abgesprochen wer-
den – zumindest dann, wenn dieser überhaupt
• Gerade wegen der Einsparung von Personen
liefert die Sequentialstatistik oft schon signi-
bereit ist, sich auf solche «Detailfragen» einzu-
fikante Ergebnisse, wenn erst eine der «üb-
lassen. Ganz besonders gilt die Notwendigkeit
lichen» Gepflogenheiten nach zu geringe
der Vorabsprache für die prinzipielle Entschei-
Stichprobengröße erreicht ist; die konkreten
dung, ob überhaupt statistisch vorgegangen
Erfahrungen zeigen, daß die Auftraggeber
werden soll oder eine eher beschreibend-ver-
manchmal erhebliche Schwierigkeiten ha-
stehende, hermeneutische Vorgehensweise ge-
ben, eine solche «zu kleine» empirische Stu-
wünscht wird.
die zu akzeptieren (vor allem dann, wenn
Ein wichtiger Punkt, sofern man statistisch
die Ergebnisse nicht der Vorerwartung ent-
vorgehen möchte, ist die Entscheidung zwi-
sprachen); hier ist rechtzeitige Aufklärung
schen festen Stichprobengrößen oder Sequen-
vor Bekanntsein der Ergebnisse unverzicht-
tialstatistik. Bei der letzteren wird nicht von
bar!
vorn herein die Anzahl der zu untersuchenden
Personen festgelegt, sondern die Hypothesen-
• Die Sequentialstatistik erfordert mehr Vor-
überlegungen, insbesondere bezüglich der
prüfung schrittweise, nach jeder neu untersuch-
Alternativhypothesen: Dies kann, vor allem
ten Person nochmals durchgeführt. Darin liegt
bei mehrdimensionalen Ho Schwierigkeiten
ein erheblicher Vorteil: Bei festen Gruppen-
machen.
größen kann es sein, daß eine Signifikanz nur
deswegen nicht auftritt, weil man ein paar Pro-
banden zuwenig eingeplant hat. Tatsächlich Für weitere Details zur Sequentialstatistik siehe
sind ja die Trennschärfe-Abschätzungen, die die etwa Wald, 1947; Bauer et al., 1986. Auf die
Grundlage für eine sinnvolle Bestimmung der Schwierigkeiten, diese Verfahren trotz offen-
Gruppengrößen bieten könnten, meist nur sichtlicher theoretischer und pragmatischer
schwach fundiert und werden überdies in der Überlegenheit im sozialwissenschaftlichen Be-
Forschungspraxis nur selten überhaupt einge- reich verstärkt einzuführen, verweist Diepgen,
setzt (s. dazu Gigerenzer, 1989). Ebenso schade 1987.
ist es, wenn man viel zu viele Personen unter- Es ist natürlich unmöglich, im Rahmen eines
sucht, etwa mehrere hundert, und die statisti- allgemeinen Evaluationsbuches alle methodi-
sche Absicherung der Effekte schon mit einem schen Ansätze im Detail darzustellen. Im fol-
Bruchteil davon möglich gewesen wäre. genden finden sich zunächst einige Ausführun-
Da die Sequentialstatistik garantiert, daß ge- gen über das Problem von Effektstärken (5.3.1),
rade soviele Daten erhoben werden, wie man die leider häufig durch bloßes Signifikanztesten
zur Entscheidungsfindung benötigt, reduziert ersetzt werden; daran anschließend werden ei-
sie die durchschnittlich erforderlichen Proban- nige für den Evaluationsbereich wichtige Be-
denzahlen ganz enorm, Angaben über ca. 2/3 sonderheiten linear-statistischer Verfahren be-
Planung von Evaluationsprojekten 135
sprochen (5.3.2), da diese für die Auswertung die Mittelwert und Standardabweichung festle-
von Evaluationsprojekten eine quantitativ be- gen und die Einzelergebnisse in Relation dazu
sondere Bedeutung haben. Im letzten Abschnitt umformen.
(5.3.3) wird ein kurzer Überblick über wichtige Welche Festlegung von Mittelwert und Stan-
qualitative Verfahren gegeben, die insbesondere dardabweichung man wählt, ist aber im Prin-
für die Auswertung «weicher» Daten (Nominal- zip willkürlich. Häufig (vgl. Lienert, 1969) sind
skalen oder überhaupt keine explizite Messung, z-Werte (Mittelwert 0, Standardabweichung 1),
wie sie bei Interviewergebnisse häufig ist) Be- T-Werte (50 bzw. 10) und Standardwerte (100
deutung haben. bzw. 10). Ein z-Wert von 1 entspricht also ei-
Fundierte Einblicke in die Fülle im Rahmen nem T-Wert von 60 (Mittelwert eine Standard-
der sozialwissenschaftlichen Evaluationsfor- abweichung) und einem Standardwert von 110.
schung relevanten Methoden geben etwa Cook Sachlich sind alle drei Darstellungen äquiva-
und Reichard, 1979 oder Bortz, 1993. lent.
Diese Vergleichbarkeit gilt aber nicht für die
Aufnahme der Information bei «Laien» oder gar
5.3.1 Beurteilung der Effektstärke den Medien. Hat etwa ein Schulsystem in ei-
nem Bewertungskriterium gegenüber der
Für viele Fragestellungen im Zusammenhang Normstichprobe einen Wert erhalten, der eine
mit Evaluationen genügt es nicht zu wissen, halbe Streuung unter dem Mittelwert der
daß ein Effekt besteht, sondern man möchte Normstichprobe liegt, und das andere System
auch Angaben darüber, wie groß zum Beispiel ein genau dem Norm-Mittelwert entsprechen-
der Unterschied zwischen zwei Programm- des Ergebnis, so würde dies in z-Werten «0,5»
varianten ist. Leider ist diese Frage viel kompli- bzw. «0,0» bedeuten. Für Laien wäre schon die
zierter, als man zunächst meinen sollte. Die Vorstellung einer negativen Schulleistung ab-
mangelnde Vertrautheit mit der (für psycholo- surd, und daß ein Leistungswert von genau
gische bzw. sozialwissenschaftliche Meßinstru- Null etwas Gutes sein könnte, wäre für viele
mente selbstverständlichen) Skalenproblematik schwer vorstellbar. Betrachtet man nur die Dif-
in der Öffentlichkeit bzw. bei den Nutzern der ferenz der beiden Systeme, so entsteht bei ei-
Projektergebnisse, die Verwechslung von Signi- nem Wert von 0,5 eigentlich der Eindruck ei-
fikanz und Relevanz, sowie die häufige Fehlin- nes vernachlässigbaren («Hinter dem Komma»)
terpretation von statistischen Kennzahlen Unterschiedes. Etwas anderes wäre der gleiche
durch Laien erschwert wesentlich eine sachge- Sachverhalt mit Standardwerten. Für das zwei-
rechte Kommunikation der Evaluationsergeb- te System klingt die Angabe von 100 (statt 0)
nisse. eigentlich nach völliger Soll-Erfüllung, und eine
Differenz von fünf Punkten (vermutlich als
«5%» völlig fehlinterpretiert) klingt ja halbwegs
Normierte Skalenwerte beachtlich.
Gerade unter dem Gesichtspunkt der Öffent-
Sofern man von einer sorgfältigen Messung lichkeitswirkung hat es sich in den USA einge-
durch Tests, Fragebögen oder Verhaltens- bürgert, die Evaluationsergebnisse von Schul-
beobachtungen ausgehen kann, ist in sozial- untersuchungen (zum Beispiel alljährliche
wissenschaftlichen Projekten das Meßniveau Leistungsveränderungen) auf einer Skala anzu-
auf Intervallskalenniveau erreichbar. Bei diesen geben, deren Mittelwert 350 und die Standard-
sind beliebige lineare Transformationen mög- abweichung 50 beträgt. Auf dieser Skala wäre
lich, ohne daß die inhaltliche Aussage verän- das hier beispielhaft verwendete Ergebnis 325
dert würde. zu 350, und 25 Punkte weniger ist ja durchaus
Man benützt dies, um die an sich ohne Zu- beachtlicher als 0,5 z-Werte, zumindest für den
satzinformation nicht interpretierbaren Ereig- Laien.
nisse (was heißt es, wenn in einem Test eine
Probandengruppe im Mittel 18, die andere 25 Es kann keine «richtige» Normierung geben, da
Punkte erreicht hat?) zu standardisieren. Am die entsprechenden Setzungen bei Intervall-
gebräuchlichsten sind dafür Vorgehensweisen, skalen eben willkürlich sind. Vielleicht wäre es
136 Planung von Evaluationsprojekten

sinnvoll, sich auf eine Skala bei öffentlichen prägungsgraden auf den Parameterdimensio-
Darstellungen zu einigen, damit allmählich ein nen) genau eine vorher prognostizierte Kugel
Gefühl für die Bedeutung von zum Beispiel 10 zu ziehen. Das Auftreten eines signifikanten Er-
Standardwerten entsteht. Verwenden sollte gebnisses hängt daher im wesentlichen von der
man die normierten Werte bei der Ergebnis- Trennschärfe des Vorgangs ab, also insbeson-
darstellung vor allem dann, wenn die Adressa- dere von der Genauigkeit der Messung und der
ten über eine entsprechende Vorbildung ver- Anzahl der herangezogenen Versuchspersonen.
fügen. In jedem Fall sind normierte Werte Mit steigender Stichprobengröße führen auch
günstiger als die Roh-Punkte, da diese auch von immer kleinere Unterschiede zwischen den zu
Fachleuten ohne Zusatzinformationen (die eine evaluierenden Maßnahmen zu einem signifi-
implizite Normierung ermöglicht) nicht inter- kanten Resultat.
pretiert werden können. Im Bereich der (psychologischen) Grundla-
genforschung ist dieses Phänomen deswegen
nicht allzu gravierend, weil aus Gründen des
Signifikant = relevant? Aufwandes meist nur eine sehr kleine Zahl von
Probanden untersucht werden kann, so daß in
Zusätzlich zum Ausmaß gefundener Unter- einer an sich statistisch nicht vertretbaren, aber
schiede muß geklärt werden, ob diese vielleicht praktisch plausiblen Schlußweise von einer Si-
nur durch Zufallsschwankungen in der Stich- gnifikanz (unter der Nebenbedingung eben
probenziehung in der gefundenen Größe auf- kleiner Stichproben) auf das Bestehen eines
treten können, also nicht als gesicherte, von nicht unerheblichen Unterschiedes zwischen
Null verschiedene Befunde zu interpretieren den Versuchsgruppen indirekt geschlossen wer-
sind. Dazu bedient man sich der bekannten den kann. Da aber bei zahlreichen Evaluations-
Methoden der statistischen Inferenz. Die (in projekten die Stichproben sehr groß sind (man
vieler Hinsicht bedauerlicherweise) häufigste denke etwa an die vielen hundert Schüler bei
statistische Testtheorie für die Auswertung psy- Schulvergleichsuntersuchungen oder die übli-
chologischer oder sozialwissenschaftlicher Stu- cherweise 1000 bis 2000 Personen umfassen-
dien geht auf Neyman-Pearson zurück. Die den Umfragen für Rückschlüsse auf allgemein
Grundidee (vgl. dazu ausführlicher Bortz, 1979) wirksame Maßnahmen wie etwa Aufklärungs-
solcher Auswertungen in den meisten Anwen- oder Werbekampagnen) werden auch viele
dungen aus dem Grundlagenbereich ist, daß sachlich irrelevante Unterschiede «sehr hoch
man zunächst eine Hypothese (Ho ) aufstellt, an signifikant». Die statistische Signifikanz kann
die man ohnedies nicht glaubt (zum Beispiel in solchen Fällen nur eine notwendige Bedin-
kein Unterschied zwischen verschiedenen Maß- gung (wenn der Effekt nicht einmal gegenüber
nahmen) und sich dann freut, wenn die schon zufälligen Unterschieden gesichert ist, sollte
inhaltlich unplausible Null-Hypothese auf- man ihn nur äußerst vorsichtig interpretieren)
grund der empirischen Beobachtungen falsifi- aber niemals als hinreichend verstanden wer-
ziert werden kann (es also doch Unterschiede den. Für ausführlichere Darstellungen zum Si-
zwischen den Maßnahmen gibt). Die Freude ist gnifikanz-Testen vgl. etwa Clauß und Ebert,
voll berechtigt, da sie im wesentlichen aussagt, 1972; Siegel, 1956.
daß der Untersucher ausreichend viel und
gründlich gearbeitet hat – unter den üblichen
Stetigkeitsannahmen (kontinuierliche Para- Interpretation deskriptiver Kennzahlen
meterdimension, unendliche Population) ist
die Chance, daß es tatsächlich keinen Unter- Um unabhängig bzw. ergänzend zur zufalls-
schied zwischen den Maßnahmen in der kritischen Absicherung deskriptive Aussagen
Population gibt (also die Differenzen aller über die Stärke der nachgewiesenen Effekte er-
Populationsparameterwerte exakt null sind) halten zu können, wurden in der Statistik ver-
verschwindend gering bzw. überhaupt null. Sie schiedene Maßzahlen entwickelt, die aber auch
entspricht der Wahrscheinlichkeit, aus einer zum Teil Probleme mit sich bringen, wenn man
Urne mit unendlich vielen Kugeln (entspre- sie falsch anwendet oder unzulässig interpre-
chend den unendlich vielen möglichen Aus- tiert (s. dazu Stelzl, 1982).
Planung von Evaluationsprojekten 137
Auch bzgl. dieser Kennziffern bestehen gele- Überlegungen über die unterschiedlich intel-
gentlich erhebliche Interpretationsunsicher- lektuelle Anregung eines Einzelkindes, des
heiten. Um nur 2 Beispiele herauszugreifen: zweiten, in die Familie hinzukommenden
Kindes usf., unter Beachtung der Altersab-
• Ein t-Wert von 2,0 oder 3,0 gilt schon als stände). Auf dieser Basis konnte ein Modell
«massives» Ergebnis; tatsächlich ist aber
erarbeitet werden, dessen Vorhersagen mit
selbst dann die Überschneidung zwischen
den Testwerten zu 0,94 korrelierte, was über
den beiden verglichenen Gruppen beträcht-
der erwartbaren Testreliabilität liegt. Die Er-
lich (s. Wottawa, 1981). Wie man dort sieht,
klärung dafür ist, daß die Daten von fast
sind auch «sehr hoch signifikante» Ergebnisse
400 000 Rekruten verrechnet wurden und
mit ganz massiven Überlappungen behaftet,
das Modell nicht für Einzeldaten, sondern
so daß eine Verallgemeinerung des gesicher-
für die Mittelwerte der Kombinationen von
ten Mittelwertunterschiedes auf Unterschiede
Familiengröße und Geburtsreihenfolge Vor-
der Einzelpersonen nur sehr bedingt erfol-
hersagen leistet. Jeder der 35 «Datenpunkte»
gen kann. Das Ergebnis darf dann nicht lau-
faßte also die Werte von Tausenden Einzel-
ten «Die Angehörigen der Gruppe A zeigten
beobachtungen zusammen, was die Fehler-
höhere Werte als die der Gruppe B» sondern
varianz entsprechend stark reduziert. Auf die-
«Der Mittelwert der einen Gruppe ist höher
ser Basis gewonnene Korrelationen werden
als der der anderen». Es ist manchesmal nicht
mit steigender Stichprobengröße nicht aus-
ganz einfach, den Auftraggeber (oder bei poli-
sagekräftiger, sondern verlieren im Gegensatz
tisch relevanten Maßnahmen gar die interes-
zur Anschauung gerade mit höheren Fall-
sierte Öffentlichkeit) auf die für praktische
zahlen immer mehr Wert als Ausdruck der
Bewertung von Ergebnissen nicht unerheb-
Effektstärke eines Phänomens. Dieses eigent-
lichen Unterschiede dieser beiden Formulie-
lich elementare statistische Phänomen ist für
rungen hinzuweisen und den Sachverhalt
die Evaluationsforschung deswegen von be-
aufzuklären.
sonderer Bedeutung, da dort meistens Maß-
• Selbst so vertraute Maße wie die Korrelation nahmen auf der Basis von Mittelwerten (etwa
machen erhebliche Schwierigkeiten; man von Schulklassen oder therapeutischen Indi-
denke an das Problem, einem sozialwissen- kationsgruppen) bewertet werden und sich
schaftlichen Laien klarzumachen, warum der daher die Verwendung entsprechender
gleiche Sachverhalt einmal mit einer Korre- Bestimmtheitsmaße auf dieser Grundlage an-
lation von 0,7 (für den Laien: «Über Zwei- bietet.
drittel»), das andere Mal mit einem Be-
stimmtheitsmaß von 0,49 («weniger als die Neben dieser statistisch-technischen Effekte,
Hälfte») beschrieben wird oder was eigent- die zu einer Fehlinterpretation meist im Sinne
lich der Begriff «Varianzaufklärung» bedeu- einer Überschätzung der Aussagekraft der Stu-
tet. Methodisch interessanter ist die Möglich- die führen, scheint die Verarbeitung multivaria-
keit, insbesondere multiple Korrelationen ter Information Schwierigkeiten zu machen. So
(oder Bestimmtheitsmaße) durch die Ver- ist man zum Beispiel gewöhnt, eine durchaus
wendung von Mittelwerten anstelle von Ein- brauchbare Information über eine Stichprobe
zeldaten in der Regressionsgleichung nahezu durch ein Maß der Zentraltendenz, insbeson-
beliebig zu erhöhen. Da bereits durch das dere den Mittelwert, zu erhalten. Es dominiert
bloße Ausmitteln von Meßfehlern bei einem die (implizite) Vorstellung, daß sich die Meß-
solchen Vorgehen die Varianz der abhängi- werte meistens irgendwie eingipfelig, wenn
gen Variablen stark reduziert wird, können schon nicht unbedingt nach der Gauß-Vertei-
dabei Korrelationen in der Größenordnung lung (die ja aus diesen Gründen auch «Normal-
der Testreliabilität (auf der Basis der Einzel- verteilung» genannt wird) um diesen Wert
personen berechnet!) auftreten, ein Beispiel herum gruppieren. Diese Vorstellung stimmt
dieser Art findet sich etwa bei dem Kon- schon im univariaten Fall oft nicht (so ist zum
fluenzmodell (Zajonc, 1979). Bei diesem wird Beispiel der Mittelwert bei extrem zwei-
die Intelligenz auf Grund der Familien- gipfeligen Verteilungen besonders weit von al-
konstellation vorhergesagt (vor allem durch len tatsächlich gefundenen Meßwerten ent-
138 Planung von Evaluationsprojekten

fernt), völlig unübersichtlich wird es im multi- ter, übersichtlicher Form geben, um die spätere
variaten Fall. Als Anschauungshilfe werden ge- Zusammenfassung in dieser Form zu erleichtern.
legentlich optische Darstellungen verwendet,
etwa die «Cherkoff-Gesichter». Dies sind einfa-
che Strichzeichnungen, die Ausprägungen der 5.3.2 Auswertungsverfahren auf
Einzelheiten (etwa der Augenabstand, die Au- der Basis allgemeiner linearer
gengröße, Krümmung des Mundwinkels etc.) Modellansätze
entsprechen den Ausprägungsgraden der ein-
zelnen Variablen (siehe dazu etwa Daumen- Möchte man mehr als einfache Gruppen-
fang, 1984). Solche Darstellungen können vergleiche auf der Basis elementarer Effekt-
Fehlinterpretationen, etwa bezüglich der Be- stärken, wird im sozialwissenschaftlichen Be-
schreibungsgüte (die oft überschätzt wird) reich für die Analyse von Strukturen in den
einer Stichprobe durch das multivariate gefundenen Daten meist auf Spezialfälle des all-
Mittelwertsprofil, vermeiden helfen. gemeinen linearen Modells zurückgegriffen. (s.
Leider ist es relativ leicht, die mit den einzel- etwa Rochel, 1983 oder Moosbrugger, 1978).
nen Maßen der Effektstärke verbundenen Pro- Auf den ersten Blick sind diese Ansätze nicht
bleme aufzuzeigen; viel schwieriger ist es, posi- nur beliebt, sondern auch sachlich sinnvoll, da
tive Empfehlungen zu geben, da jede dieser sie in einfacher Weise auch die Erfassung kom-
Kennziffern ihre Vor- und Nachteile hat. Es plexer Sachverhalt ermöglichen. Speziell für die
bleibt nur, die jeweiligen Besonderheiten für Evaluationsforschung, aber nicht nur dort, ist
das konkrete Projekt abzuwägen und vor allem mit diesem Ansatz aber auch eine Reihe von
durch vorbereitende Information zu versuchen, Schwierigkeiten verbunden:
bei den «Abnehmern» der Ergebnisse wenig-
stens ein wenig Verständnis der Interpretations-
• Diese Modellform ist populationsabhängig
(im Sinne fehlender Teilgruppenkonstanz,
schwierigkeiten zu erwecken, was allerdings in
vgl. Wottawa, 1987).
keiner Weise einfach ist.
• Die Ergebnisse können nur deskriptiv, nicht
funktional interpretiert werden.
Meta-Analysen
• Das Modell ist stets als Einheit zu sehen, das
Herausgreifen von Teilergebnissen ohne Be-
achtung des Gesamtrahmens ist nicht zuläs-
Die im Abschnitt 5.2 dargestellten Schwierig-
sig.
keiten von wirklich aussagekräftigen Evaluations-
projekten lassen es in diesem Forschungsfeld
besonders wichtig erscheinen, die Ergebnisse Populationsabhängigkeit
(gerade in Form der Effektstärken) möglichst
vieler verschiedener Studien zu einer Global- Das Problem der Populationsabhängigkeit wur-
aussage zusammenzufassen. Dies setzt die Ein- de insbesondere im Zusammenhang mit der
haltung bestimmter methodischer Vorgehens- Faktorenanalyse diskutiert (vgl. dazu Fischer,
weisen voraus. Ausführliche Darstellung dieser 1974), trifft aber in gleicher Weise für alle An-
Techniken finden sich bei Fricke und Treinies, sätze des allgemeinen linearen Modells zu. Da
1985. Für den psychologisch-sozialwissenschaft- die Modellgültigkeit immer für eine vorgegebe-
lichen Bereich besonders interessante Ergebnisse ne Population (aus der der speziell ausgewerte-
von Meta-Analysen geben Hunter et al. (1982), für te Datensatz als Stichprobe genommen ist)
die Wirkung von Psychotherapien Grawe (1990). postuliert wird, ist eine Übertragung der Mo-
Zusammenfassende Auswertungen dieser Art dellergebnisse auf Teilgruppen daraus nicht zu-
ersetzt natürlich nicht die Detailarbeit in den lässig und würde zu massiven Fehleinschätzun-
einzelnen Evaluationsprojekten, sind aber eine gen führen.
wertvolle und unverzichtbare Grundlage für all- Wieweit dieses Problem für die Evaluations-
gemeine Empfehlungen. Es wäre anzustreben, forschung stört, hängt davon ab, ob sich die
daß alle publizierten Evaluationsprojekte die für evaluativ untersuchten Maßnahmen auf Ein-
eine sachgerechte Aufarbeitung in Meta-Analy- zelpersonen (die ja immer Teile einer Popula-
sen erforderlichen Angaben in zusammengefaß- tion sind) bezieht oder ob vordefinierte, sach-
Planung von Evaluationsprojekten 139
lich sinnvolle Populationen den Maßnahmen (für die Population), aber nicht funktional ver-
ausgesetzt werden. Interessiert man sich etwa standen werden können. So hängt zum Beispiel
im Rahmen einer pädagogisch-psychologischen das Verhalten eines Klienten während eines
Fragestellung für die Zusammenhangsstruktur Therapieverlaufes in keiner Weise davon ab,
verschiedener Einflußgrößen bei Hauptschü- welche anderen Patienten irgendwann einmal
lern im Gegensatz zu Realschülern (Hesse, mit seinen Daten gemeinsam für die Projekt-
1982), so ist die Population der jeweiligen Schü- auswertung verrechnet werden. Trotzdem wird
lerschaft durch Sachaspekte definiert. Möchte je nach Zusammensetzung der Daten für die
man diese Population als ganze weiter untersu- Auswertung aus dem im vorigen Absatz darge-
chen, etwa mit dem Ziel der Evaluation von stellten Gründen einmal die Beziehung zwi-
Maßnahmen, die eine als nicht optimal er- schen emotionaler Befindlichkeit und Dauer
scheinende Zusammenhangsstruktur zwischen der Therapie sehr eng sein, das andere Mal ver-
Variablen günstig beeinflussen sollen, sind schwindend gering. Gleiches gilt für verwandte
entsprechende pfadanalytische oder LISREL- Verfahren, etwa auch für die Faktorenanalyse.
Modelle u. U. sehr nützlich. Gleiches gilt für Da die Zahl der für die Beschreibung der Ergeb-
Vergleiche zwischen verschiedenen Populatio- nisse sinnvollerweise erforderlichen Faktoren
nen. So konnte etwa Hesse in der oben zitier- ebenfalls von einer Populationsdefinition ab-
ten Arbeit deutliche strukturelle Unterschiede hängt, ist die «Intelligenz» oder «Persönlich-
zwischen Haupt- und Realschule nachweisen. keit» eines Menschen je nach der durch den
Vergleichbar sind viele Fragestellungen aus dem Untersucher willkürlich zu setzenden Popula-
sozialwissenschaftlichen Bereich, in denen die tionen einmal durch sehr viele Faktoren zu be-
«Populationen» Parteien, Verbänden, Industrie- schreiben (bei homogenen Gruppen), das an-
betrieben oder sogar ganzen Staaten entspre- dere Mal genügen wesentlich weniger (bei
chen. Typische Gegenbeispiele finden sich im heterogenen Populationen). Diese Artefakte
Bereich der Einzelfallintervention (zum Beispiel machen es auch unmöglich, solche (linearen)
bei psychologischen Therapietechniken oder Auswertungen als eine ausreichende Grundlage
pädagogischen Maßnahmen). Zeigt sich etwa für Prognosen für Veränderungen von Einzel-
ein für die Bewertung der Evaluationsergebnisse fällen abzuleiten (währenddem es durchaus
wichtiger Zusammenhang zwischen Intelligenz möglich ist, durchschnittliche bzw. gruppen-
und Lernsteigerung durch die Maßnahme, bezogene Veränderungen halbwegs sicher in
kann dieser je nach Definition der «Population» Trendberechnungen auf der Basis von Regres-
für die Modellanwendung nahezu beliebig ma- sionsgleichungen vorherzusagen).
nipuliert werden. Wählt man als Population In manchen Evaluationsprojekten ist man in
eine Gruppe von Schülern mit relativ ähnlicher besonderer Weise auf funktionale Modelle für
Intelligenz, wird auch ein «an sich» starker Einzelfälle angewiesen. Beispiele dafür sind
Zusammenhang als Folge der Reduktion der etwa formative Evaluationen von Über-
true-score-Varianz bei gleichbleibender Fehler- wachungs-oder Steuerungsanlagen (wo die In-
varianz in den Zusammenhangskennziffern na- formationsverarbeitung bzw. sensomotorische
hezu verschwinden; wählt man eine «Populati- Koordination des Bedieners möglichst exakt zu
on» zum Beispiel aus zwei Extremgruppen modellieren wäre) und bei anderen ergonomi-
(besonders hoch- bzw. niedrig-intelligente schen Fragestellungen, zum Beispiel der Opti-
Schüler), wird wegen der dann erfolgten massi- mierung von Computersoftware. Für Steue-
ven Erhöhung der Varianz der true-scores bei rungseinrichtungen haben sich insbesondere
sonst gleichem Sachverhalt eine wesentlich bes- Modelle auf der Basis der regelungstechnischen
sere Modellanpassung resultieren. Ansätze bewährt, die zu einer Beschreibung des
Verarbeitungsprozesses auf der Basis von Diffe-
rentialgleichungsmodellen führen (für An-
Deskription, nicht Funktionsanalyse wendungsfälle in der mathematischen Soziolo-
gie siehe etwa Coleman 1956). Beispiele für die
Diese Populationsabhängigkeit ist auch einer funktionale EDV-Modellierung von relevanten
der Gründe, warum Auswertungen auf der Wissens- bzw. Denkstrukturen finden sich bei
Grundlage des linearen Modells nur deskriptiv Kleinmuntz, 1963; 1972.
140 Planung von Evaluationsprojekten

Kontextabhängigkeit abwerten. Man muß nur bei der Detailplanung


seines Evaluationsprojektes wissen, ob sach-
Eine selbst bei sachgerechter Lösung der ersten immanente Gründe oder die Wünsche des Auf-
beiden Problempunkte verbleibende Schwierig- traggebers zum Beispiel die Erarbeitung funk-
keit für die Interpretation dieser beliebten tionaler Modelle erzwingen und in solchen
Gruppe von Auswertungsverfahren ist das Fak- Fällen die dann notwendigen Vorarbeiten
tum, daß alle Modellparameter (also alle Aussa- rechtzeitig einkalkulieren und auch bedenken,
gen über die Beziehungen zwischen den einzel- daß die Gewinnung für solche Spezialent-
nen Variablen) im Kontext des Gesamtmodells wicklungen ausreichend kompetenter Mitarbei-
zu sehen sind. Man kann also etwa aus einer ter ein nicht unerhebliches Problem sein kann.
pfadanalytischen oder auf LISREL aufbauenden Schlecht sind nicht die linear-statistischen Aus-
Auswertung nicht einen einzelnen Parameter- wertungsverfahren an sich, sondern deren Fehl-
wert für eine Teilbeziehung innerhalb des Mo- anwendung bzw. Fehlinterpretation, die ver-
delles herausgreifen und dies dann als Ergebnis mutlich gar nicht selten auf eine mangelnde
darstellen; welches β-Gewicht zwischen den Problemsicht des Untersuchungsleiters in der
Variablen A und B bei der Schätzung der Planungsphase, wo sich noch alternative Lö-
Modellparameter aus den empirischen Daten sungskonzepte hätten realisieren lassen, zu-
herauskommt, hängt ganz wesentlich von den rückgehen dürften.
übrigen in die Untersuchung aufgenommenen
Variablen ab und kann bei einer Änderung die-
ser Variablenmenge nicht nur im Ausmaß, son- 5.3.3 Qualitative
dern sogar im Vorzeichen variieren. Auf die da- Auswertungsverfahren
mit verbundenen Probleme hinsichtlich von
Mit diesem Begriff werden verschiedene Aus-
Reihenfolgeneffekten von Variablenaufnahmen
wertungsstrategien angesprochen, die eigent-
bzw. Variablenselektion bei Regressionsan-
lich nur gemeinsam haben, daß sie weniger
sätzen und nicht-orthogonalen varianzanaly-
stringente Anforderungen an das Meßniveau
tischen Plänen verweist zum Beispiel Rochel,
stellen und in besonderer Weise zu verbalen
1983. Dieses Faktum ist im übrigen nicht un-
Interpretationen kompatibel sind.
bedingt eine Schwäche dieses besonderen
Im wesentlichen lassen sich drei oft ge-
Auswertungsverfahrens, sondern ergibt sich
brauchte Begriffsbedeutungen unterscheiden:
zwangsläufig aus der inkrementellen Struktur
der einzelnen Parameter. Der zusätzliche Bei- • «qualitativ» meint im Gegensatz zu «quanti-
trag eines Effektes hängt eben auch empirisch tativ» statistische Verfahren, die nur auf No-
davon ab, welche anderen Effekte kontrolliert minalsskalen aufbauen; Beispiele sind etwa
werden. Aber: Wie vermittelt man einem Auf- die Konfigurationsfrequenzanalyse (Krauth
traggeber, daß ein wichtiger, kostenintensiver & Lienert, 1973), die Methode GUHA (Hajek
Aspekt seiner Maßnahme (als Beispiel etwa die & Havranek, 1978), HYPAG/SEARCH (s. Wot-
Größe von Schulklassen) sich je nach Aus- tawa, 1978; 1987) und TYPAG (Hollmann,
wertungskontext im Ausmaß und evtl. sogar in 1991)
der Richtung unterschiedlich auswirkt? • «qualitativ» ist die Art der Datenauswertung,
Neben diesen kritischen Aspekten muß man weil keine statistisch-numerischen Verfah-
aber auch betonen, daß es für eine einfach ren, sondern EDV-gestützte Strukturierungs-
handhabbare, keine komplizierten Entwick- hilfen eingesetzt werden; hierunter fallen
lungsarbeiten erfordernde Auswertung multi- etwa EDV-gestützte Verfahren der Inhalts-
pler Zusammenhangsstrukturen derzeit eigent- analyse oder die sog. Plan-Analyse (Grawe &
lich keine praktikable Alternative zu den Caspar, 1984).
verschiedenen Spezialfällen des allgemeinen li- • «qualitativ» ist der Verzicht auf alle zählen-
nearen Modells gibt (auf zumindest partiell den bzw. rechnenden Verfahren, es verblei-
konkurrenzfähige konfigurale Ansätze wird im ben subjektive Interpretationen und Ver-
nächsten Abschnitt eingegangen). Die hier sehr stehenserlebnisse, etwa vergleichbar mit der
pointiert dargestellten Kritikpunkte sollen auch Interpretation von Kunstwerken (s. etwa
in keiner Weise Auswertungsansätze dieser Art Dilthey, 1896).
Planung von Evaluationsprojekten 141
Konfigurale Techniken für diese Art «qualitativer» Verfahren Henning
und Kemnitz, 1986).
Diese Auffassung ist natürlich die den im
vorhergehenden Abschnitt besprochenen Der entscheidende Nachteil aller dieser Ansätze
Verfahren am ähnlichsten. Es sind statistische ist aber, daß aus Gründen der Übersichtlichkeit
Auswertungstechniken, die nicht auf eine ma- vor allem induktive Verfahren für sehr komplexe,
thematisch-quantitative Beschreibung von Zu- zahlreiche Variablen gleichzeitig berücksich-
sammenhangsstrukturen ausgerichtet sind, tigende Auswertungen selbst dann ungeeignet
sondern eigentlich nur Konfigurationen in den sind, wenn die in diesem Fall astronomisch ho-
Daten (also Kombinationen verschiedener hen Rechenzeiten bewältigbar wären. Für über-
Merkmalsausprägungen auf Nominalskalen) schaubare Variablensätze (oder solche, die sich
aufbauen. ohne Schaden für das Gesamtprojekt in ent-
Ein erheblicher Vorteil gegenüber den linea- sprechend kleine Subgruppen zerlegen lassen)
ren Techniken ist bei diesen Ansätzen, daß die können daher diese Ansätze als ernsthafte Al-
gefundenen Konfigurationen strukturgleich ternative gegenüber dem allgemeinen linearen
mit» wenn-dann-Sätzen» sind (vgl. dazu die Modell empfohlen werden, für die Deskription
Ausführungen im Diagramm IV/7). Es entspricht sehr großer Variablenmengen bleibt die tradi-
dem normalen Argumentieren, daß «ein be- tionelle Auswertungsmethode trotz aller Schwä-
stimmtes Ereignis dann zu erwarten ist, wenn chen aber auch weiterhin unverzichtbar.
die eine Bedingung und die zweite Bedingung
und/oder dritte Bedingung gegeben ist», und
dies entspricht unmittelbar den daraus folgen- Strukturierungshilfen
den Datenkonfigurationen; im Gegensatz dazu
ist es außerordentlich mühsam, etwa eine mul- Die zweite der genannten «qualitativen» Ver-
tiple Regressionsgleichung aus den drei ge- fahrensgruppen sind Ansätze, bei denen kom-
nannten Bedingungsvaribalen zur Vorhersage plexes Material EDV-gestützt ausgewertet bzw.
des Ereignisses verbal darzustellen, da insbeson- strukturiert wird. Hierzu gehören viele Verfah-
dere die zahlreichen Kompensationsmöglich- ren der Inhaltsanalyse, sofern sie über einfache
keiten bei den verschiedenen quantitativen Auszählungen von Worthäufigkeiten hinausge-
Ausprägungsgraden der Variablen sich so gut hen (s. etwa bei Rust, 1983). Gerade für die
wie nicht in normaler menschlicher Sprache Auswertung von offenen Interviews, etwa bei
darstellen lassen. Damit hängt auch der weitere der Bewertung von Maßnahmen im Bildungs-
Vorteil zusammen, daß zwar die Güte der Er- oder Therapiebereich durch unmittelbar betrof-
gebnisse insgesamt (also zum Beispiel wieviele fene Probanden, können damit interessante
Kombinationen mit welchen Vorhersage- Einblick erarbeitet werden. Oft ist es auch mög-
möglichkeiten aufgetreten sind) ebenfalls von lich, darauf aufbauende quantitative Auswer-
der Populationsdefinition und der Menge der tung anzuschließen.
für die Untersuchung aufgenommenen Varia- Qualitative Strukturierungshilfen sind noch
blen abhängt (vergleichbar mit den entspre- weniger verbreitet. Ein Vorgehen dabei ist die
chenden Problempunkten bei dem allgemeinen (teil-)formalisierte Darstellung von subjektiven
linearen Modell), jede einmal erarbeitete Aus- Theorien, etwa SLT oder HYPAG/Structure (vgl.
sage in Form eines «wenn-dann-Satzes» aber Diagramme IV/6 und IV/7). Gerade bei Weiterbil-
unmittelbar für jeden dadurch erfaßbaren Ein- dungsmaßnahmen kann die Veränderung der
zelfall formuliert ist. Die Probleme der Popu- subjektiv von den Teilnehmern gesehenen Zu-
lationsabhängigkeit verlagern sich dadurch von sammenhänge bzw. möglichen Handlungs-
der Einzelfallformulierung auf die Heuristik, pläne ein wichtiger Hinweis auf den Erfolg der
also darauf, welche Variablen etwa bei Such- Maßnahme sein, ein Beispiel unter Verwen-
vorgängen in Datensätzen als besonders rele- dung dieser Technik gibt Wottawa und Hof,
vant erscheinen. Dies ist daher keine endgül- 1987. EDV-gestützte Strukturierungshilfen kön-
tige Lösung für dieses Problem, aber doch eine nen die übersichtliche Darstellung komplexer
gerade für einzelfallorientierte Intervention Sachverhalte, gerade auch bei Interview-Aus-
und Evaluation wesentliche Verbesserung (vgl. wertungen, sehr erleichtern.
142 Planung von Evaluationsprojekten

Ein besonders eindrucksvolles Beispiel dafür inhaltlichen und dem methodischen Vorgehen
ist die Plan-Analyse (Grawe und Caspar, 1984), voraus.
die vor allem für Anwendungsfälle aus dem Be-
reich der Therapie und Therapie-Evaluation
entwickelt wurde. Die Grundidee dabei ist, daß Verstehen
komplexe Strukturen (zum Beispiel Handlungs-
pläne, das Verfahren läßt sich aber natürlich Der im strengsten Sinn «qualitative» Ansatz ist
auch auf jede andere Art von Strukturbezie- ein rein verstehend-interpretatorisches Vorge-
hungen anwenden) dadurch übersichtlicher hen. Diese Methodik ist in vielen geisteswis-
gemacht werden, daß vom Untersucher die je- senschaftlichen Bereichen unverzichtbar, etwa
weils paarweisen Beziehungen erarbeitet wer- bei der Interpretation von Kunstwerken oder
den und das Programm dabei hilft, daraus eine Gedichten, dort wurden auch Arbeitstechniken
nachvollziehbare Gesamtstruktur (etwa in dazu entwickelt. Für die empirische Evalua-
Form hierarchischer Entscheidungsabläufe oder tionsforschung ist dieses Vorgehen aber von
Organisationsstrukturen) aufzubauen. Ansätze untergeordneter Bedeutung, man würde zö-
dieser Art können eine sehr wertvolle Hilfe sein, gern, ein solches Projekt zum Beispiel nur auf
um die Erfassung und insbesondere die über- einer verstehenden Beschreibung einiger Tie-
sichtliche Präsentation komplexer Befunde in feninterviews aufzubauen. Auch zeigen Erfah-
qualitativ orientierten Evaluationsstudien zu rungen im Bildungsbereich, daß die öffentliche
beschreiben. Sie sollten aber wegen der relati- Akzeptanz rein beschreibender Arbeiten gering
ven Willkürlichkeit immer nur heuristisch-for- ist.
mativ, nicht als endgültig-summatives Ergeb- Trotzdem kann bei vielen Projekten nicht auf
nis dargestellt werden. eine subjektiv-spekulative Interpretation ver-
Da die notwendigen technischen Hilfen, ne- zichtet werden, vor allem bei formativen Eva-
ben den EDV-Programmen auch die Einschu- luationen. Es wäre unvertretbar, die oft feststell-
lung in ihre sachgerechte Nutzung, bei quali- baren, wenn auch zunächst nicht geplanten
tativen Verfahren noch wesentlich weniger und daher auch nicht quantitativ erfaßten Hin-
verbreitet sind als für quantitativ-statistische weise auf Optimierungsmöglichkeiten nur des-
Methoden, sollte vor der endgültigen Fest- halb nicht zu nutzen, weil man dafür keine
legung solcher Auswertungsmethoden in der Auswertungsstatistiken vorlegen kann. Man
Planungsphase die Verfügbarkeit entsprechen- sollte aber solche persönlichen Eindrücke, Mei-
der Ressourcen gesichert sein. Auch muß der nungen und Vorschläge deutlich als solche
Arbeitsaufwand relativ hoch veranschlagt wer- kennzeichnen und nicht den Eindruck erwek-
den, und insbesondere ist er nicht delegierbar. ken, sie seien durch objektivierbare Fakten ab-
Der vorwiegend inhaltlich-wissenschaftlich gesichert. Manchesmal ist es zur Vermeidung
ausgerichtete Projektmitarbeiter kann für die solcher Mißverständnisse sogar besser, Hinweise
rein statistische Datenanalyse die entsprechen- auf dieser Grundlage nur in einem persön-
den Arbeiten (weitgehend) an Spezialisten de- lichen Gespräch mit dem Auftraggeber weiter-
legieren, qualitative Auswertungsverfahren set- zugeben und nicht in den offiziellen Bericht
zen aber eine enge Abstimmung zwischen dem aufzunehmen.
Planung von Evaluationsprojekten 143

Übersicht Kapitel 5:
Planung von Evaluationsprojekten
5.1
Projektmanagement
Wichtige Informationen im Vorfeld oder zu Beginn des Projektes:
Informationen über Rahmenbedingungen
Erstellung eines Arbeitsplans
Zeit- und Kostenplan

Informationen zu Projektdetails Wichtige Punkte des Arbeitsplans Zeit- und Kostenschätzung


u. Rahmenbedingungen • Arbeitsschritte in zeitlicher Struktur- und Zeitanalyse
• Geschäftsberichte, Veröffent- Reihenfolge planen, Aufwand der Ziel:
lichungen in Zeitschriften Schritte einplanen • Zerlegung des Gesamtprojektes in
• Persönliche Kontakte mit dem • Exakte Terminangaben, Einzelschritte und Ermittlung der
Auftraggeber etc. «Deadlines» Dauer dieser Schritte
• Finanzielle Aufwendungen Hilfstechniken
• Entscheidungspunkte mit • Balken- und Netzplantechnik
Auftraggeber klären • Entscheidungsbaumverfahren
• Auflistung aller zu erbringenden
Leistungen oder in Auftrag
gegebenen Arbeiten

5.2
Designfragen
Fehlerquellen: Reifung, Nicht-Äquivalenz von Vergleichsgruppen, Mortalität im statistischen Sinne

Untersuchungspläne Datenerhebungsverfahren
Quasi-Experimentelle Designs • Psychologische Tests
• günstig in Evaluationsstudien • Fragebögen
• Verhaltensbeobachtung
Echte Experimentelle Designs • Offene oder teilstrukturierte
• in Evaluationsstudien kaum Interviews
anwendbar

«Sonderfall» Qualitätsmanagement
• günstig, um vertraglich zugesagte
Leistungen zu überprüfen
• keine Rückschlüsse auf Kausal-
ursachen möglich!

5.3
Auswertungsverfahren
Unterscheidung Sequentialstatistik oder feste Stichprobengröße

Effektstärke Allgemeines Lineares Modell Qualitative Auswertungsverfahren


sinnvoll für einfachen sinnvoll bei komplexer Situation sinnvoll bei wenig stringenten
Gruppenvergleich • Problem: Populations- und Anforderungen an das Meßniveau
• Beispiel: Normierte Skalenwerte Kontextabhängigkeit • Beispiel: Konfigurale Techniken
• Problem: Signifikant ≠ Relevant • Deskription, nicht • Strukturierungshilfen
Funktionsanalyse • Verstehen (Hermeneutik)