Beruflich Dokumente
Kultur Dokumente
Wie schon im 1. Kapitel dargestellt, ist das Da für diese Arten von Evaluation aber am ehe-
Berufsfeld Evaluation so heterogen, daß eindeu- sten Hinweise in der vorhandenen Literatur
tige «Vorschriften» für die Planung solcher Vor- verfügbar sind (siehe dazu etwa Prell, 1984;
haben nicht zu erstellen sind. Hinzu kommt Hellstern und Wollmann, 1984), wird im fol-
noch, daß die Planung von Projekten naturge- genden von einem kommerziell orientierten
mäß eine Gestaltungsaufgabe ist, für die es auch Evaluationsvorhaben ausgegangen.
im konkreten Einzelfall viele verschiedene Das folgende Kapitel ist nach dem zeitlichen
durchaus gute «Lösungen» gibt. Ablauf der Arbeit an einem Evaluationsprojekt
Um wenigstens einen ersten Einblick in die gegliedert, die Hauptpunkte dabei sind in Dia-
Planungsarbeit geben zu können, wird in den gramm V/1 zusammengefaßt.
folgenden Abschnitten von einem typischen
Fall, nämlich der Reaktion auf eine Projektaus- Diagramm V/1
schreibung, ausgegangen. Die Projektarbeit Besonders wichtige Punkte bei der Planung
beginnt dann mit der Angebotserstellung, wo- von Evaluationsprojekten
bei vor allem Fragen des Projektmanagements
(5.1.) wichtig sind. Kommt ein Auftrag zustande, Beginn der Projektarbeit
beginnt die eigentliche, intensive Vorbereitung
Angebotserstellung
(Design-Fragen, Abschnitt 5.2.) und darauf auf-
bauend die Vorbereitung der Auswertung (5.3).
Projektmanagement • Informationsbeschaffung
Auf andere Auftragsverhältnisse bei der Evalua- • Entwicklung eines vor-
läufigen Arbeitsplans
tion, etwa • Zeit- und Kosten-
schätzung
• Einholen eines einzigen Angebots bei einem
besonders vertrauten oder als besonders Designfrage • Identifizierung u. Über-
kompetent geltenden Experten, prüfung potentieller Stör-
• Finanzierung des Vorhabens aus Stiftungs- und Fehlerquellen
oder anderen Förderungsmitteln, • Entwicklung eines Unter-
suchungsplanes
• Planung einer Evaluation mit ausschließlich • Auswahl und Applikation
«hausinternen Mitteln», über die evtl. der spezifischer Datenerhe-
Evaluator selbst im Rahmen seiner berufli- bungsverfahren
chen Zuständigkeit ohne finanzielles Risiko
(Vorbereitung der) • Entscheidung für be-
verfügen kann,
Auswertung stimmte Maße an
• Durchführung des Vorhabens im Rahmen ei- Effektstärke
ner Diplomarbeit, o.ä. • Wahl eines spezifischen
• Selbstevaluation Auswertungsverfahrens
(z.B. lineare Modellan-
sätze vs. qualitativer
sind einige der in den folgenden Abschnitten Auswertungstechniken)
dargestellten Ausführungen nicht anwendbar.
114 Planung von Evaluationsprojekten
Diagramm V/2
Auflistung des besonders relevanten Informationsbedarfes am Beispiel «Werbestrategie»
Anforderungen u. Auflagen von Seiten des Auftraggebers Restriktionen von Seiten der Auftraggebers
• Klärung der Intention bzw. der Zielsetzung • Definition des kalkulierten Zeit- und
• Berücksichtigung der Firmenphilosophie Kostenvolumens
• Verständigung über die Produkt- , Sortiments-, • Erfragen von Kapazitätsbeschränkungen etc.
Distributions- und Finanzpolitik der Unternehmung
• Abklärung der Konkurrenzsituation etc.
• Strategien, Aufmachung
• Erfolge, Defizite etc.
116 Planung von Evaluationsprojekten
Diagramm V/3
Übersicht über die Methoden der Projektplanung und -kontrolle
Methoden der Kostenplanung und -kontrolle Methoden der Zeitplanung und -kontrolle
• Änderungsverfahren • Nutzenwertanalyse
• Auftragsvergabe • Planmäßige Berichte
• Außerplanmäßige • Planspiele
Berichte • Präsentationen
• Brainstorming • Projektbesprechung
• Checklisten • Projekt-
• Einsatzmittelüber- strukturanalyse
sicht • Relevanz- und
• Dokumentation z.B. Entscheidungsbaum-
Projektstrukturplan verfahren
• Graphen, Netze • Szenario-Schreiben
• Kontrollbesuche • Sofort-Maßnahmen-
• Morphologische Verfahren
Methoden • Soll-Ist-Vergleich
Für eine ausführliche Beschreibung der einzelnen Methoden siehe: Der Bundesminister für Bildung, Forschung,
Wissenschaft u. Technologie (Hrsg.), 1977
118 Planung von Evaluationsprojekten
Diagramm V/4
Strukturanalyse zur Durchführung und Bewertung am Beispiel «Werbekampagne»
Diagramm V/6
Graphische Darstellung der Ergebnisse aus Struktur- und Zeitanalyse als Balkenplan
zum Beispiel «Werbekampagne»
Wochen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Vorgänge
Gespräche mit
Auftraggebern
Konzeptphase
Planungsentwicklung
Gespräche mit
1
Werbeagenturen
Kostenvoranschläge
Bewertung:
2
Auftragserteilung
Herstellung des
Werbematerials
Stellenausschreibung
für Interviewer
Personalauswahl und
Schulung
Projektdurchführungs-
phase
Erhebungen;
Interviews
Auswertung;
Evaluation
Erläuterung: Durch den Balkenplan können sog. «Oder-Beziehungen» (d.h. der Nachfolger eines Vorganges
X kann der Nachfolger Y oder Z sein) nicht dargestellt werden. Zur Illustration s. 1: Verlaufen
die Gespräche mit den Werbeagenturen erfolgreich, kann im Anschluß daran sofort die Pro-
duktion des Werbematerials beginnen; oder scheitern die Gespräche, so verzögert sich der
Anfangstermin für die Herstellung. Eine «Oder-Beziehung» kann auch für 2 angenommen
werden; die Bewertung der Kostenvoranschläge führt zur Auftragserteilung und zieht die Her-
stellung des Werbematerials nach sich oder die Kostenbewertung führt zur Einholung neuer
Kostenvoranschläge anderer Firmen.
Diagramm V/7
Graphische Darstellung eines Quick-Look-Plans zum Beispiel «Werbekampagne»
Wochen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Vorgänge
Gespräche mit
Auftraggebern 1
Konzeptphase
Planungsentwicklung 2 3
Gespräche mit
Werbeagenturen
Kostenvoranschläge
Bewertung:
Auftragserteilung
Herstellung des
Werbematerials
Stellenausschreibung
für Interviewer
Personalauswahl und
Schulung
Projektdurchführungs-
phase
Erhebungen;
Interviews
Auswertung;
Evaluation
Erläuterung: Anmerkungen zu den Balken- und Terminverlagerungen: z.B. ermöglicht der vorzeitige Ab-
schluß der Gespräche mit den Auftraggebern eine terminliche Verlagerung der Konzeptphase
(2), wodurch auch die Planungsentwicklung (3) zu einem früheren Zeitpunkt aufgenommen
werden kann. Durch die zusätzlich zur Verfügung stehende Zeit kann diese dann profunder
durchgeführt werden.
Diagramm V/8
Arbeitsschritte der Netzplantechnik nach (REFA, 1985)
Problemstellung
anderes
Nein Planungsverfahren
Ja
Netzplantechnik
Phase 5: Netzplanberechnung
Unter verschiedenen Wegen vom Anfang bis zum Endpunkt gibt es einen Weg von längster Zeitdauer (sog. «kriti-
scher Weg»), dieser Weg bestimmt den frühestmöglichen Zeitpunkt für das Projektende, d.h. addiert man alle
Zeitvariablen, die den Vorgängen des «kritischen Weges» zugeordnet sind, so repräsentiert die Summe den frühest-
möglichen Endzeitpunkt
122 Planung von Evaluationsprojekten
Diagramm V/9
Graphische Darstellung eines Netzplans zum Beispiel «Werbekampagne»
3 4
B C D
(2) (2)
(1–3) (1-3)
1 2 5 6 7 10 11
A E F G J K
(1) (6) (1) (1) (5) (1) (1)
(0,5–2) (5–7) (0,5–2) (0,5–2) (4–6) (0,5–2) (0,5–2) (3)
12 (2–4)
8 9
H I L
(2) (1)
(1–3) (0,5–2)
Scheinvorgang
(…) deterministische Zeitvariable
(…–…) stochastische Zeitvariable
Zeitdauer die Voraussetzung sind, mit einem dieses Vorgehens sind in Diagramm V/8 darge-
vierten Projektschritt beginnen zu können, falls stellt. Die Übertragung des Balkenplanes aus Dia-
dieser nicht auf Grundlage eines anderen, üb- gramm V/6 in diese Darstellungsform gibt Dia-
licherweise länger andauernden Projektfort- gramm V/9.
schrittes aufgebaut werden kann. Für solche
komplizierten Fälle und insbesondere für eine Das Diagramm V/9 zeigt die logische Verknüp-
sachgerechte Zeitabschätzung bei sehr komple- fung der Vorgänge und Ereignisse des Projek-
xen Arbeitsvorhaben wurde die sogenannte tes. Jedes Ereignis ist über eine Kette von Vor-
«Netzplantechnik» (s.u.) entwickelt, die auch gängen mit dem Start- und Endpunkt
den Vorteil hat, EDV-gestützten Optimierungs- verbunden.
abschätzungen zugänglich zu sein.
Ein Spezialfall der Balkenplantechnik ist der Zur Bestimmung des frühestmöglichen Projekt-
sogenannte Quick-Look-Plan. Er dient zur Kon- termins ist es zunächst erforderlich, die Dauer
trolle der Projektfortschritte. Die geplante Ter- aller möglichen Wege, die (vom Startpunkt aus-
minsituation wird mit der tatsächlichen ver- gehend) zum Endpunkt des Netzes führen, zu
glichen (Soll-Ist-Vergleich), um Abweichungen berechnen. Dieses geschieht durch Addition al-
möglichst frühzeitig zu erkennen. ler (deterministischen) Zeitvariablen, die den
Das Vorgehen ist einfach. Unter den Balken Vorgängen eines Weges zugeordnet sind. Aus
mit der geplanten Dauer wird zusätzlich der den verschiedenen Summenwerten wird dann
tatsächlich benötigte Zeitaufwand eingetragen der Wert minimaler numerischer Größe
(für ein Beispiel s. Diagramm V/7). selegiert; dieser repräsentiert die Dauer des sog.
«kritischen Weges».
träge zu den laufenden Institutskosten, das BO F HH M BO 224 495 780 610 2110
Doppelte der zunächst kalkulierten Beträge aus- BO F M HH BO 224 400 780 349 1753
machen. Sozialwissenschaftlich gestützte ange- BO M HH F BO 614 780 495 224 2113
wandte Tätigkeit ist bedauerlicherweise teuer. BO M F HH BO 614 400 495 349 1858
Eine sehr gute Übung ist es, sich für eine klei-
ne, überschaubare Arbeit (zum Beispiel die ei-
gene Diplomarbeit) die gesamten Kosten durch-
zurechnen, und dabei neben der eigentlichen Leider steigt der Aufwand mit der Zahl der Städ-
Arbeitszeit auch die von der Universität getra- te enorm an. Schon für 10! = 3 628 800 Mög-
genen Aufwendungen, so insbesondere für lichkeiten ist auch ein schneller Rechner sehr
hochspezialisierte Beratung, mit zu berücksich- gefordert, die Rechenzeiten können teurer wer-
tigen. Vor diesem Hintergrund werden die den als die Einsparungen durch die optimale
manchen Anfängern traumhaften «Tagessätze» Reihenfolge. In solchen Fällen kann man mit
von erfolgreichen freiberuflich tätigen Kollegen «begrenzter Enumeration» arbeiten. Man be-
verständlich, die je nach Kalkulationsart und ginnt mit einer plausibel erscheinenden Rei-
persönlichem Marktwert durchaus bei der Hälf- henfolge (so wird niemand meinen, daß man
te (und mehr) eines Monatseinkommens eines die Strecke M–HH–F wählen sollte) und ver-
Anfängers im öffentlichen Dienst mit akademi- sucht davon ausgehend, weitere Verbesserun-
scher Vorbildung liegen. gen durch Permutation zu finden.
Eine umfangreichere Übersicht über die hier
skizzierten Techniken gibt Ziegenbein, 1984;
Entscheidungsbaumverfahren Bramsemann, 1978.
wählte Trainer ein spezieller Seminarstil vor- ohne der Möglichkeit, bei schlechten Leistun-
geschrieben werden könnte, wäre das für die gen aufgrund der Beurteilung der Lehrer eine
Aussagekraft des Ergebnisses aufgrund der zu Klasse wiederholen zu müssen, was im Quer-
erwartenden Wechselwirkungen zwischen schnittsvergleich der Klassenstufen eine Verzer-
Trainerpersönlichkeit und didaktischem rung der durchschnittlichen Leistungsstärken
Konzept zweifelhaft) ergibt.
• die Herstellung von Bedingungskombina- Es ist die Aufgabe des Evaluators, durch die
tionen, die gefährliche Auswirkungen haben Gestaltung des Untersuchungsplanes und der
könnten (man denke etwa an einen Feld- Rahmenbedingungen alle denkbaren Stör-
versuch zur Verkehrslenkung und die Kom- quellen so gering wie möglich zu halten. Es ist
bination des Verkehrszeichens «Schule» und aber unter den üblichen quasi-experimentellen
«Geschwindigkeitsbeschränkung auf 120 Bedingungen faktisch nicht möglich, alle oder
km/h»). auch nur alle plausibel erscheinenden Verzer-
rungen auszuschließen, woraus sich die prinzi-
pielle Angreifbarkeit jeder zumindest größeren
Statistische Mortalität Evaluationsstudie im Feld ergibt.
Diagramm V/10
Übersicht über besonders wichtige Versuchspläne (vgl. Cook & Campell, 1976)
¡1 X ¡2 ¡1 X+ ¡2
¡1 ¡2 ¡1 X
–
¡2
¡1 X ¡2 ¡3 X ¡4 ¡1 X ¡2 ¡3 X ¡4
Selektives-Kohorten-Design
X ¡ 1. Kohorte ¡1 1. Kohorte
¡ 2. Kohorte X ¡1 2. Kohorte
Zeitreihenmodell mit
⊕⊕
30 ⊕ ⊕ nicht-äquivalenter Kontrollgruppe
Nachtestwerte
⊕⊕⊕
⊕⊕⊕
⊕ ¡1¡2¡3¡4¡5 X ¡5¡6¡7¡8¡9¡10
10 ¡1¡2¡3¡4¡5 ¡5¡6¡7¡8¡9¡10
-10
-10 0 10 20 Vortestwerte Zeitreihenmodelle mit nicht-äquivalenten
abhängigen Variablen
¡1a¡2a¡3a X¡4a¡5a¡6a
¡1b¡2b¡3b X¡4b¡5b¡6b
a 0,8
X1 X1 A1 A2
b 0,6
d c 0,55 0,5
e 0,45
X1 f X1 B1 B2
0,8
128 Planung von Evaluationsprojekten
teilung nach Zufall zu den verschiedenen lich zugesagter Leistungen (was ja ein wesentli-
Gruppen möglich. ches Element des Qualitätsmanagement ist) zu
• Studien, die wegen der hohen Bedeutung der überprüfen, oder um Hinweise auf Schwach-
Ergebnisse unter Konsens aller Beteiligten stellen (in welchen Bereichen wurde die erwar-
trotz erheblicher praktischer Konsequenzen tete Leistung nicht erbracht?) zu geben. Es kann
randomisiert erfolgen können; typisch dafür aber daraus nicht abgeleitet werden, ob die eva-
sind etwa Prüfungen von Pharmazeutika, luierte Maßnahme tatsächlich die «Ursache»
wenn ein neues, vorgetestetes Präparat mit der Zielerreichung (oder der Zielverfehlung)
dem bisherigen Standardmittel im Doppel- war, da stets auf eine Vielzahl möglicher weite-
Blind-Versuch verglichen wird. Die Grenzen rer förderlicher oder das Ergebnis beeinträchti-
der zufälligen Zuteilung liegen dort, wo die gender Faktoren verwiesen werden kann. Für
unmittelbaren Folgen des Treatments für die manche Fragestellungen ist der Verweis auf sol-
Betroffenen gravierend sind (zum Beispiel bei che Drittvariablen allerdings nicht nahelie-
der Prüfung des Nutzens einer Vollampu- gend, vor allem bei der Überprüfung von Lei-
tation gegenüber einer brusterhaltenden stungen, die unmittelbar für Kunden bzw.
Operation bei Brustkrebs). Leistungsempfänger erbracht wurden (wenn
• Feldexperimente zu Fragen, die eine Grup- Teilnehmer ohne entsprechende Vorkenntnisse
penzuweisung nach (fast) zufälliger Auswahl zu einer drei-tägigen EDV-Schulung geschickt
erlauben, da die Probanden gar nicht wissen, werden, und danach die zugesagten Leistungs-
daß sie an einer Evaluationsstudie mitwir- ergebnisse im Abschlußtest erzielen, ist es kaum
ken; dies gilt etwa für die Bewertung von ver- glaubhaft, daß dies auf andere Faktoren als die
schiedenen Formen einer Seminargestaltung Trainingsmaßnahme selbst zurückgeht). Je we-
in der Weiterbildung bei zufälliger Aufteilung niger direkt aber die Wirkung der Maßnahmen
ohnehin vorhandener Parallelgruppen, das geprüft wird, um so problematischer wird der
Erproben verschiedener Interviewtechniken mögliche Einfluß von Zusatzaspekten. So wäre
oder, mit gewissen Einschränkungen bezüg- etwa im gewählten Beispiel die Feststellung des
lich der Gruppenäquivalenz, bei Maßnah- Trainingserfolges an zugesagten Transferleistun-
men zur Verkehrslenkung. gen (also die tatsächliche Nutzung der Lern-
inhalte in der beruflichen Praxis) schon wesent-
Solche Studien sind aus wissenschaftlich-me- lich weniger stringent auf das Training
thodischer Sicht natürlich besonders aussage- zurückzuführen, da positive Ergebnisse zum
kräftig, sollten aber wegen der für viele Frage- Beispiel durch die Hilfestellung von Vorgesetz-
stellungen unrealistisch hohen Anforderungen ten oder Kollegen erreicht werden können
nicht als die einzig zulässige Vorgehensweise (selbst bei einem völlig unzureichenden Trai-
angesehen werden. ning), und die Nicht-Erfüllung der Ergebnis-
vereinbarung auch bei hoher Trainingsqualität
durch Rahmenbedingungen (zu großer zeitli-
Sonderfall: Überprüfung der Zielereichung
cher Abstand zwischen Training und der tat-
Die hier diskutierten Designfragen stellen sich sächlichen Möglichkeit der Nutzung der
im Prinzip nicht, wenn das Ziel der Evaluations- Trainingsergebnisse durch vorübergehend feh-
studie (zum Beispiel im Rahmen des Qualitäts- lende technische Möglichkeiten am Arbeits-
managements, siehe Abschnitt 2.2.4) die Kon- platz, Widerstände gegen die Nutzung der
trolle des Erreichens eines vorher festgelegten Trainingsinhalte durch eine zum Beispiel sub-
Ergebnisprofils ist. Da in diesem Fall keine ver- jektiv verschlechtert erlebte Arbeitssituation bei
gleichende Evaluation vorliegt, erübrigt sich die Anwendung der neuen Kenntnisse, Behinde-
Notwendigkeit, durch entsprechende Designs rung des Trainingstransfers durch Vorgesetzte
aussagekräftige Gruppenvergleiche zu sichern. oder Kollegen, die auf das Beibehalten der bis-
Allerdings muß man sich bei einem solchen herigen Verfahrensweisen drängen und sofort)
Ansatz darüber im klaren sein, daß die damit verursacht werden kann. Es empfiehlt sich da-
erzielten Ergebnisse keinerlei Aussagen über her auch bei solchen Evaluationsstudien, die
Kausalursachen zulassen. Sie sind daher zum zunächst kein unmittelbares Designproblem
Beispiel gut geeignet, um die Erfüllung vertrag- stellen, mögliche fördernde oder hemmende
Planung von Evaluationsprojekten 129
Aspekte rechtzeitig in den Untersuchungsplan tung wichtigsten Faktoren kombiniert, ergibt
aufzunehmen um damit zumindest korrelativ, sich der im Diagramm V/11 dargestellte «Plan»,
wenn auch nicht kausal-experimentell, zu ei- der gegen alle Prinzipien der Auswertbarkeit (im
ner weiteren Aufklärung des Bedingungsgefüges Sinne des Allgemeinen Linearen Modells, vgl.
beitragen zu können. Ein solches Vorgehen ist dazu etwa Rochel, 1983) verstößt. Die Ursache
insbesondere dann unverzichtbar, wenn die dafür ist natürlich nicht Inkompetenz oder
Zielsetzung formativer Art ist, also eine Verbes- böser Wille der Verantwortlichen, sondern die
serung der Gestaltung der evaluierten Maßnah- bei Evaluationsstudien im Feld kaum vermeid-
men erfolgen soll. bare Berücksichtigung wissenschafts- bzw.
untersuchungsexterner Faktoren. Was soll der
Evaluator zum Beispiel tun, wenn aufgrund
Grenzen der Realisierbarkeit von
programmatischer Einstellungen der verant-
Idealforderungen
wortlichen Bildungspolitiker die Gesamtschu-
Wie schwierig die Erfüllung strenger Design- len in einem Bundesland praktisch nur in
forderungen selbst in sorgfältigen, mit hohem Ganztagsform realisiert wird, währendem sich
Aufwand durchführbaren Evaluationsstudien Ganztagsschulen im gegliederten Schulwesen
ist, zeigen etwa die «Konstanzer Studien» zur nicht repräsentativ finden?
Gesamtschulevaluation in den Bundesländern Außerhalb der summativen Evaluation kann
Niedersachsen, Hessen und Nordrhein-Westfa- man oft überhaupt nicht von einem «Versuchs-
len. Selbst wenn man nur für die Schulgestal- plan» sprechen (etwa bei antizipatorischer Eva-
Diagramm V/11
Beispiel eines unvollständigen, daher nicht auswertbaren Designs der Konstanzer
Studien (aus Wottawa, 1982)
a) Klasse 6
TS GS
Lehrer Lehrer
b) Klasse 9
TS GS
Lehrer Lehrer
luation), und für viele Fragestellungen der for- • eine Untersuchung nur deswegen als unwis-
mativen Evaluation entsprechen die realisier- senschaftlich abzulehnen und nicht durch-
ten «Designs» keinen vertretbaren Forderun- zuführen, weil sie aus unvermeidbaren, sach-
gen. Man denke etwa daran, daß im Laufe eines inhärenten Gründen den Designforderungen
längerfristigen Prozesses ein Therapeutenteam nicht voll entsprechen kann
die Details einer bestimmten Therapietechnik, • nicht alles zu tun, um die für die Vermei-
inklusive der dafür erforderlichen Indikations- dung von Störquellen sinnvollen Design-
stellung, optimieren möchte. Die Einhaltung forderungen soweit wie möglich zu errei-
von Versuchsplanbestimmungen, etwa eine chen
randomisierte Zuteilung von Personen, würde • eine veröffentlichte Evaluationsstudie nur
vor allem bei einer ausführlichen Indikations- deswegen negativ zu charakterisieren, weil
stellung an der Verfügbarkeit vergleichbarer sie idealen methodischen Anforderungen
Probanden in einem überschaubaren Zeitraum nicht entspricht.
scheitern. Gleiche Probleme finden sich bei vie-
len Arten der berufsbegleitenden formativen Dieser letzte Punkt ist von besonderer prakti-
Evaluation, zum Beispiel bei der Verbesserung scher Bedeutung bei Projekten, die aus überge-
des didaktischen Vorgehens von Lehrern, Ver- ordneten Gesichtspunkten heraus kontrovers
änderungen im Führungsverhalten von Mana- beurteilt werden, was für viele gerade gesamt-
gern oder die Fortentwicklung von Werbe- gesellschaftlich besonders relevante Vorhaben
maßnahmen. In diesen Fällen ist der zutrifft. Da sich bei größeren Vorhaben im Re-
entscheidende Zweck der Datenerhebung nicht gelfall nicht vermeidbare Methodenschwächen
eine vergleichende Bewertung im Sinne des oder der Zwang ergeben, entweder den einen
«Hypothesentestens», sondern soll primär heu- oder den anderen Nachteil in Kauf zu nehmen,
ristischen Wert haben, Hinweise auf mögliche ist eine darauf gestützte nachträgliche Kritik im
und sinnvolle Verbesserungsvorschläge liefern. Sinne einer Abwertung der Aussagekraft der
Solche dynamischen Prozesse widersetzen sich erreichten Ergebnisse praktisch immer möglich
im Regelfall einer wissenschaftlich exakten und damit letztlich nicht aussagekräftig. Das
Versuchsplanung. Problem ist, daß es andererseits natürlich auch
Evaluationsprojekte gibt, die wesentlich
schlechter als notwendig durchgeführt bzw.
Notwendig: Praktikable Kompromisse
weit überinterpretiert wurden und zu Schlüs-
Eine möglichst gute Kenntnis der Techniken sen kommen, die sich gerade auch aufgrund
der Versuchsplanung zur Vermeidung von Stör- der Methodenschwächen wirklich nicht auf
effekten ist eine unverzichtbare kognitive die gefundenen Daten stützen lassen. Ob es
Grundlage für ein sinnvolles Arbeiten im Be- sich im Einzelfall um eine professionell sehr
reich von Evaluationsprojekten. Man darf nur gute, unter den gegebenen Rahmenbedingun-
nicht den Fehler machen, «sklavisch» an den gen ptimale Designlösung handelt oder eine
entsprechenden, von der Grundlagenforschung auch fachlich sehr schwache Studie vorliegt,
her geprägten Vorbildern zu hängen. Diese sind kann auf der Basis des veröffentlichten Berich-
zwar bei entsprechenden Voraussetzungen op- tes oft nicht entschieden werden, da dort die
timale Bearbeitungswege, aber in keiner Weise schwierige Hintergrundsituation häufig nicht
die einzige Möglichkeit, heuristisch verwertbare mehr ausreichend dargestellt ist (bzw. der Ver-
Informationen zu sammeln. Nur für den relativ dacht entstehen kann, daß Schwierigkeiten
kleinen, aber das Bild des Evaluators zumindest aufgebauscht werden, um unnötige methodi-
in der Literatur stark prägenden Teilbereich sche Schwächen im Nachhinein zu rechtferti-
summativer Evaluation können Idealvorstel- gen). Für die Abwägung zwischen den beiden
lungen bezüglich der Designs gelegentlich wirk- Übeln «Ungerechtfertigte Kritik» und «Kritik-
lich realisiert werden. In den übrigen Fällen lose Hinnahme nicht vertretbarer Studien»
stellen die Designforderungen häufig nur eine fehlen derzeit professionelle Standards, die
Denkhilfe in Form eines nicht-erreichbaren Ide- vielleicht bei einer qualitativen und quantita-
als dar, dessen Annäherung man soweit wie tiven Zunahme von praktisch tätigen Evalua-
möglich versuchen sollte. Falsch wäre es: toren allmählich entstehen werden.
Planung von Evaluationsprojekten 131
5.2.3 Datenerhebungsverfahren • Die Konstrukte, für die die jeweiligen Test-
verfahren Operationalisierungen darstellen,
Auf die besondere Problematik einer sinnvol- sind überwiegend nach den Bedürfnissen der
len Definition der jeweiligen Bewertungs- Forschung oder der Diagnostik ausgewählt;
kriterien wurde bereits im Abschnitt 4.2.3 ver- sie decken oft nicht den Operationalisie-
wiesen. Für die konkrete Erhebung der jeweils rungsbedarf von Evaluationsprojekten ab. Als
ausgewählten Kriterien stellt sich das aus Beispiel: Um einen Schüler mit Schwierigkei-
grundlagenwissenschaftlicher Sicht bedauerli- ten im Sprachbereich zu helfen, ist für die
che Problem, daß nicht selten gilt: Je exakter Differentialdiagnose ein die einzelnen Berei-
die Art des Meßverfahrens, um so geringer der che der Sprachbeherrschung ausdifferenzie-
praktische Nutzen. rendes Testverfahren von großem Vorteil –
aber wie faßt man Wortschatz, Satzstruktur,
Beherrschung der Zeitformen, Wortflüssig-
Tests bzw. Fragebögen
keit etc. zu einer Maßzahl zusammen, die die
Evaluation zweier verschiedener Lehrbuch-
Aus Gründen der Exaktheit besonders wün-
varianten gestattet?
schenswert wären sorgfältig konstruierte (psy-
• Der Zusammenhang zwischen Testwert und
chologische) Testverfahren, die einer problem-
Nutzen (vgl. Abschnitt 4.3.1) ist entweder
adäquaten Testtheorie genügen. Es dürfte aber
überhaupt nicht bekannt oder dem Auftrag-
kaum Evaluationsprojekte geben, in denen es
geber zumindest schwer vermittelbar; was
möglich ist, den dafür erforderlichen Konstruk-
würde es zum Beispiel an praxisrelevanten
tionsaufwand zusätzlich zu den sonstigen Ar-
Nutzen bedeuten, wenn ein Führungskräfte-
beiten abzudecken. Man ist daher im Regelfall
training im Durchschnitt bei den Teilneh-
darauf angewiesen, auf vorhandene Meßverfah-
mern eine Steigerung des Faktors Q2 im 16
ren oder einfachere Konzepte zurückzugreifen.
PF um einen Staninwert (eine Normierungs-
Die üblichen, am Markt erhältlichen Testver-
art, bei der den Prozenträngen 0 bis 10 der
fahren sind aus naheliegenden Gründen entwe-
Wert 1, zwischen 11 und 20 der Wert 2 etc.
der für Forschungszwecke (mit starker Anlehnung
zugeordnet wird) erbringt?
an theoretisch-psychologische Konstrukte) oder
für angewandt-diagnostische Fragen entwickelt
In Anbetracht dieser Sachlage gibt es nur weni-
worden, nicht für Evaluationszwecke. Dies be-
ge Bereiche, in denen der Einsatz von wissen-
reitet insbesondere folgende Probleme:
schaftlich konstruierten «allgemeinen» Testver-
• Oft geringe Änderungssensitivität; meist sind fahren wirklich empfehlenswert ist. Häufig
die Items so ausgewählt, daß sie auch eine finden sich solche Evaluationsprojekte in den
hohe Testwiederholungsreliabilität zeigen, USA für den pädagogischen Bereich, da dort
und damit gerade nicht kurzfristig fluk- Tests auch als schulische Prüfungen eingesetzt
turierende, leichter einer Intervention zu- werden (vergleichbar damit ist in der Bundesre-
gängliche Aspekte erfassen (besonders deut- publik Deutschland etwa die Bewertung der
lich im Intelligenzbereich). Ausbildung verschiedener medizinischer Fakul-
• Die Länge der Testverfahren ist auf die Be- täten anhand der bundesweit einheitlichen
dürfnisse der Einzelfalldiagnostik abgestellt, Prüfungen im ersten medizinischen Staatsex-
so daß sie für maßnahmebezogene Evaluati- amen), zum gleichen Zweck können auch die
on (die auf der Basis von Gruppendaten er- Bundesländer mit Zentralabitur (in manchen
folgt) häufig unter Effizienzaspekten zu auf- Bundesländern, zum Beispiel Baden-Württem-
wendig sind; die Reduktion der Testlänge berg, werden in jedem Jahr für das ganze Land
verändert aber, soweit nicht aufgrund des je- gleiche Abituraufgaben gestellt) diese Arbeiten
weiligen Verfahrens von einer annähernden heranziehen, ohne daß dort der Anspruch an
Parallelität der einzelnen Items auszugehen «Testkonstruktion» bei den Prüfungsaufgaben
ist, auch die inhaltlichen Aspekte und beein- erfüllt wäre. Für manche therapeutische Inter-
trächtigt somit stark die Bezugnahme auf die ventionen bei Kindern können Entwicklungs-
wissenschaftlichen Grundlagen und sonsti- bzw. Reifetests eingesetzt werden, bei Erwach-
ge mit dem Test gewonnenen Erfahrungen. senen wird man häufig mit speziellen Konstruk-
132 Planung von Evaluationsprojekten
tionen (etwa GAS, vgl. Diagramm IV/8) vorteil- tensbeobachtung und mündliche Interviews)
hafter arbeiten. wesentlich kostengünstiger ist. Einige beson-
Das Bestreben vieler Evaluatoren, objektive ders wichtige Probleme, wie sie bei Fragebögen
Testverfahren einzusetzen, ist verständlich. wissenschaftlich untersucht sind, finden sich
Man muß aber auch die Grenzen der Möglich- im Diagramm V/12. Auch bei sorgfältiger Gestal-
keiten dieser Instrumente zumindest bei ihrem tung kann natürlich nicht verhindert werden,
derzeitigen Entwicklungsstand sehen, und es daß man immer nur die (Selbst-) Einschätzung
kann sinnvoller sein, mit einer «weichen», we- der Befragten erfährt und damit der Verhaltens-
niger exakten und elaborierten Methode ein in- und Praxisbezug immer angezweifelt werden
teressantes Kriterium zu messen als mit hoher kann.
Präzision etwas, was inhaltlich nicht zu den ei-
gentlichen Evaluationszielen paßt. Allerdings
ist der «Verteidigungswert» von sog. bewährten Beobachtung
Testverfahren gegen spätere Kritik höher als bei
ad-hoc konstruierten Instrumenten. Die Vermeidung der «Realitätsferne», die man
Testergebnissen und Fragebögen zuschreiben
Eine etwas weniger fundierte Meßmethode ist kann, ist mit Methoden der Verhaltens-
der Versuch, im Rahmen des Evaluations- beobachtung möglich (vgl. etwa König, 1972).
projektes Fragebögen für die interessanten Diese Methoden sind dann ideal, wenn der
Variablen selbst zu konstruieren. Oft ist dies das technische Aufwand bewältigbar ist und sich
einzig denkbare Vorgehen, da die schriftliche die Evaluationskriterien wirklich auf beob-
Vorgabe von Fragebögen gegenüber den Wer- achtbare Verhaltensweisen beziehen. Typische
ten unter besprochenen Alternativen (Verhal- Beispiele:
Diagramm V/12
Probleme der Fragebogenkonstruktion (nach König, 1972)
• Klärung der Frage, welche Auskünfte von den Befragten gewünscht werden
• Klärung der Frage, an welche Personen-(Gruppen) sich der Fragebogen richten soll
• Wahl des testtheoretischen Ansatzes (Modellwahl)
• Auswahl der einzelnen Fragen; die verschiedenen Einzelfragen müssen so aufeinander abgestimmt werden, daß
eine logische Fortentwicklung der Fragen gegeben und somit ein einheitliches Ganzes vorhanden ist.
• Formulierung der Fragen
1. Wahl assoziationsarmer, unbelasteter und subgruppenspezifischer Formulierungen sowie einfacher und klarer
Syntax
2. Bei heiklen Themen: Formulierung muß so gewählt werden, daß der Befragte bei bestimmten Antworten keinen
Prestigeverlust befürchten muß und somit Abwehrmechanismen auf ein Mindestmaß beschränkt werden können
3. Verwendung offener vs. geschlossener Fragen
4. Wahl der möglichen Antwortalternativen (bei geschlossenen Fragen) Dichotomie vs. Auswahl zwischen meh-
reren Möglichkeiten
5. Verwendung indirekter oder direkter Frage (Face-Validität für die Befragten)
6. Probleme, die sich bei indirekten Fragen ergeben: Selbstdarstellungstendenzen oder Fragebeantwortung im
Hinblick auf soziale Erwünschtheit von Seiten der Befragten, Widerstände des Respondenten, etc.
7. Probleme die sich bei direkten Fragen ergeben: Probleme, die Gültigkeit derartiger Fragen zu bewerten
8. Fragen müssen so formuliert werden, daß die Befragten zur Mitarbeit bereit sind
9. Fragen dürfen nicht die ggf. vorhandenen Erwartungen des Testkonstrukteurs widerspiegeln
• Anzahl der Fragen und Stellung der Fragen in der Fragenfolge (Abfolge von den einfacheren zu den komplizier-
teren Fragen, Berücksichtigung potentieller Ermüdungseffekte bei exzessivem Fragenumfang
• Aufzeichnung der Fragebogendaten
1. Feldverschlüsselung
2. wörtliche Aufzeichnung
3. Gewichtung der verschiedenen Antwortalternativen
Planung von Evaluationsprojekten 133
• Verhaltenstherapien, etwa hinsichtlich pho- mierung der jeweiligen Maßnahmen geben
bischer Reaktionen können, müssen von Beobachtern im Nachhin-
• Trainings in Sozialtechniken, etwa Diskus- ein in die objektiv beobachtbaren Fakten hin-
sionsverhalten, Kommunikationstechniken eininterpretiert werden, was natürlich zu Ver-
oder Gesprächsführung zerrungen führen kann.
• Lehrverfahren oder Lehrmethoden mit ko-
gnitiven Inhalten und unmittelbarer Hand-
lungsrelevanz, etwa die Bedienung von Interviewtechniken
Maschinen, EDV-Anlagen oder auch die
«Postkorb-Übung» aus dem Assessmentcenter. Für die Erfassung der subjektiven Erklärungen
für das Verhalten sowie generell für sehr kom-
Für diese Beispiele wird es angemessen sein, das plexe kognitive Strukturen und deren Verände-
Verhalten unmittelbar (etwa die Reaktion auf rungen ist das offene oder teils strukturierte
einen vorher massiv Angst auslösenden Reiz, Interview ein sehr aufwendiges, aber unver-
Aufbau und Durchführung eines Vortrages, die zichtbares Hilfsmittel. Hinweise dazu gibt Dia-
Art des Umganges mit der Maschine) zu erhe- gramm V/13.
ben anstatt indirekt über Fragebögen oder Tests Bei normaler Gesprächsführung bleibt für die
Meinungen bzw. Kompetenzen zu erfassen. Interpretation der subjektiv gesehenen Zusam-
Was Verhaltensbeobachtungen aber nicht di- menhänge ein für Evaluationsfragestellungen
rekt leisten können, ist die Erfassung der sub- manchesmal nicht vertretbarer Spielraum des
jektiv gesehenen Zusammenhänge und Ursa- Interviewers, so daß sich der Einsatz spezieller
chen für die jeweilige Verhaltensweise. Diese Techniken empfiehlt, wenn gerade die Verän-
Strukturen, die vor allem Hinweise auf Opti- derung solcher subjektiven Theorien das Ziel
Diagramm V/13
Das Interview – Grundbegriffe und Probleme (König, 1972)
von Interventionsmaßnahmen sind. Dafür ste- an Einsparungen sind durchaus realistisch. Die-
hen u.a. die Verfahren zur Verfügung, die schon ses Vorgehen sollte daher insbesondere dann
in 4.2.3 (Diagramm IV/6 und IV/7) besprochen gewählt werden, wenn die Probanden stark be-
wurden. lästigt oder gar geschädigt (und sei es nur in
Form des Unterbleibens einer an sich mögli-
Die Fülle der im sozialwissenschaftlichen Be- chen besseren Förderung) werden. Da dadurch
reich eingeführten Erhebungsmethoden konnte überdies wesentliche Kosten eingespart werden,
hier nur in dieser groben Form vorgestellt wer- sollte sie für viele Evaluationsstudien das be-
den, ausführlichere Einblicke gibt etwa Bortz, vorzugte statistische Herangehen sein. Aller-
1984. dings gibt es auch Gründe, die dagegen spre-
chen:
• Die Kosten der Datenerhebung sind nicht im
5.3 Auswertungsverfahren Vornherein kalkulierbar; die Probandenzahl
hängt ja, im Gegensatz zu festen Stich-
Die vorgesehenen Auswertungsverfahren soll-
probengrößen, von den erst zu erhebenden
ten schon in der Planungsphase möglichst ge-
Resultaten ab.
nau mit dem Auftraggeber abgesprochen wer-
den – zumindest dann, wenn dieser überhaupt
• Gerade wegen der Einsparung von Personen
liefert die Sequentialstatistik oft schon signi-
bereit ist, sich auf solche «Detailfragen» einzu-
fikante Ergebnisse, wenn erst eine der «üb-
lassen. Ganz besonders gilt die Notwendigkeit
lichen» Gepflogenheiten nach zu geringe
der Vorabsprache für die prinzipielle Entschei-
Stichprobengröße erreicht ist; die konkreten
dung, ob überhaupt statistisch vorgegangen
Erfahrungen zeigen, daß die Auftraggeber
werden soll oder eine eher beschreibend-ver-
manchmal erhebliche Schwierigkeiten ha-
stehende, hermeneutische Vorgehensweise ge-
ben, eine solche «zu kleine» empirische Stu-
wünscht wird.
die zu akzeptieren (vor allem dann, wenn
Ein wichtiger Punkt, sofern man statistisch
die Ergebnisse nicht der Vorerwartung ent-
vorgehen möchte, ist die Entscheidung zwi-
sprachen); hier ist rechtzeitige Aufklärung
schen festen Stichprobengrößen oder Sequen-
vor Bekanntsein der Ergebnisse unverzicht-
tialstatistik. Bei der letzteren wird nicht von
bar!
vorn herein die Anzahl der zu untersuchenden
Personen festgelegt, sondern die Hypothesen-
• Die Sequentialstatistik erfordert mehr Vor-
überlegungen, insbesondere bezüglich der
prüfung schrittweise, nach jeder neu untersuch-
Alternativhypothesen: Dies kann, vor allem
ten Person nochmals durchgeführt. Darin liegt
bei mehrdimensionalen Ho Schwierigkeiten
ein erheblicher Vorteil: Bei festen Gruppen-
machen.
größen kann es sein, daß eine Signifikanz nur
deswegen nicht auftritt, weil man ein paar Pro-
banden zuwenig eingeplant hat. Tatsächlich Für weitere Details zur Sequentialstatistik siehe
sind ja die Trennschärfe-Abschätzungen, die die etwa Wald, 1947; Bauer et al., 1986. Auf die
Grundlage für eine sinnvolle Bestimmung der Schwierigkeiten, diese Verfahren trotz offen-
Gruppengrößen bieten könnten, meist nur sichtlicher theoretischer und pragmatischer
schwach fundiert und werden überdies in der Überlegenheit im sozialwissenschaftlichen Be-
Forschungspraxis nur selten überhaupt einge- reich verstärkt einzuführen, verweist Diepgen,
setzt (s. dazu Gigerenzer, 1989). Ebenso schade 1987.
ist es, wenn man viel zu viele Personen unter- Es ist natürlich unmöglich, im Rahmen eines
sucht, etwa mehrere hundert, und die statisti- allgemeinen Evaluationsbuches alle methodi-
sche Absicherung der Effekte schon mit einem schen Ansätze im Detail darzustellen. Im fol-
Bruchteil davon möglich gewesen wäre. genden finden sich zunächst einige Ausführun-
Da die Sequentialstatistik garantiert, daß ge- gen über das Problem von Effektstärken (5.3.1),
rade soviele Daten erhoben werden, wie man die leider häufig durch bloßes Signifikanztesten
zur Entscheidungsfindung benötigt, reduziert ersetzt werden; daran anschließend werden ei-
sie die durchschnittlich erforderlichen Proban- nige für den Evaluationsbereich wichtige Be-
denzahlen ganz enorm, Angaben über ca. 2/3 sonderheiten linear-statistischer Verfahren be-
Planung von Evaluationsprojekten 135
sprochen (5.3.2), da diese für die Auswertung die Mittelwert und Standardabweichung festle-
von Evaluationsprojekten eine quantitativ be- gen und die Einzelergebnisse in Relation dazu
sondere Bedeutung haben. Im letzten Abschnitt umformen.
(5.3.3) wird ein kurzer Überblick über wichtige Welche Festlegung von Mittelwert und Stan-
qualitative Verfahren gegeben, die insbesondere dardabweichung man wählt, ist aber im Prin-
für die Auswertung «weicher» Daten (Nominal- zip willkürlich. Häufig (vgl. Lienert, 1969) sind
skalen oder überhaupt keine explizite Messung, z-Werte (Mittelwert 0, Standardabweichung 1),
wie sie bei Interviewergebnisse häufig ist) Be- T-Werte (50 bzw. 10) und Standardwerte (100
deutung haben. bzw. 10). Ein z-Wert von 1 entspricht also ei-
Fundierte Einblicke in die Fülle im Rahmen nem T-Wert von 60 (Mittelwert eine Standard-
der sozialwissenschaftlichen Evaluationsfor- abweichung) und einem Standardwert von 110.
schung relevanten Methoden geben etwa Cook Sachlich sind alle drei Darstellungen äquiva-
und Reichard, 1979 oder Bortz, 1993. lent.
Diese Vergleichbarkeit gilt aber nicht für die
Aufnahme der Information bei «Laien» oder gar
5.3.1 Beurteilung der Effektstärke den Medien. Hat etwa ein Schulsystem in ei-
nem Bewertungskriterium gegenüber der
Für viele Fragestellungen im Zusammenhang Normstichprobe einen Wert erhalten, der eine
mit Evaluationen genügt es nicht zu wissen, halbe Streuung unter dem Mittelwert der
daß ein Effekt besteht, sondern man möchte Normstichprobe liegt, und das andere System
auch Angaben darüber, wie groß zum Beispiel ein genau dem Norm-Mittelwert entsprechen-
der Unterschied zwischen zwei Programm- des Ergebnis, so würde dies in z-Werten «0,5»
varianten ist. Leider ist diese Frage viel kompli- bzw. «0,0» bedeuten. Für Laien wäre schon die
zierter, als man zunächst meinen sollte. Die Vorstellung einer negativen Schulleistung ab-
mangelnde Vertrautheit mit der (für psycholo- surd, und daß ein Leistungswert von genau
gische bzw. sozialwissenschaftliche Meßinstru- Null etwas Gutes sein könnte, wäre für viele
mente selbstverständlichen) Skalenproblematik schwer vorstellbar. Betrachtet man nur die Dif-
in der Öffentlichkeit bzw. bei den Nutzern der ferenz der beiden Systeme, so entsteht bei ei-
Projektergebnisse, die Verwechslung von Signi- nem Wert von 0,5 eigentlich der Eindruck ei-
fikanz und Relevanz, sowie die häufige Fehlin- nes vernachlässigbaren («Hinter dem Komma»)
terpretation von statistischen Kennzahlen Unterschiedes. Etwas anderes wäre der gleiche
durch Laien erschwert wesentlich eine sachge- Sachverhalt mit Standardwerten. Für das zwei-
rechte Kommunikation der Evaluationsergeb- te System klingt die Angabe von 100 (statt 0)
nisse. eigentlich nach völliger Soll-Erfüllung, und eine
Differenz von fünf Punkten (vermutlich als
«5%» völlig fehlinterpretiert) klingt ja halbwegs
Normierte Skalenwerte beachtlich.
Gerade unter dem Gesichtspunkt der Öffent-
Sofern man von einer sorgfältigen Messung lichkeitswirkung hat es sich in den USA einge-
durch Tests, Fragebögen oder Verhaltens- bürgert, die Evaluationsergebnisse von Schul-
beobachtungen ausgehen kann, ist in sozial- untersuchungen (zum Beispiel alljährliche
wissenschaftlichen Projekten das Meßniveau Leistungsveränderungen) auf einer Skala anzu-
auf Intervallskalenniveau erreichbar. Bei diesen geben, deren Mittelwert 350 und die Standard-
sind beliebige lineare Transformationen mög- abweichung 50 beträgt. Auf dieser Skala wäre
lich, ohne daß die inhaltliche Aussage verän- das hier beispielhaft verwendete Ergebnis 325
dert würde. zu 350, und 25 Punkte weniger ist ja durchaus
Man benützt dies, um die an sich ohne Zu- beachtlicher als 0,5 z-Werte, zumindest für den
satzinformation nicht interpretierbaren Ereig- Laien.
nisse (was heißt es, wenn in einem Test eine
Probandengruppe im Mittel 18, die andere 25 Es kann keine «richtige» Normierung geben, da
Punkte erreicht hat?) zu standardisieren. Am die entsprechenden Setzungen bei Intervall-
gebräuchlichsten sind dafür Vorgehensweisen, skalen eben willkürlich sind. Vielleicht wäre es
136 Planung von Evaluationsprojekten
sinnvoll, sich auf eine Skala bei öffentlichen prägungsgraden auf den Parameterdimensio-
Darstellungen zu einigen, damit allmählich ein nen) genau eine vorher prognostizierte Kugel
Gefühl für die Bedeutung von zum Beispiel 10 zu ziehen. Das Auftreten eines signifikanten Er-
Standardwerten entsteht. Verwenden sollte gebnisses hängt daher im wesentlichen von der
man die normierten Werte bei der Ergebnis- Trennschärfe des Vorgangs ab, also insbeson-
darstellung vor allem dann, wenn die Adressa- dere von der Genauigkeit der Messung und der
ten über eine entsprechende Vorbildung ver- Anzahl der herangezogenen Versuchspersonen.
fügen. In jedem Fall sind normierte Werte Mit steigender Stichprobengröße führen auch
günstiger als die Roh-Punkte, da diese auch von immer kleinere Unterschiede zwischen den zu
Fachleuten ohne Zusatzinformationen (die eine evaluierenden Maßnahmen zu einem signifi-
implizite Normierung ermöglicht) nicht inter- kanten Resultat.
pretiert werden können. Im Bereich der (psychologischen) Grundla-
genforschung ist dieses Phänomen deswegen
nicht allzu gravierend, weil aus Gründen des
Signifikant = relevant? Aufwandes meist nur eine sehr kleine Zahl von
Probanden untersucht werden kann, so daß in
Zusätzlich zum Ausmaß gefundener Unter- einer an sich statistisch nicht vertretbaren, aber
schiede muß geklärt werden, ob diese vielleicht praktisch plausiblen Schlußweise von einer Si-
nur durch Zufallsschwankungen in der Stich- gnifikanz (unter der Nebenbedingung eben
probenziehung in der gefundenen Größe auf- kleiner Stichproben) auf das Bestehen eines
treten können, also nicht als gesicherte, von nicht unerheblichen Unterschiedes zwischen
Null verschiedene Befunde zu interpretieren den Versuchsgruppen indirekt geschlossen wer-
sind. Dazu bedient man sich der bekannten den kann. Da aber bei zahlreichen Evaluations-
Methoden der statistischen Inferenz. Die (in projekten die Stichproben sehr groß sind (man
vieler Hinsicht bedauerlicherweise) häufigste denke etwa an die vielen hundert Schüler bei
statistische Testtheorie für die Auswertung psy- Schulvergleichsuntersuchungen oder die übli-
chologischer oder sozialwissenschaftlicher Stu- cherweise 1000 bis 2000 Personen umfassen-
dien geht auf Neyman-Pearson zurück. Die den Umfragen für Rückschlüsse auf allgemein
Grundidee (vgl. dazu ausführlicher Bortz, 1979) wirksame Maßnahmen wie etwa Aufklärungs-
solcher Auswertungen in den meisten Anwen- oder Werbekampagnen) werden auch viele
dungen aus dem Grundlagenbereich ist, daß sachlich irrelevante Unterschiede «sehr hoch
man zunächst eine Hypothese (Ho ) aufstellt, an signifikant». Die statistische Signifikanz kann
die man ohnedies nicht glaubt (zum Beispiel in solchen Fällen nur eine notwendige Bedin-
kein Unterschied zwischen verschiedenen Maß- gung (wenn der Effekt nicht einmal gegenüber
nahmen) und sich dann freut, wenn die schon zufälligen Unterschieden gesichert ist, sollte
inhaltlich unplausible Null-Hypothese auf- man ihn nur äußerst vorsichtig interpretieren)
grund der empirischen Beobachtungen falsifi- aber niemals als hinreichend verstanden wer-
ziert werden kann (es also doch Unterschiede den. Für ausführlichere Darstellungen zum Si-
zwischen den Maßnahmen gibt). Die Freude ist gnifikanz-Testen vgl. etwa Clauß und Ebert,
voll berechtigt, da sie im wesentlichen aussagt, 1972; Siegel, 1956.
daß der Untersucher ausreichend viel und
gründlich gearbeitet hat – unter den üblichen
Stetigkeitsannahmen (kontinuierliche Para- Interpretation deskriptiver Kennzahlen
meterdimension, unendliche Population) ist
die Chance, daß es tatsächlich keinen Unter- Um unabhängig bzw. ergänzend zur zufalls-
schied zwischen den Maßnahmen in der kritischen Absicherung deskriptive Aussagen
Population gibt (also die Differenzen aller über die Stärke der nachgewiesenen Effekte er-
Populationsparameterwerte exakt null sind) halten zu können, wurden in der Statistik ver-
verschwindend gering bzw. überhaupt null. Sie schiedene Maßzahlen entwickelt, die aber auch
entspricht der Wahrscheinlichkeit, aus einer zum Teil Probleme mit sich bringen, wenn man
Urne mit unendlich vielen Kugeln (entspre- sie falsch anwendet oder unzulässig interpre-
chend den unendlich vielen möglichen Aus- tiert (s. dazu Stelzl, 1982).
Planung von Evaluationsprojekten 137
Auch bzgl. dieser Kennziffern bestehen gele- Überlegungen über die unterschiedlich intel-
gentlich erhebliche Interpretationsunsicher- lektuelle Anregung eines Einzelkindes, des
heiten. Um nur 2 Beispiele herauszugreifen: zweiten, in die Familie hinzukommenden
Kindes usf., unter Beachtung der Altersab-
• Ein t-Wert von 2,0 oder 3,0 gilt schon als stände). Auf dieser Basis konnte ein Modell
«massives» Ergebnis; tatsächlich ist aber
erarbeitet werden, dessen Vorhersagen mit
selbst dann die Überschneidung zwischen
den Testwerten zu 0,94 korrelierte, was über
den beiden verglichenen Gruppen beträcht-
der erwartbaren Testreliabilität liegt. Die Er-
lich (s. Wottawa, 1981). Wie man dort sieht,
klärung dafür ist, daß die Daten von fast
sind auch «sehr hoch signifikante» Ergebnisse
400 000 Rekruten verrechnet wurden und
mit ganz massiven Überlappungen behaftet,
das Modell nicht für Einzeldaten, sondern
so daß eine Verallgemeinerung des gesicher-
für die Mittelwerte der Kombinationen von
ten Mittelwertunterschiedes auf Unterschiede
Familiengröße und Geburtsreihenfolge Vor-
der Einzelpersonen nur sehr bedingt erfol-
hersagen leistet. Jeder der 35 «Datenpunkte»
gen kann. Das Ergebnis darf dann nicht lau-
faßte also die Werte von Tausenden Einzel-
ten «Die Angehörigen der Gruppe A zeigten
beobachtungen zusammen, was die Fehler-
höhere Werte als die der Gruppe B» sondern
varianz entsprechend stark reduziert. Auf die-
«Der Mittelwert der einen Gruppe ist höher
ser Basis gewonnene Korrelationen werden
als der der anderen». Es ist manchesmal nicht
mit steigender Stichprobengröße nicht aus-
ganz einfach, den Auftraggeber (oder bei poli-
sagekräftiger, sondern verlieren im Gegensatz
tisch relevanten Maßnahmen gar die interes-
zur Anschauung gerade mit höheren Fall-
sierte Öffentlichkeit) auf die für praktische
zahlen immer mehr Wert als Ausdruck der
Bewertung von Ergebnissen nicht unerheb-
Effektstärke eines Phänomens. Dieses eigent-
lichen Unterschiede dieser beiden Formulie-
lich elementare statistische Phänomen ist für
rungen hinzuweisen und den Sachverhalt
die Evaluationsforschung deswegen von be-
aufzuklären.
sonderer Bedeutung, da dort meistens Maß-
• Selbst so vertraute Maße wie die Korrelation nahmen auf der Basis von Mittelwerten (etwa
machen erhebliche Schwierigkeiten; man von Schulklassen oder therapeutischen Indi-
denke an das Problem, einem sozialwissen- kationsgruppen) bewertet werden und sich
schaftlichen Laien klarzumachen, warum der daher die Verwendung entsprechender
gleiche Sachverhalt einmal mit einer Korre- Bestimmtheitsmaße auf dieser Grundlage an-
lation von 0,7 (für den Laien: «Über Zwei- bietet.
drittel»), das andere Mal mit einem Be-
stimmtheitsmaß von 0,49 («weniger als die Neben dieser statistisch-technischen Effekte,
Hälfte») beschrieben wird oder was eigent- die zu einer Fehlinterpretation meist im Sinne
lich der Begriff «Varianzaufklärung» bedeu- einer Überschätzung der Aussagekraft der Stu-
tet. Methodisch interessanter ist die Möglich- die führen, scheint die Verarbeitung multivaria-
keit, insbesondere multiple Korrelationen ter Information Schwierigkeiten zu machen. So
(oder Bestimmtheitsmaße) durch die Ver- ist man zum Beispiel gewöhnt, eine durchaus
wendung von Mittelwerten anstelle von Ein- brauchbare Information über eine Stichprobe
zeldaten in der Regressionsgleichung nahezu durch ein Maß der Zentraltendenz, insbeson-
beliebig zu erhöhen. Da bereits durch das dere den Mittelwert, zu erhalten. Es dominiert
bloße Ausmitteln von Meßfehlern bei einem die (implizite) Vorstellung, daß sich die Meß-
solchen Vorgehen die Varianz der abhängi- werte meistens irgendwie eingipfelig, wenn
gen Variablen stark reduziert wird, können schon nicht unbedingt nach der Gauß-Vertei-
dabei Korrelationen in der Größenordnung lung (die ja aus diesen Gründen auch «Normal-
der Testreliabilität (auf der Basis der Einzel- verteilung» genannt wird) um diesen Wert
personen berechnet!) auftreten, ein Beispiel herum gruppieren. Diese Vorstellung stimmt
dieser Art findet sich etwa bei dem Kon- schon im univariaten Fall oft nicht (so ist zum
fluenzmodell (Zajonc, 1979). Bei diesem wird Beispiel der Mittelwert bei extrem zwei-
die Intelligenz auf Grund der Familien- gipfeligen Verteilungen besonders weit von al-
konstellation vorhergesagt (vor allem durch len tatsächlich gefundenen Meßwerten ent-
138 Planung von Evaluationsprojekten
fernt), völlig unübersichtlich wird es im multi- ter, übersichtlicher Form geben, um die spätere
variaten Fall. Als Anschauungshilfe werden ge- Zusammenfassung in dieser Form zu erleichtern.
legentlich optische Darstellungen verwendet,
etwa die «Cherkoff-Gesichter». Dies sind einfa-
che Strichzeichnungen, die Ausprägungen der 5.3.2 Auswertungsverfahren auf
Einzelheiten (etwa der Augenabstand, die Au- der Basis allgemeiner linearer
gengröße, Krümmung des Mundwinkels etc.) Modellansätze
entsprechen den Ausprägungsgraden der ein-
zelnen Variablen (siehe dazu etwa Daumen- Möchte man mehr als einfache Gruppen-
fang, 1984). Solche Darstellungen können vergleiche auf der Basis elementarer Effekt-
Fehlinterpretationen, etwa bezüglich der Be- stärken, wird im sozialwissenschaftlichen Be-
schreibungsgüte (die oft überschätzt wird) reich für die Analyse von Strukturen in den
einer Stichprobe durch das multivariate gefundenen Daten meist auf Spezialfälle des all-
Mittelwertsprofil, vermeiden helfen. gemeinen linearen Modells zurückgegriffen. (s.
Leider ist es relativ leicht, die mit den einzel- etwa Rochel, 1983 oder Moosbrugger, 1978).
nen Maßen der Effektstärke verbundenen Pro- Auf den ersten Blick sind diese Ansätze nicht
bleme aufzuzeigen; viel schwieriger ist es, posi- nur beliebt, sondern auch sachlich sinnvoll, da
tive Empfehlungen zu geben, da jede dieser sie in einfacher Weise auch die Erfassung kom-
Kennziffern ihre Vor- und Nachteile hat. Es plexer Sachverhalt ermöglichen. Speziell für die
bleibt nur, die jeweiligen Besonderheiten für Evaluationsforschung, aber nicht nur dort, ist
das konkrete Projekt abzuwägen und vor allem mit diesem Ansatz aber auch eine Reihe von
durch vorbereitende Information zu versuchen, Schwierigkeiten verbunden:
bei den «Abnehmern» der Ergebnisse wenig-
stens ein wenig Verständnis der Interpretations-
• Diese Modellform ist populationsabhängig
(im Sinne fehlender Teilgruppenkonstanz,
schwierigkeiten zu erwecken, was allerdings in
vgl. Wottawa, 1987).
keiner Weise einfach ist.
• Die Ergebnisse können nur deskriptiv, nicht
funktional interpretiert werden.
Meta-Analysen
• Das Modell ist stets als Einheit zu sehen, das
Herausgreifen von Teilergebnissen ohne Be-
achtung des Gesamtrahmens ist nicht zuläs-
Die im Abschnitt 5.2 dargestellten Schwierig-
sig.
keiten von wirklich aussagekräftigen Evaluations-
projekten lassen es in diesem Forschungsfeld
besonders wichtig erscheinen, die Ergebnisse Populationsabhängigkeit
(gerade in Form der Effektstärken) möglichst
vieler verschiedener Studien zu einer Global- Das Problem der Populationsabhängigkeit wur-
aussage zusammenzufassen. Dies setzt die Ein- de insbesondere im Zusammenhang mit der
haltung bestimmter methodischer Vorgehens- Faktorenanalyse diskutiert (vgl. dazu Fischer,
weisen voraus. Ausführliche Darstellung dieser 1974), trifft aber in gleicher Weise für alle An-
Techniken finden sich bei Fricke und Treinies, sätze des allgemeinen linearen Modells zu. Da
1985. Für den psychologisch-sozialwissenschaft- die Modellgültigkeit immer für eine vorgegebe-
lichen Bereich besonders interessante Ergebnisse ne Population (aus der der speziell ausgewerte-
von Meta-Analysen geben Hunter et al. (1982), für te Datensatz als Stichprobe genommen ist)
die Wirkung von Psychotherapien Grawe (1990). postuliert wird, ist eine Übertragung der Mo-
Zusammenfassende Auswertungen dieser Art dellergebnisse auf Teilgruppen daraus nicht zu-
ersetzt natürlich nicht die Detailarbeit in den lässig und würde zu massiven Fehleinschätzun-
einzelnen Evaluationsprojekten, sind aber eine gen führen.
wertvolle und unverzichtbare Grundlage für all- Wieweit dieses Problem für die Evaluations-
gemeine Empfehlungen. Es wäre anzustreben, forschung stört, hängt davon ab, ob sich die
daß alle publizierten Evaluationsprojekte die für evaluativ untersuchten Maßnahmen auf Ein-
eine sachgerechte Aufarbeitung in Meta-Analy- zelpersonen (die ja immer Teile einer Popula-
sen erforderlichen Angaben in zusammengefaß- tion sind) bezieht oder ob vordefinierte, sach-
Planung von Evaluationsprojekten 139
lich sinnvolle Populationen den Maßnahmen (für die Population), aber nicht funktional ver-
ausgesetzt werden. Interessiert man sich etwa standen werden können. So hängt zum Beispiel
im Rahmen einer pädagogisch-psychologischen das Verhalten eines Klienten während eines
Fragestellung für die Zusammenhangsstruktur Therapieverlaufes in keiner Weise davon ab,
verschiedener Einflußgrößen bei Hauptschü- welche anderen Patienten irgendwann einmal
lern im Gegensatz zu Realschülern (Hesse, mit seinen Daten gemeinsam für die Projekt-
1982), so ist die Population der jeweiligen Schü- auswertung verrechnet werden. Trotzdem wird
lerschaft durch Sachaspekte definiert. Möchte je nach Zusammensetzung der Daten für die
man diese Population als ganze weiter untersu- Auswertung aus dem im vorigen Absatz darge-
chen, etwa mit dem Ziel der Evaluation von stellten Gründen einmal die Beziehung zwi-
Maßnahmen, die eine als nicht optimal er- schen emotionaler Befindlichkeit und Dauer
scheinende Zusammenhangsstruktur zwischen der Therapie sehr eng sein, das andere Mal ver-
Variablen günstig beeinflussen sollen, sind schwindend gering. Gleiches gilt für verwandte
entsprechende pfadanalytische oder LISREL- Verfahren, etwa auch für die Faktorenanalyse.
Modelle u. U. sehr nützlich. Gleiches gilt für Da die Zahl der für die Beschreibung der Ergeb-
Vergleiche zwischen verschiedenen Populatio- nisse sinnvollerweise erforderlichen Faktoren
nen. So konnte etwa Hesse in der oben zitier- ebenfalls von einer Populationsdefinition ab-
ten Arbeit deutliche strukturelle Unterschiede hängt, ist die «Intelligenz» oder «Persönlich-
zwischen Haupt- und Realschule nachweisen. keit» eines Menschen je nach der durch den
Vergleichbar sind viele Fragestellungen aus dem Untersucher willkürlich zu setzenden Popula-
sozialwissenschaftlichen Bereich, in denen die tionen einmal durch sehr viele Faktoren zu be-
«Populationen» Parteien, Verbänden, Industrie- schreiben (bei homogenen Gruppen), das an-
betrieben oder sogar ganzen Staaten entspre- dere Mal genügen wesentlich weniger (bei
chen. Typische Gegenbeispiele finden sich im heterogenen Populationen). Diese Artefakte
Bereich der Einzelfallintervention (zum Beispiel machen es auch unmöglich, solche (linearen)
bei psychologischen Therapietechniken oder Auswertungen als eine ausreichende Grundlage
pädagogischen Maßnahmen). Zeigt sich etwa für Prognosen für Veränderungen von Einzel-
ein für die Bewertung der Evaluationsergebnisse fällen abzuleiten (währenddem es durchaus
wichtiger Zusammenhang zwischen Intelligenz möglich ist, durchschnittliche bzw. gruppen-
und Lernsteigerung durch die Maßnahme, bezogene Veränderungen halbwegs sicher in
kann dieser je nach Definition der «Population» Trendberechnungen auf der Basis von Regres-
für die Modellanwendung nahezu beliebig ma- sionsgleichungen vorherzusagen).
nipuliert werden. Wählt man als Population In manchen Evaluationsprojekten ist man in
eine Gruppe von Schülern mit relativ ähnlicher besonderer Weise auf funktionale Modelle für
Intelligenz, wird auch ein «an sich» starker Einzelfälle angewiesen. Beispiele dafür sind
Zusammenhang als Folge der Reduktion der etwa formative Evaluationen von Über-
true-score-Varianz bei gleichbleibender Fehler- wachungs-oder Steuerungsanlagen (wo die In-
varianz in den Zusammenhangskennziffern na- formationsverarbeitung bzw. sensomotorische
hezu verschwinden; wählt man eine «Populati- Koordination des Bedieners möglichst exakt zu
on» zum Beispiel aus zwei Extremgruppen modellieren wäre) und bei anderen ergonomi-
(besonders hoch- bzw. niedrig-intelligente schen Fragestellungen, zum Beispiel der Opti-
Schüler), wird wegen der dann erfolgten massi- mierung von Computersoftware. Für Steue-
ven Erhöhung der Varianz der true-scores bei rungseinrichtungen haben sich insbesondere
sonst gleichem Sachverhalt eine wesentlich bes- Modelle auf der Basis der regelungstechnischen
sere Modellanpassung resultieren. Ansätze bewährt, die zu einer Beschreibung des
Verarbeitungsprozesses auf der Basis von Diffe-
rentialgleichungsmodellen führen (für An-
Deskription, nicht Funktionsanalyse wendungsfälle in der mathematischen Soziolo-
gie siehe etwa Coleman 1956). Beispiele für die
Diese Populationsabhängigkeit ist auch einer funktionale EDV-Modellierung von relevanten
der Gründe, warum Auswertungen auf der Wissens- bzw. Denkstrukturen finden sich bei
Grundlage des linearen Modells nur deskriptiv Kleinmuntz, 1963; 1972.
140 Planung von Evaluationsprojekten
Ein besonders eindrucksvolles Beispiel dafür inhaltlichen und dem methodischen Vorgehen
ist die Plan-Analyse (Grawe und Caspar, 1984), voraus.
die vor allem für Anwendungsfälle aus dem Be-
reich der Therapie und Therapie-Evaluation
entwickelt wurde. Die Grundidee dabei ist, daß Verstehen
komplexe Strukturen (zum Beispiel Handlungs-
pläne, das Verfahren läßt sich aber natürlich Der im strengsten Sinn «qualitative» Ansatz ist
auch auf jede andere Art von Strukturbezie- ein rein verstehend-interpretatorisches Vorge-
hungen anwenden) dadurch übersichtlicher hen. Diese Methodik ist in vielen geisteswis-
gemacht werden, daß vom Untersucher die je- senschaftlichen Bereichen unverzichtbar, etwa
weils paarweisen Beziehungen erarbeitet wer- bei der Interpretation von Kunstwerken oder
den und das Programm dabei hilft, daraus eine Gedichten, dort wurden auch Arbeitstechniken
nachvollziehbare Gesamtstruktur (etwa in dazu entwickelt. Für die empirische Evalua-
Form hierarchischer Entscheidungsabläufe oder tionsforschung ist dieses Vorgehen aber von
Organisationsstrukturen) aufzubauen. Ansätze untergeordneter Bedeutung, man würde zö-
dieser Art können eine sehr wertvolle Hilfe sein, gern, ein solches Projekt zum Beispiel nur auf
um die Erfassung und insbesondere die über- einer verstehenden Beschreibung einiger Tie-
sichtliche Präsentation komplexer Befunde in feninterviews aufzubauen. Auch zeigen Erfah-
qualitativ orientierten Evaluationsstudien zu rungen im Bildungsbereich, daß die öffentliche
beschreiben. Sie sollten aber wegen der relati- Akzeptanz rein beschreibender Arbeiten gering
ven Willkürlichkeit immer nur heuristisch-for- ist.
mativ, nicht als endgültig-summatives Ergeb- Trotzdem kann bei vielen Projekten nicht auf
nis dargestellt werden. eine subjektiv-spekulative Interpretation ver-
Da die notwendigen technischen Hilfen, ne- zichtet werden, vor allem bei formativen Eva-
ben den EDV-Programmen auch die Einschu- luationen. Es wäre unvertretbar, die oft feststell-
lung in ihre sachgerechte Nutzung, bei quali- baren, wenn auch zunächst nicht geplanten
tativen Verfahren noch wesentlich weniger und daher auch nicht quantitativ erfaßten Hin-
verbreitet sind als für quantitativ-statistische weise auf Optimierungsmöglichkeiten nur des-
Methoden, sollte vor der endgültigen Fest- halb nicht zu nutzen, weil man dafür keine
legung solcher Auswertungsmethoden in der Auswertungsstatistiken vorlegen kann. Man
Planungsphase die Verfügbarkeit entsprechen- sollte aber solche persönlichen Eindrücke, Mei-
der Ressourcen gesichert sein. Auch muß der nungen und Vorschläge deutlich als solche
Arbeitsaufwand relativ hoch veranschlagt wer- kennzeichnen und nicht den Eindruck erwek-
den, und insbesondere ist er nicht delegierbar. ken, sie seien durch objektivierbare Fakten ab-
Der vorwiegend inhaltlich-wissenschaftlich gesichert. Manchesmal ist es zur Vermeidung
ausgerichtete Projektmitarbeiter kann für die solcher Mißverständnisse sogar besser, Hinweise
rein statistische Datenanalyse die entsprechen- auf dieser Grundlage nur in einem persön-
den Arbeiten (weitgehend) an Spezialisten de- lichen Gespräch mit dem Auftraggeber weiter-
legieren, qualitative Auswertungsverfahren set- zugeben und nicht in den offiziellen Bericht
zen aber eine enge Abstimmung zwischen dem aufzunehmen.
Planung von Evaluationsprojekten 143
Übersicht Kapitel 5:
Planung von Evaluationsprojekten
5.1
Projektmanagement
Wichtige Informationen im Vorfeld oder zu Beginn des Projektes:
Informationen über Rahmenbedingungen
Erstellung eines Arbeitsplans
Zeit- und Kostenplan
5.2
Designfragen
Fehlerquellen: Reifung, Nicht-Äquivalenz von Vergleichsgruppen, Mortalität im statistischen Sinne
Untersuchungspläne Datenerhebungsverfahren
Quasi-Experimentelle Designs • Psychologische Tests
• günstig in Evaluationsstudien • Fragebögen
• Verhaltensbeobachtung
Echte Experimentelle Designs • Offene oder teilstrukturierte
• in Evaluationsstudien kaum Interviews
anwendbar
«Sonderfall» Qualitätsmanagement
• günstig, um vertraglich zugesagte
Leistungen zu überprüfen
• keine Rückschlüsse auf Kausal-
ursachen möglich!
5.3
Auswertungsverfahren
Unterscheidung Sequentialstatistik oder feste Stichprobengröße