Heike Thierau
Evaluation
Lehrbuch
Evaluation
H.Wottawa / H.Thierau
Das Lehrbuch vermittelt ein fundiertes
Verstndnis fr die Mglichkeiten und
Grenzen sozialwissenschaftlich gesttzter
Evaluation bei den Betroffenen, den
Entscheidungstrgern und den potentiel-
len Evaluatoren. In der zweiten Auflage 2., vollstndig 2., vollstndig
werden ergnzend dazu auch die Grund-
stze des Qualittsmanagements nach
berarbeitete berarbeitete
DIN ISO 9000 dargestellt. Auflage Auflage
2. Aufl.
Verlag Hans Huber
Bern Gttingen Toronto Seattle Verlag
Hans Huber
Aus dem Programm Huber: Psychologie Lehrbuch
Wissenschaftlicher Beirat:
Prof. Dr. Dieter Frey, Mnchen
Prof. Dr. Kurt Pawlik, Hamburg
Prof. Dr. Meinrad Perrez, Freiburg (Schweiz)
Prof. Dr. Hans Spada, Freiburg i.Br.
Heinrich Wottawa
Heike Thierau
Lehrbuch Evaluation
Zweite, vollstndig berarbeitete Auflage
Wottawa, Heinrich:
Lehrbuch Evaluation/Heinrich Wottawa und Heike Thierau.
2., vollst. berarb. Aufl. Bern ; Gttingen ; Toronto ; Seattle: Huber, 1998
(Aus dem Programm Huber: Psychologie-Lehrbuch)
ISBN 3-456-82989-2
Inhaltsverzeichnis
4.1 Zielexplikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.1.1 Zielgruppenbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.1.2 Konkretisierung des Evaluationsobjektes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.1.3 Antizipatorische Ergebnisverwertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Bewertungsproze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.2.1 Auswahl der Bewertungskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.2.2 Nebenfolgenabschtzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.2.3 Operationalisierungfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
8. Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
9. Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9
Seit der ersten Auflage vor acht Jahren haben stungsbereich naturgem eine erhebliche
sich einige fr den Evaluationsbereich sehr Herausforderung an psychologische bzw. so-
relevante Vernderungen ergeben, die wir zialwissenschaftliche Methodik zur Messung
jetzt durch eine entsprechende Textnderung der relevanten Variablen und der sachgerech-
bercksichtigt haben. Die neue Situation in ten Interpretation der Ergebnisse. Auch wenn
der Evaluation betrifft zum einen die Vern- die historischen Ursprnge der beiden Denk-
derung des Betrachtungsschwerpunktes. War richtungen Evaluation und Qualitts-
1987 noch eine interne Sichtweise domi- management vllig verschieden sind, und
nierend, etwas die begrifflich Abgrenzung sich auch sehr unterschiedliche Forderungen
von Evaluation, die Unterschiede und Ge- zum Beispiel bei Untersuchungsdesigns erge-
meinsamkeiten von Evaluation und Wissen- ben, erschien es als doch zweckmig, im
schaft oder die Bemhungen, die Vielzahl der Rahmen dieses Buches zumindest auf die
unter dem Evaluationsbegriff laufenden Ar- Grundzge dieses neuen und fr einschlgig
beiten in ein logisch-systematisches Begriffs- vorgebildete Personen potentiell interessan-
feld zu strukturieren, so nehmen heute, in ten Arbeitsfeldes einzugehen. Diese neuen
Gleichklang mit der zunehmenden Tendenz Entwicklungen machten grere Vernderun-
zur verstrkten Outputsteuerung in unserer gen des Textes in den Kapiteln 1, 2, 3 und 5
Gesellschaft, die pragmatischen Aspekte (Was erforderlich. Darber hinaus haben wir uns
bringen Evaluationsstudien? Wie kann man insgesamt bemht, die Klarheit und didak-
sie so anlegen, da sie den optimalen Nutzen tische Aufbereitung der Formulierungen zu
erbringen?) greren Raum ein. Eine andere verbessern, zumindest einen kleinen Teil der
wichtige Vernderung erfolgt im Zusammen- zwischenzeitlich neu erschienenen Evalua-
hang mit der inzwischen auch in Deutsch- tionsliteratur zu bercksichtigen und die
land groen Verbreitung der Zertifizierung technische Gestaltung der Diagramme, die
nach DIN EU ISO 9000 ff/2. Diese Norm fr stark unter den vor acht Jahren noch bli-
das Qualittsmanagement in Dienstleistungs- chen technischen Mglichkeiten der Textver-
organisationen erfordert, neben einer Viel- arbeitung gelitten hat, zu verbessern. Die Ar-
zahl von brokratisch-organisatorischen Re- beit an dieser Neuauflage wurde wesentlich
gelungen, die systematische berprfung der untersttzt von Frau Eva-Maria Oenning und
erbrachten Qualitt auch durch bereichs- Herrn Stefan Mller. Wir danken ihnen und
unabhngiges Personal und die Abhaltung allen Kolleginnen und Kollegen sowie allen
regelmiger Qualittsaudits. Im Gegensatz Studenten, die uns durch Hinweise auf
zu dem Qualittsmanagement von Produk- Schwachstellen der 1. Auflage geholfen ha-
tionsunternehmen, bei denen die damit ben.
verbundenen Me-, Design- und Interpreta-
tionsfragen eher auf einer physikalisch-
technischen Ebene liegen, bedeutet dieses Bochum, im Mai 1998 Heike Thierau
Konzept der Qualittskontrolle im Dienstlei- Heinrich Wottawa
9
11
Es gibt viele Mglichkeiten, sich dem weiten bildungsphase zu erarbeiten. Dabei wollten wir
Feld Evaluation zu nhern. Unser Zugang war in Abgrenzung zu den blichen Lehrbchern
die Praxis: Die Verbesserung des Wohnungs- der Evaluation unser Schwergewicht nicht auf
baus durch die Stadt Wien, die Festlegung der methodische oder wissenschaftstheoretische
zweckmigsten Reihenfolge des Baus von Aspekte legen, sondern auf jene Punkte, die
Autobahnabschnitten, die Bewertung integrier- man in der Praxis besonders bentigt. Dazu ge-
ter Studiengnge durch Studierende und Arbeit- hrt natrlich auch ein Konzept ber die wis-
geber an der GHS Kassel, die Diskussion ber senschaftlich-theoretischen Grundlagen von
Gesamtschulen, die Evaluation der Weiter- Evaluation; ein solches htte, rckblickend ge-
bildungsarbeit einer groen Versicherung fr sehen, vielleicht den einen oder anderen Feh-
alle solche Fragen ist es selbstverstndlich, da ler unserer praktischen Evaluationsarbeit weni-
man sich bemht, die Realitt durch den Ein- ger krass ausfallen lassen. Die Arbeit wurde von
satz von Forschungsmethodik und Befunden vielen Kollegen gefrdert, denen wir herzlich
aus der Psychologie bzw. den Sozialwissenschaf- danken wollen. Ganz besonders verpflichtet
ten positiv zu beeinflussen. Man mu dabei sind wir den vom Verlag zu Stellungnahmen
nicht unbedingt darber nachdenken, in wel- gebetenen Gutachtern, die uns sowohl fr das
ches Kstchen der wissenschaftlichen Syste- Ausgangskonzept als auch bei der Realisierung
matik das jeweilige Projekt pat. Wichtig ist der im Detail viele wertvolle Anregungen gegeben
Effekt, zumindest ein wenig zur Verbesserung haben. Der Einstieg in die geistesgeschichtli-
realer Bedingungen beigetragen zu haben. Die chen Grundlagen wurde wesentlich durch die
Beschftigung mit Meta- berlegungen zur Eva- freundliche Untersttzung von Herrn Prof. Dr.
luation folgte erst danach. Ein wichtiger Anla Knig und Frau Dr. Engels von der philosophi-
dafr war das von den Herren Krapp, Will und schen Fakultt an der Ruhr-Universitt Bochum
Winteler in Mnchen veranstaltete Symposium erleichtert. Auch Herrn Prof. Wittmann, Erlan-
zur Evaluation in der beruflichen Aus- und Wei- gen, Autor eines bekannten Evaluationsbuches,
terbildung. Es war faszinierend zu erleben, wie mchten wir fr den direkten und indirekten
manche (gar nicht wenige) Teilnehmer mit ho- Zugang zu wertvollen Detailinformationen
hem emotionalem Engagement stundenlang danken. Zustzliches erhielten wir durch Kolle-
ber die Frage diskutierten, ob Evaluation gen und Kolleginnen auf dem im Dezember im
nun Wissenschaft sei oder etwas anderes eine Bochum durchgefhrten und von der DfG un-
Frage, die sich in der bisher erlebten Evalua- tersttzten Rundgesprch zum Thema Evalua-
tionsarbeit eigentlich nie gestellt hatte. Dieses tion wertvolle Anregungen. Die vorliegende
einschneidende Erlebnis fhrte zur Reflexion Ausarbeitung wre ohne die tatkrftige Unter-
der bisherigen Gewohnheiten. Nach einer Lite- sttzung studentischer Mitarbeiter und Mitar-
raturdurchsicht entschlossen wir uns dann zu beiterinnen nicht mglich gewesen. Hervorzu-
dem Versuch, den Studierenden dabei zu hel- heben ist der Beitrag von Frau Martina Stangel,
fen, die Grundlagen fr eine praktische, profes- die nicht nur bei der Literaturaufarbeitung, son-
sionelle Evaluationsttigkeit whrend ihrer Aus- dern auch bei der selbststndigen Erarbeitung
12 Vorwort zur ersten Auflage
von bersichten, insbesondere zu Rechts- ein ber zwei Jahre andauerndes angenehmes
fragen, wertvolle Hilfe geleistet hat. Ebenso und gutes Arbeitsklima. Unsere Leser mchten
wollen wir den Beitrag von Frau Iris Gluminski, wir bitten, uns eine Evaluation dieses Buches
die besonders fr den Bereich des Projekt- zu ermglichen, indem sie uns mglichst viel
managments eine groe Untersttzung fr uns Rckmeldung ber didaktische Schwachstellen,
war, hervorheben. Die teilweise sehr mhsa- fachliche Lcken und evtl. auch Irrtmer zu-
men technischen Arbeiten wurden von Frau kommen lassen. Wir werden uns gerne bem-
Andrea Ludwig und Herrn Markus Saxen in ko- hen, alle diese Hinweise in einer spteren Auf-
operativer und sehr effizienter Weise durchge- lage zu bercksichtigen.
fhrt. Allen gilt unser Dank, insbesondere fr
Diagramm I/1
ber die moralische Verantwortung des Forschers (gekrzt aus Weizscker, 1983)
Im Jahre 1939 hatte Otto Hahn die Uran- Der Begriff der legalen Verantwortung ent-
spaltung entdeckt. Den Vlkern wurde die lastet uns von der unlsbaren Aufgabe, unse-
Atombombe 1945 sichtbar. Ihr verdanken wir rem Mitmenschen moralisch ins Herz zu se-
einen nun schon ber 25 Jahre dauernden hen. Vor dem Gesetz ist der Unternehmer, der
Waffenstillstand der Weltmchte (). Techniker, unter Umstnden auch der For-
Die Illusion der sechziger und siebziger Jah- scher, fr diejenigen Folgen des Handelns
re, wir lebten schon im gesicherten Frie- verantwortlich, die in einer vom Gesetz zu
den, schwindet rapide dahin. Ich habe sie nie definierenden Weise von seiner eigenen Ent-
geteilt. Die Frage nun lautet: Wie mu man scheidung abhngen. Die Wissenschaft, glo-
die Naturwissenschaft treiben, wenn Natur- bal gesehen, ist fr ihre Folgen nicht legal
wissenschaft solche politischen Folgen hat? verantwortlich. Moralische Verantwortung
hingegen betrifft in ihrem Kern Vorwrfe, die
Es ist evident, da es sich hier nicht nur um
ich nicht anderen Menschen zu machen habe
die spezielle Frage der Atombombe und ber-
und die anderen nicht mir, es sei denn als
haupt nicht um das Problem des Krieges han-
Freunde, als echte Pdagogen, sondern ich mir
delt. Da die moderne Technik, die erst durch
selbst.
die Naturwissenschaft mglich wird, die Welt
verndert, das wei man sptestens seit dem Wird die Wissenschaft angegriffen, dann ste-
19. Jahrhundert (). he ich zu ihr. Aber als Wissenschaftler unter
Wissenschaftlern kann ich uns von keiner der
Es gibt eine moralische Einsicht, der ich mich
guten und schlechten Folgen, die wir ausge-
nicht habe entziehen knnen. Sie heit, in
lst haben, freisprechen. Der Grad mora-
einem Satz zusammengedrngt: Die Wissen-
lischer Reife der sozialen Gruppe der Wissen-
schaft ist fr ihre Folgen verantwortlich.
schaftler bemit sich nach der produktiven
Der Satz sei zunchst gegen ein paar mg-
Verantwortung fr die Folgen ihrer Erkennt-
liche Miverstndnisse abgesichert.
nisse, die sie praktisch bernimmt.
Erstens: Der Satz meint nicht, die Wissen-
Drittens: Produktive Verantwortung der Wis-
schaft sei um ihrer weltverndernden Folgen
senschaft bedeutet also offenbar nicht den
willen betrieben worden. Aber Wissen ist
Verzicht auf Wissenschaft. Nicht den Verzicht
Macht, auch wenn man es nicht um der
auf Wahrheitssuche; das hiee unserer Kultur
Macht willen gesucht hat ().
das Herz herausoperieren. Auch nicht den Ver-
Jedenfalls aber ist moralische Reife einem zicht auf ihre ffentlichkeitsform. Drren-
Menschen nicht erreichbar, der sich fr die matts Physiker ironisieren vortrefflich die
faktischen Folgen seines Handelns nicht ver- Sinnlosigkeit dieses Weges. Geh ins Irrenhaus,
antwortlich wei. Wenn die Eltern dem drei- um deine Erkenntnisse zu verbergen, und der
jhrigen Kind zeigen, wie man ein Streich- Irrenarzt wird sie dir entlocken und verwen-
holz anzndet, und bei der Rckkehr vom den. Die heutige Gesellschaft mit der Privati-
Spaziergang ihr Haus im Flammen finden, so sierung der Kultur ist eine Spielart dieses Ir-
hat nicht das Kind die Streichhlzer mi- renhauses. Die Aufgabe ist schwerer und
braucht. Das fllt mir immer ein, wenn ich schner als der Verzicht es wre. Der Wissen-
die Rede von Mibrauch der Wissenschaft schaftler als Staatsbrger und Weltbrger hat,
durch die Inhaber der Macht hre. mit den Gaben, die er als Person jeweils in
sich vorfindet, an der Gestaltung der unver-
Zweitens: Der Wissenschaftler ist fr die Fol- meidlichen Gesellschafts- und Weltvernde-
gen seiner Erkenntnis nicht legal, sondern rungen mitzuwirken. Diese Gaben sind ver-
moralisch verantwortlich (). schieden. Nicht jeder Wissenschaftler hat den
Wissenschaft, Moral und die Grenzen der Planbarkeit 17
Mut, die Einsicht, die Schlauheit und die wortung kann sie sich nicht freisprechen bei
Nchternheit, ohne die man nicht erfolgreich Strafe des Untergangs.
politisch handeln kann. Aber jeder Wissen-
Es ist zu frchten, da wir Menschen dieser
schaftler hat den Verstand, die Wichtigkeit
Zeit das, was wir tun mssen, erst in einer
dieser Aufgabe sehen zu knnen. Die Han-
ungeheuren Leidenserfahrung lernen werden
delnden bedrfen stets des Chores derer, die
().
mitdenken, vernehmlich kritisieren und ver-
nehmlich zustimmen. Die Wissenschaft hat Die Wissenschaft selbst ist nicht erwachsen:
insbesondere die spezifische Verantwortung, Ihre Denkmittel, ihre Verhaltensregeln sind
ihre eigenen Folgen und Verstrickungen selbst dem Leben in der von ihr selbst erzeugten
rational zu durchdenken. Von dieser Verant- Welt nicht angemessen ().
schtzung von Wissenschaftlern gegenber punktes ist, was eigentlich einen Fachwissen-
anderen Berufsgruppen ist eine ganz ent- schaftler befhigen soll, in besonderer Weise
scheidende Grundlage fr erhebliche Komm- (man denke an den Vergleich von Eltern, Kin-
unikations- und Kooperationsprobleme bei dern, Wissenschaftlern und Entscheidungstr-
Evaluationsprojekten (vgl. Abschnitt 2.2.1 gern) die Fallen und Verstrickungen der diszi-
und 5.1.1). plinbezogenen Forschung bzw. Technologie zu
Die praktische Konsequenz der Weizscker- durchdenken. Wissenschaftlicher Fortschritt ent-
Ausfhrungen ist letztlich fr die Wissen- steht heute (man mag dies bedauern) nahezu
schaftler auerordentlich erfreulich. Sie ausschlielich auf der Basis hoher Spezia-
knnen im Prinzip alles so tun wie bisher. lisierung der Forscher, und ein etwa in der Fein-
Da sowohl der Verzicht auf Forschung als struktur der Materie hervorragend ausgewie-
auch eine Geheimwissenschaft abgelehnt sener Kollege verfgt im allgemeinen nicht
wird (zurecht!), verbleibt neben einigen einmal ber elementare Kenntnisse sozialwis-
kaum verhaltensrelevanten Appellen nur senschaftlicher Theorien oder Methodik. Wo-
die Forderung, da die Wissenschaft aus her sollte er die Kompetenz nehmen, ber das
einer (etwas unklaren) spezifischen Ver- normale Niveau eines gebildeten, politisch
antwortung heraus ihre eigenen Folgen und gesellschaftlich interessierten Menschen
rational durchdenken soll. Dies wre eine (etwa eines Verwaltungsbeamten) hinausge-
zustzliche Arbeitsaufgabe fr die Wissen- hende Ma die gesellschaftlichen Konsequen-
schaftsgemeinschaft, die heute zweifellos zen der Entdeckung eines neuen Materie-
noch nicht konsensmig als legitimer Be- teilchens abzuschtzen? Und warum sollte ein
standteil aller Teildisziplinen gesehen wird tierexperimentell arbeitender Psychologe, dem
(und die nderung dieses Zustandes drfte ein entscheidender Durchbruch in der Psycho-
das Kernziel der Ausfhrungen von Weiz- immunologie gelingt, die mglichen Konse-
scker sein). Zustzliche Arbeit kann aber quenzen aus einer weiter zunehmenden ber-
nur entweder auf Kosten der bisherigen Lei- alterung der Industriegesellschaften als Experte
stungen (was eine Reduzierung des wissen- abschtzen knnen?
schaftlich-technischen Fortschrittes wre)
erbracht werden, oder man verwendet dazu Wie umstritten die moralische Bewertung von
zustzliche Ressourcen (was heit, da mit Fortschritten in der wissenschaftlichen Erfas-
der Begrndung der moralischen Verant- sung von evaluationsrelevanten Aspekten
wortung des Forschers die Anteile der ge- sein kann, zeigt sich zum Beispiel in den einfa-
sellschaftlichen Mittel fr diese Berufsgrup- chen, billig gewordenen Mglichkeiten der
pe zu steigern wren). Eigentlich eine fr Ultraschalldiagnostik, die es auch in einem
viele wissenschaftlich Ttige sehr befriedi- Land wie Indien ermglicht, das Geschlecht
gende Konklusion. des Kindes schon in einer frhen Phase der
Schwangerschaft zuverlssig zu bestimmen-
Der fr den Evaluationsbereich besonders und dort zum gezielten Abbruch von Schwan-
interessante Aspekt des letzten Diskussions- gerschaften mit weiblichen Ften fhrt. hnli-
18 Wissenschaft, Moral und die Grenzen der Planbarkeit
che Diskussionen finden sich auch in Europa, auen gesteuerten, kausal determinierten Indi-
etwa im Zusammenhang mit den verbesserten viduums gesehen. Sicher gibt es auch solche
gentechnischen Mglichkeiten der frhzeitigen erlernten Stimulus-Response Verhaltensketten.
Feststellung von Behinderungen. Hier ist unab- In vielen Fllen ist menschliches Verhalten aber
hngig von der eigenen Werthaltung des Fach- zielorientiert geplant. Man mchte ein be-
Wissenschaftlers die Mglichkeit zu dieser Art stimmtes Ergebnis erreichen und whlt unter
von Evaluation an sich gesellschaftlich um- oft vielen mglichen Aktionen jene aus, die
stritten, man kann sich aber kaum vorstellen, subjektiv am gnstigsten erscheint. Der damit
da die richtige Vorgehensweise ein Verzicht erreichte Erfolg, der bentigte Aufwand und
auf diese medizinisch-diagnostischen Mglich- evtl. aufgetretene unbeabsichtigte Nebenwir-
keiten wre oder deren Entdecker moralisch kungen werden rckgemeldet, subjektiv bewer-
negativ zu bewerten wren. Nicht Erkennt- tet und fhren gegebenenfalls zu einer Opti-
nisverzicht, sondern der berlegte Umgang mit mierung des Verhaltens. Dies gilt sowohl fr
den dadurch gewonnen Handlungsmglich- die stndige Kontrolle des Verhaltens und sei-
keiten mu die Lsung sein. ner Ergebnisse mit der Mglichkeit, die Pro-
Diese berlegung spricht dafr, da man die blemlsung sofort zu verbessern (vgl. forma-
Verantwortung der Wissenschaft fr das tive Evaluation im Diagramm II/2) als auch fr
Durchdenken ihrer Konsequenzen eher so ver- eine nachtrgliche Bewertung des Vorgehens
steht, da zu diesem sozialen System auch (ver- (summative Evaluation) als Grundlage eines
strkt) Subsysteme hinzutreten sollten, die die- gnstigeren Verhaltens in einer spter auftre-
se spezialisierte Aufgabe auf entsprechendem tenden, vergleichbaren Situation. In diesem
Expertenniveau bernehmen. Da man solche Sinne reagiert der Mensch (in manchen Situa-
Spezialisten in den einleitend ausgefhrten tionen) nicht, sondern er handelt.
Teilbereichen als Evaluatoren bezeichnet,
lt sich die Forderung nach mehr Stellen fr
diese Berufsgruppe offensichtlich stringent aus Handlungsmodell
einer akzeptierten moralischen Forderung
ableiten. Diese Ableitung gilt aber nur dann, Ein einfaches Handlungsmodell ist in Diagramm
wenn tatschlich spezialisierte Wissenschaftler I/2 dargestellt (vgl. Heckhausen, (1989); Lan-
solche Bewertungsprobleme strukturell besser termann, (1980), Werbik, 1978). Betrachtet
lsen knnen als andere Berufsgruppen, was man nur so einen einfachen Fall, ist das
nur fr Teilbereiche dieser Aufgabe plausibel Optimierungsproblem relativ leicht zu lsen
begrndet werden kann (siehe dazu Abschnitt aus der Menge der zur Verfgung stehenden
1.3). Da selbst bei grtem Aufwand fr solche Verhaltensweisen ist jene auszuwhlen, die bei
Ethikspezialisten nicht bei jedem Projekt geringsten Kosten (u. a. im Sinne von Neben-
oder bei jeder Projektplanung ein solcher mit wirkungen) das gewnschte Ziel in besonders
hinzugezogen werden knnte, bleibt ein erheb- effektiver Weise zu erreichen gestattet. Leider
liches Ma an Eigenverantwortung bei jedem ist die faktische Situation um vieles komplizier-
Wissenschaftler bzw. Evaluator selbst. ter.
Handlungsoptimierung in komplexen
1.3 Handlungsoptimierung Situationen
durch Evaluation
Einfache bersichten wie im Diagramm I/2 ver-
Der Mensch als planendes und handelndes nachlssigen vieles, was fr menschliches Han-
Subjekt deln in realen Situationen bestimmend ist.
Einerseits sind die einzelnen Ziele in berge-
In weiten Bereichen der Psychologie wird aus ordnete Zielhierarchien eingebettet, anderer-
sachlichen, den Gegenstandsbereich angemes- seits schafft die Zielerreichung (und die dazu
senen Grnden heraus der Mensch nicht als eingeschlagenen Wege) selbst Bedingungen, die
eine abhngige Variable im Sinne eines von das System ihrerseits wiederum beeinflussen.
Wissenschaft, Moral und die Grenzen der Planbarkeit 19
Die Einbettung jeder Teilzielerreichung inner- tende) Folgen eine bestimmte Manahme tat-
halb eines Ursache-Wirkungssystems hat zur schlich auf sein ganzes Leben bezogen hatte.
Folge, da die Bewertung der Zielerreichung Fr die Gesamtgesellschaft mte man sogar
(bzw. der dafr eingesetzten Manahmen) bis zum Aussterben der Menschheit auf eine
nicht am jeweiligen Teilziel allein, sondern nur endgltige Bewertung warten (siehe dazu das
innerhalb des Gesamtbeziehungsnetzes erfol- Ultimate Criterion, Thorndike, 1949). Schon
gen kann. Diese Vernetzung von Kausalbezie- aus diesem Grund ist es unmglich, mit empi-
hungen lt eine endgltige Bewertung ei- rischer Fundierung letztendlich gltig den Ef-
ner Manahme erst dann zu, wenn das System, fekt einer Manahme zu bewerten. Durch die
auf das diese Manahme einwirkt, nicht mehr prinzipielle Offenheit des Systems (sei es der
besteht. Konzentriert man sich etwa auf einen Einzelmensch mit den vielen nicht vorhersag-
Einzelmenschen, so kann man erst nach des- baren Einflssen, denen er ausgesetzt ist, sei es
sen Tode feststellen, welche (und wie zu bewer- die Gesamtgesellschaft mit den nicht berblick-
Diagramm I/2
Struktur des Handlungsablaufes
Situation
Person
ZIELE
Ist Soll
Diskrepanz
H1 H2 H3
Handlungsausfhrung
Ausfhrungskontrolle
Ergebnis
Bei oberflchlicher Betrachtung knnte man Im Sinne der in diesem Abschnitt besonders
meinen, da zwischen der Unmglichkeit ei- betonten Praxisbezogenheit der Evaluations-
ner idealen, ohne letztlich willkrliche Set- arbeit werden in den folgenden Kapiteln die
zungen von Ziel-Zeitpunkten und Teilbewer- grundlagenwissenschaftlichen Aspekte, die fr
tungen auskommenden Evaluation einerseits die Projektarbeit von hoher Bedeutung sind,
und dem Nutzen, ja der Unverzichtbarkeit sol- nur relativ kurz aufgenommen und zur Vertie-
cher Projekte fr moderne Gesellschaften an- fung auf die vorhandene Literatur verwiesen.
dererseits ein Widerspruch bestnde. Dieser Statt dessen wird:
lt sich aber dadurch lsen, da man auf ab-
solute Bewertungsmastbe, die Suche nach
der Bereich Evaluation ausfhrlicher struk-
turiert (Kap. 2)
Wahrheiten oder allgemein zwingend verbind-
liche Problemlsungsvorschlge verzichtet. Die
Anwendungsaspekte und Fallstudien disku-
tiert (Kap. 3)
Evaluation kann dazu dienen, innerhalb eines
wissenschaftsexternen, vorlufigen und in ge-
eine bersicht ber die wichtigsten Techniken
zur rationalen Erfassung von Zielsetzung, Pla-
wissen Grenzen willkrlichen Rahmens die
nung und Durchfhrung von Evaluations-
Wahrscheinlichkeit fr die Auswahl einer be-
studien gegeben (Kap. 4, 5 und 6)
sonders guten Verhaltensalternative zu erh-
hen und analog dazu die Wahl einer besonders
eine subjektiv gefrbte allgemeine Bewertung
von wissenschaftsgesttzter Evaluation und
schlechten Alternative zu verringern. Eine letzt-
den bisher gewonnenen Erfahrungen im 7.
lich absolut sichere Aussage, wie sie eigentlich
Kapitel dargestellt
nur in den Formalwissenschaften und man-
chen anderen Geisteswissenschaften mglich
ist, ist bei Evaluationsprojekten keine sinnvolle Diese Ausfhrungen sollen insgesamt einen
Zielsetzung. Daraus folgt zwingend, da man Rahmen bieten, innerhalb dessen die spezifi-
22 Wissenschaft, Moral und die Grenzen der Planbarkeit
schen substanzwissenschaftlichen Befunde ein Lehrbuch zu diesem Thema kein rein wis-
und methodischen Instrumente, deren Ver- senschaftliches Werk sein. Es wird daher gebe-
mittlung ja einen groen Teil der Studienan- ten, den teilweise wissenschaftsfernen Aus-
gebote ausmacht, fr die spezifischen Bedin- fhrungen in Anbetracht der besonderen
gungen der Arbeit in Evaluationsprojekten Bedingungen des Bereiches Evaluation Ver-
nutzbar gemacht werden knnen. stndnis entgegenzubringen.
Wenn Evaluation an sich nicht ein Bestand-
teil von Wissenschaft ist, kann eigentlich auch
bersicht Kapitel 1:
Wissenschaft, Moral und die Grenzen der Planbarkeit
Definitionsversuche von Evaluation
Evaluation
2. Grundlagen sozialwissenschaftlich
gesttzter Evaluation
Wenn Evaluation nicht ausschlielich wegen des ben geplant werden. Daher ist es zweckmig,
wissenschaftlichen Interesses, als Folge freier und zwischen den typischen Nutzenerwartungen
selbstbestimmter Forschung erfolgt (auf die Pro- potentieller Auftraggeber (2.1.2) und der De-
bleme und die Seltenheit einer solchen Evalua- tail-Zielsetzung innerhalb konkreter Projekte zu
tionsgrundlage wurde im Abschnitt 1.3 einge- unterscheiden.
gangen) wird sie nur dann stattfinden, wenn der
Auftraggeber einen Bedarf nach Evaluations-
projekten hat. Dies setzt voraus, da es: 2.1.1 Grundlagen fr die Akzeptanz
von Evaluation
Ziele gibt, die mit psychologischen bzw. sozi-
alwissenschaftlichen Evaluationsvorhaben
Evaluationsvorhaben knnen erst dann einen
erreicht werden knnen (2.1)
sinnvollen Beitrag zur Zielerreichung bzw. Pro-
Beitrge der Wissenschaft fr solche Frage-
blemlsung bieten, wenn die notwendigen psy-
stellungen aus der Sicht des Auftraggebers ei-
chologischen Bedingungen fr eine empirische,
nen Nutzen haben, der die erwarteten Ko-
erfahrungsgesttzte Vorgehensweise geschaffen
sten bersteigt (2.2).
sind. Sie knnen auch nicht unabhngig vom
Die Verfgbarkeit kompetenter Evaluatoren
erreichten historischen Entwicklungsstand ei-
und anderer Ressourcen das Evaluations-
ner Gesellschaft gesehen werden.
projekt berhaupt durchfhrbar macht (2.3).
ausgereift ist und von hunderten Studenten er- folges, das heit der Glaube an einen vom Men-
folgreich besucht wurde, berdenken? Ein schen rational beeinflubaren Fortschritt, tre-
Bildungsanbieter sich die Frage stellen, ob ein ten.
dort ttiger Dozent wirklich noch der beste ist,
oder vielleicht doch durch einen mit mehr Ak- Aber selbst Fortschrittserwartung wird in der
zeptanz bei den Kursteilnehmern ausgetauscht Regel nur dann zu Innovationen fhren, wenn
werden sollte, obwohl man ihn schon seit vie- sich fr den Entscheidungstrger dadurch ein
len Jahren persnlich kennt? das Versagensrisiko wettmachender Nutzen er-
Der fr evaluationsgesttzte Optimierung geben kann. Ein schnes Beispiel fr die Folgen
ntige affektive Entwicklungsstand der Betei- des Fehlens einer solchen Nutzenerwartung ist
ligten mu gelegentlich erst geschaffen werden, der Vergleich der Entdeckungsreisen im 15.
etwa durch Personal- oder Organisationsent- Jahrhundert zwischen Europern und Chine-
wicklungsmanahmen in Wirtschaft und Ver- sen. Beide Kulturen erforschten etwa zur glei-
waltungen oder massive Aufklrung der ffent- chen Zeit die Seewege nach Indien und Afrika,
lichkeit ber die Nachteile lang eingefhrter China mit in groem Stil staatlich untersttzen
Mechanismen, zum Beispiel im Gesundheits- Forschungsexpeditionen unter militrischer
oder Sozialwesen, falls in diesen Bereichen In- Fhrung, die Europer anfnglich im wesent-
novationen angestrebt werden. lich kleineren Rahmen. Fr die Chinesen war,
Eine weitere wichtige psychologische Voraus- neben dem allgemeinen wissenschaftlichen
setzung ist die Bereitschaft, sich zu Zwecken Erkenntnisdrang, ein praktischer Nutzen aus
der Verbesserung des bestehenden Verhaltens neuen, auf diese Ergebnisse gesttzten Verhal-
(Hoffnung auf Erfolg) dem Risiko des Schei- tensweisen nicht erkennbar (ausreichende Ver-
terns (Furcht vor Mierfolg) auszusetzen. Je- sorgung mit allen in den neu entdeckten Ge-
der in der Vergangenheit relativ erfolgreiche bieten verfgbaren wichtigen Handelsgtern
Lsungsweg (Erzeugung von Nahrungsmitteln, im eigenen Herrschaftsbereich war gegeben),
Disposition von Gtern, Regelungen des sozia- whrenddem fr die Europer als Folge der po-
len Umganges miteinander) hat sich in gewis- litischen Vernderungen durch das Erstarken ei-
sem Sinne bewhrt und ist hinsichtlich sei- nes feindlich eingestellten osmanischen Rei-
ner Nebenaspekte (Aufwendungen, Kosten und ches und den Niedergang von Byzanz die
dgl.) annhernd durchschaubar. Er wird daher bisherigen Handelswege ber Land verlorengin-
nach den Lerngesetzen Lernen am Erfolg, gen bzw. aufgrund hoher Abgaben nicht mehr
Lernen durch Wiederholung und Lernen am rentabel waren (siehe ausfhrlicher bei Atiya,
Modell (der Vorgnger, Kollegen und andere, 1964). Die Folgen der darauf eingeleiteten, und
die es ja ebenso machen bzw. machten) ver- natrlich in keiner Weise vorher sozialwissen-
strkt (zu Lerngesetze siehe Bolles, 1975; schaftlich evaluierten Entwicklungen sind be-
Hilgard und Bower, 1981; Mayer, 1979; Torpy, kannt und zeigen gleichzeitig, wie verschieden
1966, sozial-kognitive Lerntheorie, Bandura die Nutzen-Bewertung bei wechselndem Zeit-
1986). Das Beibehalten kommt auch der Ten- horizont (vgl. dazu Abschnitt 1.2) sein kann.
denz zur Vermeidung von Verantwortung sehr
entgegen, da bliche Verhaltensweisen nicht Eine dritte psychologische Grundlage, ohne die
nur hufig einen (relativen) Erfolg bringen, son- sinnvolle Evaluation nicht denkbar ist, ist die
dern auch im Falle des Mierfolges eine exter- Bereitschaft der Entscheidungstrger zur Akzep-
nale Attribuierung nahelegen wenn ich alles tanz von Fakten. Gerade wenn Neuerungen
nach den herrschenden Vorstellungen richtig von einer bestimmten Sollvorstellung ber den
gemacht habe, ist der Mierfolg auf uere Menschen ausgehen, wenn sie das Ziel haben,
Umstnde und nicht auf meine Entscheidung die Verhltnisse nicht so zu lassen wie sie sind,
zurckzufhren (zu den motivationspsycho- sondern einen besseren Zustand anstreben,
logischen und attributionstheoretischen ber- sind die Innovatoren empirisch fundierten Ar-
legungen siehe etwa Heckhausen, 1989; Heider, gumenten strukturell wenig zugnglich, da sie
1958; Meyer und Schmalt, 1984; Weiner, 1984). ja gerade die derzeit aufzeigbare Faktenlage ver-
Zustzlich zur theoretischen Erkenntnis der ndern wollen. Als Konsequenz davon wird ge-
Vernderbarkeit mu also die Erwartung des Er- sellschaftlich relevante sozialwissenschafliche
Grundlagen sozialwissenschaftlich gesttzter Evaluation 25
Forschung immer dann unterdrckt, wenn bestimmten Zeiten bestimmte Evaluations-
die Ergebnisse Schwchen der herrschenden projekte nicht finanzieren, Experten aller
Ideologie aufzeigen knnten (ein Beispiel aus Richtungen (Therapeuten, Pdagogen, Fh-
jngster Zeit dafr ist die Bewertung psycholo- rungskrfte, Professoren ) die trotz der Be-
gischer Diagnostik und damit zusammenhn- fundlage ihr Verhalten nderungsresistent
gender Persnlichkeitsforschung unter Hitler, beibehalten, Studenten, die entgegen den
Stalin, radikalen Teilen der 68er Bewegung und aufgezeigten Fakten tradierte Vorurteile ge-
Teilen der extremen Rechten in den USA, siehe genber einem bestimmten Dozenten weiter
dazu etwa Wottawa und Hossiep, 1987, S. 97 ff., pflegen alle solche Beispiele zeigen, da von
ausfhrlicher bei Drenth, 1969). einer zwingenden Akzeptanz von Fakten
Es ist aber keineswegs nur eine solche massi- auch heute keineswegs ausgegangen werden
ve, mit gesellschaftlicher Macht verbundene kann.
Unterdrckung von Fakten, die empirisch-wis-
senschaftliche Evaluationen in bestimmten Be- Die anspruchsvollen psychologischen Erfor-
reichen unmglich macht. Die praktische Er- dernisse fr die Akzeptanz sozialwissenschaft-
fahrung mit Evaluationsprojekten zeigt, da licher Evaluationen machen es verstndlich,
auch in kleinerem und strker konkretisiertem da die heute relativ gnstige Situation erst
Rahmen immer wieder Argumente zu hren im Laufe eines langen Entwicklungsprozesses
sind, die auf zumindest teilweise fehlende Aus- mit teilweise sehr schmerzhaften Rckschl-
prgung der diskutierten psychologischen gen erreicht wurde. Es ist sicher noch viel
Grundlagen hinweisen: Entscheidungstrger, Aufklrungsarbeit ntig, um die Akzeptanz
die unerwnschte Berichte ablegen statt dieses Optimierungsinstrumentes dauerhaft
nutzen, Geldgeber (auch ffentliche), die zu zu sichern.
Diagramm II/1
Grobe bersicht ber die geschichtliche Entwicklung von Evaluation
Urgesellschaft lich relevanter Manahmen, insbesondere zur
berprfung von Staatsformen damit wird
Erste Evaluationsversuche technischer Art die Gestaltung der Gesellschaft zu einer auf
durch die Bercksichtigung empirisch erwor- Evaluationsbasis aufbauenden Optimierungs-
bener Kenntnisse ber Materialeigenschaften aufgabe. Zunchst bleibt es aber bei der
bei der Herstellung von Gertschaften und theoretischen Forderung ohne praktische
Waffen. Konsequenzen. Bei den Rmern erfahrungs-
Spter Umsetzung von erkannten biologi- bedingter Wechsel zwischen Demokratie und
schen Gesetzmigkeiten in Ackerbau und (in Krisenzeiten) befristeter Diktatur, was als
Viehzucht (z. B.: Mnnliche Schafe bekom- Anwendung dieser Optimierungsidee gedeu-
men keine Junge und geben keine Milch; ent- tet werden kann.
fernt man aber alle unntzen Tiere dieser
Art aus der Herde, entfllt bald die gesamte
Fleisch- und Milchproduktion). Erste gesell- Europisch-lateinisches Mittelalter
schaftliche Arbeitsteilung (Ackerbau, Vieh-
zchter) berlagert aufgrund nutzenorien- Die Nutzen-berlegungen aus der Antike blei-
tierter (bewerteter) Erfahrungen die frhere ben erhalten, aber ohne Umsetzung solcher
Arbeitsteilung nach Alter und Geschlecht. theoretischer Forderungen. Die umfassendste
weiterfhrende Systematisierung des aristote-
lischen Verstndnisses von Nutzen erfolgt
Griechisch-rmische Antike durch Thomas von Aquin. Generell gilt aber,
da im Mittelalter die Handlungsorientierung
Bereits Aristoteles fordert die empirische Nut- auf einem religis fundierten Gut/Bse-Prin-
zenbestimmung zur Bewertung gesellschaft- zip beruht und die empirische berprfung
26 Grundlagen sozialwissenschaftlich gesttzter Evaluation
des Nutzens einer Sache oder Manahme weit einer empirisch verifizierbaren und rational
hinter die spekulative, religis-moralische Be- kalkulierbaren Wissenschaft zu machen. Als
wertung zurcktritt. Dies bedingt auch eine einziges und hchstes Beurteilungskriterium
erhebliche Innovationsschwche und die Un- von Moral und Recht gilt das Prinzip des Nut-
terbrechung der in der Antike begonnenen zens.
empirischen Wissenschaftsanstze.
Ein wichtiger Einflufaktor ist die Unter- innovationsuntersttzend sein mu (vgl. dazu
nehmenskultur bzw. der Fhrungsstil der jewei- Briam, 1996, Osterhold, 1996, Schein, 1995,
ligen Institution, die fehlerfreundlich und Zink, 1994).
Grundlagen sozialwissenschaftlich gesttzter Evaluation 27
Geschichtliche Entwicklung des Auswahlverfahrens (zum Beispiel das Ausma
Evaluationsgedankens der Bercksichtigung von Forschungs- oder
Lehrleistungen in der Vergangenheit, Zusam-
Fr die Idee einer empirischen, sozialwissen- mensetzung der Entscheidungsgremien, Zu-
schaftlich gesttzten Evaluation wurden erst im gangsberechtigungen zum Auswahlverfahren)
Laufe einer langen geistesgeschichtlichen Ent- befassen. Ist ein System primr verhaltens-
wicklung die erforderlichen Grundlagen ge- kontrolliert (wie typischerweise die ffentliche
schaffen. Eine grobe bersicht ist im Diagramm Verwaltung, aber im Prinzip der gesamte f-
II/1 enthalten. fentliche Dienst und viele Innendienstbereiche
Versucht man, diese Entwicklung unter psy- der Wirtschaft), dann konzentrieren sich Eva-
chologischem Gesichtswinkel nachzuvollzie- luationsvorhaben auf die Compliance gegen-
hen, so drfte der entscheidende Schritt gewe- ber den Vorschriften und Manahmen zu
sen sein, da den Menschen bewut wurde, deren Erhhung (zum Beispiel durch entspre-
auch gesellschaftlich relevantes Handeln unter chende Motivationsanreize oder Leistungs-
Optimierungsaspekten selbst rational gestalten beurteilungen fr die Systemangehrigen),
zu knnen. Ein solches zielorientiertes, bewu- auch auf eine mglichst effiziente und schnelle
tes Handeln ist in keiner Weise selbstverstnd- Umsetzung von Vernderungen im Vorschrif-
lich, auch heute nicht. Zumindest im christli- tensystem. Es wre in einem solchen Denk-
chen Europa drfte die als frei erlebte system aber vllig unangemessen, zum Beispiel
Konzeption gesellschaftlicher Strukturen erst eine neue Bestimmung im Rahmen eines
mglich gewesen sein, nachdem das geozentri- Evaluationsprojektes hinsichtlich ihres Nutzens
sche Weltbild und die damit verknpfte ber- (Outputs) zu bewerten ein Gesetz ist dann
schaubarkeit des von Gott beobachteten Uni- richtig, wenn es ordnungsgem beschlossen
versums, die Einzigartigkeit der von Menschen wurde, nicht, wenn seine Auswirkungen einen
bewohnten Erde in Frage gestellt wurde. Die konkreten Nutzen fr die Brger zeigen (zu-
Reaktion der damals Mchtigen, vielleicht so- mindest gilt dies in klassischen, verhaltens-
gar ohne eine bewute, rationale Durchdrin- kontrolliert denkenden Brokratien). Innerhalb
gung der durch solche Denkprozesse ausgel- dieser Systeme ist eine solche Art von Bewer-
sten potentiellen Vernderungen, war tung auch sinnvoll, man knnte zum Beispiel
entsprechend heftig. Man vergleiche dazu etwa die Bestimmungen einer Prfungsordnung
Leben und Werk von Giordano Bruno (siehe nicht danach optimieren, ob einzelne Studen-
etwa Brockmeier, 1980; Huber, 1965) oder die ten durch deren Anwendung (zum Beispiel
bekannteren Vorgnge im Zusammenhang mit Verbot von allzu vielen Prfungswieder-
Galilei (Mason, 1961; Wuing, 1983; s. auch holungen) in irgendeiner Weise glcklich
Brecht, 1963) werden.
Im Gegensatz dazu wrden sich in output-
Die dominierenden Steuerungsformen gesell- bzw. ergebnisorientierten Systemen die Evalua-
schaftlicher Systeme sind aber nicht nur fr die tionsvorhaben schwergewichtig mit der Opti-
ferne Vergangenheit relevant, sondern prgen mierung des erlebbaren Nutzens beschftigen,
auch die Durchfhrungsbedingungen aktueller also zum Beispiel verschiedene Verhaltens-
Evaluationsprojekte. Eine wesentliche Unter- vorschriften nach solchen nutzenbezogenen
scheidung unterschiedlicher Formen der Kriterien vergleichend bewerten. Wichtig fr
Systemsteuerung ist dabei die Trennung zwi- Evaluationsprojekte ist, da es vielen Ge-
schen Input-, Verhaltens- und Output-Steue- sprchspartnern auerordentlich schwer fllt,
rung (siehe dazu Diagramm II/2). Evaluationsvorhaben auf der Basis einer ande-
Wenn ein System (wenn auch sicher nicht ren prinzipiellen Form der Systemsteuerung als
ausschlielich) durch Input-Kontrolle gesteuert der selbst erlebten berhaupt akzeptieren zu
wird, wie es zum Beispiel hinsichtlich der knnen. Manchmal werden solche Vorschlge
Professoren an Universitten in Deutschland als ausgesprochen unsinnig, vielleicht auch
der Fall ist, dann werden sich entscheidungs- tabuverletztend erlebt. Wer kme zum Beispiel
relevante Evaluationsprojekte vorwiegend mit ernsthaft auf die Idee, selbst in der derzeitigen
verschiedenen Formen der Gestaltung dieses gesellschaftlichen Situation Deutschlands , die
28 Grundlagen sozialwissenschaftlich gesttzter Evaluation
Diagramm II/2
Unterschiedliche Formen der Systemsteuerung
Systemsteuerung
Inputkontrolle Verhaltenskontrolle Ergebniskontrolle
Mchtiger Mchtiger Mchtiger
Input- Handlungs- Ziele
Ziele Ziele Ziele
vorgaben Mittel vorgaben Mittel Mittel
FILTER
Kontrolle
INPUT INPUT INPUT
Kontrolle Optimierung
VERHALTEN der Verhaltens-
VERHALTEN VERHALTEN
steuerung
Kontrolle
OUTPUT OUTPUT OUTPUT
Bewertung ohne detaillierte Zielsetzung Bei diesem Ziel des Auftraggebers sind zwei, fr
die Durchfhrung und emotionale Akzeptanz
Hufig spricht man hier nicht von Evaluation, von Evaluationen sehr verschiedene Teilziele zu
sondern von berprfung oder Kontrolle. unterscheiden:
Ausgang ist wohl meist ein diffuses Unbeha-
Die Durchfhrung der Evaluation selbst, un-
gen, wie zum Beispiel Was leistet eigentlich
abhngig von den Resultaten, soll die ge-
unsere Bildungsabteilung? Oder Hat diese
wnschte Manahme erleichtern oder die
Verordnung auch nur annhernd das erbracht,
unerwnschte Manahme verhindern;
was wir damit wollten?.
Die Ergebnisse sollen so beschaffen sein, da
Gesucht wird eine mglichst umfassende In-
es der eigenen Zielsetzung entspricht;
formationen ber die ausgelsten bzw. von der
jeweiligen Institution zu verantwortenden Ef-
fekte, meist auch mit dem Hintergedanken, da Der erstgenannte Aspekt ist meist, wenn auch
die Evaluatoren im Sinne eines normen- vielleicht ungewollt, eine notwendige Folge
bezogenen Vergleiches mit den durchschnitt- wissenschaftlich sinnvoll gestalteter Evalua-
lichen Resultaten hnlicher Manahmen auch tionsprojekte. Mchte man zum Beispiel eine
eine Bewertung ermglichen. politisch umstrittene Schulform einfhren, ist
ein probeweises Einrichten einiger Schulen
Da ein solcher Auftrag zwangslufig ein ge- dieser Art um vieles leichter mglich als eine
wisses Mitrauen gegenber den Verantwort- globale Systemnderung, es gibt weniger un-
lichen, Befrwortern oder Nutznieern der mittelbar Betroffene, und es ist auch aueror-
zu evaluierenden Einrichtung bzw. Manah- dentlich schwer, rational gegen den Vorschlag
me zum Ausdruck bringt (ansonsten bruch- Sehen wir nach, was herauskommt zu argu-
te man die Evaluation ja nicht), mu der mentieren. Durch das Schaffen von Fakten set-
Evaluator mit emotionalen Problemen, ver- zen Gewhnungsprozesse ein, die Neuerung
deckten oder offenen Widerstnden und der wird nach einiger Zeit nicht mehr als neuartig
Gefahr von Fehlinformation durch die Betei- erlebt und ist damit leichter einrichtbar (fr sol-
ligten rechnen (vgl. Abschnitt 4.1). che Vorgehensweisen wird hufig auch der Be-
30 Grundlagen sozialwissenschaftlich gesttzter Evaluation
geben, wobei sich die Gliederung an den ein- nung einer spter zu evaluierenden Manah-
zelnen Arbeitsschritten eines typischen Evalua- me durchgefhrt werden soll. Hierzu gehrt
tionsprojektes orientiert. die Erarbeitung der (tatschlichen, nicht evtl.
vorgeschobenen) Ziele des Projektes, die auch
ethische Bewertung der durchzufhrenden
Rahmenbedingungen Interventionen und der geplanten Verwen-
dung der Evaluationsergebnisse sowie deren
Zum Bereich der Kontextevaluation gehrt absehbaren, kontextbedingten Nebenfolgen.
die bewertende Untersuchung der Vorausset- Evaluierungen dieser Art bilden hufig die
zungen, die schon vor der sachgerechten Pla- Grundlage fr die Bereitschaft des Evaluators,
Diagramm II/3
Wichtige Evaluationsbegriffe, strukturiert nach typischem Projektablauf
Rahmenbedingungen
(Kontextevaluation)
parteiliche versus berparteiliche Evaluation offene versus geschlossene Evaluation
Grundstzliche Ziele
Zeitpunkt
vor einer Manahme whrend einer Manahme nach erfolgter Manahme
antizipatorisch prognostisch Proze- oder Ergebnis- Output- oder
prospektiv dynamische Evaluation Produktevaluation
Kosten-Nutzen-berlegung
strategische Evaluation Management-Evaluation
Bearbeitungsform
intrinsische vs. extrinsische Evaluation Compliance- vs. Program-Impact innere (Selbst-) vs. uere
-Evaluation (Fremd-) Evaluation
Meta-Evaluation
Programm-Design-Evaluation ergebniszusammenfassende Meta-Evaluation
Grundlagen sozialwissenschaftlich gesttzter Evaluation 33
das Projekt berhaupt durchzufhren. So hat eine definierte Personengruppe), sie kann aber
es keinen Sinn, bestimmte Manahmen zur auch eher entwicklungsorientiert sein (die Ziel-
Verbesserung der Situation einer Schule pro- setzung wre dann die Verbesserung der
spektiv zu untersuchen, wenn von Seiten der Interventionsmanahmen fr sptere Anwen-
Leitung keine Bereitschaft besteht, wirklich dungen) oder besonders theoriefrdernde
eine Vernderung durchzufhren oder die Aspekte betonen (zum Beispiel eine Prfung
Motivationsstruktur des Kollegiums offen- theoretischer berlegungen auf der Basis des
sichtlich jede mit zustzlicher Arbeit fr die Erfolges bestimmter therapeutischer Vorge-
Lehrer verbundene Neuerung unmglich hensweisen). Da bei wissenschaftlich vorgebil-
macht. Nicht selten findet man das offene deten Evaluatoren hufig eine strkere Tendenz
oder latente Ansinnen parteilicher Evaluation zum theorieorientierten Vorgehen besteht, als
(die Studie ist so anzulegen, da unabhngig dies vom Auftraggeber aus naheliegenden
von der empirischen Faktenlage ein bestimm- Grnden gewnscht wird, sollte ber die
tes, gewnschtes Ergebnis auftritt), was leider Hauptrichtung des Vorhabens ein Einverneh-
mit dazu fhren kann, da es fast schon zu men erreicht werden.
den blichen gesellschaftlichen Ritualen ge- Ebenso wichtig fr die Ausarbeitung der Pro-
hrt, da sich bei manchen Themen Gut- jektdetails ist, ob der Schwerpunkt der Frage-
achter und Gegengutachter widersprechen stellung im Micro- oder im Macro-Bereich zu
(etwa Studien zu Mllverbrennungsanlagen, sehen ist. Von Micro-Evaluation spricht man
Autobahnerweiterungen oder anderen gro- blicherweise dann, wenn nur Details (etwa die
en Bauvorhaben, Standorte Forensischer Kli- didaktische Aufbereitungen eines Unterrichts-
niken etc.). textes) interessieren, Macro-Evaluation liegt
Grundlage fr solche vom Auftraggeber ge- vor, wenn komplexere Einheiten (zum Beispiel
wnschte Parteilichkeit kann etwa die Bekrfti- Fragen der Schulorganisation) untersucht wer-
gung einer bestimmten politisch-ideologischen den.
Position bei ffentlichen Projekten, der Nach-
weis der eigenen Tchtigkeit im Unterneh-
men (etwa bei Marketingmanahmen) oder Zeitperspektive
massive finanzielle Interessen von Systemteil-
gruppen (etwa im Gesundheitswesen) sein. Auch hinsichtlich des Zeitpunktes der Evaluati-
Mibrauchsmglichkeiten sind insbesondere on im Rahmen des Gesamtablaufes der Ma-
bei geschlossener Evaluation (die Ergebnisse nahme wurden verschiedene Konzepte ausdif-
werden nur der auftraggebenden Stelle, zum ferenziert. An zeitlich erster Stelle steht die
Beispiel einer bestimmten Behrde oder Insti- sogenannte strategische Evaluation, bei der es
tution bekannt) naheliegen, so da man grund- darum geht, zu beurteilen, ob die Ursachen des
stzlich auf eine Publikation der Ergebnisse in Frage stehenden Problems richtig erkannt
wert legen sollte. Einer solchen sinnvollen und und die vorgesehene Problemlsungen bzw.
der wissenschaftlichen Ethik entsprechenden Manahmen vorausssichtlich angemessen
Forderung knnen aber auch sehr berechtigte sind. Damit verwandt ist der Begriff der pro-
Interessen des Auftraggebers entgegenstehen, spektiven bzw. antizipatorischen Evaluation,
etwa die Konkurrenzsituation zwischen ver- bei der es darum geht, eine Manahme vor de-
schiedenen Firmen. ren Realisierung auf der Basis geeigneter Sozial-
techniken zu bewerten. Ein typischer Fall dafr
ist etwa die Auswahl einer bestimmten unter
Grundstzliche Ziele verschiedenen mglichen Baumanahmen
(durch Experten oder Betroffene). Es htte ja
Setzt man das Projekt fort, ist (schon zur Ver- keinen Sinn, die Manahme (zum Beispiel eine
meidung spterer Diskordanzen) die grundstz- bestimmte Straenfhrung) zuerst konkret
liche Orientierung des Projektes zu bestimmen. durchzufhren und erst im Nachhinein bewer-
Diese kann sich ausschlielich auf das Bewer- ten zu lassen. Von prognostischer Evaluation
ten konkreter Praxiseffekte konzentrieren (etwa spricht man, wenn die Untersuchung dazu die-
den Erfolg einer psychologischen Therapie fr nen soll, eine empiriegesttzte Prognose ber
34 Grundlagen sozialwissenschaftlich gesttzter Evaluation
den Erfolg einer spter durchzufhrenden Ma- den Folgeauftrag fr das nchste (Teil-)Projekt
nahme abzugeben. Dafr typisch sind etwa Un- erst dann zu vereinbaren, wenn auf der Basis
tersuchungen auf der Basis von Testmrkten der zunchst vorliegenden Ergebnisse eine kon-
(ein neues Marketingkonzept wird zunchst krete Planung mglich ist.
nur in einem relativ kleinen Gebiet in der Bun-
desrepublik, meist Berlin oder das Saarland, Nach endgltig abgeschlossener Manahme ist
eingefhrt und von den Ergebnissen dort das im wesentlichen nur noch eine Bewertung des
vermutliche Resultat bei Einfhrung im Bun- Ergebnisses (auch Output- oder Produkt-
desgebiet prognostiziert) oder Versuche im evaluation) mglich. Der Schwerpunkt kann
Schulbereich, die zunchst nur mit ausgewhl- hierbei auf einer statischen bzw. vergangen-
ten Modellschulen durchgefhrt werden. heitsorientierten Bewertung der gefundenen
Bei der sogenannten Input-Evaluation geht Ergebnisse oder auf einer eher vernderungs-
es darum, die fr eine bestimmte Manahme orientierten, die Durchfhrung neuer und ver-
eingesetzten Ressourcen (im weitesten Sinne) besserter Manahmen anregenden Interpreta-
zu bewerten. Sie kann sich sowohl auf die ma- tion liegen.
terielle Ausstattung beziehen (wenn diese zum
Beispiel qualitativ oder quantitativ unzurei-
chend fr das Erreichen des angestrebten Zieles Nutzenberlegungen
ist), aber auch auf beteiligte Personen, zum Bei-
spiel die Motivation von Teilnehmern an einer Soweit sich die Bewertung einer Manahme
Weiterbildungsmanahme oder die emotionale und eines Programms auch auf Kosten-Nut-
und kognitive Vorbereitung von Lehrern inner- zen-berlegungen sttzt, sollte man von An-
halb eines Schulversuches. fang an klren, ob ausschlielich die Fest-
Zumindest bei lngerfristigen Interventions- stellung der Kosten und des damit erzielten
programmen empfiehlt es sich, auch whrend Nutzens oder auch die (relative) Effektivitt
der laufenden Manahme dynamisch vorzuge- der Manahme von Bedeutung ist. Die erste
hen, also den Proze fortlaufend zu evaluieren Vorgehensweise stellt fr sozialwissenschaft-
und ggf. bei dem Auftreten von Strungen, un- lich gesttzte Interventionen meist eine be-
vorhergesehenen und unerwnschten Ergeb- scheidenere Forderung dar, da bei halbwegs
nissen oder einer nderung der Rahmenbedin- sinnvoller Planung und nicht allzu ungnsti-
gungen und Zielsetzungen sofort korrigierend gen Rahmenbedingungen die gettigten Auf-
einzugreifen. Besonders wichtig ist hier die fort- wendungen meist geringer sind als der damit
laufende berprfung der (Lern-)Ziele, die Kon- erzielte Nutzen, soweit sich dieser ausreichend
trolle und ggf. Optimierung des fr die Ma- quantitativ erfassen lt. Schwieriger ist die
nahme eingesetzten Materials bzw. Techniken, Erzielung zufriedenstellender Effektivitt, da
sowie die erfahrungsgesttzte Bewertung der hier durch die Bercksichtigung des Nutzens
zur Prfung der Ergebnisse eingesetzten Instru- pro Aufwandseinheit ein Vergleich mit alter-
mente (etwa Skalen fr den Therapieerfolg, nativen Manahmen naheliegt und vor allem
Tests zum Feststellen des Lernergebnisses oder grere (und damit auch entsprechend auf-
Methoden zur Effektivittsprfung einer Ma- wendige) Projekte dabei schlechter abschnei-
nahme). den knnen als einfache, schnell und billig
Eine dynamische Konzeption des Evalua- durchzufhrende praxeologische Manah-
tionsprojektes ist vor allem bei stark praxisbe- men, die zwar vom absoluten Betrag her gese-
zogener Fragestellung von erheblichem Vorteil hen auch weniger Nutzen erbringen, aber be-
und manchmal auch aus ethischen Grnden zogen auf den Aufwand die hhere Rendite
(unerwnschte Nebenfolgen!) unverzichtbar, zeigen.
hat aber den erheblichen Nachteil, da Dauer
und Kosten zu Beginn des Projektes nicht zu-
verlssig kalkuliert werden knnen. Es kann da- Bearbeitungsformen
her zweckmig sein, die begleitende Evalua-
tion lngerer Vorhaben in mehrere kleine Hinsichtlich der verschiedenen Bearbeitungs-
verbundene Einzelprojekte aufzuteilen, und formen innerhalb eines Evaluationsprojektes
Grundlagen sozialwissenschaftlich gesttzter Evaluation 35
knnen hier nur einige besonders wichtige Be- tives Vorgehen ist meist befriedigender, da man
griffe skizziert werden. Von extrinsischer Eva- dabei mehr Gelegenheiten hat, auf der Basis
luation spricht man, wenn (wie hufig) eine entsprechender Fachkenntnisse gestaltend t-
Manahme aufgrund ihrer Auswirkung bei den tig zu werden. Manche Auftraggeber sind aber
jeweiligen Adressaten berprft wird, von an klaren Entscheidungen interessiert, sei es
intrinsischer, wenn die Bewertung unabhngig an der Auswahl der besten aus mehreren Alter-
von konkreten Auswirkungen dieser Art erfolgt nativen (vergleichende Evaluation) oder der Be-
(zum Beispiel bei der ideologiekritischen Un- wertung einer Manahme an normativer
tersuchung eines Curriculums oder bei der Be- Standards oder vorgegebenen Zielsetzungen
wertung eines Personalentwicklungssystems (nicht-vergleichendes Vorgehen).
hinsichtlich seiner Passung zur jeweiligen
Unternehmenskultur durch die Befragung der
dortigen Fhrungskrfte). Eine andere Unter-
Erfahrungsaufbereitung
scheidung ist die Trennung der Bewertung der
Programmauswirkungen (Program Impact) im
Nach Abschlu von Evaluationsprojekten soll-
Gegensatz zur Compliance-Evaluation, bei der
ten die dabei gemachten Erfahrungen nach
es darum geht, wie weit eine Manahme ber-
Mglichkeit aufbereitet und zusammengefat
haupt befolgt wurde. Besonders wichtig ist dies
werden, was man allgemein als Meta-Evalua-
etwa bei medikamentser Behandlung (fehlen-
tion bezeichnet. Dabei ist zu unterscheiden,
de Compliance liegt vor, wenn die Patienten
ob diese Zusammenfassung die ber eine be-
die vorgeschriebenen Medikamente nicht ein-
stimmte Manahme erzielten Ergebnisse inte-
nehmen, was hufig der Fall ist) oder bei der
grierend darstellen soll, also etwa globale Aus-
Erprobung neuer Curricula oder Lehrformen
sagen ber die Effektivitt einer bestimmten
(haben sich die Lehrer berhaupt an die
Therapie oder einer bestimmten Organisations-
Programmvorgaben gehalten?). Fr die Bewer-
form gewnscht werden; in diesem Fall spricht
tung einer Manahme spielt es natrlich eine
man von summierender Meta-Evaluation, da-
groe Rolle, ob ein negatives Resultat auf feh-
fr wurden auch eine Reihe spezieller stati-
lende Compliance oder fehlende Programm-
stischer Techniken entwickelt (Smith & Glass,
effektivitt zurckzufhren ist.
1981). Eine andere Art der zusammenfassen-
den Auswertung besteht darin, Hinweise fr die
Unter innerer (oder Selbst-)Evaluation versteht verbesserte Gestaltung neuer Evaluations-
man Vorhaben, bei denen die Mitarbeiter einer projekte zu erhalten, sei es fr das verwendete
Institution (im Extremfall sogar der Planer und Instrumentarium, Techniken zur Feststellung
Durchfhrer der jeweiligen Interventionsma- der Ziele und Konsequenzen oder fr die je-
nahme) auch fr die Bewertung verantwortlich weils gewhlten Untersuchungsdesigns (Pro-
sind, von uerer, wenn eine entsprechende gram-Design Evaluation). Erfahrungsaufberei-
personelle Trennung erfolgt. Zur Vermeidung tungen dieser Art sind die Grundlage, auf der
massiver Beurteilungsfehler sollte eigentlich sich allmhlich die Leistungsfhigkeit profes-
stets bei wissenschaftsgesttzten Projekten (im sioneller Evaluation weiter optimieren lt.
Gegensatz zum subjektiven Lernen whrend
der persnlichen Berufspraxis) von einer ue-
Die hier am Ablauf eines Evaluationsprogram-
ren Evaluation ausgegangen werden, doch
mes strukturierte Begriffsbildung ist in keiner
scheitert dies gelegentlich an den dafr erfor-
Weise erschpfend, leider finden sich in der
derlichen finanziellen Mitteln.
Literatur gelegentlich auch widersprchliche
Auslegungen des gleichen Begriffes. Fr eine
Eine weitere wichtige Unterscheidung, die hn- weitergehende Vertiefung in die spezielle Be-
lich schon weiter oben angesprochen wurde, griffswelt der Evaluation empfiehlt sich etwa
ist die Trennung von summativer (eine globale, Gell und Pehl 1970, Wittrock und Wiley 1970,
zusammenfassende Bewertung abgebender) Wulf 1972, Attkisson und Broskowski 1978,
und formativer (vorwiegend zur Gestaltungs- Biefang 1980, Hellstern und Wollmann 1984,
verbesserung angelegter) Evaluation. Ein forma- Wittmann 1985.
36 Grundlagen sozialwissenschaftlich gesttzter Evaluation
Jeder, der eine berufliche Ttigkeit im Bereich vertretbar nach vorne zu verlegen und die Ver-
der Evaluation anstrebt, sollte sich bewut sein, netzungen der verschiedenen Handlungsergeb-
da er damit eben nicht im engeren Sinne wis- nisse zu explizieren. Nur die mit wissenschaftli-
senschaftlich ttig ist. Er ist weniger frei, strker chen Methoden und auf langen Erfahrungen
an die Bercksichtigung von Interessen gebun- aufbauenden Meinstrumente gestatten eine
den und gleichzeitig weniger folgenlos als viele fundierte Erfassung komplexer psychologischer
Mitarbeiter im Grundlagenbereich. Er sucht oder sozialwissenschaftlicher Konstrukte, und
nicht Wahrheiten, sondern hilft mit, die Ge- nur die fortgeschrittenen Datenauswertungs-
sellschaft innerhalb der jeweils mglichen methoden ermglichen es, die bei den meisten
Grenzen ein klein wenig besser zu gestalten, als Evaluationsprojekten anfallenden hohen Da-
sie ohne seine Ttigkeit beschaffen wre, falls tenmengen bersichtlich und interpretierbar zu
er so kompetent ist, da seine Befunde tatsch- analysieren. Vielleicht mag auch die Erwartung
lich von den Entscheidungstrgern aufgegrif- zutreffen, da Wissenschaftler in entsprechen-
fen und bercksichtigt werden. Wenn man der beruflicher und gesellschaftlicher Position
diese Bedingungen akzeptiert, ist der Bereich aufgrund ihrer relativen Unabhngigkeit gegen-
Evaluation sicher ein sehr interessantes, aus- ber den Auftraggebern weniger von externen
sichtsreiches und gesellschaftlich relevantes Interessen beeinflubar sind und damit objek-
Gebiet; sieht man sich aber emotional und vom tiver ber die Ergebnisse von Manahmen be-
persnlichen Selbstverstndnis her eher als richten. Zumindest sollte man erwarten, da
Wissenschaftler im klassischen Sinne, sollte der Wissenschaftler gelernt hat, und auch in
man sich nicht durch externe Anreize dazu ver- praktischen Situationen bereit ist, sich an die
fhren lassen, Evaluation als Berufsfeld zu wh- prinzipielle wissenschaftliche Regel zu halten,
len. alle in eine Aussage einflieenden Argumente
zu explizieren, sie hinsichtlich ihrer Fundierung
zu diskutieren und die getroffenen Bewertun-
Wissenschaft als Hilfe fr die gen und Verknpfungen deutlich zu machen.
Evaluationsarbeit Ein solcher typisch wissenschaftlicher Darstel-
lungs- bzw. Argumentationsstil garantiert mit
Beachtet man die Besonderheiten der Anforde- gewissen Einschrnkungen die Seriositt einer
rungen an Evaluatoren und die sachlichen wissenschaftlichen Evaluation, ist aber
Strukturen, die diese Unterschiede zur reinen gleichzeitig leider oft dem Bedrfnis der Praxis
wissenschaftlichen Forschung bedingen, so nach klaren Handlungsanweisungen entgegen-
wird klar, da zumindest die auftragsgebun- gesetzt.
dene, in einem praktischen Verwertungs-
zusammenhang stehende Evaluationsfor-
schung nicht Wissenschaftliche Forschung 2.2.2 Nutzen der
im blichen, zumindest an Universitten do- Wissenschafts-Beitrge
minierenden Sinne sein kann. Eine Ausnahme
wre denkbar, wenn in Einzelfllen auch die In den meisten Fllen wird von Seiten der
Zielsetzung von Evaluationsprojekten von Wis- Wissenschaft ein echter Sachbeitrag erwartet
senschaftlern selbst vorgenommen wrde, (Theorie- und Methodenkenntnisse allgemein,
wenn also der (Grundlagen-)Forscher mit dem Erfahrung in der Durchfhrung empirischer
von ihm selbst gesetzten Ziel von Evaluation in Projekte). Es kommt aber durchaus vor, da zu-
das Praxisfeld geht. Solche Vorhaben sind aber mindest zustzlich zu diesem Aspekt auch der
auerordentlich selten. Zusatznutzen von Wissenschaft bzw. Wissen-
schaftlern wichtig ist, etwa die Aufwertung von
Wenn Evaluation auch nicht Wissenschaft ist, Projekten, die hhere Glaubwrdigkeit einer
so kann und mu sie doch wissenschafts- fachlichen Autoritt auch bei Fragen, bei de-
gesttzt erfolgen. Die Kenntnis der entspre- nen keine besondere Kompetenz besteht u..
chenden Theorien und Befunde ist eine wesent-
liche Grundlage, um die im Abschnitt 1.3 Die Beachtung beider Aspekte (Sachleistung
diskutierte Zielperspektive soweit wie seris und Zusatznutzen) kann die Kooperation mit
Grundlagen sozialwissenschaftlich gesttzter Evaluation 39
Auftraggebern erleichtern und eine zweckm- Organisationsstrukturen und Kostenaspekte den-
ige, sptere Enttuschungen vermeidende Pro- ken, ein Psychologe wird das Verhalten (Ziele,
jektplanung untersttzen. Motive, Emotionen etc.) des einzelnen Men-
schen in den Mittelpunkt stellen und einem
Sozialwissenschaftler drfte es schwerfallen,
Potentielle Sachbeitrge von Wissenschaft nicht automatisch gesellschaftliche Aspekte zu
bercksichtigen. Fr jede Disziplin liegen an-
Nur ein dem jeweiligen wissenschaftlichen Ent- dere Variablen fr Intervention und Erfolgskon-
wicklungsstand annhernd entsprechendes trolle nahe, sie verfgen ber verschiedene
Vorgehen bei der Auswahl und Messung der Mengen von als bewhrt angesehenen Hypo-
Kriterien, der Designplanung und Datenaus- thesen, Memethoden und berprfungs-
wertung verhindert unntige Schwchen des verfahren, ohne da von einer neutralen Stelle
Projektes. Die Flle psychologischer bzw. sozi- aus gesagt werden knnte, welcher Standpunkt
alwissenschaftlicher Theorien, Methoden und richtig oder besonders richtig wre. Die
Interventionstechniken, die fr Evaluations- Hinzuziehung eines in einem anderen Paradig-
projekte unmittelbar genutzt werden knnen, ma lebenden Kollegen, wie es etwa in der Ko-
ist unbersehbar. Diese Vielfalt hat zur Folge, operation zwischen Praktikern und Wissen-
da fr eine Berufsttigkeit im Feld Evaluation schaftlern die Regel ist, bietet schon an sich,
eine sehr breite Kenntnis der eigenen Wissen- selbst ohne eine spezifisch ausgeprgte Sach-
schaft wichtiger ist als ein sehr tiefes Wissen in kompetenz in Detailfragen, eine gute Chance,
wenigen Spezialgebieten. das Problem von einem neuen Gesichtswinkel
aus umzustrukturieren und damit einen
Die Verbindung der Evaluation mit meist sehr vielleicht bisher bersehenen Bearbeitungs-
vielschichtigen Praxisproblemen bedingt, da vorschlag zu entdecken. Voraussetzung ist al-
in den meisten Fllen nicht gesagt werden lerdings eine (leider) ungewhnliche Kom-
kann, ob der gerade ausgewhlte theoretische munikationsfhigkeit aller Beteiligten, deren
Ansatz bzw. Methode oder Sozialtechnik die Fehlen erhebliche sachliche und emotionale
beste oder gar die einzige mgliche Wahl ist. Schwierigkeiten machen kann (vgl. dazu die
Eine nachtrgliche berprfung ist wegen der Inkommensurabilitt verschiedener Paradig-
meist gegebenen Einmaligkeit von Evaluations- men, Kuhn, 1967).
projekten kaum mglich, so da eine Evalua-
tion der fr ein konkretes Projekt herangezo-
genen wissenschaftlichen Grundlage meist Zusatznutzen wissenschaftlicher
entfllt. Fr den Auftraggeber bzw. den Koope- Evaluation
rationspartner aus der Praxis bedeutet dies, da
er der fachlichen Kompetenz des wissenschaft- Ein gerade unter wissenschaftlich ausgebildeten
lichen Evaluators mit nur wenigen nachtrg- Personen nicht seltener Denkfehler ist es, die von
lichen Kontrollmglichkeiten vertrauen mu. Verantwortungstrgern (zum Beispiel Auftragge-
Die Verantwortung des Wissenschaftlers, auch bern fr Evaluationsvorhaben) getroffenen Ent-
bezglich der eigenen Informiertheit ber den scheidungen als ausschlielich oder zumindest
aktuellen Sachstand, ist entsprechend hoch. weit berwiegend rational-logisch abgesttzt auf-
zufassen. Da die Steuerung eines komplizierten
Ein ber die Fachkompetenz in Einzelfragen sozialen Systems, ja auch nur die Aufrechterhal-
hinausgehender Kompetenzaspekt ist die Ver- tung seiner Funktionsfhigkeit, nicht so einfach
trautheit mit einem bestimmten wissenschafts- als rationaler, leicht durchschaubarer und aus-
spezifischen Paradigma, das fr Absolventen ei- schlielich auf Sachrckmeldung begrndeter
nes Studiums meist so selbstverstndlich wird, Proze aufzufassen ist, zeigen die Untersuchun-
da man den spezifischen Beitrag der so ge- gen zum komplexen Denken (vgl. dazu Drner,
prgten Denkweise oft bersieht. Ein Ingenieur 1979, 1983 ).Es fllt dabei auf, da aus rein intel-
orientiert sich ganz natrlich an technischen lektueller Sicht vermutlich ein erheblicher Teil der
Gegebenheiten, ein klassisch ausgebildeter in solchen psychologischen Experimenten teil-
Wirtschaftswissenschaftler wird vor allem an nehmenden Versuchspersonen im realen Le-
40 Grundlagen sozialwissenschaftlich gesttzter Evaluation
ben in der Lage wre, etwa eine Schneiderwerk- im Abschnitt 2.1.3). Auch der Wissenschaft-
statt oder ein hnlich berschaubares System in- ler ist ein normaler Mensch, der gerade zu
tellektuell zu steuern. Da diese Aufgabe aber bei gesellschaftlich relevanten Vorhaben (zum
Reduktionen auf sachliche Rckmeldung und Beispiel im Bildungsbereich) oder bei Ma-
ohne die Einbettung in Erfahrung oder anderes nahmen, die seine eigene Ttigkeit unmit-
gewohnheitsmiges Verhalten nicht so leicht ist, telbar berhren (zum Beispiel die Effekte
zeigen die erstaunlich hohen Versagerquoten bei verschiedener Therapieformen fr einen Kli-
entsprechenden Simulationsexperimenten (vgl. nischen Psychologen) durchaus fest etablierte
dazu Putz-Osterloh 1981). Vorurteile haben kann. Zur Vermeidung sol-
Die psychologischen Mechanismen, die einen cher Effekte ist der in manchen Programmen
Zusatznutzen der Einschaltung von Wissenschaft in den USA bliche Lsungsweg interessant,
ber Fachwissen hinaus bedingen, sind vor allem besonders kontroverse Vorhaben parallel von
im Bereich der Sozialpsychologie (Vorurteils- und zwei Wissenschaftlern mit stark unterschied-
Kleingruppenforschung, Battegay 1973; Sbandi, lichen Vormeinungen evaluieren zu lassen.
1973; Schfers, 1980; Schneider, 1985) ausfhr- Dies fhrt nicht nur zu einer besonders brei-
lich untersucht. Eine Darstellung einiger beson- ten Vorgehensweise unter Beachtung fast al-
ders wichtiger dort aufgezeigter Effekte findet sich ler denkbarer Vor- bzw. Nachteile der evalu-
in Diagramm II/4. ierten Manahme, sondern stellt auch ein
gewisses Regulativ fr die einzelnen Wissen-
schaftler dar, zur Aufrechterhaltung der eige-
Fr die praktische Arbeit besonders wichtig sind
nen Reputation eine mgliche Verzerrung
folgende Zuschreibungen:
der Studie aufgrund ihrer Vormeinung so ge-
Neutralitt der Wissenschaft; man erwartet, ring wie mglich zu halten. Dies ist beson-
da aufgrund des Selbstverstndnisses einer ders vor dem Hintergrund der Einmaligkeit
wertfreien Forschung (ob dies gerechtfer- der meisten Evaluationsprojekte wichtig, die
tigt ist, mag dahin gestellt bleiben), da der eine Kontrolle der Angemessenheit des Pro-
Wissenschaftler in besonderem Mae in der jektes bzw. die Fundiertheit der Ergebnisse
Lage ist, nur objektive Fakten zu beachten durch Replikationsstudien nicht mglich
und sie nicht gem einer vorgefaten Mei- macht.
nung gefrbt zu interpretieren. Im Prinzip
drfte dies auch richtig sein, doch gibt es Fachbergreifende Kompetenzzuschreibung; da
zweifellos auch das Phnomen der advo- der Fachwissenschaftler einem Laien in dem
katorischen Evaluation (siehe Diagramm II/3 jeweiligen wissenschaftlichen Teilgebiet zwei-
Diagramm II/4
Psychologische Grnde fr den Zusatznutzen wissenschaftlich ausgewiesener, externer
Evaluatoren (Auswahl)
Image des Wissenschaftlers Nonkonformitt mit informellen
Gruppennormen
Expert power
Objektivitt
Information power
Besserer Einblick in und besserer Umgang
Credibility/Glaunwrdigkeit mit gruppendynamischen Prozessen
Persuasibility/berzeugungskraft
Vermeidung negativer Gruppeneffekte wie
Geringerer Gesichtsverlust in Konflikt- group thinking oder group polarisation
situation
Unabhngigkeit von hierarchischen
Besserers Konfliktmanagement durch Strukturen auf der Seite der Auftraggeber
den Einsatz von Sozialtechniken
Idiosyncrasy Credit aufgrund des Status
Objektive Vermittlung bei Konflikten des Wissenschaftlers
innerhalb der Institution des Auftraggebers
Grundlagen sozialwissenschaftlich gesttzter Evaluation 41
fellos kompetenzmig weit berlegen ist, fin- Aufwertung von Projekten; ein Vorhaben in
det sich das Phnomen, ihm eine entspre- der Schule, im Betrieb und einer Kurklinik
chende berlegenheit und Autoritt auch mu etwas Besonderes sein, wenn sich da-
auerhalb des Fachgebietes zuzuschreiben. So mit ein Wissenschaftler beschftigt. Es wird
fragwrdig manche Auswchse der Benut- damit gegenber alltglichen Kontroll- bzw.
zung dieser speziellen Art des Halo-Effektes Evaluationsvorgngen auf eine hhere Stufe
auch sind (man denke etwa an die Wahlauf- gehoben, von der Verantwortlichkeit bzw. Be-
rufe von Wissenschaftlern oder Knstlern fr treuung her meist auch hierarchisch hher
politische Parteien oder die Darstellung von zugeordnet und damit bzgl. der Durch-
Spitzensportlern in der Produktwerbung), so fhrungsmglichkeit und der Beachtung der
ntzlich kann dieses Phnomen in Evalua- Ergebnisse aufgewertet. Als Beispiel: An einer
tionsprojekten sein. Dies gilt zum Beispiel fr Schule wird das Problem alkoholabhngiger
die Konfliktbereinigung zwischen verschie- Schler virulent. Die mit der Beratung dieser
denen Mitarbeitern oder Instanzen des Auf- Problemgruppe besonders beauftragten Leh-
traggebers, da diese im Regelfall die Empfeh- rer berlegen drei verschiedene Vorgehens-
lung einer externen Autoritt mit weisen. Wenn sie diese Varianten schulintern
besonderer Kompetenz leichter und ohne mit dem Einsatz ihrer eigenen Arbeitszeit
Gesichtsverlust akzeptieren knnen als eine evaluieren, kann dies leicht von der Schul-
interne Regelung. In gleicher Weise knnen leitung als Hobby dieser Kollegen interpre-
Wissenschaftler dazu beitragen, die (gerade bei tiert werden. Gelingt es, etwa einen Diplom-
politisch interessanten Evaluationsvorhaben) Psychologen einer benachbarten Erziehungs-
oft irrational heftigen Kontroversen ein we- beratungsstelle dafr zu interessieren, wird
nig zu versachlichen, da sich normalerweise mit Sicherheit der Schulleiter eingeschaltet,
die Kontrahenten nicht auf Dauer dem Vor- das Vorhaben ausfhrlich auf einer Konferenz
wurf aussetzen wollen, gegen den wissen- diskutiert und vielleicht sogar zur Profilierung
schaftlichen Sachverstand zu argumentieren. der Schule in der ffentlichkeit oder gegen-
ber der Stadtverwaltung (da jetzt Dienst-
Weitgehende Explikationen der Begrndungen; es stellen kooperieren mssen) genutzt. Gelingt
ist fr einen wissenschaftlich gut ausgebil- es sogar, einen angesehenen Universitts-
deten Akademiker selbstverstndlich, die Be- professor fr dieses Projekt zu interessieren,
grndung fr eine Bewertung in expliziter, besteht eine gute Chance, da sich daraus ein
logisch nachvollziehbarer Form zu erwarten. mit zustzlichen Finanzmitteln gefrdertes
Bei vielen Kontroversen liegt ein Kernpunkt Projekt ergibt, vielleicht sogar ein Modell-
des Konfliktes aber gerade darin, da wichtige versuch des entsprechenden Landes, vielleicht
Bewertungsaspekte nicht genannt werden mit bundesweiter Verbreitung der aufgrund
(Wer sagt schon, da er bei dem Vergleich der Evaluationsergebnisse abgegebenen Emp-
verschiedener Weiterbildungsseminare in sei- fehlungen. Eine solche Entwicklung kann
nem Unternehmen auf der Bewertungs- selbst dann eintreten, wenn sich gegenber
variable persnliche Beliebtheit des Referen- dem ursprnglichen Vorhaben der Lehrer vor
ten bei den Teilnehmern vor allem deshalb Ort weder in den Manahmen noch in den
besteht, weil er meint, da dabei sein Lieb- Evaluationsgesichtspunkten eine wesentliche
ling besondere Vorteile hat? Oder wer for- Vernderung ergeben htte.
muliert explizit, da er gegen eine Geschwin-
digkeitsbegrenzung auf Autobahnen ist, weil Man sollte solche an sich unsachlichen, sozial-
er selbst es geniet, seinen starken Wagen voll psychologisch begrndeten Effekte nicht ber-
ausfahren zu knnen?). Die durch einen Wis- bewerten, aber auch nicht gering achten
senschaftler angestrebte Explikation erzeugt wahrscheinlich war es in vielen Fllen der
in solchen Fllen erhebliche Dissonanzen zwi- Evaluationsvorhaben nur durch die von den
schen dem Ist-Stand der Ziele und dem Selbst- Auftraggebern gewnschte Aufwertung des Pro-
bild des sich selbst als verantwortlich han- jektes mittels des Einsatzes von Wissenschaft-
delnd sehenden Praktiker, was die Konsens- lern mglich, auch sachlich eine wesentlich
bzw. Kompromifhigkeit frdert. Qualittssteigerung zu erzielen.
42 Grundlagen sozialwissenschaftlich gesttzter Evaluation
Beispiel in der Bundesrepublik Deutschland len des Evaluators gegeben, die Rahmenbedin-
nicht unerhebliche Tendenz von Politikern, gungen (auch in rechtlicher Hinsicht) von
zumindest die ffentlich geuerte persnli- evaluatorischer Ttigkeit skizziert und abschlie-
che Meinung mit der offiziellen Partei- end darauf aufbauend versucht, die fr eine
meinung abzustimmen, ist in den USA zumin- erfolgreiche und zufriedenstellende Berufsttig-
dest wesentlich schwcher. Dieser strker keit in diesem Bereich erforderlichen Kompe-
pragmatische, weniger parteibezogene Umgang tenzen und Persnlichkeitseigenschaften zu
mit Problemen frdert das Interesse an empi- skizzieren. Dieser letzte Abschnitt verfolgt das
rischer Evaluation und die praktische Anwen- Ziel, die persnliche Entscheidung fr eine
dung der Ergebnisse. Trotzdem drfte in der eventuelle Ttigkeit in diesem Bereich ein we-
Bundesrepublik ein quantitativ erhebliches nig zu versachlichen.
Defizit an Evaluatoren bestehen, worauf sich
zumindest mittel- bzw. langfristig eine gn-
stige Prognose fr diesen Teilarbeitsmarkt grn- 2.3.1. Rollenvielfalt des Evaluators
det. Diese Hoffnung wird verstrkt durch die
in den letzten Jahren deutlich gewordene Ten- Die wichtigsten abgrenzbaren Funktionen ei-
denz einer Entideologisierung der Politik nes Evaluators sind auf der Basis des allgemei-
auch in Deutschland und der zunehmenden nen Handlungsmodells aus Diagramm I/2 in Dia-
Betonung der Outputkontrolle als Grundlage gramm II/5 strukturiert zusammengefat. Die
der Systemsteuerung auch im ffentlichen Darstellung macht vielleicht deutlich, da die-
Bereich. ses Berufsfeld sicher eine sehr abwechslungsrei-
Die Nachfrage nach Evaluation ist aber auch che Ttigkeit bietet, gleichzeitig aber auch hohe
abhngig von der Verfgbarkeit ausreichend und zum Teil kontrre Anforderungen stellt. So
kompetenter Evaluatoren. Entsprechend gezielte mu etwa der Evaluator als summativer
Aus- und Weiterbildungsprogramme fehlen (im Bewerter seine eigene Meinung und Persn-
Gegensatz zu den USA) in der Bundesrepublik lichkeit gegenber dem Auftrag und der Sach-
Deutschland so gut wie vllig, selbst Spezia- lage soweit wie nur irgend mglich zurck-
lisierungen innerhalb des normalen Diplom- nehmen. Als Informationsbeschaffer das
Studienganges werden kaum angeboten und Instrumentarium gem seiner eigenen Auffas-
die Arbeitsbedingungen der meisten Evalua- sung gestalten und seine mglichst optimale
toren sind zumindest in Anbetracht der derzei- Anwendung im Feld auch gegen Widerstnde
tigen Marktlage mit so vielen Unsicherheiten durchsetzen. Als formativ Helfender ist er der
behaftet, da sie fr besonders kompetente, Ratgeber, der unterschiedliche Gestaltungsvor-
Eigeninitiative entwickelnde Absolventen in schlge und Interessen vermittelnd zu einem
Anbetracht der fr diese Personengruppe be- Konsens fhrt. Da sich alle drei Rollen im Rah-
stehenden anderweitigen Berufsmglichkeiten men desselben Projektes ergeben knnen, mu
nur wenig attraktiv sind. Die mangelnde Ver- man i. A. Langeweile nicht befrchten. Aller-
fgbarkeit besonders qualifizierter Bewerber re- dings stellt sich die Frage, wie man eine ent-
duziert ihrerseits wiederum die fr Evaluatoren sprechende Rollenflexibilitt erwerben soll,
geschaffenen Arbeitsmglichkeiten. Es bleibt solange eine entsprechende Persnlichkeits-
zu hoffen, da nderungen der Studien- entwicklung etwa im Rahmen von post-
ordnungen (vgl. etwa die Rahmenprfungs- gradualen Bildungsgngen oder sorgfltig
ordnung fr das Diplomstudium Psychologie supervisierter Berufserfahrung kaum unter-
vom 20. Mai 1983 mit der Einrichtung eines sttzt wird.
Pflichtfaches Evaluation und Forschungs-
methodik im Hauptdiplom), Verlagerung der
Studenteninteressen und eine gleichzeitig hof- 2.3.2 Rechtliche Rahmenbedingun-
fentlich zunehmende Nachfrage nach Eva- gen von evaluatorischer Ttigkeit
luationskompetenz hier eine Verbesserung be-
wirken. Vorweg mu erklrt werden, welche Rechts-
In den nchsten drei Abschnitten wird zu- beziehungen in dem Feld evaluatorischer T-
nchst ein berblick ber die Vielfalt der Rol- tigkeit berhaupt relevant sein knne. Eine
Grundlagen sozialwissenschaftlich gesttzter Evaluation 47
bersicht ber hufige Beschftigungsverhlt- gericht) und BGH (Bundesgerichtshof) ist dabei
nisse fr Evaluatoren stellt Diagramm II/6 dar. auf bestimmte Indizien abzustellen wie Wei-
Innerhalb der Dienstleitungen im Sinne des sungsgebundenheit, Art der Entlohnung, Ab-
611 BGB (Brgerliches Gesetzbuch) sind zwei fhrung von Lohnsteuer und Sozialversiche-
Flle zu unterscheiden: rungsbeitrgen. Der Evaluator als Arbeitnehmer
schuldet dem Dienstberechtigten seine ganze
Dienstleistungen des selbstndig Ttigen;
Arbeitskraft.
Arbeitsleistungen des (unselbstndigen) Ar-
beitnehmers.
Vertragsmglichkeiten
Im ersten Fall ist der Evaluator selbstndig, lei-
tet zum Beispiel ein eigenes Institut. Im zwei- Bezglich der rechtlichen Beziehungen zwi-
ten Fall ist der Evaluator abhngig beschftigt. schen Auftraggeber und Evaluatoren sind fol-
Laut Rechtsprechung des BAG (Bundesarbeits- gende Bedingungen typisch:
Diagramm II/5
Funktion des Evaluators auf der Basis des Handlungsmodells
Person
Handlungsausfhrung Evaluator hilft und bert bei der Praktische Erfahrungen, gute
Ausfhrung der Manahmen fachspezifische Kenntnisse,
Ausfhrungskontrolle organisatorische Kompetenzen
Diagramm II/6
Hufige Beschftigungsverhltnisse fr Evaluatoren unter rechtlichen Aspekten
Dienstleistung
zivilrechtlich ffentlich-rechtlich
Diagramm II/7
Der Dienstvertrag
Grundlagen
Der Evaluator ist unselbstndiger Arbeitnehmer einer Institution (z.B. Institut, Beratungsgesell-
schaft etc. ). Mglich ist auch, da er jener Institution angehrt, deren Arbeit zu evaluieren ist
(z.B. Klinik, Schule, Staatsinstitut, Unternehmen )
Aus der Eigenschaft als Arbeitnehmer ergeben sich u. a. folgende Pflichten
Hautpflichten Nebenpflichten
Durchfhrung der anfallenden Arbeiten entwe- werden braucht (zum Beispiel Aushilfsttig-
der selbst als Arbeitgeber Mitarbeiter in ein Ar- keiten, Saisonarbeit).
beitsverhltnis nehmen, oder wiederum nach- Eine flexiblere Gestaltung dieser Arbeitsver-
geordnete Werkvertrge abschlieen. hltnisse erfolgte durch das Beschftigungs-
Ein besonderes Problem kann sich auch aus frderungsgesetz (BeschFG 1985) und den sp-
der Tatsache ergeben, da viele Evaluationsvor- ter aktuellen Bestimmungen, die es leichter
haben zeitlich befristet sind. Binnen eines vor- machen, befristete Vertrge auszustellen.
her festgelegten Zeitraumes mu eine bestimm- Nach Rechtsprechung des BAG knnen auch
te Leistung erbracht werden, danach gibt es mehrere hintereinandergeschaltete befristete
(eventuell weder fr den selbstndigen Eva- Arbeitsvertrge, sog. Kettenarbeitsvertrge, zu-
luator noch fr die von ihm beschftigten Mit- lssig sein. In der Praxis hat sich gezeigt, da je
arbeiter) weitere Auftrge und damit auch kei- fter das Arbeitsverhltnis verlngert wird, um
ne weiteren Einnahmen. Aus diesem Grund so deutlicher wird, da die Befristung sachlich
wird hufig gerade von selbstndig ttigen nicht gerechtfertigt war.
Evaluatoren versucht, nur befristete Arbeitsver- Wurde ein Arbeitnehmer (Evaluator) zu einer
trge mit Mitarbeitern abzuschlieen, wobei ei- ganz bestimmten Aufgabe eingestellt, dies aber
nige rechtliche Besonderheiten zu beachten innerhalb der vereinbarten Frist nicht erledigt
sind. werden konnte, so ist eine neue Befristung zu-
lssig.
Der befristete Arbeitsvertrag Ein anderer Fall liegt vor. wenn vorhersehbar,
Normalerweise sind Arbeitsvertrge unbefristet war, wie lange Zeit die Arbeit in Anspruch neh-
und unterliegen den normalen Kndigungsvor- men wird. Der Arbeitgeber mu bei Ablauf des
schriften. Sie knnen mit Ausnahmen formlos ersten befristeten Arbeitsverhltnisses, wenn er
und mndlich abgeschlossen werden. Der be- sich getuscht hat und den Arbeitnehmer wei-
fristete Arbeitsvertrag stellt ein Arbeitsverhlt- ter beschftigen will, ein den normalen Kn-
nis auf Zeit dar. Dieses Arbeitsverhltnis endet digungsvorschriften unterliegendes Arbeitsver-
durch Zeitablauf, ohne da es gekndigt zu hltnis abschlieen.
50 Grundlagen sozialwissenschaftlich gesttzter Evaluation
Diagramm II/8
Der Werkvertrag
Grundlagen
Eine Institution (Werkvertraggeber) schliet mit einem Evaluator (Werkvertragnehmer) einen
Vertrag.
gibt es derzeit fr Evaluatoren in dieser Rolle Haushalte; in den USA zeigte sich eine hnliche
kaum berufliche Aufstiegsmglichkeiten, am ehe- Entwicklung). Der Normalfall ist, da Evaluatoren
sten noch durch bernahme der Geschftsfh- in ihrem Karriereverlauf Fhrungspositionen in
rung eines mit Evaluationsprojekten befaten In- Wirtschaft, Verwaltung oder Wissenschaft anstre-
stituts (solche selbstndigen Existenzen oder ben und dem engeren Berufsfeld verlorengehen.
kleinen Institute gab es Anfang der siebziger Jahre Darin liegt einerseits eine Chance fr interessier-
sehr viele, als Folge der massiv zunehmenden Auf- ten Nachwuchs durch das Freiwerden entspre-
trge der ffentlichen Hand fr Evaluations- chender Positionen, andererseits ein nicht uner-
vorhaben, die meisten davon berlebten aber heblicher Verlust an gewonnener Erfahrung und
nicht die Konsolidierungsphase der ffentlichen berufsfeldspezifischer Kompetenz.
bersicht Kapitel 2:
Grundlagen sozialwissenschaftlich gesttzter Evaluation
Voraussetzungen fr Evaluationsprojekte
Ziele, die mit psychologischen oder Nutzen des Evaluationsprojektes Vorhandensein von Evaluatoren
sozialwissenschaftlichen mu erwartete Kosten bersteigen und anderen notwendigen
Evaluationsmethoden erreicht Ressourcen
werden knnen
2.1
Zielsetzungen bei Evaluationsvorhaben
Grundlagen der Akzeptanz von Evaluation
Psychologische Voraussetzungen fr die Entwicklung von Evaluation
Akzeptanz der Vernderbarkeit Bereitschaft, sich zu Zwecken der Bereitschaft der Entscheidungs-
relevanter gesellschaftlicher Verbesserung des bestehenden trger zur Akzeptanz von Fakten
Strukturen u. Gestaltung gesell- Verhaltens (Hoffen auf Erfolg)
schaftlicher Verhltnisse unter dem Risiko des Scheiterns (Furcht Mgliche Nutzenerwartungendes
rationalen Optimierungsaspekten vor Mierfolg) auszusetzen Auftraggebers
Bewertung ohne detaillierte
Einteilung der Evaluationsformen Zielsetzung
nach Verantwortungsdelegation
Rahmenbedingungen Durchsetzungs-/Entscheidungs-
Grundstzliche Zielorientierung hilfe
Zeitperspektive Optimierungsgrundlage
Nutzenberlegung
Bearbeitungsformen
Erfahrungsaufbereitung
Grundlagen sozialwissenschaftlich gesttzter Evaluation 53
2.2
Wissenschaft als mgliche Grundlage von Evaluation
Grundvoraussetzungen
Konsequenz
Rollenverstndnis des Evaluators steht teilweise im Widerspruch zu den
Ansprchen der Wissenschaftlichen Forschung
2.3
Verfgbarkeit von Evaluatoren
Problem
Groer potentieller Bedarf an Evaluatoren sowie an Aus- und Weiterbildungsprogrammen konnte bisher
noch nicht gedeckt werden
Persnliche Voraussetzungen
abgeschlossenes empirisch-sozialwissenschaftliches Studium
gute Methodenkenntnisse
gute Allgemeinbildung im jeweiligen Evaluationsfeld
hohe Leistungsmotivation und Kommunikationsbereitschaft
Fhigkeit zum Role-Taking
soziale Kompetenz
Strategieentwicklung
Fhrungsfhigkeit
55
3. Einsatzgebiete psychologischer
Evaluation
Diagramm III/1
Wichtige Aspekte von Evaluationsstudien
Dies bedeutet fr den Evaluator, da er die werden. Dazu kann man sich einer Reihe von
zugrunde liegenden Ziele des Projektes erst zu- Zielbildungs- und Konsensfindungstechniken
sammen mit dem Auftraggeber erarbeiten mu. bedienen, die im vierten Kapitel ausfhrlich
In den seltensten Fllen kann man dabei von beschrieben werden. Der Einflu der Macht-
expliziten Zielstrukturen des Auftraggebers aus- strukturen innerhalb der Betroffenengruppe ist
gehen. Auch ist grundstzlich damit zu rech- dabei als Problem nicht auszuklammern. Ge-
nen, da dem Evaluator nicht alle wirklich re- rade hier wird deutlich, da Evaluation eben
levanten Ziele mitgeteilt werden. Oft werden nicht (nur) in der Anwendung von Wissen-
Interessen und Vorstellungen mit in die Ziel- schaft und Datenverarbeitungstechniken be-
struktur des Auftraggebers eingehen, die dieser steht, sondern auch erhebliche sozialtechnische
dem Evaluator zumindest zunchst nicht mit- Kompetenzen erfordert. Ntzlich fr das gezielte
teilen mchte, aber trotzdem erwartet, da sich Nachfragen nach den eigentlichen Evaluations-
Antworten darauf in den Ergebnissen finden. zielen knnen die im Abschnitt 2.1.2 dargeleg-
Diese unzureichende Zielklrung findet sich ten allgemeinen Zielsetzungen (zum Beispiel
nicht nur bei typisch affirmativ gewollten Stu- Verantwortungsdelegation, Entscheidungshilfe,
dien, sondern auch bei tabuisierten Bereichen berprfung der Erreichung vereinbarter Ziele)
(etwa Konflikte innerhalb der auftraggebenden sein. Oft zeigen sich auch unvollstndige Ziel-
Institution, starke Heterogenitt der Ziele selbst klrungen in der berraschenden Ablehnung
innerhalb eines Auftragsverantwortlichen und von Projektdetails, die fr das zunchst an-
die Vernderung der Ziele ber die Zeit als Fol- genommene Ziel adquat sind, aber eben nicht
ge wechselnder uerer Bedingungen. die eigentlichen Ziele erreichen wrden (zum
Beispiel Vorschlge fr die zu erhebenden em-
Da gewhnlich mehrere Personengruppen von pirischen Indikatoren, fr die Berichtlegung,
den Ergebnissen einer Evaluationsstudie betrof- Vertraulichkeitsregelungen etc.)
fen sind existieren zwischen diesen oft unter- Ein ebenso groes Problem wie die Heteroge-
schiedliche, zum Teil sogar einander widerspre- nitt der Zielstrukturen liegt in der mglichen
chende Ziele. Diagramm III/2 gibt beispielhaft fr Vernderung anfangs vorgegebener Ziele. Sind
die Evaluation der betrieblichen Weiterbildung solche Entwicklungen abschtzbar, wird der
unterschiedliche Betroffenengruppen und ihre Evaluator sich vor solchen pltzlichen Vern-
mglichen Motive einer Erfolgskontrolle an. derung durch ein gutes, flexibles Repertoire an
Evaluationstechniken und durch Bildung von
Die verschiedenen Zielbndel mssen soweit Szenarien zu Anfang seiner Untersuchung
wie mglich in bereinstimmung gebracht schtzen knnen (vgl. Abschnitt 4.1.3).
Einsatzgebiete psychologischer Evaluation 57
Diagramm III/2
Betroffenengruppen bei der Evaluation betrieblicher Weiterbildungsmanahmen, ihre
Ziele und Motive fr eine Erfolgskontrolle (Beispiele)
Seminarteilnehmer Trainer
Lernerfolgsnachweis Lehrerfolgsnachweis
Karrierefrderung Bildungsbedarfshinweis
Individuelles Feed-back Feed-back durch Teilnehmer
Lernmotivation Ressourcen-Gewinnung
Vorgesetzte Unternehmensleitung
Berichterstattung ber persnliche Eindrcke Beurteilung des Trainers
Entscheidungshilfen bei Personalfragen Beurteilung der Teilnehmer
Beurteilung der Trainingsaktivitten Ressourcen-Bemessung
Rechenschaftslegung
Effizienz-Nachweis
Nach Feststellung der Ziele wird die konkrete Hinzuweisen ist vor allem auf die umfassenden
Projektarbeit wesentlich durch das Praxisfeld, Diskussionen im Bildungssektor. Nach Hell-
in dem die Evaluation stattfinden soll, be- stern und Wollmann (1984, S. 36) hat die Bund-
stimmt. Je nach Bereich gelten andere Spielre- Lnder-Kommission fr Bildungsplanung und
geln, Arbeitsmglichkeiten und rechtliche Rah- Forschungsfrderung (BLK) ber 800 Evaluie-
menbedingungen. rungsstudien und Begleitforschungsvorhaben
Die Evaluationsforschung hat mittlerweile untersttzt. Besonders bekannt geworden sind
Einzug in viele gesellschaftliche Bereiche gehal- die Diskussionen um den Vergleich des Gesamt-
ten, was sicher damit zusammenhngt, da ein schulwesens mit dem traditionellen, dreiglied-
wachsendes Bedrfnis besteht, rational vertret- rigen Schulsystem.
bare Grundlagen fr Urteile und Entscheidun- Die Reformprogramme im pdagogischen Be-
gen zu erhalten. Die reichhaltigsten, vielleicht reich drften fr die Entwicklung der Evalua-
auch umfassendsten Diskussionen innerhalb tionsforschung im deutschen Raum eine hn-
der Evaluationsforschung erfolgten dabei in fol- lich bahnbrechende Funktion gehabt haben,
genden Bereichen (vgl. Hellstern und Woll- wie die sozialpolitischen Reformprogramme in
mann, 1984, Lange, 1983): den USA whrend der sechziger Jahre.
Weniger im Licht der ffentlichkeit stehend,
Bildungssektor aber mit einer lngeren Vorgeschichte behaftet
Wirtschaft sind Evaluationsvorhaben im Wirtschafts- und
Agrar- und Verkehrspolitik Militrbereich. Gerade hier haben sich durch
58 Einsatzgebiete psychologischer Evaluation
Diagramm III/3
Beispiele empirischer Evaluationsstudien aus den unterschiedlichsten Anwendungs-
gebieten
Anwendungsgebiet Studie
Fr den in verschiedenen Bereichen ttigen Diagramm III/5 gibt fr jede der genannten Grup-
Evaluator stellt sich das Problem, insbesondere pen ein Beispiel eines konkreten Evaluations-
die rechtlichen Bedingungen wenigstens unge- projektes aus dem deutschsprachigen Raum an.
fhr zu kennen. So erfordert etwa die Arbeit in
Schulen besondere Genehmigungen des zu- Eine wichtige Unterscheidung innerhalb der
stndigen Ministeriums, in Betrieben sind die Gruppe Personen als Evaluationsobjekt ist
Mitbestimmungsrechte des Betriebsrates mit noch in der Beantwortung der Frage zu sehen,
grter Sorgfalt schon im Vorfeld zu beachten, ob sich die Evaluation auf Einzelpersonen, oder
und im Gesundheitswesen kann es eine wich- aber auf ganze Personengruppen bezieht. Diese
tige Frage sein, welche Variablen an Patienten Differenzierung drfte vor allem fr den kli-
nur von rzten (bzw. unter deren unmittelba- nisch-therapeutischen Bereich, insbesondere fr
rer Aufsicht) erhoben werden drfen. Neben die Diskussion im Zusammenhang mit Einzel-
diesen Aspekten spielt auch die emotionale fallanalysen, von Bedeutung sein (vgl. Bommert
Passung des Evaluators eine erfolgsentschei- & Petermann, 1982; Petermann & Henl, 1979).
dende Rolle. Ein Untersucher, der in einer
Schule in freier Trgerschaft und besonders Fr die Gestaltung der Projektarbeit ist zu un-
fortschrittlichem pdagogischem Konzept her- terscheiden, was die eigentlichen Evalua-
vorragende Akzeptanz findet, hat u. U. Pro- tionsobjekte sind, also jene Einheiten, die wirk-
bleme, auch mit traditionell eingestellten lich bewertet (evaluiert) werden sollen, und
Kulturbrokraten eine gute emotionale Ge- welche anderen Objekte nur als Hilfsmittel,
sprchsgrundlage zu finden, und ein berzeug- sozusagen als Datentrger, untersucht werden.
ter Gegner der Bundeswehr ist vielleicht nicht So ist etwa die Bewertung der vier Techniken zu
der optimale Gesprchspartner fr die Ausar- Verbesserung der Lese- und Mathematik-
beitung der Details eines Auftrages im militri- leistungen (die eigentlichen Evaluationsobjek-
schen Bereich. Fr den Berufsanfnger ist schon te) in der von Levin et. al., 1986, genannten
viel gewonnen, wenn er sich der Heterogenitt Untersuchung zwangslufig mit einer Erhe-
der Verhaltenserwartungen in den unterschied- bung der Leistungen bestimmter Schler ver-
lichen Feldern bewut wird und ein Sensorium bunden. Die Schlerdaten werden aber nicht
dafr entwickelt, welche Verhaltensweisen an- mit dem Ziel einer personenbezogenen Bewer-
gemessen bzw. erfolgsbeeintrchtigend sind. Im tung erhoben (und verrechnet!), da es in die-
brigen sollte niemand in einem Feld arbeiten, sem Projekt berhaupt nicht darauf ankommt,
auch nicht als Evaluator, da seinen persnli- ob Schler A oder B bessere Ergebnisse erzielte.
chen Werthaltungen nach stark negativ einge- Die klare Trennung zwischen Evaluations-
schtzt wird. objekt und Datentrger kann, bei passender
60 Einsatzgebiete psychologischer Evaluation
Diagramm III/4
Gruppen von Evaluationsprojekten
Personen Umwelt-/Umgebungsfaktoren
(Verhalten, Leistung, Fhigkeiten,
Einstellungen etc.)
Lernerfolg der Teilnehmer eines Weiter- Wirkung von Straenlrm auf den ncht-
bildungsseminars, Verhaltensnderungen von lichen Ruheschlaf, Wirkungen bestimmter
Rauchern nach einer Anti-Raucher-Kampagne architektonischer Strukturen auf das subjek-
tive Wohlbefinden
Zielvorgaben Projekte/Programme
Auswirkungen der Konzentration der Lehr- Wirksamkeit einer Aufklrungskampagne zu
ziele auf soziales Lernen und/oder fachliches Aids, Auswirkungen eines psychotherapeu-
Lernen, Auswirkungen der Betriebsziele Mit- tischen Behandlungsprogramms im Strafvoll-
arbeiterorientierter Fhrungsstil versus Auf- zug
gabenorientierter Fhrungsstil auf das
Arbeits- und Betriebsklima
Systeme/Strukturen Forschungsergebnisse/Evaluationsstudien
Vergleich von Privathochschulen versus staat- Bewertung der methodischen Vorgehenswei-
lichen Hochschulen im Hinblick auf die be- se in einer Evaluationsstudie, Zusammenfas-
rufliche Qualifikation, Wirkung einer flachen sende Bewertung der Forschungsergebnisse
versus einer steilen Hierarchiestruktur in ei- auf einem bestimmten Fachgebiet (Meta-Eva-
nem Unternehmen auf den Kontrollspielraum luation, vgl. Abs. 2.1.3)
der Mitarbeiter
Darstellung, gelegentlich zur berwindung von tionsprojektes zur Klrung der Frage der Ver-
Bedenken bei Zustimmungen (hier zum Bei- allgemeinerbarkeit bzw. der sachgerechten
spiel der Eltern) ntzlich sein. Indikationsstellung (Wer soll welche Vorge-
Eine weitere Gruppe von Objekten hngt hensweise whlen?) erhoben werden. Entsteht
mit Erhebungen zusammen, die fr die Ein- dabei aber der Eindruck, da die im Feld han-
schtzung der Evaluationsergebnisse wichtig delnden Personen, und nicht die Techniken,
sind, aber weder Datentrger sind noch selbst bewertet werden, ergeben sich leicht Wider-
bewertet werden sollen. stnde oder Ergebnisverzerrungen (so kann sich
So kann etwa der Einflu verschiedener zum Beispiel ein Lehrer, der sich indirekt
Lehrerpersnlichkeiten fr den relativen Erfolg evaluiert fhlt, trotz einer nicht gnstigen
von Didaktikformen (oder die Therapeuten- technischen Vorgabe fr seinen Unterrichts so
persnlichkeit fr die Resultate therapeutischer anstrengen, da aber nur fr die Unter-
Techniken) von entscheidender Bedeutung suchungssituation! Mngel der didaktischen
sein, und mu daher im Rahmen des Evalua- Konzeption berdeckt werden).
Einsatzgebiete psychologischer Evaluation 61
Diagramm III/5
Beispiele fr Evaluationsobjekte in konkreten Evaluationsstudien
Studie Evaluationsobjekt
Berthold, Gebert, Rehmann, von Rosenstil, 1980 Personen: Teilnehmer der Weiterbildungs-
Schulung von Fhrungskrften eine empi- seminare wurden hinsichtlich einer Verhal-
rische Untersuchung ber Bedingungen und tensvernderung whrend und nach den Se-
Effizienz minaren bewertet
Scharnberg, Whler, Fink, Guski, 1982 Umgebungsfaktoren: Wirkung von Straenlrm
Beeintrchtigung des Nachtschlafes durch auf den Nachtschlaf wurde in mehreren Stra-
Lrm en einer Grostadt (Berlin) bewertet
Hier wird ein methodisches Problem deut- sie), kann das Setting als annhernd natr-
lich, da besonderer Bercksichtigung bedarf: lich gelten.
Die mgliche Konfundierung von Effekten. Bei
der Designerstellung und der anschlieenden Das Wissen der Probanden darber, da
Auswertung sollten deshalb ausreichende Ma- eine Untersuchung stattfindet, welche Hy-
nahmen zur Verhinderung von Effektkonfun- pothese der Untersuchung zugrunde liegt
dierungen getroffen werden, soweit dies im Feld und durch Tuschung herbeigefhrte falsche
tatschlich mglich ist (s. dazu 5.2). Vermutungen ber die Hypothese, spielen
ebenfalls eine Rolle.
3.1.4 Ort der Evaluierung Das Labor wird meist synonym mit grerer
Kontrollierbarkeit, weniger Strvariablen und
Betrachtet man das Spektrum mglicher Eva- grerer innerer Validitt zusammengebracht.
luationsobjekte, wird bereits deutlich, da eine Die bergnge zwischen Labor und Feld sind
Evaluation prinzipiell an den verschiedensten oft flieend. Die erluterten Eigenschaften von
Orten durchfhrbar ist. Labor und Feld sind auch durchaus nicht zwin-
So knnte etwa die Kontrolle des Lernerfolges gend an den Ort als solchen gebunden, hngen
der Teilnehmer eines Weiterbildungsseminares jedoch stark mit ihm zusammen, was eine
durch einen Fragebogen am Ende des Semina- Rechtfertigung der Unterteilung in Feld- und
res im Schulungsraum des Betriebes durch- Laborforschung zult. Im sozialwissenschaft-
gefhrt werden, die Messung von Straenlrm lichen Bereich berwiegen feldnahe Studien,
knnte durch ein Schallpegelmegert in auch alle im Diagramm III/5 gehren dazu. Ein
den Wohnrumen der Betroffenen erfolgen, die Beispiel fr eine strker an den Prinzipien der
Wirksamkeit einer Aufklrungskampagne Laborforschung orientierten Arbeit im pdago-
knnte durch eine Befragung in der Fugnger- gischen Bereich gibt Thiele (1981).
zone einer Innenstadt getestet werden, die Wir- Beide Untersuchungsarten bringen spezifi-
kung eines Psychopharmakons wird man dage- sche Probleme mit sich, wie sie vor allem aus der
gen wohl eher im Labor berprfen. generellen Diskussion um Labor- bzw. Feldfor-
Grundstzlich kann man die Evaluation im schung bekannt sind. Weiterfhrende Literatur
Labor und im Feld unterscheiden, wobei die im Zusammenhang mit Evaluationsfragestel-
erste Mglichkeit sicher die weniger praktizier- lungen geben Gniech (1976) und Patry (1982).
te darstellt. Nach Patry (1982, S. 18ff.) sind fol-
gende vier Grundprinzipien der Feld-Definition
von Bedeutung: 3.1.5. Evaluationsmodell
Das Verhalten (abhngige Variable) kann Die Vielzahl der Varianten von Evaluationen
mehr oder weniger natrlich sein. Unter na-
hat dazu gefhrt, da je nach Schwerpunkt der
trlichem Verhalten wird dabei jenes Verhal-
Zielsetzung und Realisationsmglichkeiten unter-
ten verstanden, das in keiner Weise instru-
schiedliche Evaluationskonzepte, sogenannte
iert wurde.
Evaluationsmodelle entwickelt wurden. Glass
und Ellet (1980) schtzen, da es mehr als 20
Das Treatment (unabhngige Variable) solcher Anstze und Modelle in der Literatur
kann mehr oder weniger natrlich sein, je
gibt. Nach eigenen Schtzungen drfte diese
nachdem wie stark durch den Versuchsleiter
Zahl inzwischen noch weit hher liegen.
manipuliert wird
Die unterschiedlichen Modelle lassen sich vor
Das Setting (Ort der Untersuchung) kann allem nach
mehr oder weniger natrlich sein. Dabei ent-
scheidet die subjektive Wahrnehmung der Entscheidungssituation,
Probanden darber, ob ein Setting natrlich Entscheidungsbedingungen,
ist oder nicht. Bemerken die Probanden ein- Art der verwendeten Instrumente und Ver-
gefhrten nderungen nicht (oder vergessen fahren,
Einsatzgebiete psychologischer Evaluation 63
Ausma der Przision bei der Sammlung und Manchmal werden summative und formative
Analyse von Informationen, Evaluation gleichzeitig durchgefhrt. Dies ist
methodischen Fhigkeiten der Evaluatoren zweckmig, wenn ein Projekt von der Pla-
und ihrer Adressaten nung- bis zur Transferphase begleitet werden
kann (vgl. etwa Seiffge-Krenke, 1981).
unterscheiden (vgl. Stufflebeam, 1972, S. 125).
Diagramm III/6 stellt die formative und die
summative Evaluation mit ihren wesentlich-
Vielfach sind diese Modelle im Bereich der pd- sten Kennzeichen vergleichend gegenber.
agogischen Psychologie und in den Sozialwis-
senschaften entstanden. Einige Anstze wurden
bereits im zweiten Kapitel (vgl. Diagramm II/3) 3.1.6. Evaluationsnutzung
dargelegt. Weitere bersichten, die die meisten
Modelle in der Evaluationsforschung einander Fr die Gestaltung des Evaluationsprojektes ist
gegenberstellen, finden sich etwa bei Worthen es auch entscheidend zu wissen, in welcher
und Sanders (1973), Glass und Ellet (1980) so- Weise die Ergebnisse in praktisches Handeln
wie Hermann et al. (1988). umgesetzt werden sollen. In der Praxis treten
dabei vor allem folgende Varianten auf:
Innerhalb der zahlreichen unterschiedlichen
Modellanstze drfte fr die Projektgestaltung Die Ergebnisse erfhrt nur der fr die evalu-
vor allem Scrivens Unterscheidung zwischen ierte Handlung Verantwortliche, und es
formativer und summativer Evaluation die bleibt in seinem Ermessen, wie er diese zur
grte Bedeutung haben. Optimierung seines eigenen Verhaltens her-
Die formative Evaluation stellt vor allem In- anzieht (hier liegt dann in gewissem Sinne
formationen fr noch in der Vorbereitungs- eine, wenn auch eventuell mit fremder Hilfe
oder Implementierungsphase befindliche, oder erarbeitete, geschlossene Selbstevaluation
laufende Programme bereit, die verbessert wer- vor).
den sollen. Beispiel: Das Fhrungsverhalten des Vorge-
Ein Beispiel fr eine formative Evaluation setzten wird anhand einer Befragung seiner
gibt etwa die bereits erwhnte Studie von unmittelbar unterstellten Mitarbeiter evalu-
Seiffge-Krenke (1981): Bei der Entwicklung und iert, die Ergebnisse aber nur dem Vorgesetz-
Implementierung eines neuen Psychologie- ten selbst mitgeteilt.
curriculums wurde sinnvollerweise eine forma- Die Entscheidung bleibt voll im Ermessen
tive Evaluation zur stndigen Verbesserung des des evaluierten Verantwortlichen, die Ergeb-
Curriculums durchgefhrt. nisse werden aber offengelegt; daraus ergibt
Eine summative Evaluation dagegen soll die sich ein hherer Druck auf Verhaltensn-
Qualitt und den Einflu bereits stattgefunde- derung, gegebenenfalls aber auch eine ver-
ner Programme feststellen und abschlieend strkte Tendenz zur kognitiven Abwehr der
bewerten. Sie ist dann sinnvoll, wenn mehrere Evaluationsergebnisse.
disjunkte Handlungsformen vorliegen, deren Beispiel: Die Lehrveranstaltungen von Do-
Konsequenzen miteinander verglichen und so zenten werden von den Studenten anhand
bewertet werden knnen. eines Fragebogens bewertet, die Nutzung der
Ein Beispiel fr eine summative Evaluation Ergebnisse bleibt in der Eigenverantwortung
stellt die erwhnte Untersuchung von Levin et des Dozenten, werden aber zur Information
al. (1986) dar: Als Entscheidungshilfe bei der der Fakultt am schwarzen Brett ausgehngt.
Wahl geeigneter Manahmen zur Verbesserung Die Ergebnisse werden auch arbeitsrechtlich
der Mathematik- und Leseleistungen von bergeordneten Personen mitgeteilt, die sie
Grundschlern werden vier verschiedene Tech- aber nur zu einer Beratung der evaluierten
niken (Senkung der Klassenfrequenz, Verlnge- Personen nutzen und keine Machtentschei-
rung des Schulalltags, Computeruntersttzter dungen darauf aufbauen.
Unterricht und Einsatz von Gleichaltrigen und Beispiel: Die Arbeit der Psychologen in einer
Erwachsenen als Tutoren) in einer Kosten-Wirk- Erziehungsberatungsstelle wird umfassend
samkeitsanalyse einem Vergleich unterzogen. evaluiert (zum Beispiel unter Hinzunahme
64 Einsatzgebiete psychologischer Evaluation
Diagramm III/6
Vergleich der wesentlichen Kennzeichen von formativer und summativer Evaluation
(nach Herman, Morris & Taylor Fitz-Gibbon, 1988, S. 26)
primre Betonung bei der Klrung der Ziele Dokumentation der Ergebnisse
Datensammlung Art des Programm-Prozesses bzw. Dokumentation der Durchfh-
der Programmdurchfhrung rung
Klrung der Probleme bei der
Durchfhrung und der Annhe-
rung an Ergebnisse
Analyse zur Durchfhrung und Analyse zur Durchfhrung und
Ergebnisse auf Mikroebene Ergebnisse auf Makroebene
Hufigkeit der Berichtlegung hufig whrend der ganzen Zeit zum Schlu
wertet werden, sollte die Analyse zumindest der dem Militr bei der Entscheidung ber die Ent-
wichtigsten intervenierenden Variablen (liegt es wicklung komplexer Waffensysteme zu helfen,
am Bildungsangebot, der evtl. vom Auftragge- Budgeting Systeme ermglichen in der Wirt-
ber erzwungenen schlechten oder fehlenden schaft eine genaue Kontrolle der Kosten, die
Vorselektion der Teilnehmer, den unzureichen- Wertanalyse ist bei der Produktplanung und
den Ressourcen oder der fehlenden Transfer- -gestaltung eine groe Hilfe zur Wertgestaltung
untersttzung der Bildungsinhalte in die Praxis und Wertverbesserung, die Schulbegleitforschung
durch den Auftraggeber?) gesichert sein, um gibt u. a. wesentliche Anste fr die Entwick-
Fehlentscheidungen soweit wie mglich zu ver- lung neuer Lehrplne.
meiden. Leider fanden derartige Entwicklungen oft in-
nerhalb des jeweiligen Fachbereiches ohne Be-
zug zu anderen Feldern statt. So ist es denn
auch nicht verwunderlich, da viele sich stark
3.2 Evaluation als hnelnde Techniken und Methoden vllig un-
interdisziplinres Feld abhngig voneinander, zu verschiedenen Zeit-
punkten und in vllig unterschiedlichen Diszi-
Evaluation als problemorientiertes Handeln plinen entwickelt wurden.
kann nicht nur auf Erkenntnissen einer Einzel- Die mangelnde Zusammenarbeit zwischen
wissenschaft aufbauen, sondern mu neben verschiedenen Fachdisziplinen gerade im Bun-
vielen wissenschaftlichen Aspekten (aus den desdeutschen Raum beklagen auch Hellstern
unterschiedlichsten Bereichen) auch Praxis- und Wollmann (1984, S. 34): Es fehlt vor al-
wissen integrieren. Leider bestehen hier Defizi- lem ein sektorale Politikfelder berschreitender
te (3.2.1), ohne deren Behebung der enorme und verschiedene Fachdisziplinen integrieren-
Aufschwung, den die Evaluationsarbeit in den der Fokus, wie er sich in den USA, aber auch in
USA genommen hat (3.2.2) nicht wiederholbar Kanada und anderen Lndern durch die Grn-
ist. dung eigener berufsstndischer Organisationen
Zur Strukturierung der Fallbeispiele im Ab- auf der regionalen und nationalen Ebene ma-
schnitt 3.3 werden hier zunchst einige Punkte nifestiert.
skizziert, die allen Projekten trotz ihrer fachli- Der Einflu der Evaluationsforschung im ge-
chen und aufgabenbezogenen Heterogenitt sellschaftlichen und technologischen Wandel
gemeinsam sind und damit einen gewissen ist abhngig von der Reichweite ihres Wir-
bersichtsrahmen bieten (3.2.3). kungsspektrums. Dieses liee sich durch eine
integrative Zusammenarbeit enorm erweitern
und wesentlich effektiver gestalten. Anzustre-
3.2.1 Notwendigkeit einer einzelne ben wre hier die Intensitt und das Ausma
Evaluationsbereiche berschreiten- einer anwendungsorientierten Forschung, wie
den Vorgehensweise sie in den USA bereits erreicht wurde.
Eine besondere Ursache fr das Problem ei-
Es herrscht Einigkeit hinsichtlich der Tatsache, nes nur mangelhaften Erfahrungsaustausches
da es sich bei der Evaluationsforschung um von Evaluations-Knowhow ber die verschie-
ein interdisziplinres Feld handelt, das weit denen Anwendungsfelder hinweg liegt in der
ber die Grenzen einzelner sozialwissenschaft- sehr starken Einbettung der meisten im Eva-
licher Disziplinen hinausgeht (vgl. Wittmann, luationsbereich berufsttigen Personen in ein
1985). bereichsspezifisches Setting. Dies ergibt sich
Wie bereits im Abschnitt 3.1.5 deutlich wurde, zum Teil durch die Beschftigungsverhltnisse
hat die Evaluationsforschung mittlerweile Ein- (so kann ein auch mit Evaluationsfragen beauf-
zug in viele unterschiedliche gesellschaftliche tragter Mitarbeiter einer psychiatrischen Klinik,
Bereiche gehalten. Die vielen verschiedenen der dort ein festes Angestelltenverhltnis hat,
Formen und Modelle der Evaluation wurden natrlich nicht ohne weiteres gleichzeitig Eva-
dabei alle fr spezifische Anwendungsbereiche luationsstudien im Bildungsbereich und in der
entwickelt: So entstand etwa die Program Eva- Wirtschaft durchfhren), bei den selbstndig
luation and Review Technique (PERT), um arbeitenden Evaluatoren folgt es oft aus den
Einsatzgebiete psychologischer Evaluation 67
Mglichkeiten erfolgreicher Projektaquisition. Verbindung mit den Reformprogrammen der
Es fllt natrlich leichter, auch vor dem Hinter- Regierung unter Prsident Johnson.
grund der im Abschnitt 3.1.2 beschriebenen Mit diesen und spter folgenden sozial-po-
persnlichen Passung, Folgeauftrge dann zu litischen Programmen war von Anfang an der
halten, wenn man auf in einem gleichen oder Auftrag verbunden, die Wirkung dieser Ma-
doch sehr hnlichem Feld erfolgreiche Evalua- nahmen zu berprfen. Die Evaluations-
tionsprojekte verweisen kann. Dies fhrt in der studien wurden dabei in der Regel sogar ge-
Folge aber auch zu gerade aus der Sicht potenti- setzlich vorgeschrieben, sowie eigens Mittel
eller Auftraggeber verstndlichen Labelling- fr sie bereitgestellt (vgl. Lange, 1983).
Effekten (Frau X ist Spezialistin fr den fo-
rensischen Bereich, was soll uns die bei einer Heute ist die Evaluationsforschung in den USA
verkehrspolitischen Frage helfen?), die eine zu einem festen Bestandteil bei der Implemen-
bernahme von Evaluationsprojekten in bisher tierung neuer, innovativer Programme und zur
fremden Bereichen mit zunehmender Dauer berprfung der Wirksamkeit laufender Pro-
der Berufsttigkeit eher erschweren. gramme geworden:
Die vermutlich beste Lsung wrde in einem
intensiven Erfahrungsaustausch zwischen den the use of evaluation procedures has
Evaluatoren aus unterschiedlichen Bereichen been diffused during the past few years,
liegen, doch fehlt zumindest derzeit dafr ein and such procedures are now common-
geeigneter organisatorischer Rahmen. Die place at all levels of government, among
Grnde dafr liegen sicher zum Teil in dem private foundations, and among commer-
starken Denken in Kategorien (Spezialisten- cial and industrial organisations. (Rossi
tum), der zumindest im Vergleich mit der USA and Freeman, 1985)
geringen Anzahl von Evaluatoren, die berdies
Evaluationsarbeiten nur als einen relativen klei- Das Feld der Evaluationsforschung war Ende
nen Teil ihrer beruflichen Ttigkeit wahrneh- der achtziger Jahre der strkste Wachstums-
men, und vielleicht noch immer in wechsel- sektor innerhalb der amerikanischen Sozialwis-
seitigen emotionalen Vorbehalten zwischen senschaften. Die sich hieraus ergebenden un-
Evaluatoren mit unterschiedlicher Ausbildung ternehmerischen Mglichkeiten fhrten dabei
und unterschiedlichen beruflichen Ttigkeiten zur Entwicklung eines neuen Dienstleistungs-
(Wir arbeiten in einem Gefngnis, nicht in ei- bereiches, in dem sich fr Sozialwissenschaftler
ner Bank!, Was sollen wir in der Wirtschaft und Psychologen in einem bisher nicht be-
aus Erfahrungen in Kliniken lernen? Wir haben kannten Ausma Handlungschancen und be-
Fhrungskrfte und Mitarbeiter, aber doch kei- rufliche Entwicklungsmglichkeiten bieten.
ne Verrckten!, Wir sind eine psychiatrische Eine Reihe neuer Unternehmen wurde ge-
Klinik, aber doch kein Gefngnis!). Im Prinzip grndet, die sich der Evaluationsforschung wid-
mte es mglich sein, die hier genannten Ur- men. Andere Organisationen, die zuvor in der
sachen zu berwinden oder doch zumindest Marktforschung und Testentwicklung fest ver-
stark zu reduzieren, doch drfte es noch eine ankert waren, erweiterten ihren Aufgabenbe-
lngere Zeit dauern, bis annhernd die Bedin- reich durch die Erfolgskontrolle von Manah-
gungen in den USA auch hier geschaffen wer- men und Programmen.
den. Es zeichnet sich bereits die Entwicklung ei-
ner neuen Profession des Evaluators ab, was
sich u.a. in der Grndung mehrerer Berufsorgani-
3.2.2 Vergleich BRD/USA: Stand sationen manifestiert, die sich ausschlielich
der Evaluationsforschung mit Evaluationsforschung beschftigen (vgl.
Rossi, 1984) Auch an den Universitten besitzt
Die Evaluationsforschung ist eine noch junge der Anteil der Evaluationsforschung inzwischen
Wissenschaftsdisziplin. Wenn man von eini- einen betrchtlichen Umfang.
gen Vorlufern in den dreiiger und vierziger Es wurde bereits mit speziellen Trainingspro-
Jahren absieht, entstand sie Anfang bis Mitte grammen sowohl innerhalb von Ausbildungs-
der sechziger Jahre in den USA vor allem in gngen als auch fr Graduierte begonnen. Die
68 Einsatzgebiete psychologischer Evaluation
Nachfrage nach ausgebildetem Personal fr wiegend entweder durch sich anders definie-
Evaluationsttigkeiten wchst. rende Berufsgruppen (zum Beispiel Markt- und
Dabei hat sich im Laufe der Jahre bereits ein Meinungsforscher, Mitarbeiter des betriebli-
neues Verstndnis des Evaluationsvorgehens chen Bildungswesens, Controller) oder von uni-
entwickelt. Beywl und Geiter ( 1997, S.75) spre- versittsnahen Arbeitsgruppen durchgefhrt.
chen auch von einem paradigmatischen Wan-
del in der Evaluationsdisziplin:
Die technische Perfektion der eingesetzten 3.2.3 Strukturelle Gemeinsam-
Untersuchungsinstrumente und -designs, wie keiten idealer Evaluationsstudien
sie in der allein akademisch geprgten Eva-
luationspraxis bis in die siebziger Jahre vorherr- Durch den berblick in den vorangegangenen
schend war, reicht heute als Qualittsausweis Abschnitten wurde deutlich, da es im Bereich
nicht mehr hin. Dazukommen mu von Be- der Evaluationsforschung eine Reihe zum Teil
ginn an eine klare Dienstleistungsorientierung stark divergierender Anstze gibt. Der Grund
an den Informationsinteressen der Evaluations- hierfr liegt darin, da die vielen verschiede-
benutzer, zu denen nicht nur Auftraggeber und nen Formen und Modelle der Evaluation alle
Finanziers, sondern auch andere wichtige Betei- fr spezifische Anwendungsbereiche entwickelt
ligtengruppen zhlen. Die Verantwortung des wurden.
Evaluators/der Evaluatorin wird ber techni- Auf der Grundlage der Ausfhrungen in Ab-
sche Fragen hinaus auf soziale und politische schnitt 3.1 lassen sich jedoch die strukturellen
Aspekte ausgeweitet, bis hin zur Bercksich- Gemeinsamkeiten von idealen empirischen
tigung des allgemeinen und ffentlichen Evaluationsstudien herausarbeiten, die sich
Wohls. (Beywl und Geiter, 1997, S.75) zwar kaum je vollstndig in konkreten Projek-
Diese neue Evaluationssichtweise wird auch ten identifizieren lassen (s. dazu 3.3), die aber
in einem wichtigen Dokument des Joint in gewissem Sinn ein gemeinsames Leitbild des-
Commitee on Standards for Educational Eva- sen, darstellen, was Evaluatoren bei ent-
luation verdeutlicht (vgl. Joint Committee on scheidungsbezogenen Evaluationen erreichen
Standards in Educational Evaluation, 1994) das sollten und auch knnten, sofern man fr sie
erstmals anerkannte Standards fr die Evaluati- von Seiten der Auftraggeber wirklich optimale
on von Programmen in den USA aufzeigt. Bedingungen schaffen wrde.
Studie aber ist, um so seltener ist diese For- Mit dem Aufkommen informationstheore-
derung zu realisieren. tischer und systemorientierter Anstze vergr-
11. Strungsfreie Realisierung der Entscheidung erte sich der Stellenwert der Kontrollfunktion
(s. dazu Ziffer 10). erheblich. Kontrolle wurde als Voraussetzung
dafr erkannt, Fehler in der Planung oder Feh-
Es ist selbstverstndlich, da dieses ideale Mo- ler in der Realisation zu erkennen und entspre-
dell nie vollstndig erreichbar ist, und da die chende Manahmen zu deren Beseitigung zu
Wissenschaft nur Beitrge zu einer relativen ergreifen. Diese Auffassung hebt bewut vom
Verbesserung beitragen kann. Dies sollte bei Kontrollieren alter Prgung ab, indem das stati-
den im folgenden Abschnitt dargestellten drei sche Moment des Soll-Ist-Vergleiches sich in ei-
konkreten Studien bedacht werden. Die in die- nem dynamischen control-Proze auflst.
sen Ausfhrungen auch aufgezeigten relativen Heute ist Kontrolle deshalb als wesentliche
Schwachpunkte sind in keiner Weise als Kritik Managementfunktion in der Wirtschaft unbe-
an der Kompetenz der Evaluatoren gedacht, stritten (vgl. Siegwart und Menzel, 1978, Prohl,
sondern sollen nur die echten Schwierigkeiten 1981, Ziegenbein, 1984). Controlling lt sich
von Evaluationsprojekten verdeutlichen. ... als ein Konzept der Unternehmensfhrung
durch Planung, Information, Organisation und
Kontrolle bezeichnen. Ihren konkreten Bezug
findet diese Art der Unternehmensfhrung
durch Zielvorgabe, Abweichungsanalyse und
3.3 Grundlagen und Einleitung von Gegensteuerungsmanahmen
Probleme der Evaluations- in der Person und Stelle des Controllers.
forschung dargestellt am (Bramsemann, 1978, S. 31). Pfohl (1981, S. 17)
unterscheidet innerhalb des Managements ei-
Beispiel konkreter ner Unternehmung sechs Managementsub-
Evaluationsprojekte systeme:
Diagramm III/7
Beispiele fr Kontrollinstrumente in der Kosten- und Investitionskontrolle (Der Bundes-
minister fr Bildung, Wissenschaft, Forschung und Technologie, 1977)
Diagramm III/8
Untersuchungsplan der Studie von Berthold et. al., 1980
&
?
Mrz April Mai Juni Juli Aug. Sept. Okt. Nov. Dez. Jan. Febr. Mrz April Mai
Die mehrmalige Erhebung von Mewerten versuchen nach 1945 ber Schulbegleitfor-
zu verschiedenen Zeitpunkten erlaubt Aussa- schung diskutiert.
gen ber die Stabilitt von Effekten. In den folgenden Jahren nahm das Interesse
Es wurden nicht nur verschiedene Mein- an der wissenschaftlichen Begleitung der Schul-
strumente benutzt, sondern auch Aussagen versuche immer mehr zu. Die deutlich erkenn-
von verschiedenen Personengruppen gesam- baren Mngel des Bildungssystems waren nur
melt (Kollegen, Mitarbeiter, Vorgesetzte, durch Reformprogramme zu beheben. Diese
Eigenaussagen). machten eine gleichzeitig dazu stattfindende
Die Interviews wurden sowohl von einem Schulbegleitforschung im Sinne einer Kontroll-
Trainer als auch einem externen Psycholo- funktion notwendig. So war die Schulbegleit-
gen durchgefhrt, um Interviewereffekte auf- forschung von Anfang an eng mit der Bildungs-
zudecken. politik verzahnt.
Bund und Lnder fhren bereits seit 1971
Nachteile der Untersuchung: gemeinsam ein umfangreiches Programm mit
Modellversuchen durch, das Entscheidungshil-
Die Kontrollgruppe wurde nur in zwei Fllen fen fr die Entwicklung des Bildungswesens lie-
benutzt, um Vergleichswerte zu erzielen
fern soll. Grundlage hierzu war eine Grundge-
(FVVB, Interview). Warum wurden mit den
setznderung (Art 91b) auf Grund derer die
anderen Erhebungsinstrumenten keine Kon-
Bund-Lnder-Kommission fr Bildungsplanung
trollwerte erhoben?
(BLK) 1971 eine Rahmenvereinbarung zur ko-
Es wurden generell keine Vortestwerte erho-
ordinierten Vorbereitung, Durchfhrung und
ben. Dies schrnkt die Aussagekraft der Er-
wissenschaftlichen Begleitung von Modellver-
gebnisse stark ein.
suchen im Bildungswesen beschlo (BLK,
Es wurden relativ schwache (quasi-experi-
1978, S. 13 ff.).
mentelle) Designs benutzt. Wenn die Unter-
Die Flle der Aktivitten und Verffentlich-
sucher die Mglichkeit fr so viele Messun-
ungen im Rahmen der Schulbegleitforschung ist
gen hatten, warum benutzten sie dann nicht
heute kaum noch zu durchschauen. Einen ber-
aussagekrftigere Designs?
blick ber verschiedene Problembereiche geben
Die Interviewereffekte (Vergleich Trainer/ex-
etwa Mitter und Weishaupt (1977), Hellstern und
terner Psychologe) sind betrchtlich. Hierauf
Wollmann (1984) oder Wottawa (1982).
wird jedoch nicht eingegangen.
Eine Vielzahl der bereits erwhnten Evalua-
Die verwendeten Meinstrumente sind bis auf
tionsmodelle stammt ebenfalls aus dem pd-
FVVB nicht standardisiert. Versuchsleiter-
agogischen Bereich (vgl. etwa die Modelle von
effekte knnten hier verstrkt gewirkt haben.
Wulf 1972, Scriven 1972, Stufflebeam 1972,
Ein Vergleich der Ergebnisse von T1 und T2
Alkin 1972). Baumert (1981, S. 1) definiert heu-
untereinander findet nicht statt.
tige Schulbegleitforschung folgendermaen:
Weitere interessante Beispiele zur Evaluations-
Pdagogische Begleitforschung lt sich
arbeit in der Wirtschaft geben Gulden (1996)
als spezielle Form empirischer Bildungs-
und Glper (1996).
forschung auffassen. Sie ist eine in sich
variable Form von Feldforschung, die an
pdagogische Innovationen, berwiegend
3.3.2 Evaluation im Schul- und Schulversuche, gebunden ist.
Bildungswesen
Die wesentlichen Aufgaben wissenschaftlicher
Wie bereits in Abschnitt 3.2.2 erwhnt, kommt Schulbegleitforschung lassen sich nach Prell
der Evaluation im Bereich der Schul- und (1984, S. 21ff.) wie folgt beschreiben:
Bildungsplanung eine besondere Bedeutung im
Zusammenhang mit der Entwicklung der Auf die Planung und Durchfhrung des
Evaluationsforschung in der BRD zu. Schulversuches gerichtete Beratung
Nach Prell (1984) wurde bereits in den fnf- Mitwirkung im Sinne von innovatorischer,
ziger Jahren parallel zu den einsetzenden Schul- erziehungstechnologischer Forschung
Einsatzgebiete psychologischer Evaluation 75
Bewhrungs- und Effizienzkontrolle oder Sachkompetenz
Evaluation auf drei Vergleichsebenen: dem Fragehaltung
Intersystemvergleich, dem Intrasystemver- Kritisches Denken
gleich, dem systemimmanenten Vergleich; Komplexes Denken
Mitbeteiligung der eigentlichen Trger des Wissenschaftliche Einstellung
Modellversuches, nmlich der Lehrer, Sch- Kompetenzmotivation
ler und Eltern, am Schulversuch Transfer
Abschtzung der Wirkung der verffentlich-
ten Ergebnisse und der daraus gezogenen Er- Eben diese Faktoren sollten bei den Schlern
kenntnisse auf die ffentlichkeit und die Bil- durch das neue Psychologiecurriculum gefr-
dungspolitik. dert werden.
Die Entwicklung des Psychologiecurriculums ist An den Studien nahmen insgesamt 240 Sch-
zu unterteilen in ler der Sekundarstufe II zweier Gieener Ge-
samtschulen, sieben Psychologielehrer und 21
den Proze der Lernzielgewinnung Psychologiedozenten teil.
die Neukonstruktion der Inhaltsstruktur Das Diagramm III/9 gibt das Design der Unter-
und die Entwicklung einer didaktisch-me- suchung und die verwendeten Evaluations-
thodischen Unterrichtskonzeption.
instrumente der summativen und formativen
Evaluation wieder.
Zu 3: Erprobung des Psychologiecurriculums
Die Daten aus der formativen und summa-
Die eigentliche Evaluation des Curriculums, die
tiven Evaluation des Psychologiecurriculums
die Prototypphase und die Phase der Institutio-
wurden durch parametrische und deskriptive
nalisierung umfate, erstreckte sich ber einen
Verfahren ausgewertet.
Zeitraum von fnf Jahren (von 1974 bis 1979).
Sie umfate die folgenden Teilstudien:
6. Evaluationsmodell
Experimental-Kontrollgruppenstudie (Ver-
gleichende Evaluation) Es wurde von der Autorin eine Evaluationsstrategie
Replikationsstudie (Kreuzvalidierung) entwickelt, die die Vorteile des experimentellen
Diagramm III/9
Untersuchungsplan der Studie von Seiffge-Krenke, 1981
Zeitlicher E1 E2 K1 K2
Ablauf
1974 Pre-Test Pre-Test Pre-Test Pre-Test
UE 1 Wahrnehmung UE 1 Wahrnehmung
Psychologieunterricht Psychologieunterricht
UE-Test nach anderer Konzeption nach anderer Konzeption
UE-Test
Wahrnehmung
Wahrnehmung
Gesamtevaluation des
UE Test Gedchtnis
Curriculums (Schler)
Schlerevaluation der UE
Post-Test Post-Test
Gedchtnis
UE 3 Sprache
UE Test Sprache
Post-Test Post-Test
E1 E2 K1 K2
E3 E4 E5 E6
Pre-Test
Einfhrung in die Pre-Test
Psychologie
Einfhrung in die
UE-Test Wahrnehmung UE 1 Wahrnehmung Pre-Test
Psychologie
Schlerevaluation der UE
1977 UE 2 Gedchtnis
Wahrnehmung
UE-Test Wahrnehmung UE 1 Wahrnehmung
Gesamtevaluation der
Curriculums durch die UE 2 Gedchtnis Schlerevaluation der UE UE-Test Wahrnehmung
Schler Wahrnehmung
Gesamtevaluation der
Schlerevaluation der UE UE 2 Gedchtnis
Curriculums durch die
Gedchtnis
Schler
Gesamtevaluation der
Curriculums durch die UE 3 Sprache
Schler
Gesamtevaluation der
1979 Post-Test Curriculums durch die
Schler
Post-Test
Die Fragestellungen der formativen Evaluation Stabilitt der erzielten Vernderungen und
betreffen vor allem: zeitverzgerter Abbau negativer Einstellungs-
komponenten;
Erprobung von Unterrichtsmaterial und lern-
Wiederholbarkeit und Personenunabhngig-
zielorientierten Testverfahren: Die im theo-
keit der erzielten Vernderungen
retischen Entwurf vorliegenden Unterrichts-
Vernderungen des Bildes von der Psycholo-
materialien und Testverfahren wurden im
gie
Psychologieunterricht endgltig ausformu-
Abhngigkeit der erzielten Wirkungen von
liert und adaptiert.
der Lnge des Psychologieunterrichtes: Bei
Bedingungskontrolle des Unterrichtsverlau- Schlern, die am krzeren Psychologieun-
fes: Untersuchung hemmender und frdern-
terricht teilnahmen, zeigten sich weniger
der Unterrichtsbedingungen, Kontrolle der
umfassende und qualitativ weniger tief-
Realisierung der Curriculumintentionen.
gehende kognitive und affektive Umstruktu-
Wirkung des Psychologiecurriculums: Ermitt- rierungen, als bei den Schlern, die am ln-
lung der kognitiven und affektiven lern-
geren Unterricht teilnahmen.
zielbezogenen Auswirkungen des Psycho-
Der Lehrereinflu ist zwar relativ gering, hat
logiecurriculums
aber eine bedeutende Funktion bei der Fr-
Beurteilung des Psychologiecurriculums: Ein- derung affektiver Engagements der Schler.
schtzung bestimmter curricularer Merkmale
Konsistente Einschtzung des Psychologie-
durch unmittelbar Beteiligte.
curriculums durch Schler aus verschiedenen
Experimentalgruppen und Vernderungen in
Die Fragestellungen mit summativer Zielrich-
der Beurteilung im Verlauf des Curriculums;
tung sind im folgenden dargestellt (Seiffge-
Besttigung curricularer Intentionen durch
Krenke, 1981. S. 241 f.):
die Analyse von Anschauungsmaterial aus
den Unterrichtsstunden der Experimental-
Studie 1: Vergleichende Evaluation
gruppen
Fragestellung: Ermittlung der Gte des Psycho-
Schler der Experimentalgruppen sind nach
logiecurriculums im Vergleich zu herkmmli-
der Teilnahme am Psychologieunterricht
chem Psychologieunterricht (90 Schler).
durch das neue Psychologiecurriculum den
Wissenschaftler hnlicher als ihrer eigenen
Studie 2: Kreuzvalidierung
Bezugsgruppe, die whrend des gleichen Zeit-
Fragestellung: Replikation von Studie 1: Ermitt-
raumes an einem gewhnlichen Psycholo-
lung der Personenunabhngigkeit und Wieder-
gieunterricht teilnahmen. Allerdings ist die
holbarkeit der Effekte (125 Schler).
Angleichung nicht vollstndig, es gibt viel-
mehr einige wichtige und interessante Unter-
Studie 3: Stabilittsuntersuchung:
schiede.
Fragestellung: berprfung der Stabilitt der in
Studie 1 ermittelten Effekte (62 Schler).
8. Abschlieende Kritik
Studie 4: Expertenstudie
Frau Seiffge-Krenke hat das von ihr entwickelte
Fragestellung: Ermittlung von externen Krite-
Psychologiecurriculum selbst evaluiert und da-
rien zur Beurteilung der Wirkung des Psycho-
bei grten Wert auf externe Validitt und eine
logiecurriculums (27 Hochschullehrer der Psy-
laufende Verbesserung des Projektentwurfs an-
chologie).
hand neuer Ergebnisse (formative Evaluation)
gelegt. Unter diesen Zielsetzungen hatte dann
7. Wichtige Ergebnisse
zwangslufig die interne Validitt zu leiden.
Deutliche kognitive und affektive Umstruk- Eine kurze kritische Stellungnahme zu einer
turierung in Richtung einer zunehmenden so umfangreichen Studie vorzunehmen mu,
Wissenschaftsorientierung in den Experi- sowohl fr den Kritiker als auch fr den Eva-
mentalgruppen. Eine gegenlufige Entwick- luator, ein unbefriedigendes Unterfangen blei-
lung ist bei den Kontrollgruppen zu verzeich- ben, das in keinem Fall der Evaluationsstudie
nen. gerecht werden kann.
Einsatzgebiete psychologischer Evaluation 79
3.3.3 Evaluation im forensischen vers diskutiert. Die verschiedenen Positionen
Bereich beinhalteten Aussagen von es gibt sehr groe
Erfolge bis es gibt kaum Erfolge. In dieser
Als drittes Beispiel wird eine Arbeit vorgestellt, Evaluationsstudie untersucht Ortmann den Er-
die sich mit einer typischen Fragestellung aus folg und die Gre des Erfolges der sozial-
dem forensischen Bereich beschftigt. therapeutischen Behandlung.
Der Erfolg oder der Mierfolg der Sozial-
therapeutischen Anstalten im Bezug auf die 2. Evaluationsobjekt
Resozialisierungseffekte wird in der Bundesre-
publik wird seit den siebziger Jahren teilweise Die Studie umfate 250 Gefangene in Haftan-
sehr kontrovers diskutiert. stalten des Landes NRW.
Zu der Bedeutung des Resozialisierungs-
oder Behandlungsvollzuges hat sich 1983 3. Evaluationsort
auch das Bundesverfassungsgericht geuert
(Beschlu vom 28.06.1983). Es vertritt die Bei Ortmanns Untersuchung handelt es sich
Meinung, da das Ziel des Strafvollzuges um eine Feldstudie.
vornehmlich, also nicht ausschlielich, dar- Die Gefangenen waren in den sozialtherapeu-
in besteht, den Gefangenen zuknftig auf tischen Haftanstalten Dren und Gelsenkir-
ein Leben in sozialer Verantwortung und chen, sowie in mehr als zehn Regelvollzugs-
ohne Straftaten vorzubereiten. (s. du Menil, anstalten in NRW inhaftiert.
1994)
Seit den ersten Reformbemhungen in den 4. Zielsetzung
sechziger Jahren bis zum heutigen Zeitpunkt,
ist die groe Zahl an Schwierigkeiten kaum zu Ziel der Studie war es, festzustellen ob, und
bersehen. Gerade die in letzter Zeit wieder wenn, wie gro der (positive) Effekt des Sozial-
vermehrt gefhrten Diskussionen ber die therapie auf das Legalverhalten der Probanden
mglichen Behandlungs- und Prventions- nach deren Entlassung ist. Als Zwischen-
manahmen in dem Bereich der Sexual- kriterium des Erfolges wurde auf positiven Aus-
straftter zeigen das ganze Ausma der Proble- wirkungen der Sozialtherapie schon whrend
matik. der Inhaftierung geachtet, Sie betreffen die Per-
Grundlage dieser Diskussionen, die sowohl snlichkeit des Tters, seine soziale Situation
von der Bevlkerung, der Fachffentlichkeit etc.
als auch von der Politik gefhrt werden, sind
einerseits die reformpolitischen Richtungen 5. Design und Untersuchungsmethodik
der beteiligten Parteien, andererseits die in die-
sem Bereich durchgefhrten Evaluations- Fachdienste (Psychologen, Pdagogen, Sozial-
studien (vgl. Lsel, 1994, Dnkel, 1980). arbeiter, Theologen) der jeweiligen Justiz-
vollzugsanstalten und die Fachdiensten der
sozialtheapeutischen Anstalten begutachteten
Fallbeispiel 3: Resozialisierungseffekt der die Gefangenen, die sich um Verlegung in eine
Sozialtherapie sozialtherapeutische Anstalt beworben hatten
Die sozialtherapeutischen Haftanstalten stell-
Anhand der experimentellen Lngsschnittstu- ten Paare von, als geeignet begutachteten In-
die zum Resozialisierungseffekt der Sozialthera- sassen zusammen, aus dieser Population wurde
pie von R. Ortmann, 1994 sollen hier die Be- nun nach dem Zufallsprinzip die Experimen-
sonderheiten der Evaluation im forensischen tal- und Kontrollgruppe gezogen.
Bereich dargestellt werden.
Zur Experimental- und Kontrollgruppe gehr-
1. Problemstellung ten jeweils 114 Probanden.
In den letzten ca. 25 Jahren wurden die Erfolge Folgende Erhebungsinstrumente wurden einge-
der sozialtherapeutischen Behandlung kontro- setzt:
80 Einsatzgebiete psychologischer Evaluation
Diagramm III/10
Untersuchungsplan der experimentellen Lngsschnittstudie von Ortmann, 1984
bersicht Kapitel 3:
Einsatzgebiete psychologischer Evaluation
3.1
Einteilungsgesichtspunkte fr Evaluationsstudien
Idealtypische Klassifikationsraster fr Evaluationsstudien sind nicht mglich!
Gruppen von Evaluationsobjekten Probleme bei der Bestimmung von Orte der Evaluation
Personen, Produkte Evaluationszielen Evaluation im Feld (Unterneh-
Umwelt- und Umgebungs- Zielexplikation men, Klinik etc.)
faktoren Heterogenitt der Zielstrukturen Evaluation im Labor
Techniken und Methoden Vernderbarkeit der Ziele Groer Anteil an Evaluationen
Zielvorgaben, Programme, whrend der Evaluation im berschneidungsgebiet
Projekte Feld/Labor
Systeme und Strukturen Mgliche Zielstrukturen der
Forschungsergebnisse u. Auftraggeber:
Evaluationsobjekte Bewertung ohne detailliertes
Ziel
Verantwortungsdelegation
Durchsetzungs- und Ent-
scheidungshilfe
Optimierungsgrundlagen
Evaluationsnutzung
Evaluationsmodell Evaluationsberiche Bei der Gestaltung des Evaluations-
Entscheidungssituation Bildungssektor, Wirtschaft projektes mitbercksichtigen =
Entscheidungsbedingungen Agrar- und Verkehrspolitik praktische Umsetzung der Ergebnisse
Art der verwendeten Instru- Familien- und Sozialpolitik Beispiele:
mente und Verfahren Justizvollzug, Gesundheits- geschlossene Selbstevaluation
Ausma der Przision bei der wesen Ergebnisse dienen Macht-
Sammlung und Analyse von Arbeits- und Beschftigungs- entscheidung
Informationen politik Ergebnisse fr die Fach-
methodische Fhigkeiten der Umweltpolitik ffentlichkeit
Evaluatoren und ihrer Adressa- Stdtebau- und Wohnungs- Ergebnisse werden fr eine
ten politik politische Entscheidung ver-
Militrischer Bereich wendet und verffentlicht usw.
3.2
Evaluation als interdisziplinres Feld
Evaluation als integrativer, Politikfelder berschreitender Faktor
Evaluationsforschung = Problem Ziel
interdisziplinres Feld Mangelnde Zusammenarbeit der Integrative Zusammenarbeit
verschiedenen Fachdisziplinen z.B.
Wirtschaftswissenschaften,
Psychologie, Soziologie
3.3
Evaluation in der Praxis
In der Wirtschaft z.B. als Als Entwicklungsinstrument im Optimierungs- und Kontrollmittel im
Managementmittel Schul- und Bildungswesen Bereich des Justiz- und Sozialwesen
83
4. Zielexplikation und
Bewertungskriterien
Evaluation ist nie Selbstzweck. Die Bewertung Evaluationsprojekt skizziert. Prinzipiell die glei-
von Manahmen, Organisationsformen oder che Struktur lt sich auch auf die anderen ty-
Einzelpersonen macht nur dann Sinn, wenn pischen Fragestellungen (Vergleich einer Alter-
auf der Grundlage dieser Ergebnisse praktische native mit einem normativen Standard bzw. das
Konsequenzen eingeleitet werden, etwa die Aufzeigen von subjektiven Defiziten gegenber
Auswahl der besseren Alternative oder die Erwartungen; vgl. Abschnitt 2.1.3) anwenden.
Durchfhrung von Verbesserungen durch In- Leider sind die Fragen der Zielsetzung in vielen
terventionen (Organisationsnderungen, Wei- Evaluationsprojekten die grte Schwachstelle,
terbildung etc.). Dieses besser/schlechter setzt deren insuffiziente Ausfllung die Praxisrele-
ein (subjektiv bewertetes) Ziel voraus, das durch vanz (und damit in den meisten Fllen auch
die einzelnen Alternativen in mehr oder weni- die Rechtfertigung) des Projektes beeintrchtigt.
ger vollkommener Weise erreicht wird. Oder Es ist gerade bei sozialwissenschaftlich interes-
anders formuliert: Die Evaluation dient dazu, santen Themen nicht einfach, berhaupt zu
die Grundlage fr ein nutzenmaximierendes Beginn des Projektes einen Konsens ber Ziel-
Verhalten zu optimieren. Der Begriff Nutzen setzung und Nutzenaspekte herbeizufhren;
ist natrlich in voller Breite zu verstehen, und noch schwieriger ist es, solche Vereinbarungen
in keiner Weise auf finanzielle Aspekte be- auch als Grundlage fr die nachtrgliche Be-
schrnkt. wertung von Projekten beizubehalten, wenn
unerwnschte Ergebnisse auftraten oder die
Fr die effiziente Gestaltung eines Projektes ist inzwischen stark genderten Rahmenbedin-
es daher unverzichtbar, zu wissen gungen eine andere Projektausrichtung htten
sinnvoll erscheinen lassen.
in welchem Verwertungszusammenhang die
Ergebnisse zu sehen sind (Zielexplikation,
4.1) 4.1 Zielexplikation
welche Kriterien dafr herangezogen werden
sollen (Bewertungsproze, 4.2) Die Freirume des Evaluators schwanken in Ab-
wie der Nutzen der aufgetretenen Auspr- hngigkeit vom Auftraggeber und dem konkre-
gungsgrade der Kriterien einzuschtzen ist ten Arbeitsfeld sehr stark. Manchmal sind die
und wie auf dieser Basis eine globale Alter- Vorgaben so strikt, da sich eine berlegung
nativenbewertung erfolgen kann (Bewer- zur Zielsetzung erbrigt, wenn man persnlich
tungs- und Entscheidungshilfemethoden, bereit ist, auch ohne Kenntnis der spteren Ver-
4.3) wendung ein solches Projekt durchzufhren
(etwa: Stellen Sie fest, wieviele Personen die
Im Diagramm IV/1 ist die Struktur dieses Problem- von uns zugeschickten Informationsbrosch-
bereiches als Leitfaden fr die folgenden Aus- ren gelesen haben). Der Evaluator beschrnkt
fhrungen am Beispiel eines Problems der sich dann auf die Rolle eines Datensammlers,
Alternativenauswahl (summativ) durch ein der die gewnschte Teil-Sachinformation liefert
84 Zielexplikation und Bewertungskriterien
Diagramm IV/1
Phasen eines Evaluationsprojektes am Beispiel eines Problems der Alternativenaus-
wahl (summativ)
Arbeitsschritte Hilfen
1. Nutzenbestimmung fr wen?
(Identifizierung von Personen oder
Organisationen, deren Nutzen maximiert
werden soll)
Gesprchs- und Kommunikationstechniken
2. Nutzenbestimmung von was?
(Identifizierung des Problems, d.h. der
Entscheidung fr die der berechnete
Nutzen relevant ist)
5. Zielanalyse
(Wie soll die optimale Alternative auf der/
den Bewertungskriterien aussehen?)
6. Nutzenmessung
(Festlegung des Nutzens fr jedes Verfahren der Nutzenmessung
Bewertungskriterium und jede Alternative)
7. Nutzenverrechnung
(Zusammenfassung der Nutzenwerte pro
Alternative) Bewertungs- und Entscheidungshilfe-
methoden
8. Entscheidung an Hand der in der
Zielanalyse festgelegten Kriterien
und sonst nichts. Die Fragen der Zielfindung Verwertbarkeit der Ergebnisse aufgrund seiner
werden dadurch natrlich nicht aufgehoben, Projektdurchfhrung bernehmen mu
sondern nur vom Evaluator auf den Auftragge- (Schauen Sie sich einmal unsere Weiterbil-
ber verlagert. dungsangebote an, irgend etwas luft da nicht
Hufiger findet man bei sozialwissenschaft- so ganz richtig , Stellen Sie fest, welche Psy-
lich gesttzter Evaluation das andere Extrem: chotherapie fr unsere speziellen Patienten am
Der potentielle Auftraggeber hat eine so vage besten ist). Hier ist eine besonders intensive
Vorstellung von seinen Wnschen, da der Aufklrung des Auftraggebers ntig, die manch-
Evaluator die faktische Verantwortung fr die mal bei Vorhaben der ffentlichen Hand oder
Zielexplikation und Bewertungskriterien 85
grerer Konzerne zu einem Projekt fr sich Probleme gegen das Selbstbild vieler Auftragge-
werden kann. ber verstt. Wenn das Projekt aufgrund sol-
Der Regelfall ist, da von Seiten des Auftrag- cher Schwierigkeiten suboptimal wird, ist dies
gebers zu Beginn des Projektes eine gewisse Vor- nur bedingt dem Evaluator anzulasten. Die
gabe der Zielsetzung vorliegt, da sie aber nicht sinnvolle Verwendung von Rckmeldungen
so rational und konkretisiert ist, da nicht durch empirische Evaluationen setzt eine ge-
durch die Hilfe des Evaluators noch wesentli- wisse Organisationskultur voraus (5.1.3), die
che Verbesserungen mglich wren. Einige nicht kurzfristig und schon gar nicht bezogen
dafr bewhrte Vorgehensweisen werden in auf ein Einzelprojekt allein erreicht werden
den folgenden Abschnitten kurz skizziert. kann.
Behandelt werden Aspekte der Zielgruppenbe-
stimmung, der Konkretisierung der Evalua-
tionsobjekte sowie die Mglichkeiten antizipa- 4.1.1 Zielgruppenbestimmung
torischer berlegungen der Verwendung von
Projektergebnissen. Es berrascht immer wieder, wie eingeschrnkt
viele Auftraggeber zunchst das Evaluations-
projekt sehen. Dies betrifft sowohl die zu eva-
Konflikte luierenden Alternativen (oft kann man hier
Vorschlge hinzufgen, etwa bei vergleichend
Wesentlich erschwert kann die Arbeit zu diesen ins Auge gefaten Therapiemanahmen oder
Punkten durch das Vorliegen von Konflikten in- Frdermglichkeiten von Mitarbeitern), als
nerhalb des Auftraggebers werden. Halbwegs auch die betroffenen Personen. So werden
bewltigbar sind die dadurch verursachten Pro- zum Beispiel in Kliniken von unterschiedlichen
bleme bei institutionalisierten Konflikten, wenn Therapien nicht nur die Patienten, sondern
also die Kontrahenten aufgrund ihrer Funktion auch deren Angehrige, die Pfleger und Kran-
(verschiedene politische Parteien, partiell kon- kenschwestern, die Therapeuten und manch-
kurrierende Abteilungen eines Unternehmens, mal sogar, wenn etwa die allgemeine Zeit-
verschiedene organisierte Interessengruppen wie planung zu verndern ist, auch das gesamte
zum Beispiel im Gesundheitswesen) klar erkenn- Hilfspersonal (zum Beispiel Kche) tangiert,
bar sind und es aufgrund dieser Organisations- ganz zu schweigen von den Kostentrgern der
form auch zulssig ist, offen die unterschiedli- Manahme. Der Evaluator kann durch eigene
chen Schwerpunktsetzungen zu betonen. In Vorschlge den Gesichtskreis erweitern, und
solchen Fllen empfiehlt sich fr den Evaluator dieses ist auch ein vor allem in Einzelgespr-
absolute Offenlegung seiner Planungen, Integra- chen oft gewhltes Vorgehen. Es besteht aber
tion der unterschiedlichen Meinungen durch die Gefahr, da solche von auen kommen-
Aufnahme mglichst vieler gewnschter Aspek- den Vorschlge vom Auftraggeber nicht ohne
te (zu dem damit verbundenen Vorgehen vgl. weiteres akzeptiert werden, daher ist es besser,
die entsprechenden Ausfhrungen im Abschnitt die Gesprchspartner selbst auf erweiterte Ideen
4.2), und, falls ein solcher Konsens nicht mg- kommen zu lassen. Hierbei kann man sich vor
lich ist, das Bestehen auf formalisierten Entschei- allem in Gruppensitzungen einer Flle von im
dungen gem den in der jeweiligen Situation Bereich der betrieblichen Weiterbildung ein-
zwischen den Kontrahenten vereinbarten (de- gefhrten Kreativittstechniken bedienen
mokratischen) Spielregeln. (vgl. dazu etwa Geschka, 1988; Preiser, 1976),
Nahezu unlsbar wird die Situation bei ver- fr die Zielgruppenbestimmung besonders
deckten Konflikten, wie sie vor allem durch per- empfehlenswert sind hierarchisch gesteuerte
snliche Antipathien oder Konkurrenz- Assoziationsketten.
situationen innerhalb der auftraggebenden
Institutionen entstehen knnen. Selbst wenn
der Evaluator rechtzeitig auf solche Probleme Beispiel fr Assoziationsketten
aufmerksam wird (was hufig nicht der Fall ist),
hat er kaum die Mglichkeit, Konfliktlsungs- Dieses Vorgehen lt sich am leichtesten an
techniken einzusetzen, da das Zugeben solcher einem Beispiel illustrieren. Ausgangspunkt sei
86 Zielexplikation und Bewertungskriterien
Diagramm IV/2
Kurzdarstellung der Brain-Storming-Methode (nach Osborn, 1963)
Einfachheit 5. Ideenflu
Realisierbarkeit Die Teilnehmer sollten dazu aufgefordert wer-
Schwierigkeitsgrad den, alle Ideen, die aufkommen, auch unge-
whnliche oder unrealistisch erscheinende,
Der Grad der Einfachheit, Realisierbarkeit auszusprechen. Die Einflle brauchen nicht
bzw. Schwierigkeit wird dazu auf einer ausfhrlich erlutert zu werden, es reicht die
Punkte-Skala eingetragen. Voraussetzung fr Andeutung des Gedankenganges.
das Gelingen einer Brainstorming-Sitzung
sind eine gute Vorbereitung und ein erfah- 6. Zeitlimit
rener Moderator, der die unbedingte Einhal- Eine Brain-Storming-Sitzung sollte den zeit-
tung der Grundregeln des Brainstormings lichen Rahmen von 30 Minuten nicht ber-
kontrolliert. schreiten.
Zielexplikation und Bewertungskriterien 89
4.1.3 Antizipatorische Fr eine grobe Abschtzung der durch die
Ergebnisverwertung Projektergebnisse denkbaren Situationsvern-
derungen und darauf gesttzte zustzliche
Untersuchungsziele kann man auch die Metho-
Gerade grere sozialwisssenschaftliche Evalua- de des Planspieles einsetzen (Diagramm IV/4; vgl.
tionsvorhaben leiden hinsichtlich der prakti- Rohn, 1980, 1986; Baehr & Eberle, 1986;). Da-
schen Verwendbarkeit besonders unter zwei bei mu man nicht an die (in anderen Berei-
strukturellen Gegebenheiten: chen hufigen) stark formalisierten und EDV-
gesttzten Varianten denken, es gengen ganz
Projektunabhngige Vernderungen der Rah- einfache Formen, die man vielleicht zur Ver-
menbedingungen bzw. Zielsetzungen. Durch
meidung von Miverstndnissen koordinierte
die Dauer der Projekte (meist mehrere Jahre)
Rollenspiele nennen knnte und kaum tech-
haben sich die Rahmenbedingungen und da-
nischen Aufwand erfordern. Den Teilnehmern
mit auch die Zielsetzungen des Auftraggebers
(evtl. tatschlich Betroffene oder Projekt-
verndert; die erzielten Resultate sollen aber
mitarbeiter) werden fiktive Projektergebnisse
gerade fr die neuen Umstnde aussagekrf-
vorgelegt und gebeten, gem der von ihnen
tig sein.
zu vertretenen Rolle das weitere Vorgehen fr
Nachtrgliche, ergebnisabhngige Verschie- die Lsung des mit dem Evaluationsprojektes
bungen. Die konkreten Ergebnisse des Pro-
bearbeiteten Problems zu diskutieren.
jektes knnen die Problemsicht der Beteilig-
Es stehen inzwischen gengend viele und
ten bzw. Betroffenen stark verndern, so da
auch im Kontext anderer Verwertungszusam-
jetzt neue Aspekte wichtig werden die man
menhnge ausreichend ausgebaute Sozial-
aber aufgrund einer ursprnglich anderen
techniken zur Verfgung, um die Zielsetzung
Zielsetzung nicht untersucht hat.
von Evaluationsprojekten wesentlich besser zu
fundieren, als es derzeit (noch) blicher Praxis
Die Lsung dieser beiden Probleme wrde eine entspricht. Die fehlende rechtzeitige elaborierte
exakte Zukunftsprognose voraussetzen, die Ausarbeitung der Zielsetzung ist zum Teil nicht
natrlich nicht mglich ist. Zumindest fr gr- vermeidbar, etwa aufgrund von Ressourcen-
ere Evaluationsvorhaben sollte man aber ver- mangel des Auftraggebers oder, hufiger, in An-
suchen, wenigstens grob die sptere Verwer- betracht der Zeitperspektive (fr die auch nur
tungssituation zu antizipieren. Ein hierzu grobe Anwendung der in diesem Abschnitt skiz-
geeignetes Mittel ist die Szenario-Technik zierten Techniken mte man in einem gre-
(vgl. Reibnitz, 1983), deren Grundgedanke im ren Projekt etwa 4 Monate veranschlagen). Wo
Diagramm IV/3 dargestellt ist. Es wird aufgrund es aber mglich ist, sollte man eine detaillier-
des Aufwandes selten mglich sein, eine idea- tere und mglichst begrndete Zielexplikation
le Szenario-Studie fr die Zielsetzung von Eva- anstreben.
luationsprojekten durchzufhren; aber schon
eine relativ grobe Abschtzung der erwartbaren
Vernderungen kann helfen, bei der Definition 4.2 Bewertungsproze
der Zielgruppe oder der Konkretisierung von
Evaluationsdetails Fehler zu vermeiden. Das Er- Nach Festlegung der (Teil-)Ziele mu man sich
gebnis kann durchaus der Verzicht auf das darber einigen, an welchen empirischen Be-
Evaluationsvorhaben selbst sein (als fiktives Bei- obachtungen man das Ausma der Ziel-
spiel: Evaluierung eines Ausbildungskonzeptes erreichung beurteilen mchte. Letztlich baut
der Bundesanstalt fr Arbeit fr die Umschulung der empirisch-wissenschaftliche Informations-
von Arbeitslosen zu Technischen Zeichnern in gewinn stets auf der Menge der erhobenen Aus-
Anbetracht der Verbreitung von CAD-Anlagen), prgungsgrade der ausgewhlten Indikatoren
meistens werden Projektteile dadurch akzentu- auf, so da das gesamte Ergebnis entscheidend
iert (etwa Evaluation von Manahmen zur Kran- von der konkreten Auswahl abhngt. Ob man
kenversorgung in Anbetracht der erwartbaren den Lernerfolg von Schlern in verschiede-
Bevlkerungszahl, Altersverteilung und Beitrags- nen schulischen Organisationsformen an den
aufkommen fr die Krankenversicherung). von den Lehrern vergebenen Noten, objekti-
90 Zielexplikation und Bewertungskriterien
Diagramm IV/3
Kurzdarstellung der Szenario-Technik (vgl. v. Reibnitz, 1983)
Diagramm IV/4
Kurzdarstellung der Planspiel-Technik (vgl. Baehr und Eberle, 1986)
Beim Planspiel handelt es sich um eine im Reduktion der Realitt auf zielrelevante Fak-
militrischen Bereich entstandene Unter- toren des Planspiels.
weisungsmethode, die speziell dem Ent- Aktives Handeln in Form abstrakter Denk-
scheidungshilfetraining dient. Dem Plan- ttigkeit bzw. Interaktion der Spieler in der
spiel liegt immer eine reale Situation simulierten Realitt.
zugrunde, die in einem Modell simuliert Hohe Motivationskraft durch Ausnutzung
wird. Auf diese Weise soll die wechselseitige des dem Menschen innewohnenden Spiel-
Abhngigkeit der einzelnen Systemelemen- triebes und damit Wirkung und Verstrkung
te verdeutlicht werden und die Wirkung des sachbezogenen Interesses.
einzelner Entscheidungen auf das Gesamt- Rollenspielartige bernahme bestimmter
system transparent gemacht werden. Beim Verhaltensweisen innerhalb der Simula-
Planspiel bernehmen die Teilnehmer die tionssituation.
Rolle von Entscheidungsinstanzen. Konflikttraining verursacht durch abwei-
Auf Grund der modellartigen Simulation chende Zielvorstellungen zwischen den
des Gesamtsystems knnen die Folgen der Spielgruppen, sowie innerhalb der einzel-
Entscheidungen ermittelt und bewertet wer- nen Gruppen.
den. Training der Kommunikationsfhigkeit, da
die gestellte Aufgabe einen Informations-
Die wichtigsten Elemente des Planspiels sind: austausch innerhalb der Gruppen, zwischen
Nachahmung der Realitt im Modell bzw. den Gruppen und zum Spielleiter erfordert.
92 Zielexplikation und Bewertungskriterien
mglichst detailliert werden. Das einfachste Team erfolgen, da Gruppen fr solche Auf-
Vorgehen ist, wieder Hierarchien, wie in 4.1.1, gabentypen wesentliche Vorteile bieten, wobei
auszuarbeiten. Fr das dort verwendete ad- eine interessens- und vorbildungsmig hete-
vanced organizer-Beispiel wren dabei folgende rogene Gruppenzusammensetzung empfeh-
Schritte erforderlich (Beispiele nur aus der Sicht lenswert sein kann. Statt oder ergnzend zum
der Zielsetzung des Lehrers): brainstorming (vgl. Diagramm IV/2) knnen fr
solche Gruppensitzungen auch Metaplan-Tech-
Erfassung von: niken erfolgreich eingesetzt werden, die Grund-
1. Analyse der Ist-Situation: struktur davon findet sich im Diagramm IV/5.
Eine ausfhrliche Darstellung geben Klebert et
dem durchschnittlichen Leistungsniveau in al. (1988),Schnelle (1982).
der unterrichteten Klasse
Der Konsens zwischen allen Beteiligten, ge-
der Motivation der Schler, mit dem alten rade auch bei offenen oder verdeckten Konflik-
Lehrbuch zu arbeiten
ten innerhalb der Institutionen des Auftragge-
den auftretenden Problemen, die sich bei der bers, wird bzgl. der Kriterienauswahl im Prinzip
Arbeit mit dem alten Lehrbuch ergeben
am leichtesten erreicht, wenn alle auch nur an-
nhernd sinnvoll erscheinenden Vorschlge in
2. Festlegung der Richtziele (Grobziele):
die Projektplanung aufgenommen werden. In
a) schulische Ziele einem solchen Fall kann sich jeder an dem
b) persnliche Ziele Findungsproze Beteiligte im Projektplan wie-
derfinden, und man kann auch sehr schwer
3. Bestimmung der Feinziele: sachlich argumentieren, da das Erheben ir-
gendeines Aspektes mit Sicherheit unntig oder
mgliche Feinziele von a):
gar schdlich sei.
diadaktische Verbesserung des Unterrichtes Man sollte aber zur Qualittssicherung be-
Straffung des Unterrichts strebt sein, im Konsens der potentiellen
Verbesserung des Klassendurchschnitts Konfliktpartner eine Eingrenzung der Vor-
zeitkonomische Aspekte schlge zu erreichen. Dabei knnen Techniken,
Steigerung der Motivation der Schler wie sie im Abschnitt 4.3 besprochen werden
Erleichterung der Informationsaufnahme (Diagramm IV/9) ntzlich sein.
usw.
Diagramm IV/5
Grundstruktur der Metaplan-Methode (nach Schnelle, 1982)
Definition Kleingruppenarbeit
Vorstellen der Ergebnisse in der Gruppe
Die Metaplan-Methode ist eine Gesprchs- Feedback entweder durch die Teilnehmer
bzw. Diskussionstechnik, die durch hierarchie- selbst oder durch den Moderator
freies Arbeiten Teilnehmer motiviert und de-
ren Kreativitt frdert. Phase 3: Finale
Erstellen eines Ttigkeitskatalogs in der
Die Teilnehmer sammeln Gruppe/Kleingruppe
durch Kartenabfrage Beitrge zu einer be- Feststellen der Zufriedenheit und des Grup-
stimmten Problematik; penklimas durch den Moderator
gewichten diese Probleme;
fassen die Beitrge zu Problembndeln zu-
sammen; Anwendungsgebiete
zwecken im kleinen Rahmen realisiert werden nen auswirken knnten, also ob sie fr die je-
mu). Zu einer umfassenden Bewertung gehrt weiligen Personen
es, auch solche Nebenfragen schon bei der Pro-
jektplanung mit zu beachten. Das rechtzeitige
ein (neues oder zustzliches) Problem dar-
stellen bzw. zur Folge haben
Entdecken potentieller Nebenwirkungen ist be-
sonders schwierig, weil diese ja eben nicht zu
die Mittel fr die Bearbeitung bestehender
Probleme verndern bzw. erweitern
den ursprnglich intendierten Manahmen-
zielen gehren. Eine ntzliche Hilfe, um an
die Handlungsziele beeinflussen
mglichst viele denkbare, aber nicht intendierte
die Bewertung der Konsequenzen von Ziel-
erreichungen verndern
Folgen zu denken, ist die Bercksichtigung von
Handlungsplnen (vgl. Diagramm I/2). Fr jede
irgendwie von den Evaluationsobjekten oder
Einige Beispiele:
der Evaluationsstudie selbst betroffenen Perso-
nengruppen (vgl. 4.1.1) wird berlegt, in wel- Eine politische Partei hat sich seit Jahren ve-
cher Weise sich die Manahmen in diesen Pl- hement fr eine bestimmte Schulorganisa-
94 Zielexplikation und Bewertungskriterien
ell mglich, eine methodisch mglichst eindeu- Ziele in Punktwerte ist zwar sicher subjektiv be-
tige Zusammenfassung der Einzelergebnisse zu einflut und entspricht nicht den Vorstellungen
einer Gesamtbewertung aber unbedingt erfor- harter nomothetischer Messung, ermglicht aber
derlich (was die beiden vorhergehend bespro- eine objektivere und besser nachkontrollierbare
chenen Anstze kaum leisten knnen), gerade Zusammenfassung der Einzelergebnisse als die
im Bereich der Therapie-Evaluation. Hier ist das anderen hier besprochenen ideographisch orien-
Ziel nicht nur eine Betrachtung des Interven- tierten Vorgehensweisen. Beispiele fr die An-
tionserfolges im Einzelfall, sondern eine ver- wendung der GAS fr Evaluationsfragen finde
gleichend-verallgemeinernde Aussage ber die sich u.a. in Sherman, R. (1977).
relative Bewhrung verschiedener Therapie-
methoden fr spezielle Indikationsstellungen.
Ein speziell dafr entwickelter Operationali- Nomothetische Messung
sierungsansatz ist die Goal-Attainment-Scale
(GAS; s. Franklin & Trasher, 1976, Wittmann Wird ein fr die Evaluation ausgewhlter theo-
1985), deren Grundprinzip im Diagramm IV/8 dar- retischer Konstrukt fr eine nomothetische
gestellt ist, beinhaltet auch Bewertungsaspekte Messung, also fr alle betroffenen Personen in
und wird daher im Abschnitt 4.3 besprochen. der gleichen Form, operationalisiert, so stellt
Die dort vorgenommene Umrechnung des re- sich die Frage nach der Rechtfertigung gerade
aktiven Ausmaes des Erreichens verschiedener dieser Indikatorenwahl schlielich hngt das
Diagramm IV/6
Kurzdarstellung der Struktur-Lege-Technik (SLT) (nach Groeben und Scheele, 1984)
Diagramm IV/7
Kurzdarstellung von HYPAG/Structure
Verhalten Befragung
Beobachtung des Frage: Warum so entschie-
realen Entschei- den? Antwort: Wenn (Indikato-
dungsverhaltens ren) , dann (Entscheidung)
Kreuzvalierung des als gltig angesehenen der Manahme (z.B. Training, Beratung,
Regelsystems an Fllen, die nicht zur Erstel- Therapie)
lung herangezogen wurden. Aufbereitung von Informationen in einer
Einleitung praktischer Manahmen, je nach den Entscheidungsregeln entsprechenden
Zielsetzung etwa: Form (Akzeptanz von Materialien, Erleich-
Intervention zur nderung nicht optimal terung der Entscheidungsfindung)
erscheinender Teilregeln Erarbeitung von Entscheidungshilfen, meist
Bewertung von Interpretationen durch den computergesttzt.
Vergleich des Regelsystems vor und nach
98 Zielexplikation und Bewertungskriterien
Diagramm IV/8
Kurzdarstellung des Goal-Attainment-Scaling (nach Wittmann, 1981)
Evaluationsergebnis ja ganz wesentlich von der schnitt 4.1.1), eine nachtrgliche Aufnahme fr
genauen Ausformung des Meinstrumentes ab. die Nicht-Bercksichtigung weiterer Vorschlge
ist schwierig, und stets bleibt offen, ob die im
Eine denkbare Mglichkeit ist es, unsystema- Nachhinein den Datensatz zugrundegelegten
tisch eine grere Anzahl von Einzelindi- Dimensionen den eigentlich angestrebten theo-
katoren (Items, Beobachtungen u. dgl.) zu sam- retischen Bewertungskonstrukten entsprechen.
meln und ber die einzelnen Fragen einen Aus diesen Grnden sollte ein solches per-
Konsens herbeizufhren. Da fr die meisten fiat-Vorgehen nur dann gewhlt werden,
Kriterien die Erfassung mit einem einzelnen wenn aufgrund gegebener Rahmenbedingungen
Item zu wenig aussagekrftig ist (Einteilung der ein sorgfltiger strukturiertes Vorgehen nicht
Personen nur in so viele verschiedene Klassen mglich ist.
als Antwortmglichkeiten vorgesehen sind, ge-
ringe Megenauigkeit) kann man im Nachhin- Eine andere Mglichkeit ist es, fr die einzel-
ein mit deskriptiven Verfahren wie der Fakto- nen Kriterien auf bereits vorhandene und mg-
renanalyse versuchen, die Informationsmenge lichst gut konstruierte Test- oder Erhebungs-
in Richtung auf einige besonders wesentliche verfahren zurckzugreifen. Man kann damit
Kriterien hin zusammenzufassen. eine eigene Entwicklungsarbeit sparen, der Ver-
Ein solches Vorgehen drfte in der Eva- gleich mit anderen Untersuchungen wird we-
luationspraxis gar nicht so selten sein, bringt sentlich erleichtert und die Verantwortung fr
aber erhebliche Nachteile mit sich. Eine un- evtl. doch bestehende Schwachstellen der Mes-
strukturierte oder nur schwach an Kriterien- sung wird an die ursprnglichen Autoren de-
vorstellungen orientierte Itemsammlung wird legiert. Prfen mu man allerdings, ob die
im allgemeinen weniger Einflle erbringen als konkrete Operationalisierung auch tatschlich
ein systematisiertes Vorgehen (vgl. dazu Ab- einer Evaluationsfragestellung, die meist Vern-
Zielexplikation und Bewertungskriterien 99
derungsaspekte zum Inhalt hat, auch gerecht Festlegung von Stoffgebieten
wird. Dazu einige Beispiele:
Vor allem im pdagogisch-psychologischen Be-
Erfassung des Therapieerfolges an einer Be-
reich liegen fr manche Teilgebiete komplette
findlichkeitsskala, die auf maximale Relia-
Operationalisierungen der Bewertungskriterien
bilitt hin konstruiert wurde es besteht die
vor, vor allem bzgl. kognitiver Lerninhalte. Der
Gefahr, da durch die Itemselektion bei der
Wissensstoff fr ein bestimmtes Fach ergibt sich
Testkonstruktion gerade die besonders nde-
im Prinzip aus der Zusammenfassung aller da-
rungssensitiven Items eliminiert wurden, was
fr zugelassenen Lehrbcher, die (bisherigen)
die Aussagekraft fr eine Interventionsbewer-
Abituranforderungen finden sich in der Menge
tung senkt.
aller gestellten Prfungsthemen, Kriterien der
Anwendung eines Fragebogens fr Fh-
Schulreife ergeben sich durch eine zusam-
rungsstil, bei dem die Probanden das ihrer
menfassende Sammlung der fr die erfolgrei-
Meinung nach richtige Verhalten in vorge-
che Einschulung erforderlichen Verhaltens-
gebenen Beispielsituation anzugeben haben
weisen. Daher wird in diesem Bereich die
unabhngig von Evaluationsprojekten kann
Testkonstruktion strker als in anderen Teilge-
ein solches Vorgehen durchaus Informatio-
bieten auf der sogenannten kriteriumsorien-
nen ber das tatschliche Fhrungsverhalten
tierten Messung (vgl. dazu Klauer, 1987) auf-
indirekt erschlieen lassen, nach gezielten
gebaut, wobei leider diese Bezeichnung zu
Interventionsprogrammen ist aber die Ge-
Miverstndnissen fhren kann gemeint ist
fahr hoch, da die Teilnehmer im Sinne der
nicht eine Erhhung der Test/Kriteriumsbezie-
Veranstaltungsinhalte antworten, ohne auch
hung im Sinne einer korrelativen Kriteriums-
nur im geringsten daran zu denken, ihre Ein-
validitt, sondern die sachgerechte Zusammen-
stellungen oder gar das Verhalten zu modifi-
stellung von Itemstzen aus einer das Kriterium
zieren.
definierenden Gesamtmenge (vgl. dazu auch
Verwendung eines in internationalen Ver-
den Begriff der Inhaltsvaliditt etwa bei
gleichsstudien entwickelten Tests fr Fremd-
Cronbach, 1978).
sprachen fr die Evaluation einer neuen
Kann man von einer solchen Stoffmenge aus-
Lehrmethode; war die Zielsetzung der Aus-
gehen, ist es nur noch erforderlich, ein objekti-
gangsstudie (zum Beispiel der Erwerb von
ves Verfahren zur Umsetzung in konkrete Me-
Grundfertigkeiten wie Wortschatz oder ele-
instrumente vorzunehmen. Dies ist manchmal
mentare Grammatik) und die Spezifitt der
vllig unproblematisch, etwa ein Zusammen-
Intervention (zum Beispiel Verbesserung der
stellen aller in den zulssigen Englisch-Lehr-
kommunikativen Fhigkeiten) nicht ausrei-
bchern verwendeten Vokabeln und Bildung
chend hnlich, ist dieses Meinstrument
einer Zufallstichprobe daraus fr einen Wort-
auch dann nicht zu empfehlen, wenn es me-
schatztest. Der Aufwand ist hher, wenn fr
thodisch noch so fundiert ist.
die Fragenerstellung Umformungen erforder-
lich sind, aber auch dann leistbar man kann
Die besondere Zielrichtung von Evaluations-
etwa die Beherrschung des Faches Geschich-
projekten erfordert leider im Prinzip hufig eine
te so erfassen, da man aus der Menge aller
spezifische Neukonstruktion der Meinstru-
Abstze in den zulssigen Lehrbchern wieder-
mente, auch wenn eine solche aus Zeit- und
um nach Zufall auswhlt und fr jeden dieser
Kostengrnden in der Praxis hufig nicht gelei-
Abstze nach mglichst objektiv befolgbaren
stet werden kann. Zumindest in groen Projek-
Regeln eine Frage erstellt. Zwar wird in einem
ten und vor allem dann, wenn die Verwendung
solchen Fall die Abhngigkeit vom Itemersteller
der Meinstrumente im Lngsschnitt vorgese-
relativ hoch sein (insbesondere bei multiple-
hen ist, sollte man aber stets eine sorgfltige
choice-Aufgaben, wenn die Wahl der Dystrak-
Mekonstruktion anstreben. Hierbei knnen
toren eine Rolle spielt), aber bei entsprechen-
folgende drei Anstze wichtig werden:
der Schulung sollte sich daraus keine ent-
Stoffgebiete mit Umsetzungsregeln scheidende Verzerrung der Meinstrumente
Systematisierte Itemkonstruktion gegenber der Gesamtheit der Stoffmenge er-
Eindimensionale probabilistische Modelle geben.
100 Zielexplikation und Bewertungskriterien
Ein solches Vorgehen hat, wenn die Voraus- unrealistischer Zielvorgabe (hufig wird dies
setzung einer konsensmig akzeptierten Stoff- etwa bei Lehrplnen unterstellt) die danach
menge tatschlich gegeben ist, eine Reihe von konstruierten Itemmengen insgesamt viel zu
Vorteilen, insbesondere schwierig werden und damit nur eine geringe
Differenzierungsfhigkeit zwischen den einzel-
objektive, nachprfbare und damit sehr nen Probanden erlauben.
kritikresistente Fragenkonstruktion Da diese Probleme aber weniger oder ber-
eine Kontrolle der Einhaltung normativer haupt nicht ins Gewicht fallen, wenn man
Standards wird aufgrund objektiver Zielvor- nicht am Vergleich von Einzelpersonen, son-
gaben mglich (schlielich sollten die Inhal- dern von ganzen Gruppen (Schulen etc.) inter-
te der Lehrbcher bzw. der Lehrplne ja auch essiert ist, sollte man an diese Technik der
tatschlich beherrscht werden!); dies ermg- Testerstellung vor allem dann denken, wenn
licht eine bessere Ergebnisbewertung als die viele Einzelergebnisse zu relativ globalen (Insti-
mit blichen Verfahren erzielten Vergleiche tutions-) Bewertungen zusammengefat wer-
verschiedener Teilgruppen. den, was ja gerade im pdagogischen Bereich
Es sind wiederholte Messungen bei Sicher- hufig ist. Bei der praktischen Anwendung sollte
stellung der Vergleichbarkeit ohne Vertrau- man darber hinaus zu einer Erhhung der
lichkeits- und Coaching-Probleme mglich; Differenziertheit der Aussagen versuchen, die
gelingt eine objektive Umsetzung von Stoff- Stoffmenge nicht zu global festzulegen, son-
menge in Items, so kann man von Me- dern verschiedene Untergruppen (etwa Wort-
zeitpunkt zu Mezeitpunkt nach diesen schatz, passive Sprachbeherrschung etc.) zu bil-
Regeln neue Tests zusammenstellen, die den, aus denen jeweils eine Itemstichprobe
trotzdem die gleiche Stoffmenge erfassen gezogen wird.
und mit Ausnahme von Zufallsschwan-
kungen auch die gleiche durchschnittliche
Schwierigkeit aufweisen. Da stets andere Fra- Systematische Itemkonstruktion
gen verwendet werden, ist auch Verletzung
der Vertraulichkeit und eine an den in den Um die Nachteile einer willkrlichen oder nur
vorgehenden Untersuchungen verwendeten vage assoziativ zu einem Oberbegriff passenden
Items orientierte Testvorbereitung nicht Itemerstellung zu vermeiden, kann man versu-
mglich, und ein anderes sinnvolles chen, sich an explizite Konstruktionsregeln zu
Tranining wre identisch mit dem ohnedies halten. Hierfr sind zwei verwandte Denkan-
vorgegebenen Ziel, die definierte Stoffmenge stze verbreitet:
mglichst umfassend zu erlernen.
Die Facettentheorie (Guttman, 1957; Borg
Problematisch sind bei diesem Vorgehen die 1981.) geht davon aus, da verschiedene
Meeigenschaften der so gewonnen Instru- Aspekte der Aufgaben (im Beispiel Grund-
mente. Da die Stoffmengen in sich sehr hete- rechenfertigkeit etwa die vier Grundrechen-
rogen sein knnen, knnen die einzelnen Items arten, die Teile des Zahlenraumes Einer,
vllig unterschiedliche Aspekte ansprechen, de- Zehner, Hunderter die Bercksichtigung po-
ren Zusammenfassung zu einem Kriteriums- sitiver und negativer Zahlen sowie nur gan-
wert nicht durch wissenschaftliche Aspekte, zer oder auch Dezimalzahlen) zu einzelnen
sondern nur durch die meist wissenschafts- Facetten kombiniert werden (eine solche
extern definierte Stoffmenge gerechtfertigt ist. wre etwa die Kombination Multiplikation
In Abhngigkeit von den Schwankungen der von positiven ganzen Zahlen mit hchstens
Itemschwierigkeiten (die u.a. von der jeweili- zweistelligen Ergebnissen.) Nach diesem
gen Ausgangsmenge, etwa der Gestaltung eines Prinzip lassen sich auch Skalen fr die Be-
konkreten Lehrbuches, abhngt) kann es auch wertung von Therapien erarbeiten (etwa bei
sein, da fr verschiedene Testformen mit aus- Kernberg et al., 1972;). Dort wurden 16
reichend hnlicher Schwierigkeit relativ groe Aspekte mit jeweils 2 bis 7 Ausprgungs-
Itemmengen erforderlich sind. Zu den Me- graden erarbeitet und aus der Vielzahl der
eigenschaften gehrt auch das Problem, da bei damit mglichen Facetten eine Teilmenge fr
Zielexplikation und Bewertungskriterien 101
das Evaluationsinstrument ausgewhlt. Fr Gltigkeit eindimensionaler Modelle) inner-
die Konstruktion von Intelligenztests vgl. halb der einzelnen Facetten zu erhalten.
auch Jger, (1967).
Die rationale oder regelgeleitete Item-
konstruktion besteht in der systematischen Eindimensionale probabilistische Modelle
Kombination kognitiver Prozesse, die fr die
Aufgabenlsung bentigt werden. hnlich Dieser sich an den methodischen Aspekten von
wie bei der Facettentheorie erleichtert dieses Messung orientierende Ansatz (fr eine ber-
Vorgehen die Bildung groer, in ihrer Struk- sicht siehe Lord & Nowick, 1968; Fischer, 1974,
tur bekannter Itemmengen, wie sie insbeson- Henning 1974, betrifft in keiner Weise die in-
dere fr mageschneidertes, computer- haltliche Festlegung der Indikatoren, sondern
gesttztes Testen (Vorgabe einer fr jeden nur deren im Hinblick auf Meeigenschaften
Probanden nach individueller Trennschrfe optimale Zusammenstellung. Da eindimensio-
ausgewhlten Itemmenge) bentigt werden. nal als eine besondere Definition von hn-
Allerdings kann die Kombination von An- lich aufgefat werden kann (vgl. dazu
forderungen unerwartete Effekte im Sinne Wottawa, 1979), ist es im Prinzip mglich, fr
von Wechselwirkungen ergeben (zum Bei- jedes einzelne Item (etwa aus einer Stoffmenge
spiel die Mglichkeit, die Antwort auf einem ausgewhlt oder auf andere Weise konsensmig
viel leichteren Weg zu finden, als bei der festgelegt) unabhngig von seiner psychologi-
Konstruktion intendiert), so da die tatsch- schen Komplexitt durch das Hinzufgen ent-
liche Homogenitt der Items zustzlich zur sprechend gleich strukturierter Fragen (hierbei
Einhaltung der Konstruktionsprinzipien mit knnen die Prinzipien der rationalen Item-
probalistischen Testmodellen empirisch ge- konstruktion helfen) eine ganze Dimension zu
prft werden mu. Ein Beispiel dafr gibt erstellen. Der Erfolg einer solchen Test-
Hornke, (1986). konstruktion hngt im allgemeinen nur vom
Einfallsreichtum des Untersuchers ab, so da die
Verglichen mit der Festlegung von Stoffmengen Verwendung solcher Modelle im Prinzip keine
hat dieser Ansatz den Nachteil, keine an einem Einschrnkung der inhaltlichen Vielfalt bedeu-
bereits bestehenden externen Mastab orien- tet. Sie sind daher kein Ersatz, sondern eine Er-
tierte Aussage zur Bewertung der erbrachten gnzung der inhaltlich orientierten Anstze.
Testergebnisse leisten zu knnen. Im brigen Der Vorteil liegt in den Meeigenschaften fr
ist er mit dem zuerst diskutierten Vorgehen hin- Einzelpersonen, insbesondere durch die Anpas-
sichtlich der Leistungsfhigkeit vergleichbar, sung der Itemschwierigkeit an den Leistungs-
vor allem ist ebenfalls eine Testwiederholung stand verschiedener Subgruppen (Schulformen,
mit jeweils verschiedenen, aber strukturell glei- Leistungskurse, Altersstufen). Sie ermglichen
chen Items mglich. Dies ist vor allem dann besser als alle Alternativen die Beobachtung
wichtig, wenn die gleiche Dimension im von Entwicklungsverlufen einzelner Personen
Lngsschnitt erfat werden soll (Lernfortschritte im Lngsschnitt. Fr Evaluationsfragestellun-
einzelner Schler, Vernderungen durch thera- gen gengt es brigens im allgemeinen, mit re-
peutischen Eingriffe zu vielen Zeitpunkten lativ schwachen Modellen (Mokken-Skalierung
whrend der Behandlung, Kontrolle der Aus- oder dreiparametrige logistische Modelle) zu
wirkungen einer Werbeaktion unter Benutzung arbeiten, da Meeigenschaften bzgl. der einzel-
eines Lngsschnitts-Panels) und man zur Ver- nen Items (etwa ein spezifisch objektiver Ver-
meidung von Streffekten mit jeweils unter- gleich der Items untereinander), die restriktive-
schiedlichen Items arbeiten mchte. Das Wech- re Modelle erfordern, fr die Projektzielsetzung
seln der Aufgaben ist zum Beispiel ganz meist nicht erforderlich sind. Trotzdem kann
besonders wichtig bei wiederholten Evalua- der Aufwand fr die Vortestung und entspre-
tionsmessungen im Schulsystem. Auch wei chende Modifikation der vorgeschlagenen Ska-
man mehr ber die Struktur der von den ein- len ganz erheblich sein, so da unter Effizienz-
zelnen Items angesprochenen Dimensionen, gesichtspunkten der Verzicht auf diese Modelle
und man hat eine hhere Chance, besonders die bessere Alternative sein kann, vor allem
wnschenswerte Meeigenschaften (effektive dann, wenn nur Gruppenvergleiche interessie-
102 Zielexplikation und Bewertungskriterien
ren. Ein sehr interessanter, auch unter Effizienz- bung in die jeweiligen Verfahren kann durch
gesichtspunkten fr Evaluationsprojekte sinn- die theoretischen Konzepte nur untersttzt,
voller Ansatz auf dieser Basis ist das sogenannte aber sicher nicht ersetzt werden.
Matrix-Sampling (Miles und Huberman,
1984).
4.3.1 Explizite Verfahren
der Nutzenbestimmung
4.3 Bewertungs- und Fr eine objektive, formalisierte Nutzenbestim-
Entscheidungshilfen mung sind folgende Teilschritte erforderlich:
Mit dem Erheben der Bewertungskriterien en- fr jedes Evaluationsobjekt mu der Aus-
det der naturwissenschaftliche Teil der Arbeit prgungsgrad auf den festgelegten Kriterien
an Evaluationsprojekten. Nach Abschlu dieser erhoben werden; zum Beispiel: Ergebnisse
Arbeit liegen im glcklichen Fall alle relevan- der Schler eines Schulsystems (Evaluations-
ten, empirisch erfabaren Informationen fr objekt) in einem Vokabeltest im Englischen
eine summative (Auswahl-) oder formative Ent- (eines der Bewertungskriterien).
scheidung vor, die wissenschaftliche Arbeit ist fr jeden empirisch gefundenen Auspr-
eigentlich zu Ende. gungsgrad eines jeden Bewertungskriteriums
mu der Nutzen festgestellt werden; die-
Wie schon das Wort Evaluation sagt (vgl. Kap. sen Vorgang nennt man Nutzenmessung,
1), umfat die Arbeit des Evaluators aber mehr und dieser erfordert subjektive Setzungen (im
als das Aufzeigen von sinnvoll gewhlten em- Beispiel mu jemand festlegen, wie ntzlich
pirischen Fakten. Eine Bewertung ist nur zum Beispiel ein Ergebnis von durchschnitt-
mglich, wenn die objektiv bestehenden Fak- lich 20 richtigen Lsungen im Vergleich zu
ten in nur subjektiv existierenden Nutzen nur 15 richtigen Antworten ist).
bersetzt und das weitere Vorgehen nach dem liegen mehrere Bewertungskriterien vor, mu
Prinzip der Nutzenmaximierung geplant wird. bestimmt werden, wie die einzelnen Ergeb-
Dieses erfordert einerseits eine Klrung der Fra- nisse zu einem Gesamtnutzen zusammen-
ge, wessen Nutzen optimiert werden soll (siehe gefat werden knnen; dies nennt man
dazu Abschnitt 4.1), ein Problem, das insbe- Nutzenverrechnung (im Beispiel wren
sondere in Folge des Bestehens von Abhngig- etwa die gefunden Nutzenwerte auf den Kri-
keitsverhltnissen zwischen Evaluator und Auf- terien Vokabeltest Englisch, Rechenaufga-
traggeber (etwa als Dienstherr, Arbeitgeber oder ben, Wohlbefinden in der Klassengemein-
Financier der Studie und vielleicht noch fol- schaft etc. zu verrechnen keine ganz leichte
gender!) die professionelle Ethik des Evaluators Aufgabe!).
berhren kann. Andererseits ist damit zu rech-
nen, da die Umsetzung der empirischen Fak- Die Probleme werden noch dadurch verstrkt,
ten in Nutzenwerte oder Globalentscheidungen da der Nutzen fr verschiedene Gruppen
den Abnehmern der Evaluationsergebnisse von Betroffenen bzw. Entscheidern sehr unter-
oft sehr schwer fllt, so da es mit die Aufgabe schiedlich gesehen werden kann. Werden etwa
des Evaluators ist, diesen bersetzungsproze verschiedene Therapieformen fr Alkoholkranke
durch geeignete Sozialtechniken zu unterstt- anhand der Kriterien Dauer des Aufenthaltes
zen. Hierzu liegt eine Flle von Anstzen vor, in einer Suchtklinik und Rckfallquote eva-
die wichtigsten sind im Diagramm IV/9 zusam- luiert, knnen Patienten, Klinikleitung und
mengefat. Kostentrger sehr unterschiedliche Nutzenbe-
wertungen haben. Fr die Klinikleitung mag
In den folgenden drei Abschnitten knnen fr ein lngerer Aufenthalt auch hheren Nutzen
die Bereiche Nutzenmessung, Entscheidung haben, zumindest bei unvollstndiger Kapazi-
durch Experten und Entscheidung durch Be- ttsauslastung (Einnahmensicherung), fr die
troffene jeweils nur die allerwichtigsten Anstze Kostentrger ist jeder Tag weniger eine wich-
diskutiert werden. Die wichtige praktische Ein- tige Einsparung, und fr den Patienten (und
Zielexplikation und Bewertungskriterien 103
Diagramm IV/9
bersicht ber einige wichtige Techniken zu Entscheidungs- und Bewertungshilfen (Auswahl)
evtl. den Kostentrger) kann vor allem die Ver- formalisierte Verrechnungsmethoden er-
hinderung von Rckfllen die alles andere ber- leichtern.
ragende Bedeutung haben. Sofern so stark diver-
gierende Bewertungen wirklich vorliegen, ist eine Die Vorteile einer auch nur auf Ranginfor-
objektive Nutzenbestimmung kaum mglich. mation aufbauenden Nutzenmessung werden
deutlich, wenn man sich berlegt, da ein
Die hier angedeuteten Schwierigkeiten sollen monotoner Zusammenhang zwischen Krite-
nicht zu einer Abwertung expliziter Verrech- riumsausprgung und Nutzen in keiner Weise
nungsverfahren fhren. Die Probleme bestehen selbstverstndlich ist (fr verschiedene Funk-
in gleicher Form bei allen anderen Entschei- tionsverlufe vgl. Diagramm IV/10). Zwar gibt es
dungsverfahren, nur werden sie dort weniger sicher oft monotone Zusammenhnge, doch
deutlich, was fr eine sachgerechte Lsung oft sollte man dies nie ungeprft voraussetzen,
von Nachteil ist. nicht einmal bei so einfachen Aspekten wie
Preis oder Intellektuelle Leistungsfhigkeit
eine besonders billige Ware kann leicht nur
Nutzenmessung
wegen des Preises als qualitativ minderwertig
eingestuft werden (was den Nutzen des Kaufes
Die bersetzung einzelner Kriteriumsauspr-
entsprechend subjektiv senkt), und ob eine
gungen in zugeordnete Nutzenwerte erfllt
Spitzenintelligenz fr einfachste Berufsttig-
zwei Funktionen:
keiten (wegen dem subjektiven Anspruchsni-
Sie ermglicht die Anwendung formalisier- veau) oder fr Konzentration erfordernde T-
ter Bewertungs- bzw. Entscheidungsverfah- tigkeiten wie etwa Autofahren (etwa wegen der
ren, vor allem bei Vorliegen harter (Intervall- intensiven gedanklichen Beschftigung mit ei-
oder Rational-) Skalen, etwa nach dem nem Problem) wirklich besser geeignet ist als
Erwartungs-mal-Wert-Prinzip (siehe dazu ein durchschnittlich begabter Mensch, ist zu-
Winterfeldt, 1974) mindest fraglich (man vergleiche etwa die eben-
Auch bei schwachen (Rang-)Skalen trgt die falls inverte u-frmige Beziehung zwischen An-
Nutzenmessung zur Problemexplikation bei strengung und Leistung, siehe etwa Kleiner und
und kann damit eine rationale, konsens- Hukla, 1970). Zunchst monoton verlaufende
bezogene Entscheidungsfindung auch ohne und ab einem Grenzwert weitgehend konstant
104 Zielexplikation und Bewertungskriterien
Diagramm IV/10
bersicht ber Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967)
Der funktionale Zusammenhang zwischen Kri- fr die der Nutzen konstant bleibt; ein Beispiel ist
teriumsausprgung (k) und dem Nutzen davon etwa die Erledigungsgeschwindigkeit von (Teil-)
(N(k)) kann folgende Formen aufweisen: Arbeiten in einem Projekt, deren Erhhung nur
nicht-monotone: tritt auf, wenn ein mittlerer dann eine Nutzensteigerung erbringt, wenn nicht
Kriteriumswert besonders gnstig ist, etwa bei auf andere Teilarbeiten gewartet werden mu (2)
dem Verhltnis von (psychischer) Anspannung streng monotone: der Nutzen steigt zwar stets mit
und Leistung (1) steigendem Kriterium, aber nicht proportional; ty-
monotone: der Nutzen steigt i. A. monoton mit pisch fr alle Grenznutzenphnomene, etwa bei
dem Kriterium, es gibt aber Kriteriumsintervalle, finanziellen Anreizen durch Gehaltssteigerungen
(3)
N (k)
lineare: gleichbleibender, proportionaler Nutzen-
anstieg bei steigenden Kriteriumswerten; empi-
3 risch relativ selten, aber zur Vereinfachung in vie-
len Nutzenmessungsmethoden als nherungweise
4 Abbildung ohne berprfung angenommen (Aus-
2 nahme: MAUT und EA mit expliziter berprfung
der Verlaufsform der Nutzenfunktion) (4)
5 unstetige:der Funktionsverlauf verndert an ei-
nem Grenzwert seine Struktur; typisch fr alle
Hygienefaktoren, die zunchst mit steigender
Ausprgung auch einen hheren Nutzen haben
1 (z.B. am Arbeitsplatz), aber jenseits eines sinnvol-
len Grenzwertes keine weitere Nutzensteigerung
mehr erbringen (5)
k
Zielexplikation und Bewertungskriterien 105
Diagramm IV/11
bersicht ber Methoden der eindimensionalen Nutzenmessung (nach Fishburn, 1967)
3. Gewichtete Rangreihe
Gebruchliche Verfahren der eindimensionalen Bei dieser Methode mssen die Alternativen fr jedes
Nutzenmessung Bewertungskriterium getrennt in eine Rangreihe ge-
bracht werden. Danach erfolgt die Gewichtung der Al-
1. Einfache Rangreihenbildung ternativen, wobei die schlechteste Alternative einen
Ziel dieser Methode ist es, die Bewertungsalternativen festen Wert (z.B. 10 Punkte) zugeordnet bekommt. Alle
bzgl. ihres Nutzens auf jeder Bewertungsdimension in anderen Alternativen mssen nun hierzu und unter-
eine Rangreihe zu bringen. Der Rangplatz der Alterna- einander bzgl. ihrer Ntzlichkeit auf dem Bewertungs-
tive kennzeichnet dann den Nutzenwert auf der ent- kriterium ins Verhltnis gebracht werden.
sprechenden Bewertungsdimension.
3. Identifizierung der Alternativen, die in die (Vorher mssen alle Werte normiert werden.)
Bewertung eingehen sollen.
4. Zusammentragen der relevanten Bewer- 10. Entscheidung: Wahl derjenigen Alternative
tungskriterien, anhand derer die Alterna- mit dem hchsten Ntzlichkeitswert ui.
tiven bewertet werden sollen.
5. Einordnung der relevanten Bewertungs-
Fr eine ausfhrliche Darstellung der multi-
kriterien in eine Zielhierarchie.
attributiven Nutzentechnik vgl. von Winterfeld
6. Gewichtung der Bewertungskriterien
(1974), Kaplan und Schwartz (1973), Wendt
7. Erstellung von Nutzenfunktionen fr jedes
und Vlek (1975).
einzelne Bewertungskriterium.
Unabhngig von Verfahrensdetails sollte
8. Feststellung des Ausprgungsgrad jeder zu
man sich als Evaluator stets bewut sein, da
bewertenden Alternative auf jeder Bewer-
auch numerisch erhaltene Nutzenwerte
tungsdimension (gleicher Skalenbereich fr
nichts an dem Faktum ndern knnen, da sie
alle Kriterien wichtig!).
letztlich subjektive Setzungen sind. Das Ergeb-
9. Bestimmung des Gesamtnutzens jeder zu be-
nis entsprechender Auswertungen ist streng ge-
wertenden Alternative nach folgender Formel:
nommen nicht ein wissenschaftlich erfater
Nutzenwert, sondern die Aussage Die Perso-
ui (Aj) = Summe (wi . ui (xij))
nen haben subjektiv folgenden Nutzen einge-
wobei u (Aj) = Gesamtnutzen schtzt oder Das Wahlverhalten der Personen
der Alternative Aj lt sich durch Zugrundelegung folgender
u (Aij) = Teilnutzen von xij Nutzenstruktur beschreiben. Nutzenaspekte
xij = Ausprgung der Alter- bleiben stets eine Sache der Setzung durch In-
native A auf dem i-ten dividuen, deren Subjektivitt auch nicht durch
wi = Gewicht des i-ten noch so elaborierte und objektive Erhebungs-
Kriteriums methoden beseitigt werden kann.
106 Zielexplikation und Bewertungskriterien
Diagramm IV/12
Prinzip der Pareto-optimalen Teilmenge
Nutzen 1
108 Zielexplikation und Bewertungskriterien
gehenden Abschnitten besprochen. Fr die Ar- ten angewandt; ein Beispiel im Zusammenhang
beit mit Experten besonders bewhrt hat sich mit der Curriculumsentwicklung gibt Huler
die sogenannte Delphi-Methode, die in Dia- et al., 1980.
gramm IV/13 dargestellt ist (vgl. Linstone &
Turoff, 1975; Bortz, 1984). Die anonyme Rck-
meldung ber die Angaben der Expertenkolle- 4.3.3. Entscheidungsfindung
gen vermeidet gruppendynamische Effekte, es durch Betroffene
fllt leichter, die von anderen vorgebrachten
Argumente ohne Emotionen zu prfen und seine Eigentlich sind die Betroffenen (aus wissen-
ursprngliche Aussage als Ergebnis solcher zu- schaftlicher Sicht meist Laien) jene Gruppe, die
stzlicher berlegungen ohne Gesichtsver- am ehesten befugt wre, bei Evaluations-
lust zu verndern. Leider ist dieses Verfahren fragestellungen eine Entscheidung zu treffen.
von den Kosten her aufwendig, und es wider- Das Problem dabei ist, da eine begrndete
spricht auch dem Selbstverstndnis vieler Wis- Auswahl oder Gestaltungsvorschlge doch eine
senschaftler wer gibt schon gerne zu, da er relativ weitgehende Sachkenntnisse der Grund-
auch in er Rolle als Sachverstndiger zu einigen lagen und Nebenfolgen voraussetzen, ber die
Themen dazu neigt oder doch zumindest nei- auch ein intelligenter und in der Sache enga-
gen knnte, auch sachfremde Einflsse wie gierter Laie im allgemeinen nicht verfgt.
Emotionen in seine Aussagen einflieen zu las- Dazu kommt noch, da Betroffene natrlich
sen? sehr dazu neigen, ihre persnlichen Nutzen-
Aus solchen Grnden wird die Delphi-Tech- aspekte besonders hoch zu veranschlagen und
nik (bisher) fr Evaluationsfragen leider nur sel- evtl. sogar massive Nachteile fr andere weni-
Diagramm IV/13
bersicht ber die Grundlagen der DELPHI-Technik (nach Bortz, 1984)
Diagramm IV/14
bersicht ber die Grundlagen der Planungszelle (nach Dienel, 1978)
Die Setzung von Zielen wie die Welt sein Diese Argumente sollten aber nicht als Abwer-
soll ist keine empirische Frage, sondern eine tung einer sorgfltigen Nutzenerhebung ver-
subjektive Entscheidung; es ist daher durch- standen werden. Auch heute noch drfte es
aus legitim, sich fr die Erreichung eines Zie- eher einen Mangel als ein bertriebenes Aus-
les auch bei (zunchst?) widersprechenden ma rationaler Entscheidungen geben, selbst
Evaluationsergebnissen politisch bzw. argu- bei der Verwendung von empirischen Evalua-
mentativ einzusetzen. tionsergebnissen.
Oft sind die Entscheider eingebettet in ein Es kommt immer wieder vor, da sich der
Netzwerk von Einflssen, und die von ih- Evaluator ber sachfremde Einflsse auf die
nen ausgewhlte Alternative wirkt auf- Projektdurchfhrung und Ergebnisverwertung
grund der Reaktion der Betroffenen auf die rgert, langfristig (vom Mittelalter bis heute) ist
Situation der Entscheider zurck. Dies ist aber eine evaluationsfreundliche Vernderung
typisch fr politische Manahmen (Ge- der Gesellschaft unverkennbar. Auch mu man
setzesvorhaben, Gestaltung von Schulsy- damit rechnen, in diesem Berufsfeld immer
stemen, Organisationsmanahmen der wieder Entscheidungstrgern mit offensichtlich
Verwaltung) oder die Arbeit besonders be- feudalstaatlich geprgten Denkstrukturen zu
deutsamer Organisationen (Parteien, Ge- begegnen (und dies keineswegs nur in Politik
werkschaften, Krankenkassen u..), in klei- und Verwaltung), doch kann gerade die Ex-
nerem Umfang auch in privaten Vereinen plikation der Zielsetzung und der Bewertungs-
wie etwa Berufsverbnden. In solchen Si- kriterien wesentlich dazu beitragen, den
tuationen bleibt die Bewertung von Al- Wirksamkeitsbereich solcher gesellschaftlicher
ternativen (insbesondere bei prospektiver Fossilien allmhlich einzuschrnken.
Zielexplikation und Bewertungskriterien 111
bersicht Kapitel 4:
Zielexplikation und Bewertungskriterien
4.1
Zielexplikationen
Mglichkeiten
Strikte Vorgaben der Zielsetzung Vorliegen einer gewissen Zielset- Auftraggeber hat nur eine sehr
durch den Auftraggeber zung durch den Auftraggeber. vage Vorstellung von den Zielen
Evaluator mu diese aber der Evaluation. Evaluation mu
konkretisieren und verbessern intensive Zielexplikation betreiben
Regelfall
Problem: Zielexplikation bei Vorliegen von Konflikten innerhalb des Auftrages
4.2
Bewertungsproze
Bewertungskriterien Nebenfolgenabschtzung Operationalisierungsfragen
Aufstellung einer Zielhierarchie Abschtzung der Nebenfolgen Operationalisierung der Bewertungs-
und Auswahl der passenden durch Untersuchung der Zielgrup- kriterien
Bewertungsdimensionen pen, ob Manahmen Konse- Inhaltliche und methodische
Hilfstechniken: quenzen fr die Handlungsplne Probleme
Brain-Storming der Zielgruppen haben knnte
Metaplan-Techniken Hilfsmittel:
Metaplan-Techniken
vertrauliche Interviews
4.3
Bewertungs- und Entscheidungshilfen
Verfahren der Nutzenbestimmung
Teilschritte der Nutzenbestimmung
eindimensional: mehrdimensional:
funktionale Verknpfung z. B. MAUT
Kriteriums-/Nutzenwert
Zusammenfassung der Nutzenwerte
zur Nutzenverrechnung
Linearkombinationen
pareto-optimale Teilmenge
multiple cut-off-Strategien
Wie schon im 1. Kapitel dargestellt, ist das Da fr diese Arten von Evaluation aber am ehe-
Berufsfeld Evaluation so heterogen, da eindeu- sten Hinweise in der vorhandenen Literatur
tige Vorschriften fr die Planung solcher Vor- verfgbar sind (siehe dazu etwa Prell, 1984;
haben nicht zu erstellen sind. Hinzu kommt Hellstern und Wollmann, 1984), wird im fol-
noch, da die Planung von Projekten naturge- genden von einem kommerziell orientierten
m eine Gestaltungsaufgabe ist, fr die es auch Evaluationsvorhaben ausgegangen.
im konkreten Einzelfall viele verschiedene Das folgende Kapitel ist nach dem zeitlichen
durchaus gute Lsungen gibt. Ablauf der Arbeit an einem Evaluationsprojekt
Um wenigstens einen ersten Einblick in die gegliedert, die Hauptpunkte dabei sind in Dia-
Planungsarbeit geben zu knnen, wird in den gramm V/1 zusammengefat.
folgenden Abschnitten von einem typischen
Fall, nmlich der Reaktion auf eine Projektaus- Diagramm V/1
schreibung, ausgegangen. Die Projektarbeit Besonders wichtige Punkte bei der Planung
beginnt dann mit der Angebotserstellung, wo- von Evaluationsprojekten
bei vor allem Fragen des Projektmanagements
(5.1.) wichtig sind. Kommt ein Auftrag zustande, Beginn der Projektarbeit
beginnt die eigentliche, intensive Vorbereitung
Angebotserstellung
(Design-Fragen, Abschnitt 5.2.) und darauf auf-
bauend die Vorbereitung der Auswertung (5.3).
Projektmanagement Informationsbeschaffung
Auf andere Auftragsverhltnisse bei der Evalua- Entwicklung eines vor-
lufigen Arbeitsplans
tion, etwa Zeit- und Kosten-
schtzung
Einholen eines einzigen Angebots bei einem
besonders vertrauten oder als besonders Designfrage Identifizierung u. ber-
kompetent geltenden Experten, prfung potentieller Str-
Finanzierung des Vorhabens aus Stiftungs- und Fehlerquellen
oder anderen Frderungsmitteln, Entwicklung eines Unter-
suchungsplanes
Planung einer Evaluation mit ausschlielich Auswahl und Applikation
hausinternen Mitteln, ber die evtl. der spezifischer Datenerhe-
Evaluator selbst im Rahmen seiner berufli- bungsverfahren
chen Zustndigkeit ohne finanzielles Risiko
(Vorbereitung der) Entscheidung fr be-
verfgen kann,
Auswertung stimmte Mae an
Durchfhrung des Vorhabens im Rahmen ei- Effektstrke
ner Diplomarbeit, o.. Wahl eines spezifischen
Selbstevaluation Auswertungsverfahrens
(z.B. lineare Modellan-
stze vs. qualitativer
sind einige der in den folgenden Abschnitten Auswertungstechniken)
dargestellten Ausfhrungen nicht anwendbar.
114 Planung von Evaluationsprojekten
Diagramm V/2
Auflistung des besonders relevanten Informationsbedarfes am Beispiel Werbestrategie
Anforderungen u. Auflagen von Seiten des Auftraggebers Restriktionen von Seiten der Auftraggebers
Klrung der Intention bzw. der Zielsetzung Definition des kalkulierten Zeit- und
Bercksichtigung der Firmenphilosophie Kostenvolumens
Verstndigung ber die Produkt- , Sortiments-, Erfragen von Kapazittsbeschrnkungen etc.
Distributions- und Finanzpolitik der Unternehmung
Abklrung der Konkurrenzsituation etc.
Strategien, Aufmachung
Erfolge, Defizite etc.
116 Planung von Evaluationsprojekten
Diagramm V/3
bersicht ber die Methoden der Projektplanung und -kontrolle
Methoden der Kostenplanung und -kontrolle Methoden der Zeitplanung und -kontrolle
nderungsverfahren Nutzenwertanalyse
Auftragsvergabe Planmige Berichte
Auerplanmige Planspiele
Berichte Prsentationen
Brainstorming Projektbesprechung
Checklisten Projekt-
Einsatzmittelber- strukturanalyse
sicht Relevanz- und
Dokumentation z.B. Entscheidungsbaum-
Projektstrukturplan verfahren
Graphen, Netze Szenario-Schreiben
Kontrollbesuche Sofort-Manahmen-
Morphologische Verfahren
Methoden Soll-Ist-Vergleich
Fr eine ausfhrliche Beschreibung der einzelnen Methoden siehe: Der Bundesminister fr Bildung, Forschung,
Wissenschaft u. Technologie (Hrsg.), 1977
118 Planung von Evaluationsprojekten
Diagramm V/4
Strukturanalyse zur Durchfhrung und Bewertung am Beispiel Werbekampagne
Diagramm V/6
Graphische Darstellung der Ergebnisse aus Struktur- und Zeitanalyse als Balkenplan
zum Beispiel Werbekampagne
Wochen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Vorgnge
Gesprche mit
Auftraggebern
Konzeptphase
Planungsentwicklung
Gesprche mit
1
Werbeagenturen
Kostenvoranschlge
Bewertung:
2
Auftragserteilung
Herstellung des
Werbematerials
Stellenausschreibung
fr Interviewer
Personalauswahl und
Schulung
Projektdurchfhrungs-
phase
Erhebungen;
Interviews
Auswertung;
Evaluation
Erluterung: Durch den Balkenplan knnen sog. Oder-Beziehungen (d.h. der Nachfolger eines Vorganges
X kann der Nachfolger Y oder Z sein) nicht dargestellt werden. Zur Illustration s. 1: Verlaufen
die Gesprche mit den Werbeagenturen erfolgreich, kann im Anschlu daran sofort die Pro-
duktion des Werbematerials beginnen; oder scheitern die Gesprche, so verzgert sich der
Anfangstermin fr die Herstellung. Eine Oder-Beziehung kann auch fr 2 angenommen
werden; die Bewertung der Kostenvoranschlge fhrt zur Auftragserteilung und zieht die Her-
stellung des Werbematerials nach sich oder die Kostenbewertung fhrt zur Einholung neuer
Kostenvoranschlge anderer Firmen.
Diagramm V/7
Graphische Darstellung eines Quick-Look-Plans zum Beispiel Werbekampagne
Wochen
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Vorgnge
Gesprche mit
Auftraggebern 1
Konzeptphase
Planungsentwicklung 2 3
Gesprche mit
Werbeagenturen
Kostenvoranschlge
Bewertung:
Auftragserteilung
Herstellung des
Werbematerials
Stellenausschreibung
fr Interviewer
Personalauswahl und
Schulung
Projektdurchfhrungs-
phase
Erhebungen;
Interviews
Auswertung;
Evaluation
Erluterung: Anmerkungen zu den Balken- und Terminverlagerungen: z.B. ermglicht der vorzeitige Ab-
schlu der Gesprche mit den Auftraggebern eine terminliche Verlagerung der Konzeptphase
(2), wodurch auch die Planungsentwicklung (3) zu einem frheren Zeitpunkt aufgenommen
werden kann. Durch die zustzlich zur Verfgung stehende Zeit kann diese dann profunder
durchgefhrt werden.
Diagramm V/8
Arbeitsschritte der Netzplantechnik nach (REFA, 1985)
Problemstellung
anderes
Nein Planungsverfahren
Ja
Netzplantechnik
Phase 5: Netzplanberechnung
Unter verschiedenen Wegen vom Anfang bis zum Endpunkt gibt es einen Weg von lngster Zeitdauer (sog. kriti-
scher Weg), dieser Weg bestimmt den frhestmglichen Zeitpunkt fr das Projektende, d.h. addiert man alle
Zeitvariablen, die den Vorgngen des kritischen Weges zugeordnet sind, so reprsentiert die Summe den frhest-
mglichen Endzeitpunkt
122 Planung von Evaluationsprojekten
Diagramm V/9
Graphische Darstellung eines Netzplans zum Beispiel Werbekampagne
3 4
B C D
(2) (2)
(13) (1-3)
1 2 5 6 7 10 11
A E F G J K
(1) (6) (1) (1) (5) (1) (1)
(0,52) (57) (0,52) (0,52) (46) (0,52) (0,52) (3)
12 (24)
8 9
H I L
(2) (1)
(13) (0,52)
Scheinvorgang
() deterministische Zeitvariable
() stochastische Zeitvariable
Zeitdauer die Voraussetzung sind, mit einem dieses Vorgehens sind in Diagramm V/8 darge-
vierten Projektschritt beginnen zu knnen, falls stellt. Die bertragung des Balkenplanes aus Dia-
dieser nicht auf Grundlage eines anderen, b- gramm V/6 in diese Darstellungsform gibt Dia-
licherweise lnger andauernden Projektfort- gramm V/9.
schrittes aufgebaut werden kann. Fr solche
komplizierten Flle und insbesondere fr eine Das Diagramm V/9 zeigt die logische Verknp-
sachgerechte Zeitabschtzung bei sehr komple- fung der Vorgnge und Ereignisse des Projek-
xen Arbeitsvorhaben wurde die sogenannte tes. Jedes Ereignis ist ber eine Kette von Vor-
Netzplantechnik (s.u.) entwickelt, die auch gngen mit dem Start- und Endpunkt
den Vorteil hat, EDV-gesttzten Optimierungs- verbunden.
abschtzungen zugnglich zu sein.
Ein Spezialfall der Balkenplantechnik ist der Zur Bestimmung des frhestmglichen Projekt-
sogenannte Quick-Look-Plan. Er dient zur Kon- termins ist es zunchst erforderlich, die Dauer
trolle der Projektfortschritte. Die geplante Ter- aller mglichen Wege, die (vom Startpunkt aus-
minsituation wird mit der tatschlichen ver- gehend) zum Endpunkt des Netzes fhren, zu
glichen (Soll-Ist-Vergleich), um Abweichungen berechnen. Dieses geschieht durch Addition al-
mglichst frhzeitig zu erkennen. ler (deterministischen) Zeitvariablen, die den
Das Vorgehen ist einfach. Unter den Balken Vorgngen eines Weges zugeordnet sind. Aus
mit der geplanten Dauer wird zustzlich der den verschiedenen Summenwerten wird dann
tatschlich bentigte Zeitaufwand eingetragen der Wert minimaler numerischer Gre
(fr ein Beispiel s. Diagramm V/7). selegiert; dieser reprsentiert die Dauer des sog.
kritischen Weges.
trge zu den laufenden Institutskosten, das BO F HH M BO 224 495 780 610 2110
Doppelte der zunchst kalkulierten Betrge aus- BO F M HH BO 224 400 780 349 1753
machen. Sozialwissenschaftlich gesttzte ange- BO M HH F BO 614 780 495 224 2113
wandte Ttigkeit ist bedauerlicherweise teuer. BO M F HH BO 614 400 495 349 1858
Eine sehr gute bung ist es, sich fr eine klei-
ne, berschaubare Arbeit (zum Beispiel die ei-
gene Diplomarbeit) die gesamten Kosten durch-
zurechnen, und dabei neben der eigentlichen Leider steigt der Aufwand mit der Zahl der Std-
Arbeitszeit auch die von der Universitt getra- te enorm an. Schon fr 10! = 3 628 800 Mg-
genen Aufwendungen, so insbesondere fr lichkeiten ist auch ein schneller Rechner sehr
hochspezialisierte Beratung, mit zu bercksich- gefordert, die Rechenzeiten knnen teurer wer-
tigen. Vor diesem Hintergrund werden die den als die Einsparungen durch die optimale
manchen Anfngern traumhaften Tagesstze Reihenfolge. In solchen Fllen kann man mit
von erfolgreichen freiberuflich ttigen Kollegen begrenzter Enumeration arbeiten. Man be-
verstndlich, die je nach Kalkulationsart und ginnt mit einer plausibel erscheinenden Rei-
persnlichem Marktwert durchaus bei der Hlf- henfolge (so wird niemand meinen, da man
te (und mehr) eines Monatseinkommens eines die Strecke MHHF whlen sollte) und ver-
Anfngers im ffentlichen Dienst mit akademi- sucht davon ausgehend, weitere Verbesserun-
scher Vorbildung liegen. gen durch Permutation zu finden.
Eine umfangreichere bersicht ber die hier
skizzierten Techniken gibt Ziegenbein, 1984;
Entscheidungsbaumverfahren Bramsemann, 1978.
whlte Trainer ein spezieller Seminarstil vor- ohne der Mglichkeit, bei schlechten Leistun-
geschrieben werden knnte, wre das fr die gen aufgrund der Beurteilung der Lehrer eine
Aussagekraft des Ergebnisses aufgrund der zu Klasse wiederholen zu mssen, was im Quer-
erwartenden Wechselwirkungen zwischen schnittsvergleich der Klassenstufen eine Verzer-
Trainerpersnlichkeit und didaktischem rung der durchschnittlichen Leistungsstrken
Konzept zweifelhaft) ergibt.
die Herstellung von Bedingungskombina- Es ist die Aufgabe des Evaluators, durch die
tionen, die gefhrliche Auswirkungen haben Gestaltung des Untersuchungsplanes und der
knnten (man denke etwa an einen Feld- Rahmenbedingungen alle denkbaren Str-
versuch zur Verkehrslenkung und die Kom- quellen so gering wie mglich zu halten. Es ist
bination des Verkehrszeichens Schule und aber unter den blichen quasi-experimentellen
Geschwindigkeitsbeschrnkung auf 120 Bedingungen faktisch nicht mglich, alle oder
km/h). auch nur alle plausibel erscheinenden Verzer-
rungen auszuschlieen, woraus sich die prinzi-
pielle Angreifbarkeit jeder zumindest greren
Statistische Mortalitt Evaluationsstudie im Feld ergibt.
Diagramm V/10
bersicht ber besonders wichtige Versuchsplne (vgl. Cook & Campell, 1976)
1 X 2 1 X+ 2
1 2 1 X
2
1 X 2 3 X 4 1 X 2 3 X 4
Selektives-Kohorten-Design
X 1. Kohorte 1 1. Kohorte
2. Kohorte X 1 2. Kohorte
Zeitreihenmodell mit
30 nicht-quivalenter Kontrollgruppe
Nachtestwerte
12345 X 5678910
10 12345 5678910
-10
-10 0 10 20 Vortestwerte Zeitreihenmodelle mit nicht-quivalenten
abhngigen Variablen
1a2a3a X4a5a6a
1b2b3b X4b5b6b
a 0,8
X1 X1 A1 A2
b 0,6
d c 0,55 0,5
e 0,45
X1 f X1 B1 B2
0,8
128 Planung von Evaluationsprojekten
teilung nach Zufall zu den verschiedenen lich zugesagter Leistungen (was ja ein wesentli-
Gruppen mglich. ches Element des Qualittsmanagement ist) zu
Studien, die wegen der hohen Bedeutung der berprfen, oder um Hinweise auf Schwach-
Ergebnisse unter Konsens aller Beteiligten stellen (in welchen Bereichen wurde die erwar-
trotz erheblicher praktischer Konsequenzen tete Leistung nicht erbracht?) zu geben. Es kann
randomisiert erfolgen knnen; typisch dafr aber daraus nicht abgeleitet werden, ob die eva-
sind etwa Prfungen von Pharmazeutika, luierte Manahme tatschlich die Ursache
wenn ein neues, vorgetestetes Prparat mit der Zielerreichung (oder der Zielverfehlung)
dem bisherigen Standardmittel im Doppel- war, da stets auf eine Vielzahl mglicher weite-
Blind-Versuch verglichen wird. Die Grenzen rer frderlicher oder das Ergebnis beeintrchti-
der zuflligen Zuteilung liegen dort, wo die gender Faktoren verwiesen werden kann. Fr
unmittelbaren Folgen des Treatments fr die manche Fragestellungen ist der Verweis auf sol-
Betroffenen gravierend sind (zum Beispiel bei che Drittvariablen allerdings nicht nahelie-
der Prfung des Nutzens einer Vollampu- gend, vor allem bei der berprfung von Lei-
tation gegenber einer brusterhaltenden stungen, die unmittelbar fr Kunden bzw.
Operation bei Brustkrebs). Leistungsempfnger erbracht wurden (wenn
Feldexperimente zu Fragen, die eine Grup- Teilnehmer ohne entsprechende Vorkenntnisse
penzuweisung nach (fast) zuflliger Auswahl zu einer drei-tgigen EDV-Schulung geschickt
erlauben, da die Probanden gar nicht wissen, werden, und danach die zugesagten Leistungs-
da sie an einer Evaluationsstudie mitwir- ergebnisse im Abschlutest erzielen, ist es kaum
ken; dies gilt etwa fr die Bewertung von ver- glaubhaft, da dies auf andere Faktoren als die
schiedenen Formen einer Seminargestaltung Trainingsmanahme selbst zurckgeht). Je we-
in der Weiterbildung bei zuflliger Aufteilung niger direkt aber die Wirkung der Manahmen
ohnehin vorhandener Parallelgruppen, das geprft wird, um so problematischer wird der
Erproben verschiedener Interviewtechniken mgliche Einflu von Zusatzaspekten. So wre
oder, mit gewissen Einschrnkungen bezg- etwa im gewhlten Beispiel die Feststellung des
lich der Gruppenquivalenz, bei Manah- Trainingserfolges an zugesagten Transferleistun-
men zur Verkehrslenkung. gen (also die tatschliche Nutzung der Lern-
inhalte in der beruflichen Praxis) schon wesent-
Solche Studien sind aus wissenschaftlich-me- lich weniger stringent auf das Training
thodischer Sicht natrlich besonders aussage- zurckzufhren, da positive Ergebnisse zum
krftig, sollten aber wegen der fr viele Frage- Beispiel durch die Hilfestellung von Vorgesetz-
stellungen unrealistisch hohen Anforderungen ten oder Kollegen erreicht werden knnen
nicht als die einzig zulssige Vorgehensweise (selbst bei einem vllig unzureichenden Trai-
angesehen werden. ning), und die Nicht-Erfllung der Ergebnis-
vereinbarung auch bei hoher Trainingsqualitt
durch Rahmenbedingungen (zu groer zeitli-
Sonderfall: berprfung der Zielereichung
cher Abstand zwischen Training und der tat-
Die hier diskutierten Designfragen stellen sich schlichen Mglichkeit der Nutzung der
im Prinzip nicht, wenn das Ziel der Evaluations- Trainingsergebnisse durch vorbergehend feh-
studie (zum Beispiel im Rahmen des Qualitts- lende technische Mglichkeiten am Arbeits-
managements, siehe Abschnitt 2.2.4) die Kon- platz, Widerstnde gegen die Nutzung der
trolle des Erreichens eines vorher festgelegten Trainingsinhalte durch eine zum Beispiel sub-
Ergebnisprofils ist. Da in diesem Fall keine ver- jektiv verschlechtert erlebte Arbeitssituation bei
gleichende Evaluation vorliegt, erbrigt sich die Anwendung der neuen Kenntnisse, Behinde-
Notwendigkeit, durch entsprechende Designs rung des Trainingstransfers durch Vorgesetzte
aussagekrftige Gruppenvergleiche zu sichern. oder Kollegen, die auf das Beibehalten der bis-
Allerdings mu man sich bei einem solchen herigen Verfahrensweisen drngen und sofort)
Ansatz darber im klaren sein, da die damit verursacht werden kann. Es empfiehlt sich da-
erzielten Ergebnisse keinerlei Aussagen ber her auch bei solchen Evaluationsstudien, die
Kausalursachen zulassen. Sie sind daher zum zunchst kein unmittelbares Designproblem
Beispiel gut geeignet, um die Erfllung vertrag- stellen, mgliche frdernde oder hemmende
Planung von Evaluationsprojekten 129
Aspekte rechtzeitig in den Untersuchungsplan tung wichtigsten Faktoren kombiniert, ergibt
aufzunehmen um damit zumindest korrelativ, sich der im Diagramm V/11 dargestellte Plan,
wenn auch nicht kausal-experimentell, zu ei- der gegen alle Prinzipien der Auswertbarkeit (im
ner weiteren Aufklrung des Bedingungsgefges Sinne des Allgemeinen Linearen Modells, vgl.
beitragen zu knnen. Ein solches Vorgehen ist dazu etwa Rochel, 1983) verstt. Die Ursache
insbesondere dann unverzichtbar, wenn die dafr ist natrlich nicht Inkompetenz oder
Zielsetzung formativer Art ist, also eine Verbes- bser Wille der Verantwortlichen, sondern die
serung der Gestaltung der evaluierten Manah- bei Evaluationsstudien im Feld kaum vermeid-
men erfolgen soll. bare Bercksichtigung wissenschafts- bzw.
untersuchungsexterner Faktoren. Was soll der
Evaluator zum Beispiel tun, wenn aufgrund
Grenzen der Realisierbarkeit von
programmatischer Einstellungen der verant-
Idealforderungen
wortlichen Bildungspolitiker die Gesamtschu-
Wie schwierig die Erfllung strenger Design- len in einem Bundesland praktisch nur in
forderungen selbst in sorgfltigen, mit hohem Ganztagsform realisiert wird, whrendem sich
Aufwand durchfhrbaren Evaluationsstudien Ganztagsschulen im gegliederten Schulwesen
ist, zeigen etwa die Konstanzer Studien zur nicht reprsentativ finden?
Gesamtschulevaluation in den Bundeslndern Auerhalb der summativen Evaluation kann
Niedersachsen, Hessen und Nordrhein-Westfa- man oft berhaupt nicht von einem Versuchs-
len. Selbst wenn man nur fr die Schulgestal- plan sprechen (etwa bei antizipatorischer Eva-
Diagramm V/11
Beispiel eines unvollstndigen, daher nicht auswertbaren Designs der Konstanzer
Studien (aus Wottawa, 1982)
a) Klasse 6
TS GS
Lehrer Lehrer
b) Klasse 9
TS GS
Lehrer Lehrer
luation), und fr viele Fragestellungen der for- eine Untersuchung nur deswegen als unwis-
mativen Evaluation entsprechen die realisier- senschaftlich abzulehnen und nicht durch-
ten Designs keinen vertretbaren Forderun- zufhren, weil sie aus unvermeidbaren, sach-
gen. Man denke etwa daran, da im Laufe eines inhrenten Grnden den Designforderungen
lngerfristigen Prozesses ein Therapeutenteam nicht voll entsprechen kann
die Details einer bestimmten Therapietechnik, nicht alles zu tun, um die fr die Vermei-
inklusive der dafr erforderlichen Indikations- dung von Strquellen sinnvollen Design-
stellung, optimieren mchte. Die Einhaltung forderungen soweit wie mglich zu errei-
von Versuchsplanbestimmungen, etwa eine chen
randomisierte Zuteilung von Personen, wrde eine verffentlichte Evaluationsstudie nur
vor allem bei einer ausfhrlichen Indikations- deswegen negativ zu charakterisieren, weil
stellung an der Verfgbarkeit vergleichbarer sie idealen methodischen Anforderungen
Probanden in einem berschaubaren Zeitraum nicht entspricht.
scheitern. Gleiche Probleme finden sich bei vie-
len Arten der berufsbegleitenden formativen Dieser letzte Punkt ist von besonderer prakti-
Evaluation, zum Beispiel bei der Verbesserung scher Bedeutung bei Projekten, die aus berge-
des didaktischen Vorgehens von Lehrern, Ver- ordneten Gesichtspunkten heraus kontrovers
nderungen im Fhrungsverhalten von Mana- beurteilt werden, was fr viele gerade gesamt-
gern oder die Fortentwicklung von Werbe- gesellschaftlich besonders relevante Vorhaben
manahmen. In diesen Fllen ist der zutrifft. Da sich bei greren Vorhaben im Re-
entscheidende Zweck der Datenerhebung nicht gelfall nicht vermeidbare Methodenschwchen
eine vergleichende Bewertung im Sinne des oder der Zwang ergeben, entweder den einen
Hypothesentestens, sondern soll primr heu- oder den anderen Nachteil in Kauf zu nehmen,
ristischen Wert haben, Hinweise auf mgliche ist eine darauf gesttzte nachtrgliche Kritik im
und sinnvolle Verbesserungsvorschlge liefern. Sinne einer Abwertung der Aussagekraft der
Solche dynamischen Prozesse widersetzen sich erreichten Ergebnisse praktisch immer mglich
im Regelfall einer wissenschaftlich exakten und damit letztlich nicht aussagekrftig. Das
Versuchsplanung. Problem ist, da es andererseits natrlich auch
Evaluationsprojekte gibt, die wesentlich
schlechter als notwendig durchgefhrt bzw.
Notwendig: Praktikable Kompromisse
weit berinterpretiert wurden und zu Schls-
Eine mglichst gute Kenntnis der Techniken sen kommen, die sich gerade auch aufgrund
der Versuchsplanung zur Vermeidung von Str- der Methodenschwchen wirklich nicht auf
effekten ist eine unverzichtbare kognitive die gefundenen Daten sttzen lassen. Ob es
Grundlage fr ein sinnvolles Arbeiten im Be- sich im Einzelfall um eine professionell sehr
reich von Evaluationsprojekten. Man darf nur gute, unter den gegebenen Rahmenbedingun-
nicht den Fehler machen, sklavisch an den gen ptimale Designlsung handelt oder eine
entsprechenden, von der Grundlagenforschung auch fachlich sehr schwache Studie vorliegt,
her geprgten Vorbildern zu hngen. Diese sind kann auf der Basis des verffentlichten Berich-
zwar bei entsprechenden Voraussetzungen op- tes oft nicht entschieden werden, da dort die
timale Bearbeitungswege, aber in keiner Weise schwierige Hintergrundsituation hufig nicht
die einzige Mglichkeit, heuristisch verwertbare mehr ausreichend dargestellt ist (bzw. der Ver-
Informationen zu sammeln. Nur fr den relativ dacht entstehen kann, da Schwierigkeiten
kleinen, aber das Bild des Evaluators zumindest aufgebauscht werden, um unntige methodi-
in der Literatur stark prgenden Teilbereich sche Schwchen im Nachhinein zu rechtferti-
summativer Evaluation knnen Idealvorstel- gen). Fr die Abwgung zwischen den beiden
lungen bezglich der Designs gelegentlich wirk- beln Ungerechtfertigte Kritik und Kritik-
lich realisiert werden. In den brigen Fllen lose Hinnahme nicht vertretbarer Studien
stellen die Designforderungen hufig nur eine fehlen derzeit professionelle Standards, die
Denkhilfe in Form eines nicht-erreichbaren Ide- vielleicht bei einer qualitativen und quantita-
als dar, dessen Annherung man soweit wie tiven Zunahme von praktisch ttigen Evalua-
mglich versuchen sollte. Falsch wre es: toren allmhlich entstehen werden.
Planung von Evaluationsprojekten 131
5.2.3 Datenerhebungsverfahren Die Konstrukte, fr die die jeweiligen Test-
verfahren Operationalisierungen darstellen,
Auf die besondere Problematik einer sinnvol- sind berwiegend nach den Bedrfnissen der
len Definition der jeweiligen Bewertungs- Forschung oder der Diagnostik ausgewhlt;
kriterien wurde bereits im Abschnitt 4.2.3 ver- sie decken oft nicht den Operationalisie-
wiesen. Fr die konkrete Erhebung der jeweils rungsbedarf von Evaluationsprojekten ab. Als
ausgewhlten Kriterien stellt sich das aus Beispiel: Um einen Schler mit Schwierigkei-
grundlagenwissenschaftlicher Sicht bedauerli- ten im Sprachbereich zu helfen, ist fr die
che Problem, da nicht selten gilt: Je exakter Differentialdiagnose ein die einzelnen Berei-
die Art des Meverfahrens, um so geringer der che der Sprachbeherrschung ausdifferenzie-
praktische Nutzen. rendes Testverfahren von groem Vorteil
aber wie fat man Wortschatz, Satzstruktur,
Beherrschung der Zeitformen, Wortflssig-
Tests bzw. Fragebgen
keit etc. zu einer Mazahl zusammen, die die
Evaluation zweier verschiedener Lehrbuch-
Aus Grnden der Exaktheit besonders wn-
varianten gestattet?
schenswert wren sorgfltig konstruierte (psy-
Der Zusammenhang zwischen Testwert und
chologische) Testverfahren, die einer problem-
Nutzen (vgl. Abschnitt 4.3.1) ist entweder
adquaten Testtheorie gengen. Es drfte aber
berhaupt nicht bekannt oder dem Auftrag-
kaum Evaluationsprojekte geben, in denen es
geber zumindest schwer vermittelbar; was
mglich ist, den dafr erforderlichen Konstruk-
wrde es zum Beispiel an praxisrelevanten
tionsaufwand zustzlich zu den sonstigen Ar-
Nutzen bedeuten, wenn ein Fhrungskrfte-
beiten abzudecken. Man ist daher im Regelfall
training im Durchschnitt bei den Teilneh-
darauf angewiesen, auf vorhandene Meverfah-
mern eine Steigerung des Faktors Q2 im 16
ren oder einfachere Konzepte zurckzugreifen.
PF um einen Staninwert (eine Normierungs-
Die blichen, am Markt erhltlichen Testver-
art, bei der den Prozentrngen 0 bis 10 der
fahren sind aus naheliegenden Grnden entwe-
Wert 1, zwischen 11 und 20 der Wert 2 etc.
der fr Forschungszwecke (mit starker Anlehnung
zugeordnet wird) erbringt?
an theoretisch-psychologische Konstrukte) oder
fr angewandt-diagnostische Fragen entwickelt
In Anbetracht dieser Sachlage gibt es nur weni-
worden, nicht fr Evaluationszwecke. Dies be-
ge Bereiche, in denen der Einsatz von wissen-
reitet insbesondere folgende Probleme:
schaftlich konstruierten allgemeinen Testver-
Oft geringe nderungssensitivitt; meist sind fahren wirklich empfehlenswert ist. Hufig
die Items so ausgewhlt, da sie auch eine finden sich solche Evaluationsprojekte in den
hohe Testwiederholungsreliabilitt zeigen, USA fr den pdagogischen Bereich, da dort
und damit gerade nicht kurzfristig fluk- Tests auch als schulische Prfungen eingesetzt
turierende, leichter einer Intervention zu- werden (vergleichbar damit ist in der Bundesre-
gngliche Aspekte erfassen (besonders deut- publik Deutschland etwa die Bewertung der
lich im Intelligenzbereich). Ausbildung verschiedener medizinischer Fakul-
Die Lnge der Testverfahren ist auf die Be- tten anhand der bundesweit einheitlichen
drfnisse der Einzelfalldiagnostik abgestellt, Prfungen im ersten medizinischen Staatsex-
so da sie fr manahmebezogene Evaluati- amen), zum gleichen Zweck knnen auch die
on (die auf der Basis von Gruppendaten er- Bundeslnder mit Zentralabitur (in manchen
folgt) hufig unter Effizienzaspekten zu auf- Bundeslndern, zum Beispiel Baden-Wrttem-
wendig sind; die Reduktion der Testlnge berg, werden in jedem Jahr fr das ganze Land
verndert aber, soweit nicht aufgrund des je- gleiche Abituraufgaben gestellt) diese Arbeiten
weiligen Verfahrens von einer annhernden heranziehen, ohne da dort der Anspruch an
Parallelitt der einzelnen Items auszugehen Testkonstruktion bei den Prfungsaufgaben
ist, auch die inhaltlichen Aspekte und beein- erfllt wre. Fr manche therapeutische Inter-
trchtigt somit stark die Bezugnahme auf die ventionen bei Kindern knnen Entwicklungs-
wissenschaftlichen Grundlagen und sonsti- bzw. Reifetests eingesetzt werden, bei Erwach-
ge mit dem Test gewonnenen Erfahrungen. senen wird man hufig mit speziellen Konstruk-
132 Planung von Evaluationsprojekten
tionen (etwa GAS, vgl. Diagramm IV/8) vorteil- tensbeobachtung und mndliche Interviews)
hafter arbeiten. wesentlich kostengnstiger ist. Einige beson-
Das Bestreben vieler Evaluatoren, objektive ders wichtige Probleme, wie sie bei Fragebgen
Testverfahren einzusetzen, ist verstndlich. wissenschaftlich untersucht sind, finden sich
Man mu aber auch die Grenzen der Mglich- im Diagramm V/12. Auch bei sorgfltiger Gestal-
keiten dieser Instrumente zumindest bei ihrem tung kann natrlich nicht verhindert werden,
derzeitigen Entwicklungsstand sehen, und es da man immer nur die (Selbst-) Einschtzung
kann sinnvoller sein, mit einer weichen, we- der Befragten erfhrt und damit der Verhaltens-
niger exakten und elaborierten Methode ein in- und Praxisbezug immer angezweifelt werden
teressantes Kriterium zu messen als mit hoher kann.
Przision etwas, was inhaltlich nicht zu den ei-
gentlichen Evaluationszielen pat. Allerdings
ist der Verteidigungswert von sog. bewhrten Beobachtung
Testverfahren gegen sptere Kritik hher als bei
ad-hoc konstruierten Instrumenten. Die Vermeidung der Realittsferne, die man
Testergebnissen und Fragebgen zuschreiben
Eine etwas weniger fundierte Memethode ist kann, ist mit Methoden der Verhaltens-
der Versuch, im Rahmen des Evaluations- beobachtung mglich (vgl. etwa Knig, 1972).
projektes Fragebgen fr die interessanten Diese Methoden sind dann ideal, wenn der
Variablen selbst zu konstruieren. Oft ist dies das technische Aufwand bewltigbar ist und sich
einzig denkbare Vorgehen, da die schriftliche die Evaluationskriterien wirklich auf beob-
Vorgabe von Fragebgen gegenber den Wer- achtbare Verhaltensweisen beziehen. Typische
ten unter besprochenen Alternativen (Verhal- Beispiele:
Diagramm V/12
Probleme der Fragebogenkonstruktion (nach Knig, 1972)
Klrung der Frage, welche Ausknfte von den Befragten gewnscht werden
Klrung der Frage, an welche Personen-(Gruppen) sich der Fragebogen richten soll
Wahl des testtheoretischen Ansatzes (Modellwahl)
Auswahl der einzelnen Fragen; die verschiedenen Einzelfragen mssen so aufeinander abgestimmt werden, da
eine logische Fortentwicklung der Fragen gegeben und somit ein einheitliches Ganzes vorhanden ist.
Formulierung der Fragen
1. Wahl assoziationsarmer, unbelasteter und subgruppenspezifischer Formulierungen sowie einfacher und klarer
Syntax
2. Bei heiklen Themen: Formulierung mu so gewhlt werden, da der Befragte bei bestimmten Antworten keinen
Prestigeverlust befrchten mu und somit Abwehrmechanismen auf ein Mindestma beschrnkt werden knnen
3. Verwendung offener vs. geschlossener Fragen
4. Wahl der mglichen Antwortalternativen (bei geschlossenen Fragen) Dichotomie vs. Auswahl zwischen meh-
reren Mglichkeiten
5. Verwendung indirekter oder direkter Frage (Face-Validitt fr die Befragten)
6. Probleme, die sich bei indirekten Fragen ergeben: Selbstdarstellungstendenzen oder Fragebeantwortung im
Hinblick auf soziale Erwnschtheit von Seiten der Befragten, Widerstnde des Respondenten, etc.
7. Probleme die sich bei direkten Fragen ergeben: Probleme, die Gltigkeit derartiger Fragen zu bewerten
8. Fragen mssen so formuliert werden, da die Befragten zur Mitarbeit bereit sind
9. Fragen drfen nicht die ggf. vorhandenen Erwartungen des Testkonstrukteurs widerspiegeln
Anzahl der Fragen und Stellung der Fragen in der Fragenfolge (Abfolge von den einfacheren zu den komplizier-
teren Fragen, Bercksichtigung potentieller Ermdungseffekte bei exzessivem Fragenumfang
Aufzeichnung der Fragebogendaten
1. Feldverschlsselung
2. wrtliche Aufzeichnung
3. Gewichtung der verschiedenen Antwortalternativen
Planung von Evaluationsprojekten 133
Verhaltenstherapien, etwa hinsichtlich pho- mierung der jeweiligen Manahmen geben
bischer Reaktionen knnen, mssen von Beobachtern im Nachhin-
Trainings in Sozialtechniken, etwa Diskus- ein in die objektiv beobachtbaren Fakten hin-
sionsverhalten, Kommunikationstechniken eininterpretiert werden, was natrlich zu Ver-
oder Gesprchsfhrung zerrungen fhren kann.
Lehrverfahren oder Lehrmethoden mit ko-
gnitiven Inhalten und unmittelbarer Hand-
lungsrelevanz, etwa die Bedienung von Interviewtechniken
Maschinen, EDV-Anlagen oder auch die
Postkorb-bung aus dem Assessmentcenter. Fr die Erfassung der subjektiven Erklrungen
fr das Verhalten sowie generell fr sehr kom-
Fr diese Beispiele wird es angemessen sein, das plexe kognitive Strukturen und deren Vernde-
Verhalten unmittelbar (etwa die Reaktion auf rungen ist das offene oder teils strukturierte
einen vorher massiv Angst auslsenden Reiz, Interview ein sehr aufwendiges, aber unver-
Aufbau und Durchfhrung eines Vortrages, die zichtbares Hilfsmittel. Hinweise dazu gibt Dia-
Art des Umganges mit der Maschine) zu erhe- gramm V/13.
ben anstatt indirekt ber Fragebgen oder Tests Bei normaler Gesprchsfhrung bleibt fr die
Meinungen bzw. Kompetenzen zu erfassen. Interpretation der subjektiv gesehenen Zusam-
Was Verhaltensbeobachtungen aber nicht di- menhnge ein fr Evaluationsfragestellungen
rekt leisten knnen, ist die Erfassung der sub- manchesmal nicht vertretbarer Spielraum des
jektiv gesehenen Zusammenhnge und Ursa- Interviewers, so da sich der Einsatz spezieller
chen fr die jeweilige Verhaltensweise. Diese Techniken empfiehlt, wenn gerade die Vern-
Strukturen, die vor allem Hinweise auf Opti- derung solcher subjektiven Theorien das Ziel
Diagramm V/13
Das Interview Grundbegriffe und Probleme (Knig, 1972)
von Interventionsmanahmen sind. Dafr ste- an Einsparungen sind durchaus realistisch. Die-
hen u.a. die Verfahren zur Verfgung, die schon ses Vorgehen sollte daher insbesondere dann
in 4.2.3 (Diagramm IV/6 und IV/7) besprochen gewhlt werden, wenn die Probanden stark be-
wurden. lstigt oder gar geschdigt (und sei es nur in
Form des Unterbleibens einer an sich mgli-
Die Flle der im sozialwissenschaftlichen Be- chen besseren Frderung) werden. Da dadurch
reich eingefhrten Erhebungsmethoden konnte berdies wesentliche Kosten eingespart werden,
hier nur in dieser groben Form vorgestellt wer- sollte sie fr viele Evaluationsstudien das be-
den, ausfhrlichere Einblicke gibt etwa Bortz, vorzugte statistische Herangehen sein. Aller-
1984. dings gibt es auch Grnde, die dagegen spre-
chen:
Die Kosten der Datenerhebung sind nicht im
5.3 Auswertungsverfahren Vornherein kalkulierbar; die Probandenzahl
hngt ja, im Gegensatz zu festen Stich-
Die vorgesehenen Auswertungsverfahren soll-
probengren, von den erst zu erhebenden
ten schon in der Planungsphase mglichst ge-
Resultaten ab.
nau mit dem Auftraggeber abgesprochen wer-
den zumindest dann, wenn dieser berhaupt
Gerade wegen der Einsparung von Personen
liefert die Sequentialstatistik oft schon signi-
bereit ist, sich auf solche Detailfragen einzu-
fikante Ergebnisse, wenn erst eine der b-
lassen. Ganz besonders gilt die Notwendigkeit
lichen Gepflogenheiten nach zu geringe
der Vorabsprache fr die prinzipielle Entschei-
Stichprobengre erreicht ist; die konkreten
dung, ob berhaupt statistisch vorgegangen
Erfahrungen zeigen, da die Auftraggeber
werden soll oder eine eher beschreibend-ver-
manchmal erhebliche Schwierigkeiten ha-
stehende, hermeneutische Vorgehensweise ge-
ben, eine solche zu kleine empirische Stu-
wnscht wird.
die zu akzeptieren (vor allem dann, wenn
Ein wichtiger Punkt, sofern man statistisch
die Ergebnisse nicht der Vorerwartung ent-
vorgehen mchte, ist die Entscheidung zwi-
sprachen); hier ist rechtzeitige Aufklrung
schen festen Stichprobengren oder Sequen-
vor Bekanntsein der Ergebnisse unverzicht-
tialstatistik. Bei der letzteren wird nicht von
bar!
vorn herein die Anzahl der zu untersuchenden
Personen festgelegt, sondern die Hypothesen-
Die Sequentialstatistik erfordert mehr Vor-
berlegungen, insbesondere bezglich der
prfung schrittweise, nach jeder neu untersuch-
Alternativhypothesen: Dies kann, vor allem
ten Person nochmals durchgefhrt. Darin liegt
bei mehrdimensionalen Ho Schwierigkeiten
ein erheblicher Vorteil: Bei festen Gruppen-
machen.
gren kann es sein, da eine Signifikanz nur
deswegen nicht auftritt, weil man ein paar Pro-
banden zuwenig eingeplant hat. Tatschlich Fr weitere Details zur Sequentialstatistik siehe
sind ja die Trennschrfe-Abschtzungen, die die etwa Wald, 1947; Bauer et al., 1986. Auf die
Grundlage fr eine sinnvolle Bestimmung der Schwierigkeiten, diese Verfahren trotz offen-
Gruppengren bieten knnten, meist nur sichtlicher theoretischer und pragmatischer
schwach fundiert und werden berdies in der berlegenheit im sozialwissenschaftlichen Be-
Forschungspraxis nur selten berhaupt einge- reich verstrkt einzufhren, verweist Diepgen,
setzt (s. dazu Gigerenzer, 1989). Ebenso schade 1987.
ist es, wenn man viel zu viele Personen unter- Es ist natrlich unmglich, im Rahmen eines
sucht, etwa mehrere hundert, und die statisti- allgemeinen Evaluationsbuches alle methodi-
sche Absicherung der Effekte schon mit einem schen Anstze im Detail darzustellen. Im fol-
Bruchteil davon mglich gewesen wre. genden finden sich zunchst einige Ausfhrun-
Da die Sequentialstatistik garantiert, da ge- gen ber das Problem von Effektstrken (5.3.1),
rade soviele Daten erhoben werden, wie man die leider hufig durch bloes Signifikanztesten
zur Entscheidungsfindung bentigt, reduziert ersetzt werden; daran anschlieend werden ei-
sie die durchschnittlich erforderlichen Proban- nige fr den Evaluationsbereich wichtige Be-
denzahlen ganz enorm, Angaben ber ca. 2/3 sonderheiten linear-statistischer Verfahren be-
Planung von Evaluationsprojekten 135
sprochen (5.3.2), da diese fr die Auswertung die Mittelwert und Standardabweichung festle-
von Evaluationsprojekten eine quantitativ be- gen und die Einzelergebnisse in Relation dazu
sondere Bedeutung haben. Im letzten Abschnitt umformen.
(5.3.3) wird ein kurzer berblick ber wichtige Welche Festlegung von Mittelwert und Stan-
qualitative Verfahren gegeben, die insbesondere dardabweichung man whlt, ist aber im Prin-
fr die Auswertung weicher Daten (Nominal- zip willkrlich. Hufig (vgl. Lienert, 1969) sind
skalen oder berhaupt keine explizite Messung, z-Werte (Mittelwert 0, Standardabweichung 1),
wie sie bei Interviewergebnisse hufig ist) Be- T-Werte (50 bzw. 10) und Standardwerte (100
deutung haben. bzw. 10). Ein z-Wert von 1 entspricht also ei-
Fundierte Einblicke in die Flle im Rahmen nem T-Wert von 60 (Mittelwert eine Standard-
der sozialwissenschaftlichen Evaluationsfor- abweichung) und einem Standardwert von 110.
schung relevanten Methoden geben etwa Cook Sachlich sind alle drei Darstellungen quiva-
und Reichard, 1979 oder Bortz, 1993. lent.
Diese Vergleichbarkeit gilt aber nicht fr die
Aufnahme der Information bei Laien oder gar
5.3.1 Beurteilung der Effektstrke den Medien. Hat etwa ein Schulsystem in ei-
nem Bewertungskriterium gegenber der
Fr viele Fragestellungen im Zusammenhang Normstichprobe einen Wert erhalten, der eine
mit Evaluationen gengt es nicht zu wissen, halbe Streuung unter dem Mittelwert der
da ein Effekt besteht, sondern man mchte Normstichprobe liegt, und das andere System
auch Angaben darber, wie gro zum Beispiel ein genau dem Norm-Mittelwert entsprechen-
der Unterschied zwischen zwei Programm- des Ergebnis, so wrde dies in z-Werten 0,5
varianten ist. Leider ist diese Frage viel kompli- bzw. 0,0 bedeuten. Fr Laien wre schon die
zierter, als man zunchst meinen sollte. Die Vorstellung einer negativen Schulleistung ab-
mangelnde Vertrautheit mit der (fr psycholo- surd, und da ein Leistungswert von genau
gische bzw. sozialwissenschaftliche Meinstru- Null etwas Gutes sein knnte, wre fr viele
mente selbstverstndlichen) Skalenproblematik schwer vorstellbar. Betrachtet man nur die Dif-
in der ffentlichkeit bzw. bei den Nutzern der ferenz der beiden Systeme, so entsteht bei ei-
Projektergebnisse, die Verwechslung von Signi- nem Wert von 0,5 eigentlich der Eindruck ei-
fikanz und Relevanz, sowie die hufige Fehlin- nes vernachlssigbaren (Hinter dem Komma)
terpretation von statistischen Kennzahlen Unterschiedes. Etwas anderes wre der gleiche
durch Laien erschwert wesentlich eine sachge- Sachverhalt mit Standardwerten. Fr das zwei-
rechte Kommunikation der Evaluationsergeb- te System klingt die Angabe von 100 (statt 0)
nisse. eigentlich nach vlliger Soll-Erfllung, und eine
Differenz von fnf Punkten (vermutlich als
5% vllig fehlinterpretiert) klingt ja halbwegs
Normierte Skalenwerte beachtlich.
Gerade unter dem Gesichtspunkt der ffent-
Sofern man von einer sorgfltigen Messung lichkeitswirkung hat es sich in den USA einge-
durch Tests, Fragebgen oder Verhaltens- brgert, die Evaluationsergebnisse von Schul-
beobachtungen ausgehen kann, ist in sozial- untersuchungen (zum Beispiel alljhrliche
wissenschaftlichen Projekten das Meniveau Leistungsvernderungen) auf einer Skala anzu-
auf Intervallskalenniveau erreichbar. Bei diesen geben, deren Mittelwert 350 und die Standard-
sind beliebige lineare Transformationen mg- abweichung 50 betrgt. Auf dieser Skala wre
lich, ohne da die inhaltliche Aussage vern- das hier beispielhaft verwendete Ergebnis 325
dert wrde. zu 350, und 25 Punkte weniger ist ja durchaus
Man bentzt dies, um die an sich ohne Zu- beachtlicher als 0,5 z-Werte, zumindest fr den
satzinformation nicht interpretierbaren Ereig- Laien.
nisse (was heit es, wenn in einem Test eine
Probandengruppe im Mittel 18, die andere 25 Es kann keine richtige Normierung geben, da
Punkte erreicht hat?) zu standardisieren. Am die entsprechenden Setzungen bei Intervall-
gebruchlichsten sind dafr Vorgehensweisen, skalen eben willkrlich sind. Vielleicht wre es
136 Planung von Evaluationsprojekten
sinnvoll, sich auf eine Skala bei ffentlichen prgungsgraden auf den Parameterdimensio-
Darstellungen zu einigen, damit allmhlich ein nen) genau eine vorher prognostizierte Kugel
Gefhl fr die Bedeutung von zum Beispiel 10 zu ziehen. Das Auftreten eines signifikanten Er-
Standardwerten entsteht. Verwenden sollte gebnisses hngt daher im wesentlichen von der
man die normierten Werte bei der Ergebnis- Trennschrfe des Vorgangs ab, also insbeson-
darstellung vor allem dann, wenn die Adressa- dere von der Genauigkeit der Messung und der
ten ber eine entsprechende Vorbildung ver- Anzahl der herangezogenen Versuchspersonen.
fgen. In jedem Fall sind normierte Werte Mit steigender Stichprobengre fhren auch
gnstiger als die Roh-Punkte, da diese auch von immer kleinere Unterschiede zwischen den zu
Fachleuten ohne Zusatzinformationen (die eine evaluierenden Manahmen zu einem signifi-
implizite Normierung ermglicht) nicht inter- kanten Resultat.
pretiert werden knnen. Im Bereich der (psychologischen) Grundla-
genforschung ist dieses Phnomen deswegen
nicht allzu gravierend, weil aus Grnden des
Signifikant = relevant? Aufwandes meist nur eine sehr kleine Zahl von
Probanden untersucht werden kann, so da in
Zustzlich zum Ausma gefundener Unter- einer an sich statistisch nicht vertretbaren, aber
schiede mu geklrt werden, ob diese vielleicht praktisch plausiblen Schluweise von einer Si-
nur durch Zufallsschwankungen in der Stich- gnifikanz (unter der Nebenbedingung eben
probenziehung in der gefundenen Gre auf- kleiner Stichproben) auf das Bestehen eines
treten knnen, also nicht als gesicherte, von nicht unerheblichen Unterschiedes zwischen
Null verschiedene Befunde zu interpretieren den Versuchsgruppen indirekt geschlossen wer-
sind. Dazu bedient man sich der bekannten den kann. Da aber bei zahlreichen Evaluations-
Methoden der statistischen Inferenz. Die (in projekten die Stichproben sehr gro sind (man
vieler Hinsicht bedauerlicherweise) hufigste denke etwa an die vielen hundert Schler bei
statistische Testtheorie fr die Auswertung psy- Schulvergleichsuntersuchungen oder die bli-
chologischer oder sozialwissenschaftlicher Stu- cherweise 1000 bis 2000 Personen umfassen-
dien geht auf Neyman-Pearson zurck. Die den Umfragen fr Rckschlsse auf allgemein
Grundidee (vgl. dazu ausfhrlicher Bortz, 1979) wirksame Manahmen wie etwa Aufklrungs-
solcher Auswertungen in den meisten Anwen- oder Werbekampagnen) werden auch viele
dungen aus dem Grundlagenbereich ist, da sachlich irrelevante Unterschiede sehr hoch
man zunchst eine Hypothese (Ho ) aufstellt, an signifikant. Die statistische Signifikanz kann
die man ohnedies nicht glaubt (zum Beispiel in solchen Fllen nur eine notwendige Bedin-
kein Unterschied zwischen verschiedenen Ma- gung (wenn der Effekt nicht einmal gegenber
nahmen) und sich dann freut, wenn die schon zuflligen Unterschieden gesichert ist, sollte
inhaltlich unplausible Null-Hypothese auf- man ihn nur uerst vorsichtig interpretieren)
grund der empirischen Beobachtungen falsifi- aber niemals als hinreichend verstanden wer-
ziert werden kann (es also doch Unterschiede den. Fr ausfhrlichere Darstellungen zum Si-
zwischen den Manahmen gibt). Die Freude ist gnifikanz-Testen vgl. etwa Clau und Ebert,
voll berechtigt, da sie im wesentlichen aussagt, 1972; Siegel, 1956.
da der Untersucher ausreichend viel und
grndlich gearbeitet hat unter den blichen
Stetigkeitsannahmen (kontinuierliche Para- Interpretation deskriptiver Kennzahlen
meterdimension, unendliche Population) ist
die Chance, da es tatschlich keinen Unter- Um unabhngig bzw. ergnzend zur zufalls-
schied zwischen den Manahmen in der kritischen Absicherung deskriptive Aussagen
Population gibt (also die Differenzen aller ber die Strke der nachgewiesenen Effekte er-
Populationsparameterwerte exakt null sind) halten zu knnen, wurden in der Statistik ver-
verschwindend gering bzw. berhaupt null. Sie schiedene Mazahlen entwickelt, die aber auch
entspricht der Wahrscheinlichkeit, aus einer zum Teil Probleme mit sich bringen, wenn man
Urne mit unendlich vielen Kugeln (entspre- sie falsch anwendet oder unzulssig interpre-
chend den unendlich vielen mglichen Aus- tiert (s. dazu Stelzl, 1982).
Planung von Evaluationsprojekten 137
Auch bzgl. dieser Kennziffern bestehen gele- berlegungen ber die unterschiedlich intel-
gentlich erhebliche Interpretationsunsicher- lektuelle Anregung eines Einzelkindes, des
heiten. Um nur 2 Beispiele herauszugreifen: zweiten, in die Familie hinzukommenden
Kindes usf., unter Beachtung der Altersab-
Ein t-Wert von 2,0 oder 3,0 gilt schon als stnde). Auf dieser Basis konnte ein Modell
massives Ergebnis; tatschlich ist aber
erarbeitet werden, dessen Vorhersagen mit
selbst dann die berschneidung zwischen
den Testwerten zu 0,94 korrelierte, was ber
den beiden verglichenen Gruppen betrcht-
der erwartbaren Testreliabilitt liegt. Die Er-
lich (s. Wottawa, 1981). Wie man dort sieht,
klrung dafr ist, da die Daten von fast
sind auch sehr hoch signifikante Ergebnisse
400 000 Rekruten verrechnet wurden und
mit ganz massiven berlappungen behaftet,
das Modell nicht fr Einzeldaten, sondern
so da eine Verallgemeinerung des gesicher-
fr die Mittelwerte der Kombinationen von
ten Mittelwertunterschiedes auf Unterschiede
Familiengre und Geburtsreihenfolge Vor-
der Einzelpersonen nur sehr bedingt erfol-
hersagen leistet. Jeder der 35 Datenpunkte
gen kann. Das Ergebnis darf dann nicht lau-
fate also die Werte von Tausenden Einzel-
ten Die Angehrigen der Gruppe A zeigten
beobachtungen zusammen, was die Fehler-
hhere Werte als die der Gruppe B sondern
varianz entsprechend stark reduziert. Auf die-
Der Mittelwert der einen Gruppe ist hher
ser Basis gewonnene Korrelationen werden
als der der anderen. Es ist manchesmal nicht
mit steigender Stichprobengre nicht aus-
ganz einfach, den Auftraggeber (oder bei poli-
sagekrftiger, sondern verlieren im Gegensatz
tisch relevanten Manahmen gar die interes-
zur Anschauung gerade mit hheren Fall-
sierte ffentlichkeit) auf die fr praktische
zahlen immer mehr Wert als Ausdruck der
Bewertung von Ergebnissen nicht unerheb-
Effektstrke eines Phnomens. Dieses eigent-
lichen Unterschiede dieser beiden Formulie-
lich elementare statistische Phnomen ist fr
rungen hinzuweisen und den Sachverhalt
die Evaluationsforschung deswegen von be-
aufzuklren.
sonderer Bedeutung, da dort meistens Ma-
Selbst so vertraute Mae wie die Korrelation nahmen auf der Basis von Mittelwerten (etwa
machen erhebliche Schwierigkeiten; man von Schulklassen oder therapeutischen Indi-
denke an das Problem, einem sozialwissen- kationsgruppen) bewertet werden und sich
schaftlichen Laien klarzumachen, warum der daher die Verwendung entsprechender
gleiche Sachverhalt einmal mit einer Korre- Bestimmtheitsmae auf dieser Grundlage an-
lation von 0,7 (fr den Laien: ber Zwei- bietet.
drittel), das andere Mal mit einem Be-
stimmtheitsma von 0,49 (weniger als die Neben dieser statistisch-technischen Effekte,
Hlfte) beschrieben wird oder was eigent- die zu einer Fehlinterpretation meist im Sinne
lich der Begriff Varianzaufklrung bedeu- einer berschtzung der Aussagekraft der Stu-
tet. Methodisch interessanter ist die Mglich- die fhren, scheint die Verarbeitung multivaria-
keit, insbesondere multiple Korrelationen ter Information Schwierigkeiten zu machen. So
(oder Bestimmtheitsmae) durch die Ver- ist man zum Beispiel gewhnt, eine durchaus
wendung von Mittelwerten anstelle von Ein- brauchbare Information ber eine Stichprobe
zeldaten in der Regressionsgleichung nahezu durch ein Ma der Zentraltendenz, insbeson-
beliebig zu erhhen. Da bereits durch das dere den Mittelwert, zu erhalten. Es dominiert
bloe Ausmitteln von Mefehlern bei einem die (implizite) Vorstellung, da sich die Me-
solchen Vorgehen die Varianz der abhngi- werte meistens irgendwie eingipfelig, wenn
gen Variablen stark reduziert wird, knnen schon nicht unbedingt nach der Gau-Vertei-
dabei Korrelationen in der Grenordnung lung (die ja aus diesen Grnden auch Normal-
der Testreliabilitt (auf der Basis der Einzel- verteilung genannt wird) um diesen Wert
personen berechnet!) auftreten, ein Beispiel herum gruppieren. Diese Vorstellung stimmt
dieser Art findet sich etwa bei dem Kon- schon im univariaten Fall oft nicht (so ist zum
fluenzmodell (Zajonc, 1979). Bei diesem wird Beispiel der Mittelwert bei extrem zwei-
die Intelligenz auf Grund der Familien- gipfeligen Verteilungen besonders weit von al-
konstellation vorhergesagt (vor allem durch len tatschlich gefundenen Mewerten ent-
138 Planung von Evaluationsprojekten
fernt), vllig unbersichtlich wird es im multi- ter, bersichtlicher Form geben, um die sptere
variaten Fall. Als Anschauungshilfe werden ge- Zusammenfassung in dieser Form zu erleichtern.
legentlich optische Darstellungen verwendet,
etwa die Cherkoff-Gesichter. Dies sind einfa-
che Strichzeichnungen, die Ausprgungen der 5.3.2 Auswertungsverfahren auf
Einzelheiten (etwa der Augenabstand, die Au- der Basis allgemeiner linearer
gengre, Krmmung des Mundwinkels etc.) Modellanstze
entsprechen den Ausprgungsgraden der ein-
zelnen Variablen (siehe dazu etwa Daumen- Mchte man mehr als einfache Gruppen-
fang, 1984). Solche Darstellungen knnen vergleiche auf der Basis elementarer Effekt-
Fehlinterpretationen, etwa bezglich der Be- strken, wird im sozialwissenschaftlichen Be-
schreibungsgte (die oft berschtzt wird) reich fr die Analyse von Strukturen in den
einer Stichprobe durch das multivariate gefundenen Daten meist auf Spezialflle des all-
Mittelwertsprofil, vermeiden helfen. gemeinen linearen Modells zurckgegriffen. (s.
Leider ist es relativ leicht, die mit den einzel- etwa Rochel, 1983 oder Moosbrugger, 1978).
nen Maen der Effektstrke verbundenen Pro- Auf den ersten Blick sind diese Anstze nicht
bleme aufzuzeigen; viel schwieriger ist es, posi- nur beliebt, sondern auch sachlich sinnvoll, da
tive Empfehlungen zu geben, da jede dieser sie in einfacher Weise auch die Erfassung kom-
Kennziffern ihre Vor- und Nachteile hat. Es plexer Sachverhalt ermglichen. Speziell fr die
bleibt nur, die jeweiligen Besonderheiten fr Evaluationsforschung, aber nicht nur dort, ist
das konkrete Projekt abzuwgen und vor allem mit diesem Ansatz aber auch eine Reihe von
durch vorbereitende Information zu versuchen, Schwierigkeiten verbunden:
bei den Abnehmern der Ergebnisse wenig-
stens ein wenig Verstndnis der Interpretations-
Diese Modellform ist populationsabhngig
(im Sinne fehlender Teilgruppenkonstanz,
schwierigkeiten zu erwecken, was allerdings in
vgl. Wottawa, 1987).
keiner Weise einfach ist.
Die Ergebnisse knnen nur deskriptiv, nicht
funktional interpretiert werden.
Meta-Analysen
Das Modell ist stets als Einheit zu sehen, das
Herausgreifen von Teilergebnissen ohne Be-
achtung des Gesamtrahmens ist nicht zuls-
Die im Abschnitt 5.2 dargestellten Schwierig-
sig.
keiten von wirklich aussagekrftigen Evaluations-
projekten lassen es in diesem Forschungsfeld
besonders wichtig erscheinen, die Ergebnisse Populationsabhngigkeit
(gerade in Form der Effektstrken) mglichst
vieler verschiedener Studien zu einer Global- Das Problem der Populationsabhngigkeit wur-
aussage zusammenzufassen. Dies setzt die Ein- de insbesondere im Zusammenhang mit der
haltung bestimmter methodischer Vorgehens- Faktorenanalyse diskutiert (vgl. dazu Fischer,
weisen voraus. Ausfhrliche Darstellung dieser 1974), trifft aber in gleicher Weise fr alle An-
Techniken finden sich bei Fricke und Treinies, stze des allgemeinen linearen Modells zu. Da
1985. Fr den psychologisch-sozialwissenschaft- die Modellgltigkeit immer fr eine vorgegebe-
lichen Bereich besonders interessante Ergebnisse ne Population (aus der der speziell ausgewerte-
von Meta-Analysen geben Hunter et al. (1982), fr te Datensatz als Stichprobe genommen ist)
die Wirkung von Psychotherapien Grawe (1990). postuliert wird, ist eine bertragung der Mo-
Zusammenfassende Auswertungen dieser Art dellergebnisse auf Teilgruppen daraus nicht zu-
ersetzt natrlich nicht die Detailarbeit in den lssig und wrde zu massiven Fehleinschtzun-
einzelnen Evaluationsprojekten, sind aber eine gen fhren.
wertvolle und unverzichtbare Grundlage fr all- Wieweit dieses Problem fr die Evaluations-
gemeine Empfehlungen. Es wre anzustreben, forschung strt, hngt davon ab, ob sich die
da alle publizierten Evaluationsprojekte die fr evaluativ untersuchten Manahmen auf Ein-
eine sachgerechte Aufarbeitung in Meta-Analy- zelpersonen (die ja immer Teile einer Popula-
sen erforderlichen Angaben in zusammengefa- tion sind) bezieht oder ob vordefinierte, sach-
Planung von Evaluationsprojekten 139
lich sinnvolle Populationen den Manahmen (fr die Population), aber nicht funktional ver-
ausgesetzt werden. Interessiert man sich etwa standen werden knnen. So hngt zum Beispiel
im Rahmen einer pdagogisch-psychologischen das Verhalten eines Klienten whrend eines
Fragestellung fr die Zusammenhangsstruktur Therapieverlaufes in keiner Weise davon ab,
verschiedener Einflugren bei Hauptsch- welche anderen Patienten irgendwann einmal
lern im Gegensatz zu Realschlern (Hesse, mit seinen Daten gemeinsam fr die Projekt-
1982), so ist die Population der jeweiligen Sch- auswertung verrechnet werden. Trotzdem wird
lerschaft durch Sachaspekte definiert. Mchte je nach Zusammensetzung der Daten fr die
man diese Population als ganze weiter untersu- Auswertung aus dem im vorigen Absatz darge-
chen, etwa mit dem Ziel der Evaluation von stellten Grnden einmal die Beziehung zwi-
Manahmen, die eine als nicht optimal er- schen emotionaler Befindlichkeit und Dauer
scheinende Zusammenhangsstruktur zwischen der Therapie sehr eng sein, das andere Mal ver-
Variablen gnstig beeinflussen sollen, sind schwindend gering. Gleiches gilt fr verwandte
entsprechende pfadanalytische oder LISREL- Verfahren, etwa auch fr die Faktorenanalyse.
Modelle u. U. sehr ntzlich. Gleiches gilt fr Da die Zahl der fr die Beschreibung der Ergeb-
Vergleiche zwischen verschiedenen Populatio- nisse sinnvollerweise erforderlichen Faktoren
nen. So konnte etwa Hesse in der oben zitier- ebenfalls von einer Populationsdefinition ab-
ten Arbeit deutliche strukturelle Unterschiede hngt, ist die Intelligenz oder Persnlich-
zwischen Haupt- und Realschule nachweisen. keit eines Menschen je nach der durch den
Vergleichbar sind viele Fragestellungen aus dem Untersucher willkrlich zu setzenden Popula-
sozialwissenschaftlichen Bereich, in denen die tionen einmal durch sehr viele Faktoren zu be-
Populationen Parteien, Verbnden, Industrie- schreiben (bei homogenen Gruppen), das an-
betrieben oder sogar ganzen Staaten entspre- dere Mal gengen wesentlich weniger (bei
chen. Typische Gegenbeispiele finden sich im heterogenen Populationen). Diese Artefakte
Bereich der Einzelfallintervention (zum Beispiel machen es auch unmglich, solche (linearen)
bei psychologischen Therapietechniken oder Auswertungen als eine ausreichende Grundlage
pdagogischen Manahmen). Zeigt sich etwa fr Prognosen fr Vernderungen von Einzel-
ein fr die Bewertung der Evaluationsergebnisse fllen abzuleiten (whrenddem es durchaus
wichtiger Zusammenhang zwischen Intelligenz mglich ist, durchschnittliche bzw. gruppen-
und Lernsteigerung durch die Manahme, bezogene Vernderungen halbwegs sicher in
kann dieser je nach Definition der Population Trendberechnungen auf der Basis von Regres-
fr die Modellanwendung nahezu beliebig ma- sionsgleichungen vorherzusagen).
nipuliert werden. Whlt man als Population In manchen Evaluationsprojekten ist man in
eine Gruppe von Schlern mit relativ hnlicher besonderer Weise auf funktionale Modelle fr
Intelligenz, wird auch ein an sich starker Einzelflle angewiesen. Beispiele dafr sind
Zusammenhang als Folge der Reduktion der etwa formative Evaluationen von ber-
true-score-Varianz bei gleichbleibender Fehler- wachungs-oder Steuerungsanlagen (wo die In-
varianz in den Zusammenhangskennziffern na- formationsverarbeitung bzw. sensomotorische
hezu verschwinden; whlt man eine Populati- Koordination des Bedieners mglichst exakt zu
on zum Beispiel aus zwei Extremgruppen modellieren wre) und bei anderen ergonomi-
(besonders hoch- bzw. niedrig-intelligente schen Fragestellungen, zum Beispiel der Opti-
Schler), wird wegen der dann erfolgten massi- mierung von Computersoftware. Fr Steue-
ven Erhhung der Varianz der true-scores bei rungseinrichtungen haben sich insbesondere
sonst gleichem Sachverhalt eine wesentlich bes- Modelle auf der Basis der regelungstechnischen
sere Modellanpassung resultieren. Anstze bewhrt, die zu einer Beschreibung des
Verarbeitungsprozesses auf der Basis von Diffe-
rentialgleichungsmodellen fhren (fr An-
Deskription, nicht Funktionsanalyse wendungsflle in der mathematischen Soziolo-
gie siehe etwa Coleman 1956). Beispiele fr die
Diese Populationsabhngigkeit ist auch einer funktionale EDV-Modellierung von relevanten
der Grnde, warum Auswertungen auf der Wissens- bzw. Denkstrukturen finden sich bei
Grundlage des linearen Modells nur deskriptiv Kleinmuntz, 1963; 1972.
140 Planung von Evaluationsprojekten
Ein besonders eindrucksvolles Beispiel dafr inhaltlichen und dem methodischen Vorgehen
ist die Plan-Analyse (Grawe und Caspar, 1984), voraus.
die vor allem fr Anwendungsflle aus dem Be-
reich der Therapie und Therapie-Evaluation
entwickelt wurde. Die Grundidee dabei ist, da Verstehen
komplexe Strukturen (zum Beispiel Handlungs-
plne, das Verfahren lt sich aber natrlich Der im strengsten Sinn qualitative Ansatz ist
auch auf jede andere Art von Strukturbezie- ein rein verstehend-interpretatorisches Vorge-
hungen anwenden) dadurch bersichtlicher hen. Diese Methodik ist in vielen geisteswis-
gemacht werden, da vom Untersucher die je- senschaftlichen Bereichen unverzichtbar, etwa
weils paarweisen Beziehungen erarbeitet wer- bei der Interpretation von Kunstwerken oder
den und das Programm dabei hilft, daraus eine Gedichten, dort wurden auch Arbeitstechniken
nachvollziehbare Gesamtstruktur (etwa in dazu entwickelt. Fr die empirische Evalua-
Form hierarchischer Entscheidungsablufe oder tionsforschung ist dieses Vorgehen aber von
Organisationsstrukturen) aufzubauen. Anstze untergeordneter Bedeutung, man wrde z-
dieser Art knnen eine sehr wertvolle Hilfe sein, gern, ein solches Projekt zum Beispiel nur auf
um die Erfassung und insbesondere die ber- einer verstehenden Beschreibung einiger Tie-
sichtliche Prsentation komplexer Befunde in feninterviews aufzubauen. Auch zeigen Erfah-
qualitativ orientierten Evaluationsstudien zu rungen im Bildungsbereich, da die ffentliche
beschreiben. Sie sollten aber wegen der relati- Akzeptanz rein beschreibender Arbeiten gering
ven Willkrlichkeit immer nur heuristisch-for- ist.
mativ, nicht als endgltig-summatives Ergeb- Trotzdem kann bei vielen Projekten nicht auf
nis dargestellt werden. eine subjektiv-spekulative Interpretation ver-
Da die notwendigen technischen Hilfen, ne- zichtet werden, vor allem bei formativen Eva-
ben den EDV-Programmen auch die Einschu- luationen. Es wre unvertretbar, die oft feststell-
lung in ihre sachgerechte Nutzung, bei quali- baren, wenn auch zunchst nicht geplanten
tativen Verfahren noch wesentlich weniger und daher auch nicht quantitativ erfaten Hin-
verbreitet sind als fr quantitativ-statistische weise auf Optimierungsmglichkeiten nur des-
Methoden, sollte vor der endgltigen Fest- halb nicht zu nutzen, weil man dafr keine
legung solcher Auswertungsmethoden in der Auswertungsstatistiken vorlegen kann. Man
Planungsphase die Verfgbarkeit entsprechen- sollte aber solche persnlichen Eindrcke, Mei-
der Ressourcen gesichert sein. Auch mu der nungen und Vorschlge deutlich als solche
Arbeitsaufwand relativ hoch veranschlagt wer- kennzeichnen und nicht den Eindruck erwek-
den, und insbesondere ist er nicht delegierbar. ken, sie seien durch objektivierbare Fakten ab-
Der vorwiegend inhaltlich-wissenschaftlich gesichert. Manchesmal ist es zur Vermeidung
ausgerichtete Projektmitarbeiter kann fr die solcher Miverstndnisse sogar besser, Hinweise
rein statistische Datenanalyse die entsprechen- auf dieser Grundlage nur in einem persn-
den Arbeiten (weitgehend) an Spezialisten de- lichen Gesprch mit dem Auftraggeber weiter-
legieren, qualitative Auswertungsverfahren set- zugeben und nicht in den offiziellen Bericht
zen aber eine enge Abstimmung zwischen dem aufzunehmen.
Planung von Evaluationsprojekten 143
bersicht Kapitel 5:
Planung von Evaluationsprojekten
5.1
Projektmanagement
Wichtige Informationen im Vorfeld oder zu Beginn des Projektes:
Informationen ber Rahmenbedingungen
Erstellung eines Arbeitsplans
Zeit- und Kostenplan
5.2
Designfragen
Fehlerquellen: Reifung, Nicht-quivalenz von Vergleichsgruppen, Mortalitt im statistischen Sinne
Untersuchungsplne Datenerhebungsverfahren
Quasi-Experimentelle Designs Psychologische Tests
gnstig in Evaluationsstudien Fragebgen
Verhaltensbeobachtung
Echte Experimentelle Designs Offene oder teilstrukturierte
in Evaluationsstudien kaum Interviews
anwendbar
Sonderfall Qualittsmanagement
gnstig, um vertraglich zugesagte
Leistungen zu berprfen
keine Rckschlsse auf Kausal-
ursachen mglich!
5.3
Auswertungsverfahren
Unterscheidung Sequentialstatistik oder feste Stichprobengre
Je sorgfltiger die Planungsarbeiten durchge- fhren kann), und die vor allem im wirtschafts-
fhrt wurden, um so weniger prinzipielle Pro- nahen Bereich sehr elaborierten Darstellungs-
bleme wird die Durchfhrung des konkreten hilfen (Medien bei Vortrgen, optische Auflok-
Projektes machen. Trotzdem wre es eine Illu- kerung) werden an der Universitt nur selten
sion, auerhalb von sehr kleinen und ber- in vergleichbar intensiver Weise gepflegt. Hin-
schaubaren Projekten von einer reibungslosen weise zu solchen Fragen gibt Abschnitt 6.3.
Durchfhrung auszugehen. Zumindest bei ln-
gerfristigen Vorhaben sind Schwierigkeiten im
Bereich der Organisation zu erwarten, typische 6.1 Organisatorische Fragen
Beispiele und Manahmen fr deren partielle
Behebung werden im Abschnitt 6.1 diskutiert. Die wichtigsten Organisationsprobleme finden
Weniger mit Unsicherheiten behaftet ist die sich im Bereich des Personals sowohl bei den
sachgerechte Durchfhrung der Auswertungs- Projektmitarbeitern, als auch bei Auftraggebern
arbeiten, doch mu man auch dort auf eine oder anderen fr die Durchfhrung erforderli-
sorgfltige Fehlerkontrolle und die Einhaltung chen Kontaktpersonen (zum Beispiel Lehrer,
der Vertraulichkeits- bzw. Datenschutzbestim- Verwaltungsbeamte etc.). Zumindest fr die ei-
mungen achten. Bei aller Mhe aber nicht ver- genen Mitarbeiter kann man einige Schwierig-
meidbar ist das prinzipielle Problem, da von keiten vermeiden, wenn man rechtzeitig auch
der unbersehbaren Vielzahl der denkbaren deren Einschulungsbedrfnisse und ihre per-
Auswertungen nur ein kleiner Teil erfolgen snlichen Interessen, zum Beispiel im Hinblick
kann und diese Auswahl stets mit dem Vorwurf auf ihre weitere berufliche Entwicklung, bei der
von Manipulation rechnen mu. Fragen die- Projektplanung und der Personalfhrung be-
ser Art werden im zweiten Abschnitt dieses Ka- achtet (6.1.1). Darber hinaus mu man sich
pitels besprochen (6.2). im klaren sein, da grere Vorhaben nicht
ohne explizite Kontrolltechniken durchgefhrt
Am Schlu des Evaluationsprojektes steht meist werden knnen, wenn man vermeiden will,
eine schriftliche, oft durch eine mndliche Pr- da sich am Ende einer zum Beispiel zweijhri-
sentation ergnzte Berichtlegung an den Auf- gen Arbeitsphase nicht mehr behebbare Pro-
traggeber, ggf. auch an andere Instanzen (zum bleme auftrmen und u.U. das ganze Projekt
Beispiel ffentlichkeit, Schulleiter). Die damit ergebnislos abgebrochen werden mu. Einige
verbundenen Darstellungs- und Kommunika- Hinweise, die eine entsprechend sorgfltige Ein-
tionsprobleme werden von Akademikern ohne arbeitung natrlich nicht ersetzen knnen, fin-
einschlgige Erfahrung oft unterschtzt. Man den sich im Abschnitt 6.1.2.
lebt innerhalb einer universitren Bezugs- Nahezu alle Organisationsprobleme lassen
gruppe in einem fr Auenstehende schwer sich lsen, wenn man rechtzeitig an ihr Auftre-
nachvollziehbaren Abstraktionsniveau, einer ten denkt, also eine (in den Evaluations-Begrif-
fachspezifischen Begriffsbildung (die leider fen gem Diagramm II/2) antizipatorische In-
nicht nur manchmal unverstndlich ist, son- put-Evaluation fr das eigene Projekt mit
dern auch zu Miverstndnissen bei Laien ausreichender Aussagekraft anstellt.
146 Durchfhrung von Evaluationsstudien
Bei aller Sorgfalt mu trotzdem davon ausge- Bei befristeten Projekten wird die Situation
gangen werden, da sich zum Teil vorherseh- noch durch regionale Mobilittseinschrn-
bare, zum Teil aber vllig berraschende Kata- kungen erschwert, da viele Interessenten
strophen ergeben, die ein bei aller Sorgfalt der zgern, fr vielleicht nur ein Jahr ber gr-
Planung doch sehr flexibles Krisenmanagement ere Entfernungen hinweg den Wohnort zu
erfordern. Einige Beispiele finden sich in 6.1.3. wechseln.
drfnisse des Partners zu erkennen, auch emo- des jeweiligen Projektbudgets, also ohne Be-
tional zu akzeptieren und bei der Durchsetzung rcksichtigung der zugeschlsselten Gemeinko-
der eigenen Ziele so weit wie mglich zu be- sten, gar nicht so seltene Fehler sind:
rcksichtigen. Die besonderen Arbeitsbedin-
gungen an kleinen privaten Instituten sollte
Keine Bercksichtigung der Lohnneben-
kosten (vgl. Kapitel V, Einleitung)
man bei der persnlichen Stellensuche stark
beachten. Viele Absolventen, die in einer stark
Kalkulation der Projektarbeiten auf der Basis
eines 52-Wochen-Jahres; im Durchschnitt ist
formell gegliederten groen Organisation sich
wegen Urlaubs- und anderen Ausfallzeiten
zu sehr eingeschrnkt und zu wenig in ihrer
der deutsche Arbeitnehmer nur 43 Wochen
Individualitt beachtet fhlen, knnen bei sol-
im Jahr produktiv ttig; werden etwa Ur-
chen kleinen Arbeitgebern mehr Entfaltungs-
laubszeiten bei der Planung nicht beachtet,
mglichkeiten finden. Wer Sicherheit, starke
kann dies zu einem ganz erheblichen Kosten-
Arbeitsteilung oder hierarchischen Aufstieg
faktor (Ablsung des Urlaubsanspruches
sucht, fhlt sich vermutlich in groen Institu-
bzw., sofern berhaupt mglich, die Bezah-
tionen wohler.
lung von Ersatzkrften) werden;
Keine Reserven fr die berbrckung von
Ausfllen (vorzeitige Kndigungen, Mutter-
6.1.2 Kontrolltechniken des
schaftsurlaub, lngere Erkrankungen);
Projektverlaufes und des
Keine rechtzeitige Einplanung von (inflati-
Konfliktmanagements onsbedingten) Lohn- und Preissteigerungen.;
Grere Evaluationsprojekte mit lngerer Lauf-
Besondere Probleme knnen auftreten, wenn
zeit knnen auch von genialen Projektleitern
mit dem Auftraggeber kein Festpreis, sondern
nicht ohne eine regelmige Rckmeldung
zumindest in Teilen der Ersatz der tatschlichen
ber die Einhaltung von
Aufwendungen verabredet wurde. Dies kann
Zeitplanung zum Beispiel dann erforderlich sein, wenn sich
Kostenrahmen die Kosten mancher Arbeitsschritte in der
Vereinbarte Qualittsstandards Planungsphase nicht realistisch abschtzen las-
sen oder wesentlich von dem spteren Verhal-
durchgefhrt werden.
ten des Auftraggebers selbst abhngen. Beispiele
sind etwa die teilweise mhevollen und mit
Relativ einfach ist dies bzgl. des Zeitablaufes,
Dienstfahrten verbundenen Einholungen von
wenn bei der Projektplanung ein detaillierter
Zustimmungen von Eltern, Lehrern und Sch-
Zeitplan (vgl. Diagramm V/6) erarbeitet wurde. In
lern bei Schuluntersuchungen, oder die u.U.
diesem Fall mu man nur sicherstellen, da die
langwierigen Kommunikationsprozesse zwi-
einzelnen Teilschritte nicht ber Gebhr ber-
schen der technischen Entwicklungsabteilung
zogen und dadurch die Pufferzeiten zu frh auf-
und den Projektmitarbeitern bzgl. der Erarbei-
gebraucht werden. Ein wenig schwieriger ist es
tung einer neuen Produktvariante auf der Basis
fr den nur-sozialwissenschaftlich ausgebil-
vorlufiger Projektergebnisse im Falle einer for-
deten Projektleiter, sich auch ein sachgerechtes
mativen Produktevaluation. In solchen Fllen
Bild ber die tatschlich entstandenen Kosten
mssen die Bestimmungen des Auftraggebers
zu erarbeiten. Zwar wird es im Regelfall nicht
(zum Beispiel Hchstbetrge fr bernach-
notwendig sein, umfangreiche formalisierte
tungs- und Verpflegungsspesen, Kilometergeld,
Kontrolltechniken wie bei Wirtschaftsprojekten
anzurechnendes Stundenhonorar) zustzlich zu
blich (vgl. dazu Ziegenbein, 1984; Bramse-
der eigenen Kalkulation beachtet werden.
mann, 1978; Whe, 1982) einzusetzen, aber
eine regelmige (evtl. wchentliche) Gegen-
berstellung der bis zum jeweiligen Arbeits- Die laufende Kontrolle der dem Auftraggeber
schritt geplanten Ausgaben, der durch Vertrge zugesicherten Qualittsstandards kann in for-
eingegangenen Zahlungsverpflichtungen und malisierter Form nur fr die eher quantitativen
den bereits tatschlich verausgabten Betrgen Teile der Projektarbeit (Rcklauf von Frageb-
sollte selbstverstndlich sein. Selbst innerhalb gen, Verweigerungsraten von mndlichen In-
Durchfhrung von Evaluationsstudien 149
terviews, Ausflle durch fehlende Zustimmung 48-Stunden-Dauerschlafes; eine andere Institu-
von zum Beispiel Schulen und Kliniken) durch- tion hat die Kooperation mit einem Institut ein-
gefhrt werden. Hinweise auf entsprechende gestellt, nachdem alle an einem Experiment zur
Verfahren gibt etwa der Bundesminister fr For- Optimierung von Beipack-Zetteln beteiligten
schung und Technologie, 1977. Die Sicherung weibliche Versuchspersonen am nchsten Tag
der eher qualitativen Anforderung wie Erfolg wegen belkeit arbeitsunfhig waren, obwohl
der Interviewerschulung, Informationsaus- die verschiedenen Beipack-Varianten aus-
schpfung, sicherstellende Kodierung offener schlielich mit einem Placebo kombiniert ge-
Antworten oder umfassend aussagekrftige geben wurden und damit tatschliche Medi-
Datenauswertung bleibt whrend der Projekt- kamentenfolgen ausgeschlossen waren.
arbeit meist dem subjektiven Eindruck des
Leiters, der auf der Basis seiner persnlichen Nicht-vorhersehbare Reaktanz; so mute etwa die
Erfahrung das laufende mit erfolgreich abge- empirische Evaluation eines Studienganges ei-
schlossenen Projekten vergleichen kann, ber- ner Hochschule abgebrochen werden, weil sich
lassen. die Studenten des Fachbereiches geschlossen
weigerten, als Interviewpartner zur Verfgung
Eine bersicht ber einige Kontrolltechniken zu stehen. Die Ursache war, da der Unter-
findet sich im Diagramm V/3 (vgl. Abschnitt suchungsleiter als Finanzier des Evaluations-
5.1.3). projektes das zustndige Landes-Wissenschafts-
ministerium (fr die Studenten damals ein
Feindbild) und nicht, wie es auch faktisch rich-
6.1.3 Unerwartete Strflle tig gewesen wre, die Hochschule selbst als Auf-
traggeber genannt hatte.
Prinzipiell mu man davon ausgehen, da na-
hezu jede denkbare Katastrophe im Verlaufe ei- berlappung des Untersuchungsdesigns mit ande-
nes lngerfristigen Evaluationsprojektes auch ren Zielsetzungen; so fanden sich in einer auf
tatschlich eintreten kann. Typische Beispiele: zwei Jahre geplanten Evaluation verschiedener
Formen von Arbeitsgestaltung am Ende der Pro-
nderung der Zielsetzung des Projektes; Ursachen jektphase nur noch zwei Personen in der Be-
dafr kann ein anderer Verwertungszusammen- dingungskombination, in der sie aufgrund der
hang sein (vgl. dazu etwa die Szenario-Technik, Untersuchungsplanung htten sein sollen, die
Diagramm IV/3), ein Personalwechsel beim Auf- brigen waren entweder auf eigenen Wunsch
traggeber mit entsprechend unterschiedlicher (Schichtwechsel, bevorzugte Zusammenarbeit
Schwerpunktsetzung (als konkretes Beispiel: mit bestimmten Kollegen, vielleicht auch Ab-
Pltzliche Aufgabe des vorher als unverzichtbar lehnung der zufllig zugeteilten Arbeitsform)
bezeichneten Grundsatzes, alle Unternehmens- oder aufgrund von gem Erfordernissen der
teile als Einheit im Hinblick auf die cooperate Arbeitsorganisation erfolgten nderungen
identity aufzufassen und die PR-Manahmen nicht mehr in der entsprechenden Design-
auf dieser Grundlage zu optimieren) oder Ent- Zelle.
fallen der eigentlichen Untersuchungsgrund-
lage (etwa bei der formativen Evaluation einer Das Auftreten inakzeptabler Methodenartefakte; so
Werbekonzeption, wenn von der Konkurrenz wurden in einer Studie zu verschiedenen Mg-
ein in jeder Hinsicht berlegenes Produkt ber- lichkeiten der Wohnungsgestaltung auch un-
raschend auf den Markt gebracht wird). tersucht, wie hoch die vermutliche Verweil-
dauer in den einzelnen Wohnungsformen fr
Pltzliches Auftreten nicht bekannter oder zu- Personen mit verschiedenem Alter, Lebenslauf-
mindest vom Auftraggeber verschwiegener zyklus und dgl. sein wrde; als Folge des ver-
Nebenwirkungen; als ausschlielich der Praxis wendeten multipel-linearen Regressionsan-
entnommene Beispiele: Versumen einer satzes ergab sich fr alle Personen mit einem
Staatsprfung einer studentischen Versuchsper- Einzugsalter von ber 55 eine negative progno-
son bei der Erprobung der therapeutischen Wir- stizierte Verweildauer, was infolge des Fehlens
kung eines Psychopharmakons als Folge eines rechtzeitiger Qualittskontrollen erst sehr
150 Durchfhrung von Evaluationsstudien
Keines der hier genannten Beispiele ist erfun- Fehler knnen sich in jeder Phase der Projekt-
den, sofern kein Literaturzitat angegeben ist, arbeit mit Daten einschleichen:
kommen sie aus der persnlichen Projektarbeit
Bei der Erhebung: zum Beispiel Probleme mit
der Verfasser oder wurden von absolut zuver- Interviewern bei mndlicher Befragung oder
lssigen Kollegen mndlich berichtet. Man hohe systematische Antwortverweigerungen
sieht daran vielleicht die Vielfltigkeit der auf- bei schriftlichen (postalischen) Erhebungen
tretenden Strungen, vielleicht auch einige
Bei der Datenaufbereitung: Kodierfehler, fal-
Strategien zu ihrer Begrenzung. Das Problem sche EDV-Eingabe
ist, da die Kombination aller denkbaren
Bei der Auswertung: Verwechseln von
Verhinderungsmanahmen fr Strflle jede Variablennummern oder Codes, falsche
Untersuchung wesentlich verteuern und u.U. (Sub-) Dateien
so aufwendig machen wrde, da sie nicht
mehr in Auftrag gegeben werden knnte. Man Eine vllige Sicherheit gegen alle solche
wird Katastrophen nie voll ausschlieen kn- projektbedingten Fehler kann nicht garantiert
nen, was es um so wichtiger macht, mit dem werden, vieles lt sich aber durch organisato-
Auftraggeber ein mglichst positives Verhltnis rische Manahmen erreichen.
herzustellen. Korrektes, entgegenkommendes
und auch gegenber Verhaltensweisen des Auf- Datenerhebung durch Interview
traggebers fehlerfreundliches Verhalten kann
viel dazu beitragen, im Notfall dessen Verstnd- Interviewer sollten Arbeitsbedingungen erhal-
nis fr unvorhergesehene Strungen zu finden. ten, die eine ehrliche Datenerhebung nahele-
Durchfhrung von Evaluationsstudien 151
gen und Verflschungen zumindest nicht pro- die Testung bzw. Befragung der Schler ein-
vozieren. Neben einer als zu niedrig empfunde- gesetzten Studenten in den von ihnen sub-
nen Bezahlung knnen sich vor allem folgende jektiv bevorzugten Schulformen gezielt Hin-
Bedingungen negativ auswirken: weise fr das optimale Ausfllen gegeben
haben sollen).
Bezahlung der Interviewer nach erfolgreich
durchgefhrtem Interview ohne faires Ent- Neben der Vermeidung solcher organisatori-
gelt fr erfolglose Besuche (Proband nicht scher Mngel (wobei man auch die Position
angetroffen, Antwort verweigert) sparsamer Projektleiter sehen mu: hufig
Keine Vorgabe von Namen und Adressen von werden Projekte auf der Basis von Ausschrei-
zu befragenden Personen (da dann der Inter- bungen vergeben, was zu knapper Kalkulation
viewer wei, da kein nachtrgliches Kon- zwingt!) sollte man sich um eine gute
trollieren des Stattfindens des Interviews Interviewerschulung bemhen, die meist von
mglich ist); sofern sich dies nicht vermei- den Projektmitarbeitern selbst zu gestalten ist.
den lt, ist eine Lsungsmglichkeit das Diese sollte die Problematik geflschter Daten
nachtrgliche Notieren dieser Daten (aus im Hinblick auf die Aussagekraft des gesamten
Vertraulichkeitsgrnden unabhngig vom ei- Ergebnisses deutlich machen und versuchen,
gentlichen Interviewbogen), dies stt aber bei den Interviewern auch intrinsische Motiva-
hufig auf erhebliche Reaktanz bei den Be- tion und Identifikation mit dem Gesamtprojekt
fragten (man kann zum Beispiel kaum je- zu erreichen. Auch sollte man die Interviewer
mand auf der Strae ansprechen und ihn auf die Durchfhrung von Kontrollen hinwei-
ber seine Meinung etwa zu einer politisch sen.
relevanten Manahme fragen, ihm Anony- Ein auch bei massiver Schulung nicht vllig
mitt zusichern, und anschlieend Name ausschliebares Problem sind Interviewerein-
und Adresse aufschreiben). flsse (fr die dadurch ausgelsten Effekte vgl.
Quotenvorgaben; wenn der Interviewer je- etwa Knig, 1972; Roth, 1984, S. 150 ff.). Wenn
weils bestimmte Prozentstze von zum Bei- es die Gre des Projektes zult, kann man
spiel Geschlecht, Alter und Berufsgruppe durch ein bewute Streuung der Interviewer-
befragen mu, kann leicht die Situation ent- merkmale einen Ausgleich der einzelnen Str-
stehen, da er gegen Ende seiner Daten- effekte anstreben, jedenfalls ist es ungnstig,
sammlung verzweifelt einen 20jhrigen einen einzelnen Interviewer zu groe Fall-
mnnlichen Altersrentner bentigt. Findet er zahlen zuzuordnen (in der Praxis relativ be-
einen solchen nicht, mu er entweder auf whrt haben sich etwa 10, bei greren Studi-
einen Teil der bereits durchgefhrten Inter- en ausnahmsweise auch 15 Interviews als
views verzichten (die er dann auch nicht ab- Hchstgrenze). Daraus ergeben sich natrlich
rechnen kann) oder einen Lsungsweg wh- erhhte Aufwendungen fr Interviewer- Suche
len, den man nicht mehr als empirische und Schulung, die man aber in Kauf nehmen
Datenerhebung bezeichnen kann. sollte.
Unbefriedigende Arbeitskonditionen, fehler-
behaftete Adressenvorgabe (ein hoher Anteil
von nicht auffindbaren Personen), schlecht Interviewerkontrolle
aufgebaute Fragebgen (zum Beispiel mit vie-
len Verweigerungen aufgrund unverstnd- Besonders aussagekrftig sind nachfassende
lich formulierter oder in der Reihenfolge un- Kontrollen bei den Probanden. Dies sollte nicht
gnstig positionierter Fragen) oder fehlender unbedingt als Kontrollanruf erkennbar sein,
Spesenersatz fr erfolglose Fahrten. gnstiger ist ein Anruf bei einer (angeblich) be-
Massive Interviewer- bzw. Untersuchungs- fragten Person mit der Bitte um Aufklrung ei-
leitereffekte sind zu erwarten, wenn sich die- nes Details oder einer Beurteilung des
ser Personenkreis mit bestimmten Evalua- Interviewerverhaltens. Ein solches Vorgehen ist
tionsergebnissen identifiziert (ein Beispiel natrlich nur bei Interviews mit bekannten Pro-
dafr sind etwa die Gerchte, da bei man- banden, etwa bei vorgegebenen Adressen aus
chen Schulvergleichsuntersuchungen die fr einer Stichprobe, mglich.
152 Durchfhrung von Evaluationsstudien
zahl die Zusammenhnge zwischen der Beur- Beispiel im ffentlichen Dienst knnen aus ei-
teilung von Sach- und Personalausstattung von ner irrtmlichen oder wegen seiner persnli-
Leitenden Angestellten vllig verndert (kon- chen Einschtzung zu grozgigen Geneh-
kret in einem Projekt passiert) oder gegenber migung von Vorhaben deutliche Nachteile
der Erwartung vllig entgegengesetzte empiri- entstehen, die Verhinderung von Projekten
sche Befunde auftreten. Trotzdem sollte man in bleibt fr ihn selbst meist vllig folgenlos. Bei
allen solchen und hnlichen Fllen die Aus- einer solchen Reinforcementstruktur fhren
wertung kontrollieren, ggf. von einem damit schon einfachste subjektive Nutzenberlegun-
noch nicht befaten Mitarbeiter unabhngig gen (ausfhrlicher bei Wottawa und Hossiep,
von den bisherigen Eingaben neu durchfhren 1987, S. 48ff.) zu einer Bevorzugung restrikti-
lassen. ver Auffassungen.
Ein besonderes Problem sind selbstgestrick-
te Programme fr die Auswertung. Zwar hat Bei Laien bestehen zum Teil erheblich Miver-
die weite Verfgbarkeit publizierter, ausgeteste- stndnisse bezglich des Begriffes Daten-
ter Programme die projektspezifische Program- schutz.
mierarbeit eingeschrnkt, doch ist auch die Pu- Wesentlicher Gesetzesinhalt des Bundesda-
blikation keine Garantie fr Fehlerfreiheit. Ein tenschutzgesetzes (BDSG) ist der Schutz des ein-
negatives Beispiel ist etwa bei Hrtner et al., zelnen vor den Gefahren der Verbreitung von
(1979) zu finden, der Programmfehler wurde Daten, die sich auf Personen beziehen. Dabei
erst wesentlich spter entdeckt (s. Baumert et bezieht es sich, ohne zwischen verschiedenen
al, 1988). Allerdings ist bei eigenen Program- Arten von Daten zu unterscheiden, auf alle per-
men die Fehlerchance im Regelfall besonders sonenbezogenen Daten und regelt die Daten-
hoch, weil weniger Zeit fr das Austesten (und verarbeitung von Behrden und Privatunter-
manche Fehler zeigen sich nur in seltenen Si- nehmen.
tuationen) verbleibt. In einem konkreten Fall Im ersten Abschnitt des Gesetzes werden Be-
(berprfung der Nebenwirkungen eines griffsbestimmungen, Zuverlssigkeitsvorausset-
Pharmakons unter Benutzung eines seltenen zungen fr die Datenverarbeitung und Rechte
statistischen Verfahrens) wurde ein Programm- der Betroffenen geregelt (16 BDSG).
fehler nur dadurch entdeckt, da die Sig- Der zweite Abschnitt befat sich mit Daten-
nifikanzen so massiv waren, da diese Un- verarbeitung durch ffentliche Verwaltungen
glaubwrdigkeit zu einem Nachrechnen von (721 BDSG). Als berwachungseinrichtung
Hand fhrte (es war bei Korrekturarbeiten im ist der Bundesbeauftragte fr den Datenschutz
Programm ein Statement mit einer Divisions- vorgesehen.
anweisung irrtmlich gelscht worden). Klei-
ne Ursachen knnen erhebliche Auswirkun- Fr die Datenverarbeitung im privaten Bereich,
gen haben! insbesondere im Verhltnis zwischen Arbeitge-
ber und Arbeitnehmer, gilt der dritte Abschnitt
(2230 BDSG), whrend der vierte Abschnitt
6.2.2 Datenschutz Sondervorschriften fr solche Unternehmen
enthlt, die Daten fr Dritte verarbeiten (31
Der gerade fr den EDV-Einsatz in Behrden 40 BDSG). Der fnfte und sechste Abschnitt
und anderen Verwaltungen potentiell beson- des Gesetzes enthalten die Regelungen von
ders gefhrdete Schutz der Privatsphre hat Sanktionen sowie bergangs- .und Schluvor-
eine massive ffentliche Diskussion verursacht, schriften (4147 BDSG). Einige fr die
die auch die Mglichkeiten in Forschungs- Evaluationsarbeit besonders wichtige Paragra-
projekten wesentlich beeinflut. Die Wahrung phen finden sich im Diagramm VI/1.
des Persnlichkeitsschutzes ist ein wichtiges
Anliegen, gerade auch in sozialwissenschaftli- Die Problematik Datenschutz drfte an sich
chen Evaluationsprojekten, sollte aber nicht zu fr die meisten Evaluationsprojekte keinerlei
einer sachlich nicht nachvollziehbaren Behin- Schwierigkeiten bereiten, da eine personenbe-
derung der Projektarbeit fhren, was leider ge- zogene Datenauswertung im Regelfall nicht er-
legentlich vorkommt. Fr einen Juristen zum forderlich ist.
Durchfhrung von Evaluationsstudien 155
Diagramm VI/1
Auszug aus dem Bundesdatenschutzgesetz (BDSG) (vgl. Kittner, 1987)
Die European Science Foundation hat bestimmte wandfreieste Methode in der Einholung der Zu-
Grundstze und Richtlinien fr die Verwen- stimmung der Befragten, doch kann diese in
dung personenbezogener Daten zu Forschungs- Folge von Befrchtungen der Probanden die
zwecken herausgegeben. Einige Hauptpunkte Verweigerungsraten deutlich erhhen.
sollen an dieser Stelle extrakthaft wiedergege-
ben werden (nhere Erluterungen bei Lecher,
1988, S. 28 ff.): Schutz der Privatsphre
Jede Verarbeitung personenbezogener Daten Im Gegensatz zu den Datenschutzbestimmun-
fr Forschungsziele setzt eine ausdrcklich
gen im engeren, gesetzlichen Sinn kann der
gesetzliche Ermchtigung oder die informier-
Schutz der Intimsphre sowie das Problem des
te Einwilligung des Betroffenen voraus.
Geheimnisverrates in Evaluationsstudien
sehr relevant werden. Wie man an der Darstel-
Eine informierte Einwilligung liegt vor, wenn lung einiger wichtiger Rahmenbedingungen in
die Betroffenen ausdrcklich und eindeutig Diagramm VI/2 entnehmen kann, ist die Situa-
darber aufgeklrt worden sind: tion fr Berufspsychologen mit abgeschlossener
a) da die Datenerhebung freiwillig ist; Ausbildung und andere Sozialwissenschaftler
b) da die Weigerung der Datenerhebung kei- verschieden. Dies kann zu der etwas paradoxen
nerlei Konsequenzen hat Situation fhren, da ein als Interviewer einge-
c) welchen Zweck das Forschungsprojekt ver- setzter Sozialwissenschaftler dann unter 203
folgt; StGB fllt, wenn der Leiter des Evaluations-
d) wer Auftraggeber der Erhebung ist bzw. projektes ein Diplom-Psychologe ist, diese zu-
wer erhebt; stzliche Strafbewhrung des Schutzes der In-
timsphre aber nicht besteht, wenn der
Die fr Forschungszwecke zur Verfgung ge- Projektleiter eine andere Vorbildung hat. Dies
stellten personenbezogenen Daten sollten entspricht in keiner Weise der Intention des
nicht fr andere Zwecke verarbeitet werden, Gesetzes, mit diesem Paragraphen sollte an sich
insbesondere nicht fr solche, die spter fr die Arbeit der genannten Berufsgruppen er-
den Betroffenen Konsequenzen haben. leichtert werden, da es zum Beispiel im Rah-
men psychologischer Therapien sicher leichter
Die Leiter von Forschungsprojekten, die mit fllt, eine offene Gesprchsatmosphre zu er-
der Verarbeitung personenbezogener Daten zeugen, wenn der Klient zustzlich zum per-
verbunden sind, sollten die Verantwortung snlichen Vertrauen auch noch auf eine recht-
dafr tragen, da die gemachten Angaben liche Absicherung der Vertraulichkeit der
den aktuellen Datenschutz-Vorschriften Gesprchsinhalte bauen kann.
auch dem momentan herrschenden Technik-
stand entsprechen.
Datenschutz auch bei nderung der
Es darf aber nicht bersehen werden, da Rahmenbedingungen!
es auch datenrechtlich problematische For-
schungsstrategien gibt. In der Psychologie gibt Die Vertraulichkeit von Informationen ist auch
es Projekte, bei denen eine volle Aufklrung der ohne bse Absicht besonders dann gefhrdet,
Beteiligten erst nach ihrem Abschlu erfolgen wenn die befragte bzw. beobachtete Person und
kann. In solchen Fllen mu diese Bedingung, der Projektmitarbeiter untereinander verbunde-
in Verbindung mit dem Angebot des jederzeit nen Sozialnetzen angehren (zum Beispiel Be-
mglichen Rcktritts, den Betroffenen ausdrck- fragung von Studenten durch Studenten des
lich erklrt und von ihnen akzeptiert werden. gleichen Faches, Befragungen in rumlicher
Probleme knnen auch entstehen, wenn Nachbarschaft). Der Versuchung zur Verbrei-
zum Beispiel aus Grnden einer Lngsschnitt- tung personenbezogener Anekdoten sollte
untersuchung (mehrfache Befragungen bei der man stets mit dem Hinweis auf die Rechtslage
gleichen Person) eine Identifikation der Daten- gem Diagramm VI/2 schon bei der Schulung
stze gesichert werden mu. Hier liegt die ein- der Mitarbeiter entgegentreten.
Durchfhrung von Evaluationsstudien 157
Diagramm VI/2
Wichtige rechtliche Rahmenbedingungen fr Psychologen
Relativ schwer zu lsen ist das Problem vern- lagen. Es erfordert ein sehr hohes Ma der Ver-
derter Zugangsberechtigungen zu Aktenmate- innerlichung abstrakter Normen, nicht in den
rial. Typisch ist hier etwa die Situation in Uni- die eigenen Person betreffenden Vorgngen zu
versitten, wo in Zusammenhang mit der schmkern. Strukturell Gleiches gilt fr den
Besetzung von Professorenstellen externe Gut- hierarchischen Aufstieg in Verwaltungen, Schu-
achten eingeholt werden mssen, die nur dann len, Kliniken und Unternehmen. Fr Evalua-
wirklich aussagekrftig sind, wenn der Gut- tionsprojekte wichtig kann dieses strukturelle
achtenersteller von vertraulicher Behandlung Problem werden, wenn die Bewertung von
ausgehen kann (bei allen anderen Regelungen Manahmen eng mit Personen verknpft ist.
wrde eine erhebliche Gefahr von Geflligkeits- Dies trifft zum Beispiel bei Untersuchungen zur
gutachten, evtl. auf wechselseitiger Basis, ent- Bewertung verschiedener Weiterbildungssemi-
stehen). Dieses Material wird gemeinsam mit nare zu, wo es bei unzureichender Anonymisie-
den anderen Personalunterlagen blicherweise rung der Unterlagen durchaus passieren kann,
im Dekanat gespeichert, die Bewerber haben da nach einem beruflichen Aufstieg einer der
dazu keinen Zutritt. Nach Ernennung durch bewerteten Seminaranbieter mit Interesse liest,
den Minister (es kann ohne weiteres sein, da was seine jetzigen Untergebenen damals an
nicht der in den Gutachten besonders gut ab- Kritikpunkten genannt haben. berlegungen
schneidende Erstplazierte, sondern vielleicht dieser Art sprechen brigens dafr, in Zweifels-
ein gerade noch akzeptabel erscheinender Kan- fllen eher externe Evaluatoren heranzuziehen,
didat schlielich die Position erhlt) dauert es als die entsprechenden Informationen firmen-
oft nicht lange, bis der oder die Neue zum intern auszuwerten.
Dekan gewhlt wird oder eine andere, Zugang Ein theoretisch bestehendes, nach den ver-
zu den Dekanatsunterlagen bedingende Funk- fgbaren allgemeinen Informationen aber
tion in der akademischen Selbstverwaltung nicht allzu gravierendes Problem drfte der
bernimmt. Damit automatisch verbunden ist Geheimnisverrat in Kombination mit finanzi-
die Zugangsmglichkeit auch zu Personalunter- ellen Interessen sein. Man mu an diese Mg-
158 Durchfhrung von Evaluationsstudien
lichkeit aber bei wirtschaftsorientierten Eva- die Anzahl der statistischen Ergebnisse ber-
luationsstudien (etwa formative Produkt- schritten. Selbst wenn man den unter metho-
evaluation, alle im Zusammenhang mit Mar- dischen Gesichtspunkten natrlich unsinnigen
keting-Manahmen durchgefhrten Studien) Trick whlt, an der EDV nur die sehr signifi-
denken. Man kann trotz dem Fehlen entspre- kanten Resultate ausdrucken zu lassen, erhlt
chender fundierter Gerchte nicht ausschlie- man auch bei rein zuflligem Datenmaterial in
en, da Dinge dieser Art vorkommen (vermut- diesem Fall ca. 10 000 statistisch auffllige
lich htten im konkreten Fall alle Beteiligten Einzelbefunde. Es ist selbstverstndlich, da
ein erhebliches Interesse, den Vorgang mg- eine solche Auswertungsstrategie absolut unsin-
lichst nicht allzu publik werden zu lassen). An- nig wre.
dererseits kann aber angenommen werden, da
das bei sozialwissenschaftlich gesttzter Evalua-
tion erhobene Material selten einen so hohen Rechtzeitige Auswahl der
Wert hat, da sich das Risiko lohnt. Die effekti- Auswertungsdetails
ven informellen Kommunikationskanle zwi-
schen den Unternehmen machen eine mittel- Die einzige Alternative zu einer allumfassen-
fristige Aufdeckung eines solchen Verhaltens den Auswertung ist, von Anfang an gezielt eini-
sehr wahrscheinlich, und selbst bei Vermei- ge der nahezu unendlich vielen Aufflligkeiten
dung einer Strafanzeige drfte es sehr schwierig als potentiell erwartbar auszuwhlen. Dies hat
sein, in diesem Berufsfeld spter noch Karriere zur Folge, da man:
zu machen.
Nur jene Variablen in der Auswertung be-
rcksichtigt, die man subjektiv fr wichtig
hlt.
6.2.3 Auswertungsplne
Vorher mit dem Auftraggeber abklren mu,
ob es bzgl. der vermuteten Wichtigkeit von
Es ist bei einem realistisch groen sozialwissen-
Effekten die gleichen Meinungen hat.
schaftlichen Evaluationsprojekt so gut wie aus-
geschlossen, smtliche denkbaren Auswertun-
Sehr sorgfltig prft, ob man mit dieser Stra-
tegie nicht anstelle einer objektiven Befund-
gen durchzufhren. Nimmt man als Beispiel
erhebung nur die eigenen Vorurteile bestr-
eine Arbeit mit 40 bercksichtigten Variablen
ken mchte.
(was vor allem bei Verwendung von Codie-
rungsschemata fr Interviews oder Verhaltens-
Stets der Gefahr ausgesetzt ist, da anders-
denkende Leser des Evaluationsberichtes die
beobachtungen, noch strker als bei Frageb-
gezielte Manipulationsabsicht bei der Daten-
gen, eine sehr kleine Zahl ist), ergeben sich
auswertung unterstellen, auch wenn dies im
bereits 780 mgliche, an der EDV mit geringem
Einzelfall nicht gegeben sein sollte.
Zeitaufwand berechenbare Korrelationen. Da
man jetzt aber jede Variable (als mindestens
zweistufigen) Moderator nehmen kann, was im Die Gefahr der Besttigung der Vormeinung
brigen auch fr die wichtige Identifikation entsteht dadurch, da man eben nur jene Ef-
von Wechselwirkungen sehr sinnvoll sein fekte ausweist, die man von Anfang an vermu-
kann, bekommt man selbst bei nur einer zwei- tet hat. So kann man zum Beispiel bei einer
stufigen Einteilung potentieller Moderatoren Schulsystemuntersuchung die Klassengre,
weitere 29 640 Korrelationen. Geht man gar Details des Lehrerverhalten etc. erheben, aus-
dazu ber, mehrere Variablen gleichzeitig als schlielich mit dem Ziel, diese Variablen als
Moderatoren zu verwenden (zum Beispiel die Kovariate zur prziseren Herausarbeitung des
Untersuchung der Fragestellung, ob die Kom- eigentlich wichtigen Systemunterschiedes
bination einer bestimmten Alters- und Be- heranzuziehen. Man wird in Anbetracht der bei
rufsgruppe einen von der Gesamtstichprobe ausreichender Trennschrfe stets widerlegbaren
verschiedenen korrelativen Zusammenhang Nullhypothese (vgl. dazu Abschnitt 5.3.1) auf
zwischen einer bestimmten Form der Arbeits- diese Weise auch mit guter Chance einen stati-
gestaltung und der Arbeitszufriedenheit zeigt), stisch bedeutsamen Systemunterschied ermit-
wird mit Leichtigkeit die Millionengrenze fr teln. Ebenso gut knnte man aber auch umge-
Durchfhrung von Evaluationsstudien 159
kehrt vorgehen und prfen, ob nicht die aus das geplante Auswertungsprogramm ber-
der subjektiven Sicht nur als Streffekte aufzu- nommen werden, so da man deren relative
nehmenden Variablen um vieles bedeutsamer Besttigung oder Widerlegung bereits mit in
sind als die eigentlich fr wichtig gehaltenen, den Abschlubericht aufnehmen kann.
was man entweder direkt (dann aber in Kon- Vor allem bei ffentlichkeitswirksamen Eva-
fundierung mit dem Systemeffekt) oder unter luationsvorhaben nach Mglichkeit rechtzei-
Auspartialisierung des Beitrages der System- tig klren, welche Auswertungslcken vor
unterschiede machen kann. Schon aufgrund dem Hintergrund aktueller politischer Aus-
dieser genderten Reihenfolge der Aufnahme einandersetzungen in der ffentlichkeit, also
von Erklrungsvariablen in lineare Modell- insbesondere bei betroffenen Verbnden und
anstze (s. Abschnitt 5.3.2) sind entsprechende Parteien, auf der Basis des vorlufigen Planes
Ergebnisunterschiede zu erwarten, die dann gesehen werden; dies setzt allerdings die
interpretativ entsprechend der eigenen Vor- Schaffung eines ausreichend dichten Netzes
meinung besonders herausgearbeitet werden informeller Kontakte voraus und sollte im
knnen. brigen niemals ohne Abstimmung mit dem
Auftraggeber durchgefhrt werden.
Antizipatorische Konsensfindung Nach Durchfhrung solcher Vorarbeiten hat
man zwar einen vertretbaren Auswertungsrah-
Eine theoretisch denkbare Lsung wre, die
men, aber meist auch das Problem, da die Viel-
Auswahl der ausgewerteten Effekte auf wissen-
zahl der untersuchten Einzelergebnisse kaum
schaftliche Erkenntnisse zu grnden, zum Bei-
noch rezipierbar ist. Dies macht dann eine
spiel dann, wenn bereits aus Vorstudien das
nachtrgliche Beschrnkung bei der Bericht-
Auftreten mancher Zusammenhnge besonders
legung erforderlich, in deren Verlauf vieles an
plausibel erscheint. Dieser Weg scheitert bei den
guten Vorarbeiten verlorengehen kann.
meisten Evaluationsstudien aber daran, da
sich aus wissenschaftlich-theoretischen berle-
gungen oder auch aus der Flle der Detail-
ergebnisse von Vorstudien fr praktisch jede
Zusammenhangsanalyse eine zumindest nach-
6.3 Berichtlegung
trglich sehr plausibel klingende Begrndung
Das letztlich fr die Praxis relevant werdende
geben lt. Es drfte daher zweckmiger sein,
Ergebnis einer Evaluationsstudie ist nicht das,
die Auswertungsstrategie vorwiegend nutzen-
was im Laufe des Projektes von den dort Betei-
bezogen (natrlich nicht unter vlligem Ver-
ligten erfahren wurde, auch nicht das, was in
zicht auf die Kenntnis von wissenschaftlichen
den entsprechenden schriftlichen und mndli-
Vorergebnissen) aufzubauen und nach Mg-
chen Berichten enthalten ist; relevant werden
lichkeit rechtzeitig folgende Schritte einzulei-
hchstens jene Informationen, die bei den
ten:
Adressaten der Berichte ankommen.
Versuch einer Konsensbildung vorwiegend Wie gro die Unterschiede zwischen gesen-
mit Wissenschaftlerkollegen, die eine gegen- deter und empfangener Information sein
ber den evaluierten Manahmen gegentei- knnen, zeigt etwa die Arbeit von Czerwenka
lige Voreinstellung haben und/oder anderen et al. (1988) zur Bewertung der Schule durch
wissenschaftlichen Schulen angehren. Schler. Grundlage waren Aufstze, in denen
Mit den von den Evaluationsergebnissen be- Schler verschiedener Klassenstufen und Schul-
troffenen Praktikern denkbare Auswertungs- formen in der Bundesrepublik Deutschland ei-
ergebnisse durchspielen (im Prinzip analog nem Wesen von einem anderen Stern schil-
zur Szenariotechnik bzw. Planspielen, vgl. dern sollten, was Schule ist. Diese Aufstze
4.1.3), und mit diesen diskutieren, welche wurden dann unter anderem dahingehend aus-
Einwnde sie gegen die aus ihrer Sicht uner- gewertet, ob Hinweise fr ein eher positives
wnschten Ergebnisse vorbringen wrden. oder negatives Lehrerbild enthalten waren, ob
Diese Hinweise auf denkbare alternative Er- die Schule eher Freude oder keine Freude macht
klrungsanstze knnen gesammelt und in usf. Die Resultate, die auch in den schriftlichen
160 Durchfhrung von Evaluationsstudien
Nahezu unvermeidbare Angriffspunkte Auch hier ist wieder die Schwierigkeit, da alle
diese Kritikpunkte voll zutreffen knnen, die
Die Kombination aus notwendig reduzierter Mglichkeit von schlechten, elementaren pro-
Informationsdarstellung und der hohen Plausi- fessionellen Standards nicht gengenden
bilitt von Strfaktoren dabei fordert natrlich, Evaluationsprojekten ist natrlich gegeben. Da
gerade bei emotional kontroversen Ergebnissen, sich aber die Argumente nahezu bei jeder, auch
Kritiker mit anderer Meinung heraus. Diese sind noch so sorgfltigen Studie (falls diese ausrei-
im allgemeinen bei ihrer Argumentation bzw. chend komplex angelegt wurde) verwenden
Informationsdarstellung mindestens den glei- lassen, bleibt es dem Kritiker der Evaluations-
chen Verzerrungen ausgesetzt wie die eigent- projektkritiker (mit beliebiger Verallgemeine-
lichen Autoren, hufig sogar in strkerem rung dieses Meta-Kritiker-Begriffes) berlassen,
Mae, da sie subjektiv das Gefhl haben, einer die Angemessenheit der Gegendarstellung zu
verzerrten Darstellung entgegentreten zu mssen bewerten. Im praxisbezogenen Evaluations-
und nur durch berpointierung ihres Stand- bereich greifen die dafr in der Wissenschaft
punktes bei dem Adressaten eine letztlich aus- etablierten Mechanismen (eine breite, vielflti-
gewogene Meinung erreichen zu knnen. ge und relativ wenig interessensbezogene Dis-
Fast immer zur Abwertung verffentlichter kussion, ein allmhliches Vergessenwerden
Evaluationsberichte mgliche Argumentations- unzutreffender Interpretationen) aufgrund des
figuren sind: meist bestehenden Zeitdruckes nicht. Lsungen
fr dieses Problem knnen nicht angeboten
Offensichtliche methodische Schwchen werden leider.
(da es diese bei jedem greren Vorhaben
gibt, wurde zum Beispiel in Abschnitt 5.2.2
begrndet). 6.3.3 Mndliche Prsentation
Es wurde nicht alles bercksichtigt und aus-
gewertet, was man unbedingt htte tun ms- Fr diese, besonders wichtige Form der Ergeb-
sen (siehe 6.2.3) nisdarstellung gilt zunchst ebenso wie fr den
Die verwendeten Operationalisierungen bzw. schriftlichen Bericht eine besondere Betonung
Memethoden sind fehlerhaft (vgl. dazu Ab- der Zuhrerfreundlichkeit. Die technischen
schnitt 4.2.3). Kompetenzdefizite in der mndlichen Repr-
Die Autoren widersprechen sich selbst (es ist sentation sind bei vielen Studienabgngern
bei umfangreicheren Berichten sehr unwahr- noch gravierender als bei schriftlichen Darstel-
scheinlich, da sich nicht inhaltlich hnli- lungen, selbst fr die Benutzung blicher Me-
che, aber in der Aussagerichtung verschiede- dien fehlt hufig sowohl theoretisches Wissen
ne Kleindetailergebnisse und entsprechende als auch praktische bung. Selbstverstndlich
Interpretationen finden). sollte die freie, gegebenenfalls mediengesttzte
Die Ergebnisse sind nur singulr und nicht (Dias, Overhead-Folien) Rede sein, das Vorlesen
verallgemeinerbar (ein oft zutreffendes und vorbereiteter Manuskripte ist fr die Zuhrer
im brigen rhetorisch sehr gutes Argument, meist trostlos. Das Schreiben eines Textes, der
da sich groe Evaluationsstudien im Regel- bei mndlichem Vortrag die Verstndlichkeit
fall nicht wiederholen lassen). der freien Rede erreicht, ist eine ausgesprochene
Die Ergebnisse sind offensichtlich unsinnig, Kunst, die nur wenige beherrschen. Zumindest
da sie entweder gesicherten wissenschaftli- elementare Grundstze der Rhetorik sollte man
chen Ergebnissen widersprechen (bei sorgfl- beachten, sie finden sich zum Beispiel in
tiger Suche lassen sich fast immer einige wi- Hirsch, 1985, Schuh und Watzke, 1983.
dersprechende Befunde in der Literatur
eruieren) oder von angesehenen Experten Im brigen drfte (abgesehen von langfristigen,
negativ bewertet wurden (in Anbetracht der geistesgeschichtlich bedingten Meinungswel-
Pluralitt wissenschaftlicher Meinungen fin- len) dem Ansehen der Wissenschaft kaum etwa
det sich mit etwas Mhe auch dafr ein Be- so geschadet haben, wie die kontroverse ffent-
leg). liche Diskussion zu Evaluationsthemen, zum Bei-
spiel bzgl. gesetzlicher Regelungen, der Energie-
Durchfhrung von Evaluationsstudien 163
versorgung oder der Schulorganisation. Die bernimmt, eingeladen wird und zustzlich
Unterstellung simpler Kuflichkeit wie etwa vielleicht noch in dem jeweiligen sozialen Netz-
durch den damaligen Vorsitzender der Gewerk- werk der zu einer bestimmten Meinung nei-
schaft Erziehung und Wissenschaft (Frister, gende Gruppe eingebunden ist, ist eine gefrb-
1972) ist zwar fr alle an Evaluationsvorhaben te Betrachtungsweise sehr naheliegend. Da der
beteiligten Wissenschaftler eine Zumutung, aber Kollege den analogen Zwngen unterliegt,
in Anbetracht der dargelegten unvermeidbaren kann man sich wechselseitig so weit steigern,
Probleme bei Evaluationsprojekten und dem da zum Schlu die Glaubwrdigkeit tatsch-
fehlenden Kenntnisstand ber diese Schwierig- lich fraglich wird und der Stil der uerungen
keit auch bei sich selbst kompetent fhlenden vielleicht manchmal an der Grenze dessen liegt,
Laien psychologisch verstndlich. Im brigen was man vor sich selbst gerne vertritt. Interes-
hat sicher auch der manchmal bedauerlich Stil sant ist das Phnomen, das nach dem offiziel-
von wissenschaftlichen Diskussionen in der len Teil solcher Veranstaltungen durchaus ein
ffentlichkeit ganz wesentlich dazu beigetra- emotional herzliches Verhltnis zu dem Kon-
gen, das Ansehen (nicht nur, aber besonders) trahenten bestehen kann und man sich eigent-
der Sozialwissenschaften zu schdigen. Tatsch- lich darber einig ist, da man jetzt ein bi-
lich fhren verschiedene Formen der mndli- chen bertrieben hat.
chen Darstellung oder Diskussion von Evalua- Es ist schade, da sich weder bei ffentlich-
tionsergebnissen zu Rollenzwngen, die eine im politischen noch bei kleineren, etwa fr einen
Extrem selbst nicht mehr so ganz gerechtfertigt bestimmten Konzern oder eine bestimmte Kli-
erscheinende berpointierung von Darstellun- nik relevanten Evaluationsvorhaben ein berufs-
gen nahelegen. Wenn man zu einer Veranstal- ethisch begrndeter Konsens ber akzeptable
tung schon als Anwalt fr eine bestimmte Verhaltensweisen gerade bei der mndlichen
Position gemeinsam mit einem Kollegen, der Berichtlegung ergeben hat. Hier bleibt noch ei-
die gleiche Rolle fr eine andere Auffassung niges zu tun.
164 Durchfhrung von Evaluationsstudien
bersicht Kapitel 6:
Durchfhrung von Evaluationsstudien
6.1
Organisatorische Fragen
Fragen der Personalfhrung
Grofirma als Arbeitgeber Kleinere Unternehmen & private Kleininstitute
meist professionelles Personal- aus der Sicht des Arbeitgebers aus der Sicht der Mitarbeiter
management & strukturierte Mangel an fachlich qualifizier- Unsicherheit des Arbeitsplatzes
Hierarchie tem Personal Beschrnkung auf Spezialisten-
Informelle Machtstellung von ttigkeit
Spezialisten geringe oder keine Aufstiegs-
Unerwartete Kndigungen oder chancen
Ausflle geringe Untersttzung bei der
Mangel an Personal zur individuellen Weiterbildung
bernahme von Projekt-
Management-Aufgaben
Kontrolltechniken des Projektverlaufes
Krisenmanagement
Typische Beispiele
nderung der Zielsetzung des Unbekannte oder vom Nicht vorhersehbare Reaktion
Projektes Auftraggeber verschwiegene Personalausflle
berlappungsprozesse Nebenwirkungen absolut Unvorhersehbares
Methodenartefakte
6.2
Auswertungsarbeiten
Datenerhebung Datenaufbereitung
Probleme bei der Interviewerhebung Hauptproblem bei der postalischen Probleme
Schlechte Arbeitskonditionen, Befragung Kodierfehler
fehlerhafte Adressenvorgaben, Rcklaufquote fehlerhafte Dateneingabe
schlecht aufgebaute Frageb-
gen, Interviewer- bzw. Unter- Vorbeugende Manahmen Vorbeugende Manahmen
suchungsleitereffekte, Quoten- Absender der Probanden auf dem Doppelarbeiten
vorgaben, Bezahlung nach Couvert Bezahlung nach Zeit und nicht
erfolgreich durchgefhrten Ausstellen von Code-Nummern nach Stckzahl
Interviews auf den Fragebgen Verrechnung gefundener Fehler
Rckcouvert mit Projektnummern Plausibilittskontrollen
Datenauswertung Datenschutz
Probleme
Verwechslung von Variablennummern oder Codes Beachtung des Bundesdaten-
Selbstentwickelte Programme schutzgesetzes und der grund-
Vorbeugende Manahmen stzlichen Gesetzlichen Richt-
sorgfltige Arbeit linien zum Schutz der Privat-
semantische Plausibilittskontrolle sphre
6.3
Berichtlegung
Zielgruppenanalyse Informationsverdichtung Mndliche Prsentation
Abstimmung der Berichtlegung mit Probleme Beachtung unterschiedlicher
den Adressaten unter Beachtung Absichtliche Manipulation Prsentationsmglichkeiten von
von: Psychologische Prozesse, z.B. Evaluationsergebnissen
Sprachstil der Adressatengruppen Selektive Aufmerksamkeit, Halo- Untersttzung der Prsentation
Verwertungs- bzw. Effekt, Dissonanzeffekte durch Medien bzw.
Entscheidungszusammenhang Moderationstechniken
unsachliche emotionale Vorteil advokatorischer
Komponenten des Auftraggebers Darstellung
165
7. Ausblick: Bewertung
sozialwissenschaftlicher Evaluation
Die Kriterien fr die Bewertung sozialwissen- Schwieriger abzuschtzen ist der Schaden,
schaftlich gesttzter Evaluation stellen sich un- bzw. die Kosten, die durch Evaluations-
terschiedlich dar, je nachdem, ob es um die ergebnisse verursacht werden knnen. Ein Teil-
Bewertung eines einzelnen Projektes oder, glo- aspekt davon ist das Problem unrichtiger Er-
baler gesehen, um das Vorhandensein solcher gebnisse, wie sie durch unzureichende Designs,
Arbeiten berhaupt geht (Abschnitt 7.1 bzw. schlechter bzw. verzerrter Messung, falsche
7.2). Zum Abschlu wird versucht, einige not- Datenauswertung, Interpretation und Rezepti-
wendig subjektive gefrbte Zukunftsperspek- on der Ergebnisse entstehen knnen. Solche Irr-
tiven dieses Bereiches aufzuzeigen (7.3). tmer, die zu projektgesttzten Fehlentschei-
dungen fhren, mssen durch die fachliche
Kompetenz der Evaluatoren so gering wie mg-
7.1 Bewertungskriterien lich gehalten werden. Sie sind vor allem dann
zu befrchten, wenn relative Laien selbst Stu-
einzelner dien durchfhren, zum Beispiel deshalb, weil
Evaluationsvorhaben dem Auftraggeber oder Vorgesetzten (zum
Beispiel in einer Klinik, einer Firma, einem Mi-
Wie bei jeder Manahme ist auch fr die Be- nisterium) nicht ausreichend bewut ist, da
wertung von Evaluationsprojekten zwischen Evaluationen im sozialwissenschaftlichen Be-
den Nutzenaspekten zu unterscheiden, die mit reich gar nicht so einfach durchzufhren sind.
den Ergebnissen selbst verbunden sind und den Die beste Prvention drfte, neben sachgerech-
Aspekten, die schon durch die Durchfhrung ter Aufklrung von ffentlichkeit und Ent-
des Projektes, jedoch unabhngig von den Er- scheidern, das allmhliche Entwickeln einer
gebnissen entstehen. Evaluationsprofession mit fachlichen und
berufsethischen Standards sein (vgl. dazu etwa
die American Evaluation Association). Der an-
Ergebnisabhngige Aspekte dere Schadens-Aspekt von Ergebnissen ist,
da im sozialwissenschaftlichen Bereich viele
Der Nutzen durch die Ergebnisse ist im wesent- Befunde (im Gegensatz zu den klassischen Na-
lichen eine Verbesserung der Entscheidungen, turwissenschaften) keine langfristige Gltig-
um deretwillen das Projekt durchgefhrt wur- keit haben, auch wenn sie nach allen metho-
de. Das Ausma und die Effizienz davon kann dischen Standards erhoben wurden. Die
nur im jeweiligen Einzelfall bewertet werden; nderungen von Rahmenbedingungen (zum
da in absehbarer Zeit nicht mit einer irrationa- Beispiel Fhrungsstil im Unternehmen oder die
len Evaluationseuphorie zu rechnen ist, wer- jeweilige Wirtschaftslage, die Erwartung der f-
den i. A. Evaluationsstudien nur dann durchge- fentlichkeit an das Bildungssystem, die Verfg-
fhrt, wenn eine sehr gute Chance besteht, da barkeit von Therapien im Gesundheitswesen
die Ergebnisse in ihrem Nutzen die Aufwen- u.a.m.) knnen zu stark genderten Verhaltens-
dungen bersteigen. und Reaktionsweisen fhren. Die Projekt-
166 Ausblick: Bewertung sozialwissenschaftlicher Evaluation
ergebnisse mssen daher unter solchen Zu- Verbesserung der realen Verhltnisse durch
kunftsperspektiven diskutiert werden, wobei das Wissen um die Projektdurchfhrung
manche Techniken (etwa Szenario, s. Abschnitt (etwa besondere Anstrengung der Betroffe-
4.1.3) hilfreich sein knnen. Falsch wre es, als nen zum Erzielen guter Ergebnisse).
Evaluator die Dauerhaftigkeit der Befunde un-
realistisch hoch einzuschtzen und sich fr de- Ob die Vor- oder Nachteile strker zum Tragen
ren unreflektierte Aufnahme in den (meist zu- kommen, hngt davon ab, in welches Umfeld
kunftsorientierten) Entscheidungsproze stark die Evaluationsarbeit eingebettet wird, und wie
zu machen. sie die Beteiligten/Betroffenen subjektiv akzep-
tieren. Sinnvolle Evaluationsstudien sind daher
vor allem dann mglich, wenn die jeweilige
Ergebnisunabhngige Aspekte Organisation einen Entwicklungsstand hat, der
durch Rationalitt der Manahmengestaltung,
Die durch die Evaluation selbst, ohne Beach- Vertrauen der Beteiligten untereinander und
tung der Ergebnisse, ausgelsten mglichen Kritikfhigkeit (aktiv und passiv) geprgt ist.
Kosten betreffen vor allem folgende Punkte:
Finanzielle und materielle Aufwendungen;
diese sind relativ exakt kalkulierbar (vgl. dazu
Abschnitt 5.1.3). 7.2 Evaluation als
Zeitverluste vor Treffen der Entscheidungen, gesellschaftliches
gegebenenfalls sogar das berdecken von
Entscheidungsschwche bzw. Verantwor-
Gestaltungsprinzip
tungsscheu.
Das Prinzip wissenschaftlich gesttzter Evalua-
Evtl. Verunsicherung der Entscheidungstr-
tion ist in keiner Weise wertfrei. Es kann einer-
ger, da die von ihnen zunchst eingefhrten
seits nur unter bestimmten gesellschaftlichen
bzw. untersttzten Manahmen objektiv be-
Verhltnissen zum tragen kommen, beeinflut
wertet und damit Fehlentscheidungen auf-
aber auch seinerseits die Akzeptanz politischer
gedeckt werden; im Extremfall kann dies bei
Grundkonzeptionen. Der Grund dafr liegt in
starker Motivierung zum Vermeiden (relati-
den Erfordernissen sachgerechter Evaluations-
ver) Mierfolge zur Innovationsscheu fh-
projekte:
ren.
Verzerrung der realen Verhltnisse durch das
Explikation der Ziele
Wissen, da eine Evaluationsstudie durchge-
fhrt wird: zum Beispiel die Anpassung des
Akzeptanz von Fakten bezglich der Ziel-
erreichung
Leiters einer Weiterbildungsveranstaltung an
die von ihm vermuteten, aus der Sicht der
Einbettung der Ergebnisse in ein auf Opti-
mierung der Zielerreichung hin angelegtes
Evaluatoren-Auftraggeber positiven Krite-
Entscheidungssystem
rien oder die Einhaltung von im Projekt vor-
gegebenen, dem blichen Verhalten der The-
Diese stehen im offensichtlichen Gegensatz zu
rapeuten widersprechenden Regeln bei
politischen Systemen, die
Durchfhrung von Psychotherapien.
ders in der ffentlichen Darstellung spektaku- tigung von bzw. die Projektvergabe an Eva-
lren Vorgnge (zum Beispiel im Zusammen- luatoren stark gebremst wird. So zwingt zum
hang mit der Evaluation von Hochschulen), Beispiel die katastrophale Haushaltssituation
da das schnelle Aufgreifen eines gesellschaft- der meisten Stdte diese dazu, soweit nur
lich relevanten Themas nicht immer mit me- irgend mglich fr die unverzichtbaren
thodischer Sauberkeit und sachangemessener Evaluationsarbeiten auf bereits vorhandenes
Nutzung der Ergebnisse durch die Entschei- Personal, ggf. mit entsprechender Einschulung,
dungstrger verbunden ist (fr die besonderen zurckzugreifen. Hier liegt ein potentiell aus-
methodischen Probleme von Lehr-Evaluatio- sichtsreiches Beschftigungsfeld vor, wenn sich
nen im Hochschulbereich siehe Kromrey, 1995 in mittlerer Zukunft die Finanzlage potentieller
fr eine systematische Erarbeitung der Mein- Arbeitgeber in diesen Berufsfeldern verbessern
strumente zu diesem Problem etwa Amelang, sollte.
& Bartussek, 1996). Erwartungsgem gibt es Im brigen bleibt unsere schon 1987 geuert
auch kaum noch groe Debatten auf der Hoffnung bestehen, da die Entwicklung der
Basis summativ angelegter Evaluationen fr ge- politischen Rahmenbedingungen eine offene,
sellschaftspolitisch relevante Entscheidungen, sich nach rationalen Prinzipien gestaltende
sondern einen sehr hohen Bedarf an formati- und evaluationsgsttzt lernfhige Gesellschaft
ven Studien. Zu diesen beiden Punkten wurden sichert. Innerhalb dieses Rahmens liegt es dann
unsere Erwartungen also weitgehend erfllt, in der Verantwortung der Human- und Sozial-
allerdings in Bereichen und aus Grnden, die wissenschaften (und -wissenschaftlern!) selbst,
wir vor acht Jahren nicht entsprechend einge- ihren Beitrag zu einer positiven Entwicklung
schtzt haben. unserer Lebensbedingungen zu leisten.
hnliches trifft auch fr die vermutete Ange- Bei Beachtung und Respektierung der Gren-
bots-Nachfrage-Situation zu. Die Arbeitsmarkt- zen der Wissenschaft und unter der Verwen-
situation fr Psychologen und Sozial- dung von sozialwissenschaftlichen Grundlagen
wissenschaftler hat sich quantitativ noch kann Evaluation auf vielen unterschiedlichen
strker verschlechtert als wir damals vermutet Einsatzgebieten einen wertvollen Beitrag lei-
haben, und trotzdem gibt es noch immer ein sten.
Defizit an akzeptierten Evaluatoren, wie die Beachtet man bei der Planung und Durch-
deutliche Konzentration der Nachfrage auf eine fhrung von Evaluationsprojekten die speziel-
relativ kleine Gruppe von Personen zeigt. Ein len Ziele und Bewertungskriterien der Ziel-
aktuell sehr groes Problem ist natrlich die gruppen und Auftraggeber, wird sich die
Finanzlage des ffentlichen Bereiches und im Evaluation als gesellschaftliches Gestaltungs-
Gesundheitswesen, da durch sie die Beschf- prinzip bewhren.
Bei Beachtung und Respektierung der Grenzen der Wissenschaft und unter Verwendung
von sozialwissenschaftlichen Grundlagen kann Evaluation auf vielen unterschiedlichen
Einsatzgebieten einen wertvollen Beitrag leisten.
Beachtet man bei der Planung und Durchfhrung von Evaluationsprojekten die speziel-
len Ziele und Bewertungskriterien der Zielgruppen und Auftraggeber, wird sich die Eva-
luation als gesellschaftliches Gestaltungsprinzip bewhren.
169
8. Literaturverzeichnis
Abramson, T.: Handbook of vocational education evaluation. Biefang, S.: Evaluationsforschung in der Psychiatrie. Frage-
Beverly Hills: Sage, 1979. stellung und Methoden. Stuttgart: Enke, 1980.
Albrecht, U., Pfitzinger, E., Vogel, M.: Projekt DIN EN ISO Birnbacher, D. & Hoerster, N.: Texte zur Ethik. Mnchen:
9000. Vorgehensmodell zur Implementierung eines Qualitts- Deutscher Taschenbuch-Verlag, 1976, S. 198229.
managementsystems. Berlin: Beuth Verlag, 1995. Bolles, R.C.: Learning theory. New York: Holt, Rinehart &
Alkin, M.C.: Die Aufwands-Effektivitts-Evaluation von Winston, 1975.
Unterrichtsprogrammen. In: Wulf, C.: Evaluation. Die Bommert, H. & Petermann, F.: Diagnostik und Praxis-
Beschreibung und Bewertung von Unterricht, Curricula und kontrolle in der Klinischen Psychologie. Kln: DGVT und
Schulversuchen. Mnchen: Piper, 1972. GWG, 1982.
Amt fr Statistik und Stadtforschung der Stadt Bochum Borg, J.: Anwendungsorientierte multidimensionale Skalie-
(Hrsg.): Das rumliche Ordnungskonzept Bochums rung. New York: Springer, 1981.
Erfolgskontrolle der Entwicklungsziele. Bochum: Heft 16, Bortz, J.: Lehrbuch der empirischen Forschung. Fr Sozial-
Dez. 1975. wissenschaftler. Berlin: Springer, 1984.
Aristoteles: Politik. Hamburg: Meiner, 1981. Bortz, J.: Lehrbuch der Statistik. Fr Sozialwissenschaftler.
Atiya, A.S.: Kreuzfahrer und Kaufleute. Die Begegnung von Berlin. Springer, 4. Auflage, 1994.
Christentum und Islam. Stuttgart: Kohlhammer, 1964. Bramsemann, R.:Controlling. Wiesbaden: Gabler, 1978.
Attkinson, C.C. & Broskowski, A.: Evaluation and the Brecht, B.: Das Leben des Galilei. Frankfurt: Suhrkamp,
emerging human service concept. In: Attkinson, C.C., 1963.
Hargreaves, W.A., Horrowitz, M.J., Sorenson, J.E. Briam, K.-H.: Unternehmenskultur als Erfolgsfaktor: Pldoy-
(Eds.): Evaluation of human service programs. New York: er fr eine mitarbeiter- und marktorientierte Strategie der
Academic Press, 1978. Zukunft. Gtersloh: Verlag Bertelsmann-Stiftung, 1996.
Amelang, M. & Bartussek, D.: Differentielle Psychologie Brockmeier, J.: Die Naturtheorie Giordano Brunos, 1980.
und Persnlichkeitsforschung. Stuttgart: Kohlhammer, Bronner, R. & Schrder, W.: Weiterbildungserfolg. Mn-
1996. chen: Hanser, 1983.
Aurin, K., Schwarz, B., Thiel, R.-D.: Vergleichsuntersuchung Bruner, J.S.: The process of education. New York: Random
des Landes Baden-Wrttemberg. Gegliedertes Schulsystem (Vintage), 1963.
und Gesamtschule. Forschungskonzept und Methoden, Bund-Lnder-Kommission fr Bildungsplanung (BKL):
Bd. 1. Ministerium fr Kultus und Sport. Stuttgart: Bildungsgesamtplan, Bd. 1. Stuttgart: 1973.
Verlag und Druck GmbH, 1986. Bundesministerium fr Forschung und Technologie
Baehr, J. & Eberle, P.: DUPPS Ein Metaplanspiel fr die (Hrsg.): Ein Handbuch zur Planung und Durchfhrung
Produktionswirtschaft. In: Personalwirtschaft, 10/1986. von Projekten. Kln: Deutscher Gemeindeverlag GmbH
Battegay, R.: Der Mensch in der Gruppe. Bern: Huber, 1973. & Verlag W. Kohlhammer GmbH, 1977.
Bauer, P., Scheibe, V., Wohlzogen, F.X.: Sequentielle stati- Burgtorf, W. & Wei, R.: Einflu von Verkehrslrm auf
stische Verfahren. Stuttgart: Fischer, 1986. die Gehrerholung whrend der Freizeit. Umweltbun-
Baumert, J., Naumann, J., Roeder, P.M., Trommer, L.: Zur desamt, (Hrsg.), Forschungsbericht 81 10501108. Ber-
institutionellen Stratifizierung im Hochschulsystem der lin, 1980.
Bundesrepublik Deutschland. Forschungsbereich Schule Clau, G. & Ebner, H.: Grundlagen der Statistik fr Psycho-
& Unterricht. Max-Planck-Institut fr Bildungsfor- logen, Pdagogen und Soziologen. Frankfurt/M.: Deutsch,
schung. Berlin: Nr. 16 SuU, 1987. 1972.
Baumert, J.: Curriculumsentwicklung und Lehrerfortbildung Coleman, J.S.: Introduction to mathematical sociology. New
fr die Berliner Gesamtschulen. Berlin: Max-Planck-In- York: The Free Press of Glencoe, 1964.
stitut fr Bildungsforschung Studien und Berichte Cook, T.D. & Campbell, D.T.: The design and conduct
Nr. 41, 1980. of quasi-experiments and true experiments in field
Berthold, H.-J., Gebert, D., Rehmann, B. Rosenstiel, L.v.: settings. In: Dunnette, M.D. (Ed.): Handbook of
Schulung von Fhrungskrften eine empirische Un- industrial and organizational psychology. Chicago: Rand
tersuchung ber Bedingungen und Effizienz. Zeit- McNally College Publishing Company, S. 223326,
schrift fr Organisation 4/1980, S. 221229. 1976.
Beywl, W., Geiter, C.: Evaluation Controlling Qualitts- Cook, T.D. & Reichardt, C.S. (Eds.): Quantitative and qua-
management in der Weiterbildung. Bielefeld: Bertelsmann litative methods in evaluation research. Beverly Hills:
Verlag, 1997. Sage, 1979.
170 Literaturverzeichnis
Cronbach, L.J. & Suppes, P.: Research for tomorrows Glass, G.V. & Ellet, F.S.: Evaluation research. Annual
schools: Disciplined inquiry for education. New York: review of Psychology, 1980, 31, S. 211228.
MacMillan, 1969, 2021. Glass, G.V.: Die Entwicklung einer Methodologie der
Cerwenka, K., Nlle, K., Pause, G., Schlotthaus, W. & Evaluation. In: Wulf, C. (Hrsg.): Evaluation. Mnchen:
Schmidt, H.-J.: Was Schler von der Schule halten. Mn- Piper, 1972, S. 167170.
chen: Bayrischer Lehrer- und Lehrerinnenverband Gniech, G.: Streffekte in psychologischen Experimenten.
e.V., 1988. Stuttgart: Kohlhammer, 1976.
Demski, M., Lorenz, T.: Zertifizierung von Qualitts- Grawe, K., Donati, R., Bernauer, F.: Psychotherapie im
managementsystemen bei Bildungstrgern. Renningen- Wandel, von der Konfession zur Profession. Gttingen:
Malmsheim: expert-Verlag, 1996. Hogrefe, 1995.
Diederich, J. & Wulf, Ch.: Gesamtschulalltag. Die Fall- Groeben, N. & Scheele, B.: Heidelberger-Struktur-Lege-
studie Kierspe. Lehr-, Lern- und Sozialverhalten an technik. Weinheim: Beltz, 1984.
nordrhein-westflischen Gesamtschulen. Paderborn: Guilford, J.P.: Personality. New York: McGraw-Hill, 1959.
Schningh, 1979. Gulden, G.: Evaluation von Traineeprogrammen als Alter-
Dienel, P.C.: Die Planungszelle. Opladen: Westdeutscher native zur klassischen Form des Berufseinstiegs. Betrach-
Verlag GmbH, 1978. tung aus Firmen- und Studentensicht. Mnchen und
Diepgen, R.: Sequential analysis, the ignored alternative. Mering: Hampp, 1996.
German Journal of Psychology 11, 266267, 1987. Glpen, B.: Evaluation betrieblicher Verhaltenstrainings un-
Dilthey, W.: Beitrge zum Studium der Individualitt. Ber- ter besonderer Bercksichtigung des Nutzens. Mnchen
lin, 1896. und Mering: Hampp, 1996.
DIN, Deutsches Institut fr Normung e.V.: DIN EN ISO Gumpp, G.: ISO 9000 entschlsselt. Landsberg/Lech: Ver-
9000ff, NORN EN ISO 9000ff, SN EN ISO 9000ff fr lag Moderne Industrie, 1996
kleine und mittelstndische Unternehmen (KMU). Beuth, Guttman, L.: Introduction to face design & analysis. In:
1997. Proceedings of the Fifteenth International Congress of
Drner, D.: Lohhausen (Hrsg.): Vom Umgang mit Unbe- Psychology, Brussels. Amsterdam, North-Holland,
stimmtheit und Komplexitt. Bern: Huber, 1983. 1957.
Drner, D.: Problemlsen als Informationsverarbeitung. Haenisch, H., Lukesch, H., Klanghofer, R., Krger-Hae-
Stuttgart: Kohlhammer, 1979. nisch, E:-M.: Gesamtschule und dreigliedriges Schulsy-
Drenth, P.J.D.: Der psychologische Test. Eine Einfhrung stem in Nordrhein-Westfalen Schulleistungsvergleich in
in seine Theorie und Anwendung. Mnchen: Barth, Deutsch, Mathematik, Englisch und Physik. Paderborn:
1969. Schningh, 1979.
Echterhoff, W.: Erfolgskontrolle zur Verhaltensbeeinflussung Hajek, P. & Havranek, T.: Mechanizing hypothesis forma-
von Verkehrsteilnehmern: Grundlagen und Empfehlungen. tion. Mathematical foundations for a general theory.
Kln: Verlag TV Rheinland GmbH, 1981. Berlin: Springer, 1978.
Eysenck, H.J.: Dimensions of personality. London: Rout- Halbach, A.: Theorie und Praxis der Evaluierung von Projek-
ledge and Kegan Paul, 1947. ten in Entwicklungslndern. Mnchen: Weltforum,
Fink, A.: Evaluation for Education and Psychology. London:
1972.
Sage, 1995.
Halbach, G., Mertens, A., Schwedes, R., Wlotzke, O.:
Fishburn, P.C.: Methods of estimating additive utilities. Ma-
bersicht ber das Recht der Arbeit. Bonn: Bundesmini-
nagement Science, 1967, 13, 7.
sterium fr Arbeit und Soziales, 1987.
Fischer, G.: Einfhrung in die Theorie psychologischer Tests.
Hrtner, R. Mattes, K., Wottawa, H.: Computerunter-
Grundlagen und Anwendungen. Stuttgart: Huber,
sttzte Hypothesenagglutination zur Erfassung kom-
1974.
plexer Zusammenhnge. EDV in Medizin und Biologie,
Franklin, J.L. & Trasher, J.H.: An introduction to program
11 (2), S. 2329, 1980.
evaluation. New York: Wiley, 1976.
Frassine, J.: Evaluation von sozialen Modellen auf Huler, P., Frey, K, Hoffmann, L., Rost, J., Spada, H.:
Klientenebene. sterreichische Zeitschrift fr Soziologie, Physikalische Bildung: Eine curriculare Delphi-Studie:
5/1, 1980, S. 5358. Teil I und Teil II. Kiel: IPN-Arbeitsberichte, 1980.
Freeman, H.E. & Solomom, M.A.: Das nchste Jahrzehnt Heckhausen, H.: Motivation und Handeln. Lehrbuch der
in der Evaluierungsforschung. In: Hellstern, G.-M. & Motivationspsychologie. Mnchen: Springer, 1989.
Wollmann, H. (Hrsg.): Handbuch zur Evaluierungs- Heider, F.: The Psychology of interpersonal relations. New
forschung, Bd. 1. Opladen: Westdeutscher Verlag, 1984, York: Wiley. 1958.
S. 134151. Hellstern, G.M. & Wollmann, H.: (Hrsg.): Handbuch zur
Frister, E.: Gewerkschaften und Hochschulen. Im Brenn- Evaluierungsforschung, Bd. 1. Opladen: Westdeutscher
punkt, Sonderausgabe Oktober 1972. Verlag, 1984.
Gabele, E. & Oechsler, W.A.: Fhrungsgrundstze und Fh- Henning, H.-J.: Skalenanalyse und Rasch-Modell. Bonn:
rungsmodelle, Bamberg: Bayerische Verlagsanstalt, 1984. Phil. Diss., 1974.
Gell, H. & Pehl, K.: Evaluation in der Erwachsenenbildung. Henning, H.J. & Kemnitz, W.: Evaluation of sequential
Bad Heilbronn: Klinkhardt, 1970. and categorical data. Bremer Beitrge zur Psychologie,
Geschka, H.: Kreativittstechniken in Produktplanung 1986.
und -entwicklung. In: Lhn (Hrsg.): Innovationsberater Hering, E.: Zertifizierung nach DIN EN ISO 9000: Proze-
II. Freiburg: Rudolf Hanfe Verlag, 1988. optimierung und Steigerung der Wertschpfung. Dssel-
Gigerenzer, P. & Sedlmeier, P.: Do studies of statistical dorf: VDI-Verlag, 1996.
power have effect on the power of studies? Psycho- Hermann, J.L., Morris, L.L., Taylor Fitz-Gibbon, C.:
logical Bulletin, 1989, 105, No. 2, S. 109316. Evaluators handbook. Beverly Hills: Sage, 1988.
Literaturverzeichnis 171
Herzberg, F.H., Mausner, B. & Snyderman, B.B.: The Lecher, T.: Datenschutz und psychologische Forschung. Gt-
motivation to work. New York: Wiley, 1959. tingen: Hogrefe, 1988.
Hilgard, E.R. & Bower, G.H.: Theories of learning. Levin, H.M., Glass, G.V., Meister, G.R.: Different
Engelwood Cliffs: Prenctice Hall, 1981. approaches to improving performance at school: a
Hirsch, G.: Die Kunst der freien Rede. Niederhausen/Ts.: coast-effectiveness comparison. Zeitschrift fr interna-
Falken-Verlag GmbH, 1985. tionale sozialwissenschaftliche Forschung, 3(2), 1986, S.
Hoerster, N.: Utilitaristische Ethik und Verallgemeinerung. 155176.
Freiburg: Alber, 1971. Lienert, G.A.: Testaufbau und Testanalyse. Weinheim:
Hoffe, O.: Einfhrung in die utilitaristische Ethik. Mn- Beltz, 1969.
chen: Beck, 1975. Linstone, H.A. & Turoff, M. (Eds.): The Delphi Method.
Hollmann, H.: Validitt in der Eignungsdiagnostik: neue London: Addison-Wesley, 1975
Anstze einer sachgerechten Bewertung und effizien- Lord, F.M. & Novik, M.R.: Statistical theories of mental test
ten Verbesserung. Gttingen: Hogrefe, 1991. scores., Reading/Mass. Addison-Wesley, 1968.
Holly, W.: Imagearbeit in Gesprchen. Tbingen: Max Nie- Lukesch, H. Schuppe, H., Dreher, E., Haenisch, H.,
meyer Verlag, 1979. Klaghofer, R.: Gesamtschule und dreigliedriges Schulsy-
Huber, K.: Einheit und Vielfalt in Denken und Sprache stem in Nordrhein-Westfalen. Paderborn: Schnigh. 1979.
Giordano Brunos. Winterthur: 1965. Lukie, M.: Evaluation, innerbetrieblicher Traineepro-
Hunter, J.E., Schmidt, F.L., Jackson, G.B.: Metaanalysis. gramme. In: Will, H., Winteler, A., Kapp, A.: Evaluati-
Cumulating research findings across studies. Beverly on in der beruflichen Aus- und Weiterbildung. Heidel-
Hills: Sage CA, 1984. berg: Sauer, 1987.
Jger, A.O.: Dimensionen der Intelligenz. Gttingen: Ho- Mason, S.F.: Geschichte der Naturwissenschaft in der Ent-
grefe, 1967. wicklung ihrer Denkweisen. Stuttgart: Krner, 1961.
Joint Committee on Standards for Educational Evaluati- Matt, G.E.: Meta-Analyse deutschsprachiger Psychothe-
on: The program evaluation standards: how to assess rapie der Jahre 1973-1982. Freiburg i. Br.: Unverffent-
evaluations of educational programms. Thousand Oaks: lichte Diplomarbeit im Fach Psychologie, 1983.
Sage, 1994. Mayer, R.E.: Denken und Problemlsen. Eine Einfhrung
Kasubek, W. & Aschenbrenner, K.M.: Optimierung sub- in menschliches Denken und Lernen. New York:
jektiver Urteile: Anwendung der Multiattributiven Springer, 1979.
Nutzentheorie bei medizinischen Therapieentschei- McClelland, D.C.: Opinions predict opinions: So what
dungen. Zeitschrift fr experimentelle und angewandte else is new? Journal of Consulting and Clinical
Psychologie 1978, 25, 594616. Psychology, (38) 1972.
Kittner, M.: Arbeits- und Sozialordnung. Kln: Bund, 1987. Meyer, W.U. & Schmalt, H.-D.: Die Attributionstheorie.
Klauer, K.L.: Kriteriumsorientierte Tests. Gttingen: Ho- In: Frey, D. & Irle M.: Theorien der Sozialspsychologie,
grefe, 1987. Bd. 1. Bern: Huber, 1984.
Klebert, K. & Schrader, W.G.: Kurzmoderation. Hamburg: Miles, M.B. & Hubermann, A.M.: Qualitative data analy-
Windmhle, 1987. sis. A sourcebook of new methods. Beverly Hills: Sage
Kleinmutz, B.: Computers in personality assessment. Morris- CA, 1984.
town: General Lerning Press, 1972. Mischel, W.: Preference for delayed reinforcement: An
Kleinmutz, B.: MMPI decision rules for the identification experimental study of a cultural observation. Journal
of college mal adjustment: A digital computer of abnormal and Social Psychology, 1958, 56, S. 5761.
approach. In: Psychological Monographs, 1963, 77. Mischel, W.: Processes in delay gratification. In: Berko-
Kopperschmidt, J.: Allgemeine Rhetorik. Stuttgart, Kohl- witz, L. (Ed.): Advances in experimental social psychology,
hammer, 1976. Vol.7. New York: Academic Press, 1974.
Knig, R.: Das Interview. Kln: Kiepenheuer & Witsch, Mittelstra, J. (Hrsg.): Enzyklopdie Philosophie und Wis-
1976. senschaftstheorie. Bd. 2. Mannheim: Wissenschafts-
Krauth, J. & Lienert, G.A.: Die Konfigurationsfrequenz- verlag, 1983.
analyse (KFA) und ihre Anwendung in Psychologie und Mitter, W. & Weishaupt, H. (Hrsg.): Anstze zur Analyse
Medizin. Ein multivariates nichtparametrisches Ver- der wissenschaftlichen Begleitung bildungspolitischer In-
fahren zur Aufdeckung von Typen und Syndromen. novationen. Weinheim, Beltz, 1977.
Freiburg: Adler, 1973. Moosbrugger, H.: Multivariate statistische Analyseverfah-
Krauth, J.: Testkonstuktion und Testtheorie. Weinheim: Psy- ren. Stuttgart: Kohlhammer, 1978.
chologie Verlags Union, 1995 Morris, L.L., Fritz-Gibbon, C.T., Freeman, M.E.: How to
Kromrey, H.: Empirische Sozialforschung: Modelle und Me- communicate evaluation findings. Beverly Hills: Sage,
thoden der Datenerhebung und Datenauswertung. Opla- 1988.
den: Leske & Budrich, 1995. Murray, H.A.: Explorations in personality. New York:
Kuhn, Th. S.: Die Struktur wissenschaftlicher Revolutionen. Oxford University Press, 1938.
Frankfurt a.M.: Suhrkamp, 1967. Offe, C. & Hinrichs, K.: Sozialkonomie des Arbeitsmark-
Lange, E.: Zur Entwicklung und Methodik der Evalua- tes und die Lage benachteiligter Gruppen von Arbeit-
tionsforschung in der Bundesrepublik Deutschland. nehmern. In: Projektgruppe Marktpolitik. Offe, C.
Zeitschrift fr Soziologie 3/1983, S. 253270. (Hrsg.): Opfer der Arbeitslosigkeit. Neuwied und
Langer, E.: The Psychology of control. Beverly Hills: Sage Darmstadt, 1977.
CA, 1983. Ortmann, R.: Zum Resozialisierungseffekt der Sozial-
Lantermann, E.D: Interaktionen. Person, Situation und therapie anhand einer experimentellen Lngsschnitt-
Handlung. Mnchen: Urban und Schwarzenberg, studie zu Justizvollzugsanstalten des Landes Nord-
1980. rhein-Westfalen. Empirische Ergebnisse und theo-
172 Literaturverzeichnis
retische Analysen. In: Mller-Dietz, H. & Walter, M. Rutmann, L.: Evaluation research methods: A basic guide.
(Hrsg.): Strafvollzug in den 90er Jahren. Perspektiven und Beverly Hills: Sage CA, 1977.
Herausforderungen. Pfaffenweiler: Zentaurus-Verlags- Sbandi, P: Gruppenpsychologie. Einfhrung in die Wirk-
gesellschaft, 1995. lichkeit der Gruppendynamik aus sozialpsycho-
Osborn, A.F.: Applied imagination. Principles and proce- logischer Sicht. Mnchen: Pfeiffer, 1973.
dures of creative problem solving. New York: Scharmberg, T., Whler, K., Finke, H.-O., Guski, R.: Be-
Scribners, 1963. eintrchtigung des Nachtschlafes durch Lrm. Um-
Osnabrgge, G. Stahlberg, D., Frey, D. & Irle, M. (Hrsg.): weltforschungsplan des Bundesministers des Inneren.
Theorien der kognizierten Kontrolle. In Frey, D. & Lrmbekmpfung. Forschungsbericht 82/10501207.
Irle, M. (Hrsg.): Theorien der Sozialpsychologie. Bern: Berlin: 1982.
Huber, 1985. Schfers, B.: Einfhrung in die Gruppensoziologie. Heidel-
Osterholt, G.: Vernderungsmanagement: Visionen und berg: Quelle & Meyer, 1980
Wege zu einer neuen Unternehmenskultur. Wiesbaden: Schein, E.H.: Unternehmenskultur: Ein Handbuch fr Fh-
Gabler, 1996. rungskrfte. Frankfurt: Campus-Verlag, 1995
Patry, J.-L. (Hrsg.): Feldforschung. Wien: Huber, 1982. Schmalt, H.-D.: Leistungsthematische Kognitionen 11,
Petermann, F. & Hehl, F.-J.: Einzelfallanalyse. Mnchen: Kausalattribuierungen, Erfolgserwartungen und Affek-
Baltimore, 1979. te. Zeitschrift fr Experimentelle und Angewandte Psycho-
Pfohl, H.-C.: Planung und Kontrolle. Stuttgart: Kohl- logie, 26,1979.
hammer, 1981. Schneider, H.-D.: Kleingruppenforschung. Stuttgart: Teub-
Pollard, W.E.: Bayesian statistics for evaluation research. ner, 1985.
An Introduction. Beverly Hills: Sage CA, 1986. Schnelle, E. (Hrsg.): Metaplan Gesprchstechnik. Kommu-
Preiser, S.: Kreativittsforschung. Darmstadt: Wissenschaft- nikationswerkzeug fr die Gruppenarbeit. Quickborn:
liche Buchgesellschaft, 1976, S. 94ff. Metaplan GmbH, 1982.
Prell, S.: Handlungsorientierte Schulbegleitforschung. Frank- Schulz, T., Muthig, K.-P., Koepller, K.: Theorie, Experiment
furt a.M.: Lang 1984.
und Versuchsplanung in der Psychologie. Stuttgart: Kohl-
Putz-Osterloh, W.: Problemlseprozesse und Intelligenzlei-
hammer, 1981.
stung. Bern: Huber, 1981.
Scriven, N.: Die Methodologie der Evaluation. In: Wulf,
Rausch, K.: Vergleichende Betrachtung psychologischer Ar-
C. (Hrsg.): Evaluation. Mnchen: Piper, 1972.
beitsanalyseverfahren vor dem Hintergrund ihrer Anwend-
Scriven, N.: The Logic of evaluation. California: Edg-Press,
barkeit zur Untersttzung komplexer militrischer Mensch-
1980.
Maschine-Systeme. BMVg P 11 4, Bonn, 1985.
Seiffke-Krenke, I.: Handbuch Psychologieunterricht. Bd. 1
REFA (Verband fr Arbeitsstudien und Betriebsorganisa-
tionen e.V.): Methodenlehre der Planung und Steuerung, & 2. Dsseldorf: Pdagogischer Verlag Schwann, 1981.
Teil 5. Mnchen: Hanser, 1985. Sherman, R.: Will goal attainment scaling solve the prob-
Reibnitz, U.v.: Die Szenario-Technik-Ein Instrument der lems of program evaluation in the mental health
Zukunftsanalyse und der strategischen Planung. In: field? In: Coursey, R.D., Specter, G.A., Murrel, S.A.,
Haase, H. & Koeppler, K. (Hrsg.): Fortschritte der Markt- Hunt, B.: Program Evaluation for mental health. Methods,
psychologie. Bd. 3. Frankfurt: Fachbuchhandlung fr strategies & participants. New York: Grunt & Stratton,
Psychologie Verlagsabteilung, 1983. 1977.
Ritter, J. & Grnder, K.: Historisches Wrterbuch der Philo- Siegel, S.: Nonparametic statistics. For the behavioral sci-
sophie. Bd. 6. Darmstadt: Wissenschaftliche Buch- ences. New York: McGraw Hill, 1956.
gesellschaft, 1982, S. 992ff. Siegward, H. & Menzel, J.: Kontrolle der Fhrungsaufgabe.
Rochel, H.: Planung und Analyse des allgemeinen linearen Bern: Haupt, 1978.
Modells. New York: Springer, 1983 Smith, M.L. & Glass, G.V.: Meta-analysis of social research.
Roethlisberger, F.J. & Dickson, U. J.: Management and the Beverly Hills: Sage CA, 1981.
worker. Cambridge: MIT-Press, 1939. Stelzel, I.: Ist der Modelltest des Rasch-Modells geeignet,
Rohn, W.E.: Methodik und Didaktik des Planspiels. Wup- Homogenittshyphothesen zu prfen? Ein Bericht
pertal: Deutsche Planspielzentrale, 1980 ber Simulationsstudien mit inhomogenen Daten.
Rohn, W.E.: Der Einsatz von Planspielen bei der Perso- Zeitschrift fr Experimentelle und Angewandte Psycholo-
nalauswahl. In: Personalfhrung 3/86, S. 117120 gie 1979, 26, S. 652672.
Rost, J.: Lehrbuch Testtheorie und Testkonstruktion. Bern: Stifel, R.Th.: Evaluierung als Chance. MAO, 1/1997, S. 27.
Huber, 1996. Stratemann, I. & Wottawa, H.: Brger als Kunden: Wie Sie
Rossi, P.H. & Freeman, H.E.: Evaluation. A systematic Reformkonzepte fr den ffentlichen Dienst mit Leben fl-
approach. Beverly Hills: Sage 1993. len. Frankfurt: Campus-Verlag, 1995.
Rossi, P.H.: Professionalisierung der Evaluationsfor- Stroebe, R.W. & Stroebe, G.H.: Grundlagen der Fhrung
schung? Beobachtungen zu Entwicklungstrends in mit Fhrungsmodellen. Heidelberg: Sauer 1984.
den USA. In: Hellstern, G.-M. & Wollman, H. ( Hrsg.): Stufflebeam, D.L.: Evaluation als Entscheidungshilfe. In:
Handbuch der Evaluationsforschung, Bd. 1. Opladen: Wulf, C. (Hrsg.): Evaluation. Mnchen: Piper, 1972.
Westdeutscher Verlag, 1984. Sturm, H.: Emotionale Wirkung des Fernsehens Jugendli-
Roth, E.: Sozialwissenschaftliche Methoden. Mnchen: Ol- che als Rezipienten. Mnchen: Verlag Dokumentatio-
denbourg, 1984. nen Saur KG, 1978.
Rust, H.: Interaktionsanalyse. Die Praxis der indirekten Sturm, U.: Erfolge durch kreative Teamarbeit. Oberhausen:
Interaktionsforschung in Psychologie und Psychothe- Verlag fr Wirtschafts- und Kartografie-Publikationen,
rapie. Mnchen: Urban & Schwarzenberg, 1983. 1979.
Literaturverzeichnis 173
Suchman, E.A.: Evaluative research: Principle and practice chronischen nicht spezifischen Atemwegserkran-
in public service and social action Programs. New kungen (CNSRD). Bericht fr den leitenden Arzt der BfA.
York: Russell. Sage, Foundation, 1967. Freiburg im Br., 1979 (unverffentlicht).
Tarpy, R.M.: Lernen. Experimentelle Grundlagen. New York: Wittrock, M.C. & Wiley, D.E.: The evaluation of instruc-
Springer, 1979. tion. New York: Holt, Rinehardt & Winston Inc., 1970.
Thiele, H.: Zur Beeinflussung des Entscheidungsverhal- Worthen, B.R. & Sanders, J.R.: Educational evaluation:
tens im Unterricht. In: Hofer, M. (Hrsg.): Informations- Theory and practice. Belmont, CA.: Wadsworth, 1973.
verarbeitung und Entscheidungsverhalten von Lehrern. Wottawa, H. & Echterhoff, K.: Formalisierung der dia-
Mnchen: Urban & Schwarzenberg 1980, S. 278311. gnostischen Urteilsfindung: Ein Vergleich von linea-
Thierau, H.: Effizienz von Evaluationsmanahmen in ren und auf Psychologenaussagen gesttzten kon-
der betrieblichen Weiterbildung. Diplomarbeit am Psy- figuralen Anstzen. Zeitschrift fr Differentielle und
chologischen Institut der Ruhr Universitt Bochum, 1987. Diagnostische Psychologie, 1982, 13, S. 301309.
Thombansen, U., Laske, M., Posseler, C. Rasmussen, B.: Wottawa, H. & Hof. A.: Individualmodelle zur Erfassung
Vertrauen durch Qualitt. Qualittsmanagement im handlungsrelevanter Strukturen als Hilfsmittel der
Weiterbildungsunternehmen. Mnchen: Verlag Neuer Verbesserung von Weiterbildungsmanahmen. In:
Merkur, 1994. Winterler, A., Krapp, A.: Evaluation in der beruflichen
Thorndike, R.L.: Personnel selection. Test and measure- Aus- und Weiterbildung. Konzepte und Strategien. Hei-
ment techniques. New York: Wiley, 1949. delberg: Sauer, 1987.
Trochim, W.N.K.: Research design for program evaluation. Wottawa, H. & Hossiep, R.: Grundlagen psychologischer
Beverly Hills: Sage CA, 1984. Diagnostik. Gttingen: Hogrefe, 1987.
Uleman, J.S.: The need for influence: development and Wottawa, H.: Evaluation. In: Weidenmann, B., Krapp,
validation or a measure and comparison with the A., Hofer, M., Haber, G.L., Mandl, H. (Hrsg.): Pdago-
need of power. Genetic Psychology Monographs, 1972. gische Psychologie. Mnchen: Urban & Schwarzenberg,
Ulmann, G.: Kreativitt. Weinheim: Beltz, 1968. 1986, S. 703733.
Wald, A.: Sequential analysis. New York: Wiley, 1966. Wottawa, H.: Die Kunst der manipulativen Bericht-
Waxweiler, R.: Psychotherapie im Strafvollzug. Eine empi- legung in der Evaluationsforschung. Zeitschrift fr
rische Erfolgsuntersuchung am Beispiel der sozial- Entwicklungspsychologie und Pdagogische Psychologie,
therapeutischen Abteilung in einer Justiz- XIII, 1, 1981, S. 4560.
vollzugsanstalt. Weinheim: Beltz, 1980. Wottawa, H.: Gesamtschule. Was sie uns wirklich bringt.
Weiner, B.: Motivationspsychologie. Weinheim: Beltz, 1984. Eine methodische Darstellung der Schulvergleiche in
Weiss, C.H.: Evaluierungsforschung. Opladen: Westdeut- Hessen, Nordrhein-Westfalen und Niedersachsen.
scher Verlag, 1974. Dsseldorf: Pdagogischer Verlag Schwann, 1982.
Weizscker, C.-F. v.: ber die moralische Verantwortung Wottawa, H.: Grundlagen und Probleme von Dimensionen
des Forschers. In: Das Parlament, 1983, 7 (2), S. 8. in der Psychologie. Meisenheim am Glan: Hain 1979.
Werbik, H.: Handlungstheorien. Stuttgart: Kohlhammer, 1978. Wottawa, H.: Hyphothesis agglutination (HYPAG): A
Will, H., Winterler, A., Krapp, A. (Hrsg): Evaluation in der method for configuration-based analysis of muti-
beruflichen Aus- und Weiterbildung. Konzepte und Strate- variate data. In: Methodika, 1, 1987, S. 6892.
gien. Heidelberg: Sauer, 1987. Wottawa, H.: Psychologische Methodenlehre. Mnchen:
Will, H., Winterler, A., Krapp, A.: Von der Erfolgskontrolle Juventa, 1988.
zur Evaluation. In: Will, H., Winterler, A., Krapp, A.: Wottawa, H.: Strategien und Modelle in der Psychologie.
Evaluation in der beruflichen Aus- und Weiterbildung. Kon- Mnchen: Urban & Schwarzenberg, 1984.
zepte und Strategien. Heidelberg: Sauer, 1987. S. 2530. Wottawa, H.: Projektmanagement. Wozu Planung, es geht
Winterfeldt, D.: Entscheidungshilfesysteme. In: Eckens- doch auch so? In: Engel, S.(Hrsg.): Die Diplomarbeit.
berger, L.H., Eckensberger, U.S. (Hrsg.): Bericht ber UTB Schfer-Poeschel, 1997.
den 20. Kongre der deutschen Gesellschaft fr Psycholo- Whe, G.: Einfhrung in die allgemeine Betriebswirtschafts-
gie in Saarbrcken 1972. Gttingen: Hogrefe 1974. lehre. Mnchen: Vahlen, 1986.
Witt, F.J.: No-Name-Produkte und Arbeitspolitik im Spie- Wulf, C. (Hrsg.): Evaluation. Beschreibung und Bewer-
gel einer empirischen Analyse des Verbraucherver- tung von Unterricht, Curricula und Schulversuchen.
haltens. Zeitschrift fr Markt-, Meinungs- & Zukunfts- Mnchen: Piper, 1972.
forschung, 1985, 28, S. 63136326. Wuing, H. (Hrsg.): Geschichte der Naturwissenschaft.
Wittmann, W.: Evaluationsforschung. Aufgaben, Probleme Kln: Aulis-Verlag Deubner, 1983.
& Anwendungen. Berlin: Springer, 1985. Zander, E.: Taschenbuch fr Fhrungstechnik. Heidelberg:
Wittmann, W.: Mglichkeiten der Evaluationsforschung Sauer, 1982.
im Rahmen des Verbandes deutscher Rentenver- Ziegenbein, K.: Controlling. Ludwigshafen: Kiehl, 1984.
sicherungstrger, dargestellt an einem empirischen Zink, F.: Wendezeit fr Manager: Wege zu einer neuen Unter-
Projekt zur Diagnostik und Schweregradeinteilung bei nehmenskultur. Ullstein, 1994.
175
9. Stichwortverzeichnis
advanced organizer 86f. Evaluationsformen 32
Arbeitsplan 116f. Evaluationsforschung 13
Arbeitsverhltnis 48f. Evaluationsmodell 62f.
Arbeitsvertrag, befristeter 49f. Evaluationsobjekt 59f.
Assoziationsketten 85ff. Evaluationsort 62f.
Auftraggeber, Rolle 20f. Feld 62f.
Auswertungsverfahren 134ff., 158ff. Labor 62f.
Evaluationsziele 29, 55f.
Balkenplantechnik 120ff. Evaluator, persnliche Voraussetzungen 51
Beobachtung 132 Evaluator, Rolle 37
Berichtlegung 159ff. Evaluator, selbststndiger 47f.
Bewertungshilfen 102ff.
Bewertungskriterien 83ff., 91f., 165f. Facettentheorie 100
Bewertungsproze 89ff. Faktorenanalyse 138
Brain-storming-Technik 87f. Fallbeispiel
Bundesdatenschutzgesetz 155f. als Methode 95
fr Evaluationsprojekte 70f.
Cherkoff-Gesichter 183 Forschung, entscheidungsorientiert 36
Controlling 70ff. Forschung, schlufolgeorientiert 36
Curriculumsentwicklung 75ff. Fragebogenkonstruktion, Probleme 133f.
9. Stichwortverzeichnis
advanced organizer 86f. Evaluationsformen 32
Arbeitsplan 116f. Evaluationsforschung 13
Arbeitsverhltnis 48f. Evaluationsmodell 62f.
Arbeitsvertrag, befristeter 49f. Evaluationsobjekt 59f.
Assoziationsketten 85ff. Evaluationsort 62f.
Auftraggeber, Rolle 20f. Feld 62f.
Auswertungsverfahren 134ff., 158ff. Labor 62f.
Evaluationsziele 29, 55f.
Balkenplantechnik 120ff. Evaluator, persnliche Voraussetzungen 51
Beobachtung 132 Evaluator, Rolle 37
Berichtlegung 159ff. Evaluator, selbststndiger 47f.
Bewertungshilfen 102ff.
Bewertungskriterien 83ff., 91f., 165f. Facettentheorie 100
Bewertungsproze 89ff. Faktorenanalyse 138
Brain-storming-Technik 87f. Fallbeispiel
Bundesdatenschutzgesetz 155f. als Methode 95
fr Evaluationsprojekte 70f.
Cherkoff-Gesichter 183 Forschung, entscheidungsorientiert 36
Controlling 70ff. Forschung, schlufolgeorientiert 36
Curriculumsentwicklung 75ff. Fragebogenkonstruktion, Probleme 133f.