Sie sind auf Seite 1von 61

Evaluation

Einführung: Evaluation und Evaluationsforschung


Evaluation als Transdisziplin
 Impulse aus ganz verschiedenen Forschungsdisziplinen
 in der Wirtschaft v.a. sowas wie Qualitätskontrolle
 Evaluation ist eine Aktivität der Sozialwissenschaften zur Sammlung, Analyse,
Interpretation und Kommunikation der Arbeitsweise und Effektivität von Programmen,
Produkten und Interventionen in den unterschiedlichsten Feldern (Wittmann, 2008)

Wenn man gefragt wird ein Trainingsprogramm zu evaluieren…


Was sollte man vorab klären? Worauf achten?
 summative (Bewertung eines vollständigen Programms nach ihrer Durchführung) vs. formative Evaluation
(Bewertung und Verbesserung eines Prozesses mit vorher festgelegten Kriterien in definierten Zeiträumen)
 Vergleich unterschiedlicher Maßnahmen
 direkte vs. indirekte Veränderung
 Wirkung, aber auch Akzeptanz (also ist es gut angenommen hat)
 Validität, Reliabilität
 Kosten/ Nutzen
 kommunikativer Prozess vs. Stakeholder

„Soziales Spannungsfeld“ der Evaluation


1. Ziele, Funktionen und Nutzungserwartungen
1. Stakeholder
2. Vergleichskriterien
3. Stat. Vs. praktische Bedeutsamkeit
4. Nutzung von Ressourcen
2. Evaluability Assessment Perspective
1. Hindernisse bei Evaluationen
1. Theoretisches Modell des Programms
2. Grad der Ausformulierung des Modells
3. Stakeholder und ihre Verwendung der Evaluation
Aufgabe, Standards und Modelle der Evaluation
1. Modelle der Evaluation
1. CIPP
2. Data Box
3. Evaluationsprozessmodell
2. Hauptfragestellungen
1. Evaluation von Zuständen
2. Evaluation von Veränderungen
3. Evaluation als Wirksamkeitsüberprüfung
4. Evaluation als Effizienanalyse
5. Prospektive Evaluation und Maßnahmenplanung
6. Formative Evaluation: Programmoptimierung und Implementationskontrolle

Methodische Aspekte der Evaluationsforschung


1. Operationalisierungen/ Messen
2. Planung/ Design
3. Deskriptiv- und Inferenzstatisik

Evaluation und Evaluationsforschung


 Kriterien und Gegenstände der Evaluationsforschung
 Historischer Überblick
 Arten von Evaluationsforschung
 Nachbardisziplinen

Evaluation / Evaluationsforschung
Evaluation oder Evaluationsforschung?
Austauschbare Verwendung der Begriffe in dieser Veranstaltung, jedoch: Evaluation
 kann auch ein einfacher Bewertungsvorgang sein, können auch Personen machen, die
methodisch nicht so qualifiziert sind
 Evaluation bedeutet Bewertung und bezieht sich auf den Prozess und das Ergebnis der
Beurteilung des Wertes eines Produktes, eines Prozesses oder eines Programms. Diese
Wertbeurteilung erfordert nicht notwendigerweise systematische Verfahren oder
datengestützte Beweise zu ihrer empirischen Untermauerung (nach Suchmann, 1967)
Evaluationsforschung
 geht wesentlich systematischer vor
 Evaluationsforschung kann als ein Prozess verstanden werden, bei dem nach zuvor
festgelegten Zielen und explizit auf den Sachverhalt bezogenen und begründeten Kriterien
ein Evaluationsgegenstand bewertet wird. Dies geschieht unter Zuhilfenahme
sozialwissenschaftlicher Methoden durch Personen, welche hierfür besonders qualifiziert
sind. Das Produkt eines Evaluationsprozesses besteht in der Rückmeldung verwertbarer
Ergebnisse in Form von Beschreibungen, begründeten Interpretationen und Empfehlungen
an möglichst viele Beteiligte und Betroffene, um den Evaluationsgegenstand zu optimieren
und zukünftiges Handeln zu unterstürzen (nach Balzer, 2005)
Kriterien von Evaluationsfragen

Fragen der Wirksamkeit einer Intervention


Fragen der Korrektheit einer Entscheidung

Beispiel: öffentlicher Jugendschutz


Seit April 2003: Zeitgrenzen für den Kinobesuch, wenn Kinder oder Jugendliche alleine ins Kino
gehen:

Zeiten gelten nicht, wenn Kinder/Jugendliche von erziehungsbeauftragten Personen begleitet


werden
 Relevante Fragestellungen:
1. Hat sich das Verhalten der KiJus verändert?
o Wie war es denn vorher?
o Fragebogen/ stichprobenhafte Ausweiskontrollen
o Was ist das Alternativverhalten

2. Wie werden Regelungen umgesetzt?


o pure Befragung wird vielleicht nicht ehrlich beantworten (ist ja ökonomisch nicht im
Interesse der Betreiber)
3. Ist die Regelung in der Lage, den Schutz der Jugend in der Öffentlichkeit zu verbessern?
o Fragestellung ist viel zu abstrakt
4. Gibt es „Schlupflöcher“?

Evaluationsgegenstände: Intervention, Gesetz, Programm, Training, Therapie, Projekt, Entscheidung,


Institutionen, Bildungssysteme, Produkte, Entwicklungshilfe
DEGEVAL -Standards für Evaluation
 Nützlichkeit
o Ermittlung der Beteiligtengruppe
o Bestimmung des Evaluationszwecks
o Glaubwürdigkeit der Evaluatoren
o Umfang und Auswahl von Informationen
o Transparenz von Werten
o Vollständigkeit und Klarheit des Berichts
o Rechtzeitigkeit der Evaluation
o Nutzung und Nutzen der Evaluation
 Durchführbarkeit
o angemessene Verfahren: eher Erhebungsverfahren gemeint
 Evaluationsverfahren, einschließlich der Verfahren zur Beschaffung
notwendiger Informationen, sollen so gewählt werden, dass einerseits die
Evaluation professionell und den Erfordernissen entsprechend umgesetzt
wird und andererseits der Aufwand für die Beteiligten und Betroffenen in
einem adäquaten Verhältnis zum intendierten Nutzen der Evaluation
gehalten wird.
o diplomatisches Vorgehen
o Effizienz von Evaluation: eher Design
 Der Aufwand für Evaluation soll in einem angemessenen Verhältnis zum
Nutzen der Evaluation stehen.
 Fairness
o formale Vereinbarungen
o Schutz individueller Rechte
o vollständige und faire Überprüfung
o unparteiische Durchführung und Berichterstattung
 Genauigkeit
o Beschreibung des Evaluationsgegenstands
o Kontextanalyse
o Beschreibung von Zielen und Vorgehen
o Angabe von Informationsquellen
o valide und reliable Informationen
o systematische Datenüberprüfung
o Analyse quantitativer und qualitativer Informationen
o begründete Schlussfolgerungen
o Metaevaluationen

Historische Entwicklung – zunehmende Bedeutung der Evaluation


-Amerika ist das „Mutterland“ der Evaluation
-1930-1940 USA lässt Sozialprogramm gegen Arbeitslosigkeit evaluieren
-aber so richtig erst 1957 Investitionen in Bildung werden in den USA evaluiert
-in den 60ern auch mehrere staatliche Projekte ,die evaluiert werden
-1969 1% der Programmmittel des Community mental health centre act für Evaluation
-1971 ging es mit der Evaluation auch in Deutschland los, Rahmenvereinbarungen zwischen Bund
und Ländern zur koordinierten Vorbereitung, Durchführung und wissenschaftlichen Begleitung von
Modellversuchen im Bildungswesen
-1981 USA „Standards for Evaluation of Educational Programmes, Projects and Materials oft he Joint
Committee on Standards in Educational Evaluation“ (JCS)
-1982 USA Veröffentlichung der ersten Evaluationsstandards
-1986 USA Gründung der American Evaluation Association
-1994 Niederlande Gründung der European Evaluation Society
-1997 Gründung der Deutschen Gesellschaft für Evaluation (DeGEval)
-2001 Standards für Evaluation der DeGEval

Arten von Evaluation:


 Rahmenbedingungen
Feld vs. Labor (es gibt auch viele Zwischenstufen)
parteilich vs. objektiv
geschlossen vs. offen
vertraulich vs. öffentlich
 Evaluationsmodell
Praxisorientierung
Entwicklungsorientierung
Theorieorientierung
 Ausrichtung
Makroevaluation
Mikroevaluation
Programmevaluation
Inputevaluation
Complianceevaluation
Outputevaluation
 Zeitpunkt
prognostische Evaluation
prospektive Evaluation
Prozessevaluation
Ergebnisevaluation
 Durchführungsmodi
intrinsisch vs. extrinsisch
intern vs. extern
summativ vs. formativ
vergleichend vs. nicht vergleichend
 Metaevaluation und Metaanalyse
summative Metaevaluation (Metaanalyse über Evaluationen) bzw. Metaanalyse
(Zusammenfassung wissenschaftlicher Ergebnisse)
Programm-Design-Evaluation

Bedeutung der Evaluation in der Psychologie:


 Unbestrittene Bedeutung der Evaluation in der Psychologie:
o Fachgruppe Methoden und Evaluation in der DGPs
o Lehrstühle für Methoden (Statistik) und Evaluation
o Pädagogische Psychologie
o A&O (ABO)
o Klinische Psychologie

Nachbardisziplinen
 Diagnostik
o Systematisches Sammeln und Aufbereiten von Informationen  Begründung,
Kontrolle und Optimierung von Entscheidungen und Handlungen
o Gewinnung von Daten über psychologisch relevante Charakteristika
zur Urteilsbildung (Diagnose/ Prognose)
 Methodik
o Methodisches Fachwissen der Evaluatoren
 Statistik
 Versuchsplanung
o Möglichkeiten, Bedingungen und Voraussetzungen, um mit einer
ausgewählten Methode einen Sachverhalt angemessen zu beschreiben und zu analy
sieren
 Methodologie
o Wissenschaftstheoretischen Voraussetzungen

Validität und Generalisierbarkeit


 Grund, Effekt und kausaler Zusammenhang
 Grund
John Locke: “A cause is that which makes any other thing either simple idea, substance, or m
ode, begin to be; and effect is that which had its beginnings from some other thing”
 Effekt
David Hume: “Counterfactual Thinking” (“What if?”) Was passiert, wenn Personen ein
Treatment erhalten? Was wäre passiert, wenn dieselben Personen das Treatment nicht
erhalten hätten? Δ = Effekt

Simultanes Verabreichen und Vorenthalten eines Treatments ist unmöglich. Wie kann sichergestellt
werden, dass der Grund zum Effekt führt?
 Approcimation des „countefactuals“ mittels Gegenbedingung und Identifikation der Unterschiede
zwischen Gegenbedingung und Grund/ Treatment
Kausaler Zusammenhang
John Stuart Mill:
1) zeitliche Vorgeordnetheit des Grunds
2) Kovariation
3) Ausschluss von Alternativerklärungen

INUS-Bedingung (Mackie 1974)/ Kontext


Kontextabhängigkeit
Insufficient but non-redundant part of an unnecessary but sufficient condition
 insufficient: unzureichend (kann nicht alleine wirken)
 non-redundant: nicht redundant (einzigartig, d.h. nicht durch andere Bedingungen erklärt)
 unnecessary: unnötig (nicht der einzige mögliche Grund)
 sufficient: ausreichend (hinreichend)

Validität
 Statistische Schlussvalidität
-kovariieren Grund und Effekt?
-Wie stark kovariieren sie?
 Ist der statistische Schluss korrekt? Beantworten wir meist mit der Signifikanz von
Ergebnissen – wie wahrscheinlich ist es, dass ein Effekt wirklich da ist, wenn ich behaupte das
ein Effekt da ist
 Bedrohungen der statistischen Schlussvalidität
o geringe Power
o Verletzung der Testvoraussetzungen
o Unreliabilität der Messungen
o Einschränkungen des Ranges einer Variablen (Varianzeinschränkung): kann dadurch
einen Zusammenhang fehleinschätzen, wenn ich z.B. nur einen geringen Range an
Leuten betrachte, die alle sehr homogen sind
o unreliable Treatmentdurchführung (Unterschätzung des für Effekts für stand.
Training)
o gebiaste Effektstärkenschätzung z.B. durch Ausreißer oder dichotomisierte Daten
o fishing (for significance) und Type-I error rate (alpha-Fehlerkumulierung)
 Beispiel Alpha-Fehlerkumulierung
 Sukzessive Anwendung von t‐Tests
 Forth(1966) überprüfte den Einfluss eines sedierenden Pharmakons (Schlaf
mittel) auf die Konzentrationsleistung bei einer Probandengruppe unter 10 v
erschiedenen Dosisbedingungen
Ziel: Nachweis eines „paradoxen“ Effekts der Leistungssteigerung bei
geringen Dosen
 visuelle Dateninspektion: sehr schwacher Effekt
 mehrfache t - Testung: einige statistische Belege für das Forth‐Düker‐Modell
 Hier: 45 Tests (9 + 8 + 7 + … + 1)
 Kumulierung des Alpha‐Fehlers –α = 1 ‐(1 ‐α)m= 1 –(1 ‐,05)45= 1 ‐,9545= 1 ‐
,0994 = ,9006 !!!
 varianzanalytische Reanalyse(Sarris, 1968): Kein Effekt
 Varianzanalyse: Verallgemeinerung des t Tests für zwei unabhängige Stichpr
oben auf Fragestellungen mit mehr als zwei Gruppen
Konstrukvalidität
In measuringhumanheight(or weightor lungcapacity, for example), thereislittledisagreementabout th
e meaningof the constructbeingmeasured, or about the unitsof measurement
(e.g., centimeters, grams, cubicmetres) … Measuringgrowthin psychologicaldomains(e.g., vocabulary
, quantitative reasoning, verbal memory, hand‐eyecoordination, self‐
regulation) ismore problematic. Disagreementismore likelyto arise about the definitionof the constru
ctsto beassessed. This occurs, in part, becausethereare oftenno naturalunitsof measurement(i.e. not
hingcomparable to the use of incheswhenmeasuring height). (Shonkoff& Phillips, 2000, pp. 82‐83)
 Erlauben die Eigenschaften/ Besonderheiten von Operationalisierungen den Schluss auf das
Konstrukt höherer Ordnung?
 Physiker müssen sich wenn sie die Länge messen nicht fragen, ob sie auch wirklich messen,
was sie messen wollen – in der Psychologie muss man sich das dagegen schon fragen
 Kriterien
1. Klare Explikation der Personen, Settings, Treatments, Outcome Konstrukte
2. Sorgfältige Auswahl von Instanzen, die diesen Konstrukten entsprechen
3. Passung zwischen Instanzen und Konstrukten prüfen
4. Konstruktbeschreibungen anpassen
 Bedrohungen der Konstruktvalidität
o inadäquate Beschreibung der Konstrukte (wenn man sagt ich will „Lernen“
evaluieren, was meine ich mit „Lernen“ dann, es gibt ja verschiedene Arten davon)
o Vermengung von Konstrukten
o Mono-Operation-Bias
o Mono-Method-Bias (wenn man nur ein Verfahren nimmt)
o Vermengung des Konstruktes mit „Ebenen des Konstrukts“ (wenn kein Effekt auf
einem hohen Level des Konstrukts gefunden wird kann trotzdem ein Effekt auf einem
niedrigen Level gefunden werden, also ein Training kann bei Leuten, die schlecht in
Mathe sind z.B. mehr Einfluss haben)
o Treatmentsensitive Faktorstrutktur
 Sehr unpolitische Personen, die kein Treatment bekommen, können
bezüglich eines Tests zur Politikverdrossenheit bzw. Unzufriedenheit mit der
politischen Landschaft eine größtenteils eindimensionale Faktorstruktur
aufweisen Personen, die ein Treatment (z.B. einen Kurs in politischer
Bildung) erhalten, können bezüglich dieser Einstellung differenzierter
werden und folglich eine mehrdimensionale Struktur aufweisen (z.B.
Unzufriedenheit mit der Umweltpolitik, Unzufriedenheit mit der
Flüchtlingspolitik, Unzufriedenheit mit der Verkehrspolitik etc.). Eine bloße
Summation und Vergleich der Werte in Kontroll ‐ und Experimentalgruppe
würde die Effekte des Trainings nicht richtig darstellen.
o Reaktivität (Leute die Treatment wollen sind z.B. motivierter oder die VP reagieren
auf die experimentelle Situation und verhalten sich dadurch unnatürlich)
o Erwartungen der Experimentatoren n (Rosenthal, Pygmalioneffekt)
o Neuigkeits- und Unterbrechungseffekte (wenn etwas neu eingeführt wird, kann es
Enthusiasmus verursachen, der aber nicht erhalten bleibt)
o Kompensationseffekte (komp. Ausgleich, komp. Rivalität) (wenn die beiden Gruppen
sich kennen oder irgendwie in Kontakt stehen)
o Demoralisierung (z.B. die Gruppen, die kein Treatment bekommen
o Diffusion des Treatments (Treatmentgruppe können Tipps weitergeben)
Interne Validität
 Eine Untersuchung wird als intern valide bezeichnet, wenn aus den aus ihr gewonnen
Erkenntnissen eine eindeutige Schlussfolgerung bezüglich der kausalen Beeinflussung der AV
durch die UV gezogen werden kann, d.h. wenn alle relevanten systematischen Störeinflüsse
ausgeschlossen werden können
 Systematische Störvariablen: Einflüsse, die mit er UV systematisch variieren und sich auf die
AV auswirken. Sie sorgen für Variation in der AV und produzieren somit Scheineffekte
(Artefakte). Effekte, die die empirische Hypothese scheinbar belegen, werden als
gleichsinnige Konfundierungen bezeichnet, Effekte, die die empirische Hypothese scheinbar
wiederlegen, als gegensinnige Konfundierungen.
 Unsystematische Störvariablen: Einflüsse, die zwar mit der AV, nicht aber mit der UV
kovariieren.
 Bedrohungen der internen Validität
o unklare zeitliche Abfolge
o Selektionseffekte
o Geschichte/ Zeitgeschehen
o Reifung zwischen den Messungen
o Regression zur Mitte
o Experimentelle Mortalität
o Testeffekte bspw. ein Reihenfolge- oder ein Gedächtniseffekt
o Veränderung des Messinstruments (aus Probandensicht)

Externe Validität
 Eine Untersuchung wird als extern valide bezeichnet, wenn die Erkenntnisse und
Schlussfolgerungen, die aus ihr gezogen werden, auf andere Orte (außerhalb des Labors), auf
andere Personen (als die, die im Experiment untersucht wurden), auf andere Situationen (als
die, die im Experiment hergestellt wurden) und auf andere Zeitpunkte (in der Vergangenheit
und Zukunft) übertragen, d.h. generalisiert werden können.
 Bedrohungen der externen Validität
 Interaktion zwischen Grund-Ursache-Beziehung und
o Probanden
o Variationen des Treatments
o Outcome-Variablen
o Settings
 kontextabhängige Mediationen

Generalisierbarkeit
 Cronbach
o utos: units receive treatments, while we observe the outcome in a particular setting
 Generalisierung zu
o Domäne, in der wir uns bewegen
o Einheiten, Treatments, Variablen und Settings, die nicht beobachtet wurden
o UTOS
Stichprobenziehung/ Sampling
Ideal (und formal korrekt): „domain sampling model of CTT“

 wir wollen immer eine Zufallsauswahl von allem, dann hätten wir groß UTOS
 Idee: Generalisierung von Domäne in der wir uns bewegen auf alle UTOS
 Wenn wir das ideale und formal korrekte domain sampling model of CTT haben, dann ziehen
wir aus der Population der UTOS per Zufall realisierte utos
 Groß-UTOS ist ein Ideal, was man so in der Form aber nur selten erreicht

Sind Konstrukte und externe Validität unerreichbar?


 in den meisten Fällen haben wir bei Experimenten immerhin ein kleines utos
o spezielle Einheiten (units)
o spezielle Treatments (treatments)
o spezielle Variablen/ Beobachtungen (observables)
o spezielle Situation/ Setting (setting)
 Rechtfertigung dennoch zu extrapolieren: Sampling und grounded theory
 man kann es dann nicht auf alles generalisieren, aber auf spezielle Sachen für die die
Stichprobe repräsentativ ist, lässt es sich generalisieren
Stichprobe und Generaliserung
 Population bekannt, dann Zufallsauswahl
 „Auswahl“ repräsentiert Grundgesamtheit (PopulatioNn)
 formale Annahme der klassischen Testtheorie (KTT)
 genügend große Stichproben?
 schlecht zu realisieren
 Alternativen
a) heterogene Instanzen
o Welche Dimensionen sind relevant
 bewusste Wahl unterschiedlicher Einheiten, treatments, Variablen, setting
 Unterschiedlichkeit auf relevante Dimensionen (global)
 Einschränkungen der Variabilität von:
 Einheiten: Worin unterscheiden sich Menschen?
 Treatments: Was könnte man noch alles versuchen?
 Variablen: Multiple Messungen, multimethodale Erfassung
 Settings: Worin unterscheiden sich settings?
 Generalisierung formal nicht gerechtfertigt
b) typische Instanzen
o Generalisierung auf welche Einheiten, Treatments, Variablen, Settings?
 gezielte Auswahl typischer Einheiten, Treatments, Variablen, Settings
 Repräsentation der Target Population
 Einschränkungen:
o MW, Median, Modus der „Klassen“ in der Targetpopulation
bekannt?
o Generalisierung auf andere „Klassen“?
 Heterogene Instanz: man nimmt sich inhaltlich die Fakultäten heraus, die inhaltlich sehr
heterogen sind, um die ganze inhaltliche Bandbreite der Uni abzudecken
 typische Instanz: man würde die Fakultäten nehmen, die am häufigsten besucht werden 
wenn man nach den typischen Einheiten fragt sind diese am aussagekräftigsten, weil die
meisten Personen in diesen Fakultäten studieren

ganz unterschiedliche Arten der Stichprobenerstellung


Generalisierung formal nicht gerechtfertigt, weswegen man sich auf die Grouded Theory stützt
Grounded Theory: zentrale Frage: Warum kann ich trotz fehlender Zufallsauswahl der utos generalisieren?
 wissenschaftlicher Alltag/ Evaluation: Generalisierungen ohne formale Sampling-Prozeduren
 orientiert sich an gängiger wissenschaftlicher Praxis (deshalb heißt sie „grounded“/
verwurzelt/ geerdet)
 5 Prinzipien der Generalisierung
o surface similarity (Oberflächenähnlichkeit): Offensichtliche Ähnlichkeiten zwischen
Operationalisierungen der Studie und den prototypischen Charakteristika des Ziels
der Generalisierung
o ruling out irrelevancies (Irrelevantes identizifieren): Größen, die für die
Generalisierung irrelevant sind, werden identifiziert
o making discriminations: Schlüsseleinschränkungen werden identifiziert und bei der
Generalisierung identifiziert (hat er sich hier verschrieben? Ich würde eher sagen
beachtet)
o Interpolation and Extrapolation
 interpoliert wird zu nicht untersuchten Werten, die aber im Bereich der
untersuchten Werte liegen
 extrapoliert wird in Bereiche, die nicht im Rage der untersuchten Werte
liegen
o causal explanation (Wirkmechanismus erkennen): erklärende Theorien werden
entwickelt und getestet, die die Muster des Effekts, Gründe und mediierende
Prozesse erkennen sollen

Generalisierbarkeit
Die Stärke von Experimenten ist die Fähigkeit, kausale Zusammenhänge zu beleuchten, ihre Schwäche
der beschränkte Gültigkeitsbereich!
 Experimente sind nur lokal gültig – sollen aber global Aussagen ermöglichen
 Schwierigkeiten
o Operationalisierung
 oft nur 1 Treatment (anders als eine Menge von möglichen Treatments)
 verschiedene Messungen (alle mit anderen theoretischen Implikationen) –
jedoch weit vom kompletten Satz aller möglichen Variablen
 Statistik/ Grundgesamtheit: Stichprobe ist nur in den wenigsten Fällen eine
Zufallsstichprobe
 Bestätigung/ Replikation: oft nur einmaliges Durchführen (die spezifisch
historischen Wirkungen sind somit nicht auszuschließen)

 Probandenwahl
 Treatmentwahl
 Settingwahl
 Analyse von Moderatorvariablen

„Soziales Spannungsfeld“ der Evaluation


Soziales Spannungsfeld der Evaluation
Ziele, Funktionen und Nutzungserwartungen
Auftraggeber definieren und explizieren Ziel der Evaluation:
 Zielexplikation: eindeutig? Realistisch? Widerspruchsfrei?
 Implizite Ziele/ Nutzungserwartungen?
o diffuse Erwartungen/ Ahnungen?
o Ergebnisse relevant?
o Ergebniserwartungen?
o ergebnisoffene und neutrale Erwartungshaltung?
 Evaluation ist immer auch mit der Bewertung des Evaluationsgegenstandes verknüpft!
 Ziele sind meist in Hierarchien geordnet

Zielhierarchien – Arbeitsschritthierarchien
Beispiele

 unterschiedliche Ebenen, die für das Gesamte relevant sind

Bestimmungsstücke eines Evaluationsvorhabens


 Funktion des Evaluationsvorhabens
 tangierter gesellschaftlicher Bereich
 Evaluationsobjekte
o soziale Einheiten (Personen, Schulklassen, Familien…)
o sozialstrukturelle Einheiten (Schichten, Altersklassen, Herkunftsländer..)
o räumliche Einheiten (Wohngebiete, Städte, Länder …)
 Evaluationskriterien
 Datenquellen
 Kontextbedingungen
 Evaluationsmethodik
 Verwendung der Ergebnisse

Funktion des Evaluationsvorhabens


Evaluation als
 Entscheidungsstrategie
 Entscheidungshilfe
 Optimierungsgrundlage
 Bewertung ohne Zielangabe
 strategisches Element

Tangierter gesellschaftlicher Bereich


Politik und Evaluation
1. Gibt es eine politische Entscheidung für oder gegen eine Maßnahme?
 Unterstützender oder widerstreitender Druck?
2. „Politische Bühne“
 Gab es vorher schon eine politische Diskussion?
 Weitreichendere Bedürfnisse als nur Ergebnis der Evaluation werden relevant
 Evaluationen werden diskutiert und finanziert durch politische Prozesse

3. Evaluation selbst ist politisch


 Problem des Evaluationsgegenstandes (implizite politische Statements über problematische
Maßnahmen und Unantastbarkeit anderer)
 Legitimität der Ziele einer Maßnahme
 Nützlichkeit für Reformen oder Optimierungen
 Rolle der Evaluation im politischen Kontext
Frage: Tangierter gesellschaftlicher Bereich. Könnten Sie das bitte nochmal erläutern?
 Wenn man eine Evaluation in einem größeren Umfang macht, dann sind die Entscheidung
und Rahmenbedingungen der Evaluation in einem politischen Zusammenhang und d.h. die
Frage ist, ob es für die Evaluation einen unterstützenden Druck oder Fürsprecher gibt, oder
einen widersprechenden Druck? Also ist die gewollt oder nicht?
 Evaluationen werden vorgeschlagen, definiert, debattiert und finanziert durch politische
Prozesse  Evaluationen finden nicht immer in einem wissenschaftlichen Vorgang, es
werden politische Interessen verfolgt
 Interessen der Evaluation selbst können auch politisch sein

Patton (1978):
Ein Direktor einer sozialen Einrichtung sagte: „This scientifice valuation stuff is all very interesting, and
I suppose it’ssomething we’re going to have to do for funders. But when it comes right down to it, my program
is evaluated every night when I get down on my knees and ask God to look into my heart and judge what I do by
His criteria. And, by God, so long as this evaluation is positive we’ll keep on serving and helping people“
Für Politiker: God mit Wählerinnen und Wähler ersetzen…
Evaluationskriterien
Outcome Variablen (AVs)
 offizielle vs. informelle Ziele?
o goal achievement model of evaluation  nur von Auftraggeber definierte Ziele
o needs-based evaluation/ zielfreie Evaluation  alle Wirkungen und Nebenwirkungen
werden berücksichtigt (Intendiert und nicht intendiert, erwartet und unerwartet)
Datenquellen
 Einzelne Datenquellen
o Blutuntersuchung bei Krankheitsbildern
 multiple Datenquellen
o Arbeitseffizient von Mitarbeitern durch Mitarbeiter, Vorgesetzte, Kollegen, externe
Gutachter
o Leidensdruck von Patienten durch Patient, Therapeut, Angehörige
 Vorteile multimethodaler Erfassung
o beschränkte Information jeder Datenquelle
o Messfehler bei jeder Datenquelle (unsystematisch oder systematisch)
 Datenaggregation zur Erhöhung der Reliabilität
o Akzeptanz der Evaluationsergebnisse erhöht, da unterschiedliche „Experten“ gehört

Kontextbedingungen
Beeinflussung einer Evaluation durch
o Ort
o Zeit
o Rahmenbedingungen
o Ressourcen

Wissenschaftliche vs. pragmatische Haltung


Wissenschaftliche Haltung Pragmatische Haltung

 Evaluationsforschung an das wissenschaftliche Forschungsparadigma anpassen (Campbell)


o Cronbach sagt dagegen, dass es eher eine Kunst als eine Wissenschaft ist
o will Stakeholderwünschen entsprechen
Verwendung der Ergebnisse
Warum wurde die Evaluationsfrage gestellt?
 Entscheidungsfindung
o Verbesserungspotentiale ausloten (z.B. durch Maßnahmenträger)
o Förderung oder Weiterführung der Maßnahme (z.B. durch externe Geldgeber)
o Nutzung der Evaluationsergebnisse
 Stakeholder mit direktem Interesse (Ist die Maßnahme effektiv?)
 Stakeholder mit mittelfristigem Interesse (Ist der Effekt der Maßnahme
generalisierbar?) (eher Wissenschaftler)
o Ergebnisse können auch einfach nur für den Beweis der Erfüllung von Auflagen
wichtig sein
o strategische Nutzung der Evaluation

Soziales Spannungsfeld in Evaluationen


 grob drei Stakeholdergruppen

je mehr datengesteuert gearbeitet werden kann, desto mehr wird das Konfliktpotential reduziert

Stakeholder/ Beteiligte
 Personen
 Gruppen
 Evaluatoren sind auch Stakeholder, weil sie wissenschaftliche Interessen haben

Spezifischer können das sein:


 Personen, die Gegenstand der Evaluation sind (z.B. Trainer)
 externe Personen, die Informationen oder Teilmaßnahmen durchführen (z.B. Therapeuten)
 Zielpersonen der Maßnahme (z.B. Patienten)
 Auftraggeber der Evaluation
 Betroffener und Beteiligte von Konkurrenzprodukten
 gesellschaftliche und wissenschaftliche Öffentlichkeit und Medien

Problemfelder zwischen Stakeholdern/ Beteiligten


Welche Interessen haben die Stakeholder?
Decken oder widersprechen sich die spezifischen Interessen der Stakeholder?
 Umgang mit potentiellen Interessenkonflikten?
 Einzelfallentscheidungen
 Beteiligung aller Stakeholder jedoch grundsätzlich anzuraten
 transparentes und konsensorientiertes Vorgehen

Interessen von Stakeholdern


 Der Wert, den Individuen einem Produkt oder Programm zuweisen, um ein Bedürfnis zu
befriedigen, dient als Grundlage zur Bestimmung der Ziele des Produktes oder Programms.
 Programmevaluation bzw. Evaluationsforschung muss folgende Information liefern
1. Wie real ist das Bedürfnis? (need assessment)
2. Welche Priorität hat das Bedürfnis relativ zu anderen Bedürfnissen?
3. Erreichen die vorgeschlagenen Mittel (das Programm) die gewünschten Ziele?
4. Wie kompetitiv sind die vorgeschlagenen Mittel mit den verfügbaren Alternativen?

Umgang mit Interessenkonflikten


Parteiliche Evaluation
 Abnehmerevaluation (streng aus Sicht der Auftraggeber)
 Betroffenenevaluation (Evaluation von unten)
 Empowerment Evaluation (Einflussmöglichkeiten und Selbsthilfekräfte von Beteiligten
stärken)
Partizipatorische/ Stakeholder/ kollaborative Evaluation
 Konstruktivistische Evaluation (Konsensfindung)
 pluralistische Evaluation/ response evaluation (unterschiedliche Blickwinkel)
o Gegenredemodell (advocacy-adversary evaluation): Pros und Cons
o Verhandlungsmodell (judical evaluation): Plädoyers, Zeugen und Sachverständige vor
Jury
o ausbalancierte Evaluation (Gleichgewicht der Kräfte): alle evaluieren alle
symmetrische Machtverhältnisse)

Interessen, Ziele und Wertungsdimensionen von Stakeholdern – Delphi-Technik


Ansatz: statistische Aggregation von Meinungen, Bewertungen, Urteilen, Entscheidungen ist genauer
als Einzelaussagen
1. Auswahl des Bewertungsproblems (Aktivitäten, Komponenten, Programme etc.)
2. Auswahl von Personen zur Bearbeitung des Problems (Stakeholder)
3. Individuelle Befragung der Teilnehmer
4. Individuelle Informationssammlung der Teilnehmer
5. Individuelle Antworten der Teilnehmer
6. Auswertung der Antworten
7. Aufforderung zum Kommentar der eigenen Antworten im Vergleich zum Gruppenergebnis
8. Verbreitung der individuellen Kommentare an alle Teilnehmer
3-5 Wiederholungen
Problemfelder zwischen Stakeholdern und Evaluatoren
Validität der Schlussfolgerungen vs. zeitnahe, nützliche und bedeutsame Rückmeldung
schnelle Entscheidung vs. zeitintensive wissenschaftliche Prüfung
kostengünstig vs. kostenintensive wiss. Prüfung
wiss. Messinstrumente Komplexe, dynamische Facetten des Gegenstandes
(enge Konstrukte) vs. (aus Sicht der Stakeholder)
Isolation des Grundes Normaler Ablauf
(Interne Validität) vs. der Maßnahme
 „Good enough“ Evaluations

Indikationsablaufschema (Rahmenbedingungen für eine erfolgreiche Evaluation)


Zu klärende Fragen
1. Für wen wird evaluiert? – Auftraggeber, Forscher, Betroffene
2. Warum/ Aus welchen Gründen wird evaluiert?
-Schutz der Betroffenen, Interesse an Kosten und Effekten, politische Profilierung,
Aufklärung, Rechenschaft gegenüber dem Bürger
3. Was wird evaluiert? – Planung, Durchführung oder Ergebnisse eines Programms
4. Nach welchem Modell wird evaluiert? – später dazu mehr

A VICTORY Modell
Fragebogen zur Identifikation von Befürwortern und Gegnern des Evaluationsvorhabens
A Ability: Bereitschaft und Fähigkeit, Ressourcen für die Evaluation zur Verfügung zu stellen
V Values: Einstellungen und Werthaltungen gegenüber Forschung und Evaluation
I Information: Existenz von Daten über bisherige Arbeitsweise des Programms
C Circumstances: Macht-, Weisungs- und Hierarchiestrukturen
T Timing: Prioritäten und Kompatibilität mit anderen Aktivitäten
O Obligation: Ausmaß an Verpflichtung, etwas tun zu müssen (Programm verbessern, Effektivität
prüfen)
R Resistance: Befürchtungen über negative Effekte und Widerstände
Y Yield: erwartete und erhoffte positive Konsequenzen der Evaluation
 das Modell sollte immer auf konkrete Evaluationsvorhaben kontextualisiert werden

Allgemeine Prinzipien zur Förderung der Implementation der Programmevaluation


Aufgaben, Standards und Modelle der Evaluation

Art Checklist, wenn man eine Evaluation vornehmen will  Anhand des Flussdiagramms und
Beantwortung dieser Fragen kann man Entscheidungen treffen, wie man weiter vorgehen sollte bei
dem Evaluationsprozess
Das CIPP-Modell: CIPP -Context, input, process, product

 CIPP-Modell hat die Idee, dass man als Evaluator Dinge zusammenfassen muss und Dinge mit
dem Stakeholder abklären muss  ist wie eine Checkliste zu betrachten, bei denen man
erfüllte Dinge abhaken kann
Das 5-Datenboxen Modell

 Personen werden randomisiert auf unterschiedliche Bedingungen verteilt  interne


Validität: ETR-Box
 Korrelative Untersuchungsdesigns wo eher hohe externe Validität betont wird  man
vergleicht natürliche Gruppen miteinander ohne randomisierte Zuteilung auf die Gruppen
(Quasi-Experiment): NTR-Box
 Pfeile zur PR-Box von KR-Box weil man einen Rückbezug herstellt und schaut, ob
Veränderungen stattgefunden haben
 Variablen sind in der Prädiktorbox demographische Variablen, systematische Störvariablen
aber auch die AVs zum ersten Zeitpunkt.
 Variablen in der ETR ‐ bzw. NTR ‐Box sind unterschiedliche Treatment ‐ und
Kontrollbedingungen.
 Variablen in der Kriterienbox sind primär die AVs zum zweiten Zeitpunkt.
 Das komplette Datenmodell hat implizit eine Veränderungsmessung mit drin
 Idee ist aber, dass man immer eine Prä- und Postmessung der AV hat

Die Boxen
-Boxen sind im Sinne einer Cattell’schen Covariation Chart aufgebaut: 3 Dimensionen:
EVA-Box (Evaluationsbox)

Concept Mapping (Trochim, 1984)


1. Die Vorbereitungsphase umfasst die Auswahl der Stakeholder und die Formulierung eines Fokus
für Konzeptualisierung.
2. Die Brainstormingphase erhebt die verschiedenen Teilzielbereiche der Stakeholdergruppen.
3. Die Strukturierungsphasen erzeugt eine grafische Darstellung unter Verwendung von
multidimensionaler Skalierung und Clusteranalyse, auf der wie auf einer geografischen Landkarte die
Gruppierung, Nähe und Entfernung von Zielgruppen visualisiert werden.
5. Die Interpretationsphase findet Oberbegriffe für Zielcluster und diskutiert die Gewichtungen und
Redundanzen der Bereiche.
6. Die Umsetzungs- und Anwendungsphase vergleicht die Zielsetzungen mit Erkenntnissen aus
Informationen über die Bedürfnisse und kann deutlich machen, ob zuerst ein ausführlicheres „need
assessment“ durchgeführt werden sollte, ob bereits mit einer konkreten Programmplanung
begonnen werden kann, ob Programme, die diese Ziele zu erreichen versprechen, zur Verfügung
stehen und wie deren Evaluation durchgeführt werden kann

Concept mapping

 ermutigt und bindet Stakeholdergruppe, eine gemeinsame Aufgabe zu verfolgen


 führt relativ rasch zu einem interpretierbaren Rahmenkonzept
 drückt dieses Konzept in der Sprache der Teilnehmer aus
 liefert eine grafische und bildhafte Darstellung der Hauptideen und deren
Beziehungsgeflecht
 zeigt und verbessert häufig den gemeinsamen Gruppenzusammenhalt sowie die Zuversicht,
ein Problem zu lösen.
 Concept mapping hat sich als sehr praktikabel und nützlich erwiesen und wird von Trochim
und seinen Mitarbeiter/innen kontinuierlich zu einem umfassenden eigenständigen
Evaluationsmodell ausgebaut

PR-Box (Prädiktorbox)
ETR-Box (experimentelle Treatmentbox) NTR-Box (nicht-experimentelle Treatmentbox)

CR-Box (Kriterienbox)

 Auswahl von Kriterienmaßen


o pädagogische Psychologie: Taxonomie von Zielen im kognitiven Bereich:
Wissen, Verstehen, Anwenden, Analyse, Synthese und Evaluation
o Arbeits- und Organisationpsychologie: Modell bei der Evaluation betrieblicher
Trainings- und
o Entwicklunglungsprogramme: Reactions, Learning, Behaviour und Results
 Single Acts vs. multiple Acts
o einmaliges singuläres Ergebniskriterium (ESEK)
o wiederholt beobachtetes singuläres Ergebniskriterium (WSEK)
o einmaliges multiples Ergebniskriterium (EMEK)
o wiederholt beobachtetes Ergebniskriterium (WMEK)

Kein Effekt bei Programmevaluationen?


Warum?

 Theorien falsch?
 Schlechte oder ungenügende Implementierung?
 Schlechtes Management oder Monitoring?
 Evaluationsmodelle oder Evaluationsmethodologien inadäquat?

The true Brunswik‐symmetrical latent structure of nature

 Diese Prinzipien sind aus dem Linsenmodell von Brunswik (1955) abgeleitet, werden sie auch
als Brunswik-Symmetrie bezeichnet. Hiermit ist gemeint, dass sich z. B. Interventionen und
Kriterien im Generalitätsniveau der gemessenen Variablen entsprechen müssen.
Korrespondenzprinzip
Nulleffekte oder geringe Zusammenhänge können aus Asymmetrien im Linsenmodell
herrühren und erklärt werden.

Full Asymmetry – The Case of nothing works!

 Prädiktor auf einer komplett anderen Ebene als Kriterium  Intervention passt nicht zur
Messmethode bzw andersrum
Asymmetry due to a broad higher level

 Intervention ist auf einer breiteren Ebene abgefragt als das Kriterium:
o Bsp: Sozialkompetenztraining wo viele Dinge geschult werden und man teste das mit
einem Test zur Erkennung von Emotionen in Gesichtern  das würde nicht alle
Aspekte des Sozialkompetenztrainings abdecken, wenn auch noch das Erkennen von
Strukturen in Gruppen dort geschult wurde

Asymmetry due to a narrower lower level

 Sehr enge Intervention, die mit einem sehr breiten Kriterium abgeprüft wird: Intervention
zur Verbesserung der Kommasetzung (sehr enges Konstrukt), wobei man zur Überprüfung
der Wirksamkeit der Intervention einen Grammatiktest einsetzt  Erhebungsinstrument ist
breiter als die Intervention
The hybrid case of asymmetry

 Hybrid: man hat breite Intervention und breites Konstrukt  Problem ist, dass sich nur
geringe Teile überschneiden: Kopfrechentraining schulen, aber Mathetest mit Textaufgaben
als Erhebungsinstrument  Intervention unterscheidet sich sehr deutlich vom Kriterium
Im Grunde ist das eine Idee, dass man sich sehr viele Gedanken darüber machen sollte, welche
Verfahren valide sind und mit der Intervention korrespondieren, mit der ich die Konstrukte erheben
kann  welche Erhebungsmethoden sind zutreffend?
Zusammengefasst: Das Linsenmodell soll verschiedene Abstraktionsebenen darstellen und ob eine
Intervention und das Konstrukt (was durch die Intervention verbessert werden soll) auf der gleichen
Ebene erfasst werden, sodass Effekte aufgedeckt werden können, weil die Erfassung der
Maßnahmen adäquat für das zu erfassende Merkmal sind

 Bsp: Man möchte Extraversion als Merkmal erfassen und erfragt bei Personen die Neigung
auf Partys zu gehen  es kann sein, dass man hier einen Effekt findet, aber an sich ist die
Sub-Eigenschaft zu abstrahiert bzw Extraversion hat weitaus mehr Facetten, weswegen man
das gesamte Ausmaß wahrscheinlich nicht erfassen kann  Das Linsenmodell würde dann
versuchen diese Asymmetrie darzustellen
 Plakativeres Beispiel: Man hat eine Interventionsmaßnahme zur Verbesserung
mathematischer Fähigkeiten und versucht diese mithilfe eines Deutsch-Tests zu evaluieren
 Wenn man keinen Effekt aufdeckt (was nicht verwunderlich wäre), liegt es daran, dass die
Abstraktionsebene falsch ist bzw das zu messende Konstrukt auf einer anderen Ebene liegt

Zusammenhang zum 5 Datenboxen-Modell:


 Korrespondenz auf allen Ebenen der 4 von 5 Datenboxen sollte gegeben sein
o Soziales Kompetenztraining ist in natürlichen Gruppen gegeben
o IQ gegen Anzahl erfolgreicher Berufsabschlüsse ist schon sehr kontrovers, das soziale
Kompetenztraining liegt auch nochmal quer
 Sind PR-, Intervention und KR- auf der gleichen Ebene?
o bei der Anzahl erfolgreicher Abschlüsse bzw dem Fokus auf dem Sozialen (durch die
Intervention) ist ein IQ-Test vielleicht nicht das Beste Erhebungsmittel bzw
Vergleichswert, den man mit den Kriterien in Verbindung bringt
Erfolgreiche Programmevaluationen unter Verwendung der Fünf-Datenboxen-Konzeption
 Evaluation von Alkoholismustherapien (Süß, 1988)
 Effektivität psychosomatischer Behandlungen (Schmidt, 1991; Schmidt et al., 2003; Nübling,
1992)
 Fehlervermeidungstraining eines Automobilkonzerns und zu einem Trainingsprogramm zur
Verbesserung des kundenorientierten Verkaufsverhaltens (1996)
 Evaluation von Traineeprogrammen im Industriebereich (1996)
 Evaluation zur Evaluation der Auswahlstrategie eines Beratungsunternehmens (2007)

CIPP – context, input, process, product


1. Vertragliche Vereinbarungen
2. Kontextevaluation
3. Inputevaluation
4. Prozessevaluation
5. Wirksamkeitsevaluation (Produkt I)
6. Effektivitätsevaluation (Produkt II)
7. Nachhaltigkeitsevaluation (Produkt III)
8. Transportabilitätsevaluation (Produkt IV)
9. Metaevaluation
10. Der finale zusammengeführte Bericht

Evaluation von Zuständen


-Zustände = Statusdiagnostik
-Aus Statusdiagnostik kann man prospektive Schlüsse ziehen

Ausgangslagen
-Prädiktoren identifizieren und z.B. überlegen wie man die Güte der Schule messen kann -> Kriterien
auch auf derselben Ebene messen wie die Prädiktoren
-„ In unserer Firma läuft es nicht! Was können wir besser machen?“ „Ist die Schulausbildung in
Deutschland gut?“ „Fühlen sich die BürgerInnen in Deutschland sicher?“
Präzisierung der Fragestellung und empirische Prüfung / Klärung

Zustandsevaluation als Statusdiagnostik


 Jede diagnostische Fragestellung wird automatisch evaluativ, wenn man dem Befund eine
Bewertung zuschreibt:
o „Psychologie an Uni Bielefeld schneidet im CHE ‐Ranking gut ab“ „BürgerInnen fühlen
sich unsicher“
 Diagnosen von Ist ‐Zuständen bedeutsam für Evaluation bei Planung von Intervention
– Überhaupt nötig?
– Wie soll die Intervention aussehen?
Durch die Bewertung der Zustandsdiagnose Ableitung von Interventionsbedarf möglich

Needs Assessment als Zustandsdiagnose (allgemein versteht man darunter das markierte)
-„The family of procedures used by evaluators and other social researchers to systematically describe
and diagnose social needs [social problems / problems in general] is generally referred to as needs
assessment.“
 Präzise Definition des Problems
 Präzise Messung des Problems
 Bestimmung und Identifikation der Nutznießer („Ziele“) der Intervention
 Akkurate Beschreibung der Bedürfnisse/Bedarfe der Nutznießer

Bedeutung der Diagnostik / Needs Assessment


 Evaluationen bzw. needs assessments spielen bei der Identifikation von Bedürfnissen i.d.R.
eine untergeordnete Rolle im Vergleich zu Politikern, Medien, charismatischen
Persönlichkeiten des öffentlichen Lebens
 U.S.A.: J. F. K. hat viele Programme zu geistig Behinderten gefördert – er hatte eine geistig
behinderte Schwester
 Verbesserte automobile Sicherheit kann in Zusammenhang gebracht werden mit dem
Eintreten für das Thema durch Ralph Nader (“Unsafe at any speed”)
 BRD: Medien, Bund der Steuerzahler

 Warum ist Statusdiagnostik so wichtig? Beispiele dafür

 Beispiel 1
o Problem: Hohe Arbeitslosenquote in „inner ‐city neighborhoods“
o Annahme: Defizite im Angebot an Arbeitsstellen
o Maßnahme: Anreize für Arbeitgeber geschaffen, in „inner ‐city neighborhoods“
Stellen zu schaffen
o Effekt: Arbeitsplätze nehmen zu, doch Arbeitnehmer kommen aus anderen
Stadtgebieten Fehlplanung – Personen aus dem jeweiligen “inner ‐city ‐
neighborhood” bleiben arbeitslos
 Beispiel 2
o Ziel: Erkennung von AIDS ‐Fällen verbessern
o Maßnahme: Ärzte erhalten Informationen über die AIDS ‐Diagnose mittels Bluttest
bei Risiko ‐Patienten
o Nicht berücksichtigt: Ärzte haben keine Angaben zur „sexuellen Vergangenheit“ ihrer
Patienten (keine Anamnese)  keine Klassifikation als „high risk patient“ möglich
o Effekt: Alle Patienten getestet, hohe Kosten
 Beispiel 3
o Problem: Hohe Abtreibungsraten in einem Stadtgebiet
o Maßnahme: Birth ‐control project erweitert, zusätzliche Teilnehmer sollten erreicht
werden
o Effekt: Keiner Nicht berücksichtigt: fast alle potentiellen Teilnehmer im Stadtgebiet
waren bereits im Projekt; Verhütung war bereits weit verbreitet; junge Frauen aus
dem Umland kamen zur Abtreibung ins Stadtgebiet
 Beispiel 4
o Problem: Handfeuerwaffen bei kriminellen Handlungen
o Maßnahme: Verkauf an Schwerverbrecher (vormals bestraft) verboten
o Nicht berücksichtigt: Schwerverbrecher kaufen die Waffen nicht legal (Erhalt von
Waffen auf Schwarzmarkt oder durch Diebstahl)
o Effekt: Keiner!

 Mit einer anständigen Statusdiagnostik hätten man Zeit und Kosten sparen können, weil man
dann hätte sehen können, dass die Maßnahmen keine Wirkung haben

 Klärung:
o Wie sieht das Problem genau aus?
o Wer ist betroffen?
o Welche Charakteristika haben / teilen die Betroffenen?
o Sind die Charakteristika noch identisch mit denen bei der ersten Implementierung
des Programms?
o Welche Bedürfnisse haben die Betroffenen?
o Welche Reaktionen der Betroffenen sind zu erwarten?
o Sämtliche Annahmen (implizit und explizit) sind in Frage zu stellen! ‐ Mögliche
Probleme bei festen Überzeugungen der Auftraggeber … “Verwirren Sie mich nicht
mit Tatsachen, meine Meinung steht schon fest!”
o Probleme sind oft sozial konstruiert

Prototypische Schritte im Needs Assessment (McKillip, 1998)


 1. Identifikation von Nutzern und Nutzen des Needs Assessments: Nutzer sind diejenigen, die
das Assessment als Entscheidungshilfe nutzen und die Betroffenen. Über den weiteren
Nutzen des Assessments zu wissen, erlaubt eine genauere Eingrenzung der Probleme und
möglichen Lösungen.
 2. Beschreibung der Betroffenen (target population) und der Umgebung der Maßnahme:
Charakteristika (Schwächen und Stärken) der Betroffenen; Auswahlkriterien der Maßnahme;
Kapazitäten der Maßnahme; Abgleich der Teilnehmer einer Maßnahme und der Zielgruppe
 3. Need identification: Beschreibung der Probleme in der Zielgruppe und möglicher Lösungen
(multiple Informationen nutzen). Informationen zu Erwartungen an Maßnahme im Hinblick
auf Effekte, zum gegenwärtigen Stand, Effizienz und Machbarkeit, Nutzung von Lösungen
 4. Need Assessment: Bedürfnisse werden erhoben und Empfehlungen für Maßnahmen
formuliert; Je klarer und offener der Prozess, desto eher werden Resultate akzeptiert und
umgesetzt
 5. Communication: Ergebnisse des Needs Assessments kommunizieren bzw weiterleiten an:
Entscheidungsträger, Nutzer und andere Stakeholder und ggfs mit ihnen ausdiskutieren
 Idee des Needs Assessments ist dass man das Assessment mit drin hat, aber man dafür auch
noch andere Dinge tun muss.

Problemdefinition
 Unzufriedenheit von Stakeholdern mit gegenwärtigem Zustand
o Identifikation eines Problems als Abweichung von Zielzustand
o Beobachtbare Fakten beschreiben ein Phänomen nicht als kritisch oder
verbesserungswürdig
o Definition des gewünschten Zustandes (Zielzustandes) ist nötig
o Definition des Zielzustandes ist zeit ‐ und kontextabhängig (was ist Armut?)
 Problem der Obdachlosigkeit
o a) Obdachlose Person hat keine Verwandten  soziale Isolation
o b) Obdachlose Person hat keinen Zugang zu einem Obdach Problematik der
Unterbringung

Ausmaß des Problems: wann, wo und wie groß?


 Wann? Zeitpunkt des Auftretens
 Wie lange?
 Wo? lokale Bestimmung (Verortung), Soziale Verortung (z.B. Verteilung über verschiedene
Schichten)
 Wie groß (stark)? Bestimmung eines Effekts (einer Effektgröße) oder von Inzidenz ‐ bzw.
Prävalenzraten
 Ursachen des Problems?
 3 Formen der Erhebung der Problemparameter:
o 1. Agency Records (Agenturberichte)
o 2. Umfragen und Erhebungen
o 3. Erhebungen bei “Key Informants” (Schlüsselpersonen; Experten)

z.B. gibt es bei der Anzahl der Obdachlosen Schätzungen, die zwischen 2000 und 200000 Personen,
also um den Faktor 100 variieren  sehr ungenau

Wann? Zeitpunkt des Auftretens


 Auftreten des Problems kann zeitlich variieren nach:
o Lebensphasen
o Entwicklungen in der Gesellschaft forecasting needs (Prospektion)

Wo ? Lokale Verortung
 Durchschnittswerte gelten nicht für alle!
Prävention kriminellen Verhaltens in einem Vorort in den USA aufgrund der amtlichen Statistik
zu delinquentem Verhalten
Nach Einführung eines Präventionsprogramms wurde festgestellt, dass es gar kein
Kriminalitätsproblem gab
 Problem: a) Generalisierung von Stichprobendaten auf die Population
b) Unzulässige Übertragung von Populationsdaten auf Teilpopulationen
Wie groß?
 Repräsentative Stichproben / Daten, um Bedarf zu ermitteln
 Zur Verfügung stehende Datenquellen
o Surveys U.S. Census
o Mikrozensus in Deutschland verlässliche Daten über wirtschaftliche und soziale
Lage, Erwerbstätigkeit, Arbeitsmarkt und Ausbildung
 Daten dienen der Statusdiagnose, aber auch Ermittlung von Trends
o SOEP: Sozioökonomisches Panel (https://www.diw.de/soep)
 USA: Anzahl Kinder, die kostenloses Essen in Schulen erhalten als Indikator für Armut im
Einzugsgebiet der Schule
 Soziale Indikatoren (Surveys U.S. Census)
o Einkommen des Haushaltes
o Alter, Geschlecht, Rasse der Personen in Haushalten
o Teilnahme an Förderprogrammen
Möglichkeit, Größe und Verbreitung eines Problems abzuschätzen
Möglichkeit, Veränderungen abzuschätzen
Möglichkeit, erste, wenn auch grobe, Abschätzungen von Effekten existierender
Maßnahmen
 Keine Daten vorliegend
 Daten zwar vorliegend, aber nicht auf dem richtigen Aggregationsniveau
 Eigene Forschungsarbeiten zur Statusdiagnose
o Einholen von Expertenmeinungen
o Large ‐scale (sample) surveys
 Aufwand der Datenerhebung hängt von Anforderungen an Statusdiagnose ab – Geht es
um: a) Gibt es ein Problem, wie sieht es aus? b) Wie groß ist das Problem (statistisch
abgesichert)?

Drei nützliche Datenquellen


 Forschungsinstitute, Meinungsforschungsinstitute, Kliniken u.ä. Oftmals Jahresberichte /
Statistiken, die eine Abschätzung des bestehenden Problems erlauben
 Surveys und Zensus  Untersuchung / Befragungen in Wohngebieten durchführen, die auch
durch den Zensus erfasst werden
 Experten / Schlüsselpersonen (key informants / wichtige Akteure)  Einschätzungen des
Ausmaßes eines Problems; Charakterisierung der Zielgruppe und deren Bedürfnisse

Identifikation von Zielgruppen einer Intervention


 Definition der Zielgruppe nötig:
o Soziale Einheiten (Personen, Schulgruppen, Familien usw.)
o Sozialstrukturelle Einheiten (Schichten, Altersklassen usw.)
o Räumliche Einheiten (Wohngebiete, Städte, Länder usw.)
 Identifikation der Mitglieder der Zielgruppe nötig:
o Universelle Ansätze (AIDS ‐Aufklärungskampagne)
o Indizierte Ansätze (Kampagne an HIV ‐Positive)
o Selektive Ansätze (präventive Kampagne in spezifischer Risikogruppe)
 Definitionen von Obdachlosen in den USA:
o Auf der Straße oder in Hütten
o Ohne festen Wohnsitz (bei Freunden, Verwandten, Fremden…)
o Wohnungen ohne Mietvertrag (wöchentliche oder tägliche Mietzahlungen)
Genaue Operationalisierung nötig!

Zielgruppen einer Intervention


 Population at risk / Risikopopulation
o Public Health
o Präventiver Charakter von Maßnahmen
o At risk assessment
 Population in need / Bedürftige (Hilfsbedürftige)
o Kurativer Charakter (Schulungen für Legastheniker)
o Demand assessment (wer nimmt wirklich teil?)

Inzidenz vs Prävalenz

 Inzidenz
o Anzahl neuer Fälle
 Erkrankungen
 Drogenabhängige
 Kündigungen
 Opfer von Verbrechen
 …
 Prävalenz
o Anzahl existierender Fälle
 Kranke
 Drogenabhängige
 Ehemalige Mitarbeiter
 Opfer von Verbrechen

Zielgruppenbestimmung

Inklusionskriterien

 bei indizierten oder selektiven Maßnahmen


 Wichtig: Herstellung von Passung zwischen Zielgruppe und Teilnehmern

Evaluation von Veränderungen, Evaluation als Wirksamkeitsprüfung,


Evaluation als Effizienzanalyse
Evaluation von Veränderungen
Veränderungen:
Beschreibung der Veränderungen
• Wie entwickelt sich die Arbeitslosenquote zwischen 2005 und 2006?
• Wie hat sich das Auftreten von Gewalt an Schulen in den letzten 20 Jahren verändert?

Veränderung als Folge der Maßnahme (Wirkung)


• War die Therapie erfolgreich?
• Rauchen weniger Jugendliche nach Einführung der gesetzlichen Maßnahmen?
Qualitative Veränderung
• Veränderung eines Zustandes (Modalität) Quantitative Veränderung
• Zu ‐ oder Abnahme von Merkmalsausprägungen Mischformen der Veränderung
• Zu ‐ oder Abnahme unterschiedlicher Modalitäten
Analyse von Einzelfällen (Personen oder Dinge) oder Gruppen

Arten von Veränderungen


Situative Fluktuationen
• Latent ‐State ‐Trait
– Trait (Eigenschaft, Disposition, Merkmal): zeitlich stabiles, zustands ‐ und
situationsunabhangiges Merkmal (z.B. Extraversion oder Gewissenhaftigkeit)
– State (Zustand): zeitlich instabiles, zustands ‐ und situationsabhangiges Merkmal (z.B.
Stimmung oder Befinden)

Veränderungen im engeren Sinne


• dauerhafte (und oft irreversible) Veränderung (z.B. Wachstum)
• Kontinuierlich vs. diskontinuierlich

Messung von Veränderungen


Differenzmaße auf Einzelfallebene:
S1 = Streuung Dst = Effektstärkemaß

Durch die SD -> Standardisierung -> ab welcher


Effektgröße klinisch relevant?

Differenzmaße auf Gruppenebene:


Probleme der Veränderungsmessung

Direkte Veränderungsmessung = direkte Erfassung der Veränderung


Indirekte Veränderungsmessung = Messung einer Variablen über mehrere Messzeitpunkte
Weitere Möglichkeit: Quasi-indirekte Veränderungsmessung - Fraglich: können sich Personen
zuverlässig und valide an Merkmalsausprägung zu t1 erinnern … (man misst zu einem Zeitpunkt und fragt
dabei aber nach 2 Zuständen, wobei einer in der Vergangenheit liegt)

Regressionseffekt bei indirekter Veränderungsmessung (Regression zur Mitte)

(Das seitliche in Worten statt in Formel: Die beiden Variablen müssen eine Autokorrelation aufweisen, aber die Korrelation
zwischen den beiden Variablen soll kleiner als 1 sein, Varianzen und Standardabweichungen müssen gleich sein)

Reliabilität von Differenzwerten hängt ab von


‐ Reliabilität des Messinstruments (Cronbachs α zu t1 und t2)
‐ Höhe der Autokorrelation (Retest ‐Reliabilität)
‐ Retest ‐Reliabilität:
‐ Derselbe Test wird derselben Stichprobe wiederholt (meistens zweimal) dargeboten
‐ Die Korrelation zwischen dem ersten und dem zweiten Testscore ist die Retestreliabilität
‐ Retestreliabilität wird auch als Teststabilität bezeichnet
‐ Bezüglich der Festlegung des optimalen Zeitintervalls besteht ein Dilemma:
‐ Erinnerungs ‐ und Übungseffekte sollten vermieden werden  langer Zeitraum
‐ reale Schwankungen des erfassten Merkmals über die Zeit führen zu Unterschätzung der
messtechnischen Qualität - kurzer Zeitraum
Differenzwerte können nur dann reliabel sein, wenn sich unterschiedliche Personen in
unterschiedlicher Weise verändern!
Bsp: Werte von Personen, verteilt auf 3 Prätests
5 5 6
4 4 4
3 3 3
 Interne Konsistenz über 3 Items im Prätest: hohe Interne Konsistenz
Die Personen entwickeln sich:
8 8 9
7 7 7
6 6 6
 auch wieder eine hohe interne Konsistenz, weil man hoch korrelierte Variablen hat  man hat
eine sehr gleichartige Entwicklung  die Entwicklung von jeder Aufgabe von jeder Person von Prä- zu
Posttest wäre: +3 +3 +3
die Personen haben sich alle gleich verändert  wenn eine Person immer 3 Punkte besser wird,
die andere nur 2 und die letzte immer nur 1, dann hätte man geringere Autokorrelationen
Hohe Autokorrelation und gleiche Varianzen bedeuten, dass es keine interindividuellen Unterschiede
in der Veränderung gab. M.a.W.: Differenzwerte sind dann reliabel, wenn
• das Messinstrument reliabel ist
• die Autokorrelation kleiner als 1 ist
• die Varianzen zu den beiden Messzeitpunkten unterschiedlich sind (GJ, S. 98)

Evaluation als Wirksamkeitsprüfung


-Wirksamkeit: Intendierte Effekte wurden erreicht  wirksam Outputorientierung
-Wirkung: Spezifische Wirkmechanismen der Maßnahme Wirkmodell (nächste Sitzung)
-In einem Wirkmodell sollte spezifiziert sein
• wie eine Intervention wirken sollte (Zuwachs oder Abnahme)
• wieso sie wirken sollte (theoretische Begründung)
• von welchen Randbedingungen die Wirkung abhängen sollte
-Persistenz: Veränderung soll auch nach Abschluss einer Maßnahme erhalten bleiben
Transfer

Nebenwirkungen
• entwickeln sich zeitlich parallel zur Wirksamkeit
• nicht intendiert
• beeinflussen Wirkung weder positiv noch negativ

Folgewirkungen
• entwickeln sich später
•lassen sich auf Intervention zurückführen

Beispiel: Therapie einer Depression:


-maßnahmenspezifische Wirkung: Reduzierung des Leidensdrucks und größere Lebenszuversicht
-Neben- oder Folgewirkung: therapierte Personen suchen sich in Folge der Therapie ein neues soziales Netzwerk
-maßnahmenunspezifische Wirkung: es kann sein, dass es den Personen nach der Therapie besser ging, weil sich
jemand mit ihnen beschäftigt hat und sie Aufmerksamkeit bekommen haben
-externe Wirkung: berichtete Verbesserung in Post- und Follo-up-Test, aufgrund sozialer Erwünschtheit, oder
aufgrund von Dissonanzreduktion nicht eingestehen wollten, dass es ihnen in Wirklichkeit gar nicht besser geht
oder z.B. Jahreszeit als Einfluss: Prä-Test im November, Post-Test und Follow-Up im Frühling und Sommer
 Messzeitpunkte mit jahreszeitlichen Schwankungen konfundiert; mit einem irgendwie
interventionsgebundenen Effekt hätte der Zuwachs an Lebenszuversicht in diesem Fall gar nichts zu tun

Maßnahmenunspezifische Folgewirkungen
• Irgendeine Form der Intervention könnte diesen Effekt haben
Externe Wirkungen
• Konfundierte Variablen

Evaluation als Effizienzanalyse


Beurteilung einer Maßnahme nach
• Absoluten Kosten
• Wirksamkeit
• Wirksamkeit im Verhältnis zu Kosten

A priori Effizienzanalyse
• Beschreibung der Maßnahme
• Frühere Durchführungen
• Simulationsszenarien

A posteriori Effizienzanalyse: hier kommt alles was oben steht zur Geltung

Quantifizierung von Kosten


Manifeste (direkte) Kosten Geld: Planungskosten, Personalkosten, Materialkosten,
Opportunitätskosten, administrative Kosten, Overhead ‐ oder Gemeinkosten
Latente Kosten Geld: Nicht direkt belegbare Kosten wie Folgekosten oder Nebenkosten

Wirksamkeit und Nutzen


Nutzen = Wirksamkeit * Wert
Wert = Geldwert einer Nutzeneinheit / Einschätzung auf Wertskala
-Häufig: Differenz zwischen « Größe des Problems » (Kosten), wenn Maßnahme durchgeführt oder
nicht durchgeführt
-(c.p.) wird c.p.: ceterus paribus (unter sonst gleichen Bedingungen) -> wie sind die Kosten des Problems
wenn ich eine Maßnahme durchführe vs wie sind die Kostens des Problems, wenn ich eine Maßnahme nicht durchführe

Wirkung und Nutzen


Beachtung von Folge ‐ und Nebenwirkungen
Zeitpunkt und zeitliche Dynamik der Wirksamkeit
Wirkungs ‐Nutzen ‐Relation

Perspektivenabhängige Kosten, Wert und Nutzeneinschätzungen  anpassen auf die jeweiligen


Stakeholder die bei einer Intervention beteiligt sind
Modelle der Effizienzanalyse
Kosten ‐Nutzen ‐Analyse (Unter unterschiedlichen Voraussetzungen vornehmen)
• Kosten monetär messbar
• Wirkungen monetär messbar

Profitrate kann im positiven Fall 0 betragen und bis zu 1 gehen


Kosten ‐Effektivitäts ‐Analyse
• Kosten pro erfolgreich behandelter Person?
• Kosten pro Veränderungseinheit z.B. 5€ pro KG weniger Gewicht bei einem Gewichtsreduzierungsprogramm

Formative Evaluation: Programmoptimierung und Implementierungskontrolle

Program theory / Wirkmodell


 Möchte man haben, bevor man ein Programm plant: kausale Aussage darüber, wie eine
Intervention wirken könnte
 Program Theory ist die größere Klammer als die Impact Theory
 Program theory umfasst die Organisation und Personen noch mit, also nicht nur die
theoretische Fundierung (impact theory) sondern auch sie praktische Gestaltung der
Intervention und wie man sie evaluieren kann
 Wirkmodell ist die impact theory! Fundierung warum was wirken kann  ist hier als
Synonym aber breiter gefasst gemeint
 Program theory (Wirkmodell):
o Was muss getan werden, um intendierte Änderungen / intendierte Sicherung des
status quo zu erreichen?
o „theoretische Grundlagen“ der Intervention
 Kernfragestellung:
o Wie gut ist die Intervention geplant?
o Ausformuliertes Programm?
o Klar formulierte Beziehung zwischen Programmbausteinen und Zielen?
o Plausibilität der Durchführung und Machbarkeit (Intervention und Evaluation)
Synonyme für Program Theory
Wirkmodell
Logic model
Program model
Outcome line Cause map
Action theory …
-Es gibt keinen generellen Konsens, wie Program Theory am besten dargestellt oder abgebildet
werden kann
 viele unterschiedliche Versionen können in der Literatur gefunden werden
Zeigen alle gemeinsame Elemente

Beispiel einer Program Theory

man kann unterschiedliche Fragen stellen z.B. ob das Wissen der Teens defizitär ist über Ernährung
und Kinderpflege (wenn das ausreichend ist kann kein Wissenszuwachs stattfinden); wie viele der
bedürftigen Personen nehmen tatsächlich teil, wenn sie das Angebot bekommen?

Evaluability Perspective (Wholey, 1979)


I) Beschreibung des Wirkmodells (spezielle Beachtung von Zielen)
II) Abschätzung, wie gut dieses Modell definiert ist und wie gut es sich evaluieren lässt
III) Bestimmung der Stakeholderinteressen an der Evaluation und die wahrscheinliche Verwendung
der Ergebnisse

Beschreibung des Wirkmodells


I) Dokumente und offizielles Informationsmaterial
II) Befragung Durchführender und Betroffener
Intervention in der „sozialen Realität verstehen“

4 Ziele der Evaluability Perspective


I) Genaue Definition der Ziele und Nebeneffekte sowie deren Priorisierung
II) Ziele sind plausibel (erreichbar) [können die Ziele durch das Programm erreicht werden]
III) Valide / relevante Informationen über die Zielerreichung ist vorhanden / messbar
IV) Nutzer der Evaluation sind sich einig, wie Ergebnisse genutzt und interpretiert werden sollen
 Aussagekräftige Evaluation möglich
Program Theory

Proximale Outcomes = Mediatorvarablen


Distale Outcomes = AV/ Kriterium
 Impact Theory:
o Idee, warum welche Intervention wie wirken kann
o Proximale Outcomes und distale Outcomes  eher die Kenntnis von Wissen bspw.
Was durch eine Intervention dargeboten wird und evtnuell noch Verhalten was
dargeboten wird
 Service utilization plan: Wie Personen mit der Intervention in Kontakt gebracht werden und
wo sind die Stellen, an denen Personen verloren gehen können?
 Programs organisational plan: Kontakt mit den Targets herstellen und Targets durch das
Programm schleusen und dann das Programm schließen  Plan für die Organisation
 Interaktion von service utilization und organisational plan: Transaktionen im Service Bereich
sollen entstehen und Veränderungen seitens der Personen sollen entstehen, sodass es zu
den Outcomes kommt, die von der impact theory vorhergesagt werden 
Zusammenbringen von Personen und Organisation führt zu Transaktionen durch die sich
Personen verändern, sodass ein vorhersagbares Outcome rauskommt

1. Impact Theory
Kausale Theorie / kausale Kette: Idee, dass man ein Jobtraining einer Zielgruppe darbietet, welches sich auf
die Qualifikation der Personen auswirkt, die Fähigkeiten bei der Arbeitssuche und Bewerbung und auch auf die
Arbeitsmotivation auswirkt  wenn das erreicht wird, dann sollte ein weiteres distales Outcome sein, dass
durch die Verbesserungen den Personen einen bessere Stelle offenbart wird, wodurch sie einen besseren SES
bekommen

Cause effect sequence (instigating forces and effects)  Wie wirkt sich die Maßnahme auf verschiedene
proximale und distale Merkmale aus?

2. Service utilization plan


Wie kann ich meine Zielgruppe erreichen? (Besonders wichtig bei kranken Personen) Wie kann ich gewährleisten, dass meine
Zielgruppe in Kontakt mit dem Programm kommt? -> Verhindern, dass Personen ausscheiden und nicht an der Intervention teilnehmen
Programmplan:

3. Programs organizational plan

Wie wird das Programm implementiert? Nicht mehr, wie man an die Personen ans Programm bekommt,
sondern wie die Personen mit dem Programm interagieren? Was sind Attribute der Intervention?

Herausarbeiten der Program Theory


Artikulierte impact / program theory
• Soziale Lerntheorie als Grundlage für Rollenspiele in Präventionsprogrammen  was soll mit dem
Programm erreicht werden?
Implicit impact / program theory (tacit theory)
• Eheberatung führt zu einer Erhöhung der Partnerschaftsqualität
– Theoretische Fundierung?
– Was ist intendiert in Eheberatung? (mehr gemeinsame Zeit? Bessere Konfliktlösung? Saubere
Trennung von Paaren?)
– Grenzen der Maßnahme identifizieren
– Von Zielen ausgehend Bestandteile der Maßnahme identifizieren
– Program Theory explizieren
Wenn man eine implizite Theorie hat soll man sie möglichst zu einer artikulierten Theorie explizieren

Explikation der Program Theory


Frühe Phase der Entwicklung einer Evaluation
• EvaluatorIn als advocatus diaboli Man sollte die Kritikpunkte eines Programms auch als solche äußern

Bestehendes Programm
• Sukzessive Annäherung an Program Theory
– Theorieentwurf
– Rückkopplung mit Stakeholdern
– Überarbeitung
Dazu:
– Literatur über Programm
– Interviews mit Informanten
– Beobachtungen im Feld
– wissenschaftl. Literatur

Logik und Plausibilität der Program Theory


Einbezug von externen Experten zur Beurteilung aller Programmkomponenten Offener,
unstrukturierter Prozess mit folgenden Kernfragen:
1. Ziele eindeutig definiert? Messbarkeit der Ziele?
2. Machbarkeit der Ziele? Ziele realistisch?
3. Angenommener Wirkmechanismus plausibel?
4. Sind Ablaufschritte (wie Identifikation, Erreichen und Motivierung der Nutznießer etc.) definiert,
ausreichend und realistisch?
5. Sind Rahmenbedingungen gegeben? Sind alle Schritte des Programms realisierbar?
6. Sind die Abläufe allen Beteiligten klar? Stehen geschulte Kräfte zur Verfügung?

Mögliche Ergebnisse des Program Theory Assessment


Nicht fundierte program theory Programm schwierig zu evaluieren (zumindest die Wirksamkeit, man
kann nur sagen ob es wirkt oder mehr / weniger, aber nicht wie)
Teile der Program Theory nicht fundiert
Ziele besser herausarbeiten
Restrukturierung von Programmkomponenten
Logik des Wirkmodells prüfen und verbessern
Problem der nicht fundierten program theory
Nur outcome ‐evaluation möglich, keine Evaluation des Wirkmechanismusses, keine Klärung, ob
spezifische intendierte Ziele erreicht werden

Evaluation der Implementierung (2. Punkt der formativen Evaluation)


Evaluation der Programmimplementierung
-Funktioniert die Manipulation der UV? Halten sich die VL an das Skript? (VL-Training oder Manualisierung des
Programms)
-Fokus auf der Durchführung des Programms (wie gut ist das Programm bei der Durchführung?)
Operationen
Aktivitäten
Funktionen
Performanz
Komponenten / Bausteine
Ressourcen

Evaluation der Implementierung vs Monitoring


Evaluation der Implementierung
‐ Einmaliger Vorgang zur Beurteilung der Umsetzung
‐ abschließende Evaluation (summative Evaluation)
Program process monitoring
‐ Fortwährende Prüfung der korrekten Implementation (=monitoring, was effektiver ist, ist eine
Schnittmenge der Implementierungsevaluation)
‐ Optimierungen durch fortwährende Kontrolle der Implementierung möglich
Beide Formen sind Teil der formativen Evaluation. Allerdings kann die Evaluation der
Implementierung bei der abschließenden (summativen) Evaluation berücksichtigt werden.

Merkmale guter Implementation


Evaluation von
• Service utilization
• Program organization
Kernfragen:
• Wird die Targetpopulation erreicht?
• Sind die Umsetzungen im organisatorischen Bereich adäquat und der Planung entsprechend?
(Arbeitsabläufe? Zusammenarbeit? ...)
• Zufriedenheit der Teilnehmer mit Programm?
• Welche Ressourcen werden benötigt?

Formale (?) Kriterien guter Implementation


Vergleichsstandards zur Beantwortung der Kernfragen?
‐ Administrativer Standard
‐ Programmleitung bestimmt, was « gut » ist
‐ Jeder dritte Obadachlose wurde angesprochen
‐ Zwei von drei entlassenen Patienten wurden von Sozialarbeiter kontaktiert
‐ Gesetzliche Bestimmungen
‐ « I know it when I see it »
‐ Beurteilung der Merkmale nach Erhebung

Perspektiven der Implementationskontrolle


Evaluatoren
• Kontrolle der Durchführung des Programms nötig, um Effekte erklären zu können
Rechenschaft
• Bericht über ordnungsgemäße Durchführung
Management
• Korrekturen der Umsetzung

Nutzen-Monitoring
Coverage
• Ausmaß, zu dem Mitglieder der Targetpopulation an der Maßnahme teilnehmen
• Wie viele Personen der Zielgruppe werden erreicht?
Bias
• Ausmaß, in dem bestimmte Gruppen der Targetpopulation überrepräsentiert sind
• Werden bestimmte Gruppen der gesamten Zielgruppe stärker angesprochen / erreicht?

Die Ausschöpfungsquote sollte möglichst positiv sein

Coverage und Drop-Outs


-Wer nimmt teil?
-Wer sollte teilnehmen?
-Wer nimmt teil, aber nicht zum Schluss?

Klassifikation von Evaluationsmodellen


-Wittmann: Evaluation ist eine Aktivität zur Sammlung, Analyse, Interpretation und Kommunikation
der Arbeitsweise und Effektivität von Programmen, Produkten und Interventionen in den
unterschiedlichsten Feldern.
-Balzer: Evaluationsforschung kann als ein Prozess verstanden werden, bei dem nach zuvor
festgelegten Zielen und explizit auf den Sachverhalt bezogenen und begründeten Kriterien ein
Evaluationsgegenstand bewertet wird. Dies geschieht unter Zuhilfenahme sozialwissenschaftlicher
Methoden durch Personen, welche hierfür besonders qualifiziert sind. Das Produkt eines
Evaluationsprozesses besteht in der Rückmeldung verwertbarer Ergebnisse in Form von
Beschreibungen, begründeten Interpretationen und Empfehlungen an möglichst viele Beteiligte
und Betroffene, um den Evaluationsgegenstand zu optimieren und zukünftiges Handeln zu
unterstützen

Mögliche Klassifikationsprinzipien (die man zur Kategorisierung nutzen KANN)


1. Schulrichtug
a. Orientiert an Fachrichtungen / prominenten Verfechtern
– Campbell (psychologisch): north‐west‐path (ETR): experimenteller Pfad: Welt so
gestalten, dass sie experimentell gut prüfbar ist
– Cronbach (psychologisch & erziehungswisseschaftlich): sout‐whest‐path (NTR):
quasi-experimentell: Forschung dem Evaluationsgegenstand anpassen
– Rossi (soziologisch)
– Stufflebeam (erziehungswissenschaftlich): CIPP
–…
2. Stakeholderperspektive
a. Orientiert an Anwendungs‐ und Umsetzungsaufgaben
– Needs assessment
– Program evaluation
– Implementierung
– Summative Evaluation
– Kosten‐Nutzen‐Analyse
3. Forschungsmethode
a. Quantitativ vs. Qualitativ (es gibt aber auch mixed models)
Quantititative Evaluation
– Datenbasis: Numerische Daten (Fragebögen, Experimente)
Qualitative Evaluation
– Datenbasis: verbale Daten (Interviews, Dokumentenanalysen)
b. Summativ vs. Formativ (Evaluation kann aber auch beides sein bzw beide Punkte
enthalten)
Formative Evaluation
– Optimierung des Programms (program evaluation, Implementierung)
Summative Evaluation
– Abschließende Bewertung des Programms (direkte und nachträgliche Effekte)
4. Datenanalyseebene
Individual‐ vs. Gruppenebene
Mikro‐ vs. Makroebene
Geschachtelte Daten: Schulen, Klassen, Schüler (Mehrebenenanalysen)
5. Modellleitfäden und Evaluationsstandards
DEGEVAL
« Nützlichkeit, Durchführbarkeit, Fairness und Genauigkeit »

Ergebnisse von Individuen betrachten: Goal-Attainment-Scaling (GAS) nicht prüfungsrelevant


Ziel: Skalierung von Zielen im klinischen Bereich
 Spezifische Klientenziele
 Skalierbare Teilschritte
Festlegung von Zielen (einer Therapie) – Definition von Kriterien
Erfolgsmessung – Abgleich Ziele mit Ausprägungen  Messung des intendierten Erfolgs
Bewertung des Programms möglich (Kombination der einzelnen Zielerreichungen)
 Individuumszentrierung
 Festlegung und Spezifikation klarer und realistischer Behandlungsziele
 Skalierung auf 5 Punkten (in Abgleich zu erwartetem Ausgang)
o ‐2: schlechtmögliches erwartetes Resultat
o ‐1: schlechter als erwartet
o 0: zu erwartendes Resultat
o 1: besser als erwartet
o 2: bestmögliches zu erwartendes Resultat
 Gewichtung der Zielbereiche anhand relativer Bedeutung für Klienten
Erfolg beobachtbar: Haken = T1, Sternchen = T2 -> zu T1 -1 und -2, bei T2 0, 1 und 2

Fiktives Beispiel:
 Multiple Problemlage und eine Intervention (die Berufspraktikantin)

Die 3 Ziele ausdifferenzierter: (bzw hier nur 2)


Einsatz des GAS:
Zielarten:
 Veränderung im Verhalten von Menschen
 Veränderungen im Lebensumfeld der Menschen
Evaluationsarten:
 Prozessevaluation
o Bewertung der Implementation der Durchführung
o Formulierung von Zwischenzielen
 Ergebnisevaluation (Formulierung von finalen Zielen)

Formulierung und Operationalisierung der Ziele:


 Im Planungsprozess, vor Beginn der Umsetzung
Überprüfung der Ziele:
 Vor, während, nach der Intervention und als Follow‐Up

Argumente für den Einsatz von GAS


 sorgt für eine Konkretisierung und Strukturierung des Arbeitsprozesses, indem Klarheit, Ver
bindlichkeit und Transparenz bezüglich der gemeinsamen Ziele und gemeinsam zu bewältig
enden Aufgaben gefördert werden
 intensiviert die Zusammenarbeit und vertieft das gegenseitige Vertrauen
 kann überhöhte Erwartungen auf ein realistisches Maß begrenzen und so die Motivation all
er Beteiligten stärken
Einsatzgebiete:
 Psychiatrie
 Rehabilitation
 Physiotherapie
 Rheumatologie
 Behandlung chronischer Schmerzpatienten
 Gesundheitsförderung und Prävention

Formulierung der Zielsetzung: SMART


Operationalisierung der Zielsetzung: ZWERG

Zusammenfassung: GAS
Einsatz der GAS:
 Therapieevaluation
 Evaluation von Einrichtungen
 Evaluation von Sozialprogrammen
Vorteile:
 Kriterien‐ und Bewertungsfrage relativ eindeutig geklärt
 « Demokratisches Instrument »  Partizipation (Begünstigte können an Zielerreichung
mitwirken)
 Motivation der Klienten durch Rückkopplung
 Korrektive und verstärkende Rückmeldung an Therapeuten
Nachteile:
 Reaktives Verfahren (deswegen nicht so ganz wissenschaftlich: es kann sein, dass aufgrund
der Zielformulierung Dinge passieren, die sonst nicht passiert wären
 Beliebigkeit der Ziele und Gewichte

Methodische Aspekte der Evaluationsforschung


1. Messen / Operationalisieren
Messtheoretische Grundlagen
 Wie kann sichergestellt werden, ob tatsächlich auch das gemessen wurde, was man messen
wollte?
 Wird das Kriterium auch tatsächlich abgebildet?
Psychometrische Fragestellungen
 Quantitative Modelle: eher Wirksamkeitsprüfungen
 Qualitative Modelle: eher Program Theory (Konzeptionsqualität und Ausführungsintegrität)

Hauptgütekriterien psychologischer Messungen:


1. Objektivität (Unabhängigkeit der Untersuchung vom Untersucher)
2. Reliabilität (Zuverlässigkeit der Untersuchung)
3. Validität (Wird das gemessen, was gemessen werden soll?)
-Erhöhung der Reliabilität und Validität durch Aggregation
Skalenbildung
Multimethodale Erfassung (unterschiedliche Peers situationsunspezifische Messungen)
Beispiel: 360 ° ‐Feedback (Gruppe von Stakeholdern, die alle in unterschiedlichen Beziehungen zu
einer Person stehen, geben eine Rückmeldung z.B. zur Leistung der Person

Fragebögen
+ standardisiert (Objektivität ist gegeben)
+ relativ leicht zu konstruieren
+ ökonomisch in Anwendung
+ leicht auszuwerten
+ normiert
‐ leicht verfälschbar (erwünschte und unerwünschte Antworten relativ leicht zu identifizieren?)
‐ Fragebögen setzen sprachliches Verständnis voraus
‐ Annahme: Personen besitzen valide Repräsentation des Gegenstandes
‐ Beispiel: Kompetenzselbsteinschätzungen vs. Wissenstests
Es sind ganz unterschiedliche Erhebungsmethoden!  sind unterschiedlich gut geeignet für
eine Evaluation  kommt darauf an, was das Ziel der Evaluation ist
Kompetenzselbsteinschätzung  Likert ‐Skalierung in beide Richtungen verfälschbar (wie
Persönlichkeitstest)
Wissenstest  z.B. Richtig ‐Falsch ‐Aufgaben  nur in eine Richtung verfälschbar
(Leistungstest)
Wie aussagekräftig ist meine Evaluation wenn ich Prä-Post-Test habe, also Veränderungen
messe, oder auch Selbsteinschätzungen in der Evaluation einbezogen werden?

Alternativen
 Leistungstests
 Verhaltensbeobachtungen
 Dokumentenanalyse
 Textanalyse
 Interviews
 Physiologische Maße
 Reaktionszeitgestützte Verfahren
 Soziometrische Maße (=demographische Daten)
Multimethodale Erfassung
Passung von Modalität(en) und Erfassungsmethode(n)

Nebengütekriterien
 Skalierung – entsprechen die Testwerte den Merkmalsausprägungen?
 Normierung – ist ein Bezugssystem vorhanden? (Ausreichend große Eichstichprobe?)
 Ökonomie – ist die Beanspruchung von finanziellen und zeitlichen Ressourcen vertretbar?
 Nützlichkeit – haben die Konstrukte eine psychologische Relevanz? Haben die zu treffenden
Entscheidungen einen höheren Nutzen als Schaden?
 Zumutbarkeit – Steht die Belastung der Teilnehmer durch die Erhebung im Verhältnis zum
Nutzen?
 Unverfälschbarkeit – Ist eine (absichtliche) Verzerrung der Ergebnisse durch die Teilnehmer
möglich? (bei FBs oftmals nicht gegeben)
 Fairness – werden systematisch alle Personengruppen berücksichtigt?

Gütekriterien bei Wirksamkeitsindikatoren


 Anlehnung an Inhalte der Maßnahme (Linsenmodell): sind die Konstrukte, die erhoben
werden passgenau mit den Konstrukten, die in der Intervention angenommen werden?
Passung zwischen Treatment-Box und Kriteriumsbox?
 Neutralität gegenüber der Intervention (Testeffekte) Angemessene Schwierigkeit: allein
durch Prä-Test für Intervention sensibilisiert und dadurch anderen Effekt als ohne Prä-Test
 Optimale Änderungssensitivität: Können Änderungen gemessen werden?

Typische qualitative Methoden


 Befragung
 Beobachtung
 Qualitative Inhaltsanalyse
Gütekriterien qualitativer Forschung
 Genauigkeit und Transparenz bei Verfahrensdokumentation < ‐ > Objektivität
 Regelgeleitetheit < ‐ > Objektivität
 argumentative Absicherung von Interpretation und Deutung < ‐ > Objektivität; Validität
 Nähe zum Untersuchungsgegenstand (natürliche Lebenswelt) < ‐ > (externe) Validität
 kommunikative Validierung < ‐ > Validität (im Diskurs mit beforschten Personen)
 Triangulation < ‐ > Reliabilität; Validität (Vergleich unterschiedlicher Indikatoren und Prüfung
auf Konsistenz

„Checkliste“ zur Konstruktion von Messinstrumenten (allgemein für quantitative und qualitative
Methoden
• welche Konstrukte müssen erhoben werden? Ausreichend genau spezifiziert und definiert?
Operationalisierbar?
• Instrumente verfügbar? Bewährung im Evaluationskontext?
• Ressourcen, um neues Instrument zu entwickeln?
• Ressourcen, um gewähltes Instrument einzusetzen?
• Instrument adäquat für Befragte?
• Einverständniserklärungen nötig? (Besonders im Schulkontext notwendig, weil man je nach Alter
der Kinder EV der Eltern braucht)
• Vertrauen Befragte der Aussagekraft des Instrumentes?
Checkliste ist relevant, da im Feld der Evaluation häufig ‚Ad ‐Hoc‘ ‐ Konstruktionen notwendig sind:
Checkliste an Fragen kann man durchgehen, weil es bei Evaluationen häufig so ist, dass bestimmte
Interventionen evaluiert werden sollen, für die häufig noch keine Erhebungsinstrumente bestehen 
man muss Beobachtungs- und Erhebungsmethoden selber entwickeln, ohne Literatur als Basis
2. Planung von Untersuchungen
Grundlagen der Versuchsplanung
-Grund: John Locke: “A cause is that which makes any other thing either simple idea, substance, or
mode, begin to be; and effect is that which had its beginnings from some other thing”
 ein Grund ist etwas, was einen Effekt hat
-Effekt: David Hume: “Counterfactual Thinking” Was passiert, wenn Personen ein Treatment
erhalten? Was wäre passiert, wenn dieselben Personen das Treatment nicht erhalten hätten? Δ =
Effekt
Problem beim Counterfactual Thinking ist, dass man nicht ausprobieren kann, ob es einen
Unterschied gibt -> man beachtet auch, was passiert wäre, wenn etwas nicht eingetreten wäre
man kann nur nah an den Zustand rankommen und versuchen die Bedingungen so zu erstellen,
dass sie nah am Zustand dran sind
- Simultanes Verabreichen und Vorenthalten eines Treatmens ist unmöglich (Problem des
Counterfactual Thinkings)
Wie kann sichergestellt werden, dass der Grund zum Effekt führt?
Approximation des “counterfactuals” mittels Gegenbedingung und Identifikation der Unterschiede
zwischen Gegenbedingung und Grund/Treatment
-Kausaler Zusammenhang nach John Stuart Mill gegeben bei:
1) zeitlicher Vorgeordnetheit des Grunds
2) Kovariation
3) Ausschluss von Alternativerklärungen bzw von Störvariablen

Kausalität
i) strenge Kausalitätsbedingung
i) Alle Störgrößen kontrolliert  Randomisierung: ermöglicht Kontrolle der Störgröße
ii) Starke Kausalitätsbedingung
i)Störvariablen nicht mit UV korreliert
ii) Störvariablen interagieren nicht mit UV Keine Konfundierung
iii) Schwache Kausalitätsbedingung
i)Die Menge aller Störvariablen mit gleichsinniger Konfundierung und die Menge aller
Störvariablen mit gegensinniger Konfundierung verteilen sich gleichmäßig auf Stufen der UV
 Konfundierungen gleichen sich aus
Gleichsinnige Konfundierung: Störgröße wirkt so auf die AV wie die UV  Beispiel: UV:
Gedächtnistraing; Störgröße: IQ; AV: Behaltensleistung
Gegensinnige Konfundierung: Störgröße wirkt sich entgegen der Wirkung der UV auf die AV aus 
Beispiel: UV: Gedächtnistraining; Störgröße: Müdigkeit; AV: Behaltensleistung

Kontrolle von Störvariablen


i)Randomisierung
ii) Eliminierung
iii) Konstanthaltung
iv) Ausbalancierung
v) Parallelisierung
vi) Statistische Kontrolle
vii) Intraindividuelle Veränderungsmessung

Experimentelle Mortalität / selektiver Drop-Out


 Scheineffekt, weil die sozial inkompetenten Menschen sitzen
geblieben sind und der Effekt so artifiziell erhöht wurde
 Das ist auch ein Problem vom Drop-Out: also dass durch
den Ausfall Effekte zustande kommen, die nicht der Realität
entsprechen
Kontroll ‐ und Vergleichsbedingungen
Experimentelle Designs
• Unbehandelte Kontrollgruppe
• Unspezifisch behandelte Kontrollgruppe
• Solomon ‐ 4 ‐ Gruppen Plan

Effekt des Treatments abschätzbar (A und B gegen C und D)


Effekt der Testung (A und C gegen B und D)
Interaktion Testung und Treatment (A ‐ B = C ‐D?)

Quasi ‐experimentelle Designs: Validitätsgefährdung durch:


 Selbstselektion
 Simpson ‐Paradox

 Personen, die eine Therapie bekommen haben und Personen, die keine Therapie bekommen
haben. Den unbehandelten Personen geht es besser als den Personen, die eine Therapie
bekommen haben. Das ist unplausibel und nicht zu erwarten. Eigentlich sollte es den
Personen in der Therapie besser gehen. Das ist aber dadurch bedingt, dass wir in den beiden
Gruppen unterschiedliche Geschlechterverhältnisse haben hier nicht der Fall:
 Das Geschlecht stellt sich als eine Variable dar, die als Drittvariable, die mit der AV
zusammenhängt und den Zusammenhang zwischen UV und AV beeinflusst  Aufgrund der
unterschiedlichen VPn-Verteilungen in den beiden Gruppen gibt es diesen paradoxen Effekt

 Männer waren häufiger in der Therapie-Gruppe


 Fazit: Effekt der UV auf die AV kann immer auch durch eine Drittvariable konfundiert werden
 Interaktionen

 Keine Interaktion, sondern 2 HEs: alte Therapie und neue Therapie VS. Sommer und Winter
 Unterschied zwischen alter und neuer Therapie ist im Sommer größer als im Winter 
Interaktion
 Es könnte auch sein, dass eine Therapie im Sommer besser wirkt als im Winter, was komisch
aber möglich wäre

Keine Kontrollbedingungen
 Zeitreihenanalysen
 Selektives Kohortendesign

3. Auswertungen

Metaanalysen
Ziele zur Durchführung einer Metaanalyse
 Beantwortung genereller Fragestellungen
 Gesamtbild über viele Studien hinweg, die (meist) auf kleine Stichproben beruhen und daher
ungenaue Schätzung der Effekte liefern (Generalisierbarkeit)
o Kleinere Studien sind alleine eher weniger aussagekräftig, deswegen sammelt man
solche, um einen größeren summativen Effekt zu haben
 Können Befunde repliziert werden?

Mögliche Fragestellungen
 Ist die kognitive Verhaltenstherapie wirksam, um Ängstlichkeit bzw. Angststörungen bei
Kindern und Jugendlichen zu behandeln? (Cartwright ‐ Hatton et al., 2004)
 Haben Augenzeugen verzerrte Erinnerungen von Ereignissen bzw. Vorfällen? (Douglass &
Steblay, 2006)
 Unterscheidet sich das Temperament von Menschen hinsichtlich des Geschlechts? (Else ‐
Quest et al., 2006)
 Was sind die neurophysiologischen Effekte sportbedingter Gehirnerschütterung? (Belanger &
Vanderploeg, 2005)
 Wie kann schwangeren Frauen geholfen werden, mit dem Rauchen aufzuhören? (Kelley,
Bond & Abraham, 2001)

Grundfragen
 Ergebnisse von Metaanalysen (kombinierte Ergebnisse aus vielen (allen) Studien zum Thema)
zu:
o Mittelwert und Varianz der Populationseffekte – d, r, usw.; zusätzlich
Konfidenzintervalle (Signifikanz)
o Variabilität der Effekte über Studien hinweg (Homogenität der Effektgrößen)
o Rolle von Moderatorvariablen (z.B. wirkt kognitive Verhaltenstherapie bei
Jugendlichen zur Behandlung von Essstörungen besser, wenn Elemente von
Gruppentherapie implementiert werden?)
Schritte in Metaanalysen
1.Literaturrecherche: gucken, was es gibt und das Ganze Katalogisieren und Zusammenfassen
1. Z.B. in elektronischen Datenbanken (ISI Web of knowledge, PubMed, PsychINFO)
2. Backward (Studien, die zitiert werden) und Forward (Studien, die zitieren)
3. Publication bias (file ‐drawer problem): Signifikante Ergebnisse werden mit höherer
Wahrscheinlichkeit veröffentlicht als nicht signifikante
– Die Wahrscheinlichkeit, dass signifikante Ergebnisse in wissenschaftlichen Artikeln
berichtet werden, ist acht mal höher als das Erscheinen nicht‐ signifikanter
Ergebnisse
– 97% aller Artikel in psychologischen Journalen berichten signifikante Effekte
4. Suche über Suchmaschinen aber auch durch direktes Anschreiben der AutorInnen (in der
Hoffnung, nicht veröffentlichte Daten zu erhalten)
5. Suche in acht Datenbanken:
1. Cochrane Controlled Trials Register
2. Current Controlled Trials
3. Medline
4. Embase/PsychINFO
5. Cinahl
6. NHS Economic Evaluation Database
7. National Technical Information Service
8. ISI Web of Science
6. Beachtung der Literaturangaben der genutzten Artikel
7. Manuelle Suche in 13 relevanten Journals (z.B. zur Ängstlichkeitsforschung)
8. Kontaktieren von Personen im Feld, um Informationen zu weiteren Untersuchungen zu
erlangen

2. Einschlusskriterien (Erst viel Recherchieren und dann entscheiden, was man in die Metaanalyse
aufnimmt und was nicht)
2. Einschlusskriterien
1. Gut oder schlecht durchgeführte Studien?
2. Klare Definition, was untersucht werden soll (Arbeitsdefinition, was eine kognitive
Verhaltenstherapie ist)
3. Angabe der Zahl der aufgenommen und ausgeschlossenen Studien
4. Aufnahme von Kriterien als Moderatorvariablen (Studien mit und ohne Kontrollgruppe;
methodisch starke gegenüber schwächeren Studien)
5. Kriterien der Probandengruppe (Alter, Geschlecht, Diagnose, Qualität des Outcomes)

3.Berechnung der Effektgrößen


3. Berechnung der Effektgrößen
1. Cohens d, Korrelationskoeffizienten (r), Odds ‐Ratios (OR)
2. Effektgrößen können ineinander überführt werden
3. Bspw. Überführung von t ‐, z ‐, χ2 ‐ und F‐Statistiken in r.
https://www.psychometrica.de/effektstaerke.html#transformF.11
-schauen, wie die Effektgrößen verteilt sind: 10 Studien, die in die Metaanalyse eingegangen sind

4.Erste Analyse
4. Erste Analysen
1. Gewichteten Mittelwert der einzelnen Effektgrößen berechnen (Gewicht: N)
2. Falls eine Studie besonders groß ist, gewichteten Mittelwert mit und ohne berechnen, um
abschätzen zu können, wie groß der Effekt der Studie ist
3. Berechnung des Konfidenzintervalls für den Populationseffekt
4. Fixed oder random effects models?
1. Gibt es einen angenommenen Populationseffekt aus EINER Population? Beziehen
sich die Studien alle auf eine angenommene Population?  Fixed‐effects Modell
(Effektgrößen sollten homogen sein, da sie aus einer Population stammen; z.B.
Hedges and colleagues method)
2. Gibt es mehrere Populationen? Die Studien beziehen sich auf unterschiedliche
Populationen!  Random‐effects Modell (Effektgrößen können heterogen sein,
stammen aus „Superpopulation“; z.B. Hunter‐Schmitt Method)
3. Entscheidungshilfe: Tests zur Beurteilung der Heterogenität von Stichproben
4. Generelle Empfehlung: Eher Random‐effects Modelle berechnen – wenn Fixed‐
effects Modelle berechnet werden, wo Random‐effects Modelle adäquat sind,
erhöhen sich α‐Fehler artifiziell, umgekehrt ergeben sich keine so schwerwiegenden
Fehleinschätzungen

Bsp: Hunter-Schmitt-Methode (Random-effects Modell)


1. Berechnung des gewichteten Mittelwerts der einzelnen Effektstärken

=.554 ist die mittlere Effektstärke, gemittelt über alle inkludierten Studien
2. Berechnung der Varianz der Effektgrößen

3. Berechnung der Stichprobenfehlervarianz

4. Berechnung der Varianz in den Korrelationen der Population

5. Berechnung der Kredibilitätsintervalle

(Credibility interval = Konfidenzintervall)

6.Berechnung der Homogenität der Stichprobe


 Richtige Methode genutzt, die mit heterogenen SPs umgehen kann (Random-Effects-Modell)
 Wenn er nicht signifikant ist kann man nicht von homogenen Sps ausgehen, wenn er
signifikant ist schon
7. Berechnung mit SPSS

5.fortgeschrittene statistische Verfahren / Koeffizienten


1. Moderatoranalysen (z.B. Therapie als Gruppen ‐ oder Individualtherapie)
2. Missing data: Wie wurden fehlende Werte in den Studien behandelt  Einfluss auf
Schätzung der Effektgrößen, falls Not ‐Missing ‐At ‐Random (NMAR)
3. Abschätzung des Publikationsbias (z.B. Fail ‐Safe ‐N; Rosenthal, 1979): ermittelt, wie viele
Studien ohne signifikanten Effekt es geben müsste, so dass der Populationseffekt
verschwindet

 Funnel Plot zeigt die Höhe der Effektstärken gegen das N abgetragen: (man kann auch
zeigen, wie heterogen die SP ist)

 Die Studien, die aus dem Funnel rausragen sind sehr unwahrscheinlich: es könnte sein, dass
diese zu einer anderen Subpopulation gehören
4. Korrektur der mittleren Effektgrößenschätzung (z.B. Vevea & Woods, 2005)
5. Cohens d, Korrelationskoeffizienten (r), Odds ‐Ratios (OR)
Wenn man das alles gemacht hat kann man den Bericht erstellen

6.Erstellung des Berichts


1. Suchalgorithmus, Einschlusskriterien
2. Überblick über die gefundenen Studien (tabellarisch)
3. Effektstärkemaß (Probleme bei der Berechnung)
4. Analysemethode (random oder fixed effects?)
5. Stem ‐and ‐leaf ‐plot der Effektgrößen aus den Studien (auch spezifisch für Moderatoren)
6. Möglicher Publikationsbias (z.B. Fail ‐Safe ‐ N ‐Analysen)

Ziele zur Nutzung von Metaanalysen:


 Ermittlung von zu erwartenden Effekten
o Abschätzung von Effektgrößen auch möglich, wenn (nur) verwandte Thematiken
berichtet werden
 Ermittlung möglicher Moderatoren (psychologisch ‐inhaltlich)
o Aufdecken von Mustern (was wirkt bei wem unter welchen Umständen?)
 Ermittlung möglicher Moderatoren (praktisch)
o Wann wurde ein Effekt gefunden? Wie waren die Studien aufgebaut?
 Planung der eigenen Intervention / Evaluation
o Information für Stakeholder wichtig
 Vergleich der eigenen gefundenen Effekte mit denen aus der Metaanalyse (Einordnung der
gefundenen Effekte)

Systematic Review vs. Metaanalyse


 Bei der Metaanalyse wird erst noch eine mittlere Effektstärke berechnet und geschaut ob sie
signifikant ist, bei Reviews macht man eher auf sprachlicher Ebene Vergleiche und berechnet
nichts
Systematic Review Metaanalyse

Suchen und bewerten relevanter Relevante Studien anhand definierter


Studien Protokollkriterien suchen

Diskutieren von Faktoren die Heterogenität der Studie statistisch


Heterogenität erklären testen und erklärende Variablen
suchen
Das Wissen synthetisieren Statistische Zusammenfassung der
Ergebnisse um eine Gesamtschätzung
des Effekts zu erhalten