Evaluation / Evaluationsforschung
Evaluation oder Evaluationsforschung?
Austauschbare Verwendung der Begriffe in dieser Veranstaltung, jedoch: Evaluation
kann auch ein einfacher Bewertungsvorgang sein, können auch Personen machen, die
methodisch nicht so qualifiziert sind
Evaluation bedeutet Bewertung und bezieht sich auf den Prozess und das Ergebnis der
Beurteilung des Wertes eines Produktes, eines Prozesses oder eines Programms. Diese
Wertbeurteilung erfordert nicht notwendigerweise systematische Verfahren oder
datengestützte Beweise zu ihrer empirischen Untermauerung (nach Suchmann, 1967)
Evaluationsforschung
geht wesentlich systematischer vor
Evaluationsforschung kann als ein Prozess verstanden werden, bei dem nach zuvor
festgelegten Zielen und explizit auf den Sachverhalt bezogenen und begründeten Kriterien
ein Evaluationsgegenstand bewertet wird. Dies geschieht unter Zuhilfenahme
sozialwissenschaftlicher Methoden durch Personen, welche hierfür besonders qualifiziert
sind. Das Produkt eines Evaluationsprozesses besteht in der Rückmeldung verwertbarer
Ergebnisse in Form von Beschreibungen, begründeten Interpretationen und Empfehlungen
an möglichst viele Beteiligte und Betroffene, um den Evaluationsgegenstand zu optimieren
und zukünftiges Handeln zu unterstürzen (nach Balzer, 2005)
Kriterien von Evaluationsfragen
Nachbardisziplinen
Diagnostik
o Systematisches Sammeln und Aufbereiten von Informationen Begründung,
Kontrolle und Optimierung von Entscheidungen und Handlungen
o Gewinnung von Daten über psychologisch relevante Charakteristika
zur Urteilsbildung (Diagnose/ Prognose)
Methodik
o Methodisches Fachwissen der Evaluatoren
Statistik
Versuchsplanung
o Möglichkeiten, Bedingungen und Voraussetzungen, um mit einer
ausgewählten Methode einen Sachverhalt angemessen zu beschreiben und zu analy
sieren
Methodologie
o Wissenschaftstheoretischen Voraussetzungen
Simultanes Verabreichen und Vorenthalten eines Treatments ist unmöglich. Wie kann sichergestellt
werden, dass der Grund zum Effekt führt?
Approcimation des „countefactuals“ mittels Gegenbedingung und Identifikation der Unterschiede
zwischen Gegenbedingung und Grund/ Treatment
Kausaler Zusammenhang
John Stuart Mill:
1) zeitliche Vorgeordnetheit des Grunds
2) Kovariation
3) Ausschluss von Alternativerklärungen
Validität
Statistische Schlussvalidität
-kovariieren Grund und Effekt?
-Wie stark kovariieren sie?
Ist der statistische Schluss korrekt? Beantworten wir meist mit der Signifikanz von
Ergebnissen – wie wahrscheinlich ist es, dass ein Effekt wirklich da ist, wenn ich behaupte das
ein Effekt da ist
Bedrohungen der statistischen Schlussvalidität
o geringe Power
o Verletzung der Testvoraussetzungen
o Unreliabilität der Messungen
o Einschränkungen des Ranges einer Variablen (Varianzeinschränkung): kann dadurch
einen Zusammenhang fehleinschätzen, wenn ich z.B. nur einen geringen Range an
Leuten betrachte, die alle sehr homogen sind
o unreliable Treatmentdurchführung (Unterschätzung des für Effekts für stand.
Training)
o gebiaste Effektstärkenschätzung z.B. durch Ausreißer oder dichotomisierte Daten
o fishing (for significance) und Type-I error rate (alpha-Fehlerkumulierung)
Beispiel Alpha-Fehlerkumulierung
Sukzessive Anwendung von t‐Tests
Forth(1966) überprüfte den Einfluss eines sedierenden Pharmakons (Schlaf
mittel) auf die Konzentrationsleistung bei einer Probandengruppe unter 10 v
erschiedenen Dosisbedingungen
Ziel: Nachweis eines „paradoxen“ Effekts der Leistungssteigerung bei
geringen Dosen
visuelle Dateninspektion: sehr schwacher Effekt
mehrfache t - Testung: einige statistische Belege für das Forth‐Düker‐Modell
Hier: 45 Tests (9 + 8 + 7 + … + 1)
Kumulierung des Alpha‐Fehlers –α = 1 ‐(1 ‐α)m= 1 –(1 ‐,05)45= 1 ‐,9545= 1 ‐
,0994 = ,9006 !!!
varianzanalytische Reanalyse(Sarris, 1968): Kein Effekt
Varianzanalyse: Verallgemeinerung des t Tests für zwei unabhängige Stichpr
oben auf Fragestellungen mit mehr als zwei Gruppen
Konstrukvalidität
In measuringhumanheight(or weightor lungcapacity, for example), thereislittledisagreementabout th
e meaningof the constructbeingmeasured, or about the unitsof measurement
(e.g., centimeters, grams, cubicmetres) … Measuringgrowthin psychologicaldomains(e.g., vocabulary
, quantitative reasoning, verbal memory, hand‐eyecoordination, self‐
regulation) ismore problematic. Disagreementismore likelyto arise about the definitionof the constru
ctsto beassessed. This occurs, in part, becausethereare oftenno naturalunitsof measurement(i.e. not
hingcomparable to the use of incheswhenmeasuring height). (Shonkoff& Phillips, 2000, pp. 82‐83)
Erlauben die Eigenschaften/ Besonderheiten von Operationalisierungen den Schluss auf das
Konstrukt höherer Ordnung?
Physiker müssen sich wenn sie die Länge messen nicht fragen, ob sie auch wirklich messen,
was sie messen wollen – in der Psychologie muss man sich das dagegen schon fragen
Kriterien
1. Klare Explikation der Personen, Settings, Treatments, Outcome Konstrukte
2. Sorgfältige Auswahl von Instanzen, die diesen Konstrukten entsprechen
3. Passung zwischen Instanzen und Konstrukten prüfen
4. Konstruktbeschreibungen anpassen
Bedrohungen der Konstruktvalidität
o inadäquate Beschreibung der Konstrukte (wenn man sagt ich will „Lernen“
evaluieren, was meine ich mit „Lernen“ dann, es gibt ja verschiedene Arten davon)
o Vermengung von Konstrukten
o Mono-Operation-Bias
o Mono-Method-Bias (wenn man nur ein Verfahren nimmt)
o Vermengung des Konstruktes mit „Ebenen des Konstrukts“ (wenn kein Effekt auf
einem hohen Level des Konstrukts gefunden wird kann trotzdem ein Effekt auf einem
niedrigen Level gefunden werden, also ein Training kann bei Leuten, die schlecht in
Mathe sind z.B. mehr Einfluss haben)
o Treatmentsensitive Faktorstrutktur
Sehr unpolitische Personen, die kein Treatment bekommen, können
bezüglich eines Tests zur Politikverdrossenheit bzw. Unzufriedenheit mit der
politischen Landschaft eine größtenteils eindimensionale Faktorstruktur
aufweisen Personen, die ein Treatment (z.B. einen Kurs in politischer
Bildung) erhalten, können bezüglich dieser Einstellung differenzierter
werden und folglich eine mehrdimensionale Struktur aufweisen (z.B.
Unzufriedenheit mit der Umweltpolitik, Unzufriedenheit mit der
Flüchtlingspolitik, Unzufriedenheit mit der Verkehrspolitik etc.). Eine bloße
Summation und Vergleich der Werte in Kontroll ‐ und Experimentalgruppe
würde die Effekte des Trainings nicht richtig darstellen.
o Reaktivität (Leute die Treatment wollen sind z.B. motivierter oder die VP reagieren
auf die experimentelle Situation und verhalten sich dadurch unnatürlich)
o Erwartungen der Experimentatoren n (Rosenthal, Pygmalioneffekt)
o Neuigkeits- und Unterbrechungseffekte (wenn etwas neu eingeführt wird, kann es
Enthusiasmus verursachen, der aber nicht erhalten bleibt)
o Kompensationseffekte (komp. Ausgleich, komp. Rivalität) (wenn die beiden Gruppen
sich kennen oder irgendwie in Kontakt stehen)
o Demoralisierung (z.B. die Gruppen, die kein Treatment bekommen
o Diffusion des Treatments (Treatmentgruppe können Tipps weitergeben)
Interne Validität
Eine Untersuchung wird als intern valide bezeichnet, wenn aus den aus ihr gewonnen
Erkenntnissen eine eindeutige Schlussfolgerung bezüglich der kausalen Beeinflussung der AV
durch die UV gezogen werden kann, d.h. wenn alle relevanten systematischen Störeinflüsse
ausgeschlossen werden können
Systematische Störvariablen: Einflüsse, die mit er UV systematisch variieren und sich auf die
AV auswirken. Sie sorgen für Variation in der AV und produzieren somit Scheineffekte
(Artefakte). Effekte, die die empirische Hypothese scheinbar belegen, werden als
gleichsinnige Konfundierungen bezeichnet, Effekte, die die empirische Hypothese scheinbar
wiederlegen, als gegensinnige Konfundierungen.
Unsystematische Störvariablen: Einflüsse, die zwar mit der AV, nicht aber mit der UV
kovariieren.
Bedrohungen der internen Validität
o unklare zeitliche Abfolge
o Selektionseffekte
o Geschichte/ Zeitgeschehen
o Reifung zwischen den Messungen
o Regression zur Mitte
o Experimentelle Mortalität
o Testeffekte bspw. ein Reihenfolge- oder ein Gedächtniseffekt
o Veränderung des Messinstruments (aus Probandensicht)
Externe Validität
Eine Untersuchung wird als extern valide bezeichnet, wenn die Erkenntnisse und
Schlussfolgerungen, die aus ihr gezogen werden, auf andere Orte (außerhalb des Labors), auf
andere Personen (als die, die im Experiment untersucht wurden), auf andere Situationen (als
die, die im Experiment hergestellt wurden) und auf andere Zeitpunkte (in der Vergangenheit
und Zukunft) übertragen, d.h. generalisiert werden können.
Bedrohungen der externen Validität
Interaktion zwischen Grund-Ursache-Beziehung und
o Probanden
o Variationen des Treatments
o Outcome-Variablen
o Settings
kontextabhängige Mediationen
Generalisierbarkeit
Cronbach
o utos: units receive treatments, while we observe the outcome in a particular setting
Generalisierung zu
o Domäne, in der wir uns bewegen
o Einheiten, Treatments, Variablen und Settings, die nicht beobachtet wurden
o UTOS
Stichprobenziehung/ Sampling
Ideal (und formal korrekt): „domain sampling model of CTT“
wir wollen immer eine Zufallsauswahl von allem, dann hätten wir groß UTOS
Idee: Generalisierung von Domäne in der wir uns bewegen auf alle UTOS
Wenn wir das ideale und formal korrekte domain sampling model of CTT haben, dann ziehen
wir aus der Population der UTOS per Zufall realisierte utos
Groß-UTOS ist ein Ideal, was man so in der Form aber nur selten erreicht
Generalisierbarkeit
Die Stärke von Experimenten ist die Fähigkeit, kausale Zusammenhänge zu beleuchten, ihre Schwäche
der beschränkte Gültigkeitsbereich!
Experimente sind nur lokal gültig – sollen aber global Aussagen ermöglichen
Schwierigkeiten
o Operationalisierung
oft nur 1 Treatment (anders als eine Menge von möglichen Treatments)
verschiedene Messungen (alle mit anderen theoretischen Implikationen) –
jedoch weit vom kompletten Satz aller möglichen Variablen
Statistik/ Grundgesamtheit: Stichprobe ist nur in den wenigsten Fällen eine
Zufallsstichprobe
Bestätigung/ Replikation: oft nur einmaliges Durchführen (die spezifisch
historischen Wirkungen sind somit nicht auszuschließen)
…
Probandenwahl
Treatmentwahl
Settingwahl
Analyse von Moderatorvariablen
Zielhierarchien – Arbeitsschritthierarchien
Beispiele
Patton (1978):
Ein Direktor einer sozialen Einrichtung sagte: „This scientifice valuation stuff is all very interesting, and
I suppose it’ssomething we’re going to have to do for funders. But when it comes right down to it, my program
is evaluated every night when I get down on my knees and ask God to look into my heart and judge what I do by
His criteria. And, by God, so long as this evaluation is positive we’ll keep on serving and helping people“
Für Politiker: God mit Wählerinnen und Wähler ersetzen…
Evaluationskriterien
Outcome Variablen (AVs)
offizielle vs. informelle Ziele?
o goal achievement model of evaluation nur von Auftraggeber definierte Ziele
o needs-based evaluation/ zielfreie Evaluation alle Wirkungen und Nebenwirkungen
werden berücksichtigt (Intendiert und nicht intendiert, erwartet und unerwartet)
Datenquellen
Einzelne Datenquellen
o Blutuntersuchung bei Krankheitsbildern
multiple Datenquellen
o Arbeitseffizient von Mitarbeitern durch Mitarbeiter, Vorgesetzte, Kollegen, externe
Gutachter
o Leidensdruck von Patienten durch Patient, Therapeut, Angehörige
Vorteile multimethodaler Erfassung
o beschränkte Information jeder Datenquelle
o Messfehler bei jeder Datenquelle (unsystematisch oder systematisch)
Datenaggregation zur Erhöhung der Reliabilität
o Akzeptanz der Evaluationsergebnisse erhöht, da unterschiedliche „Experten“ gehört
Kontextbedingungen
Beeinflussung einer Evaluation durch
o Ort
o Zeit
o Rahmenbedingungen
o Ressourcen
je mehr datengesteuert gearbeitet werden kann, desto mehr wird das Konfliktpotential reduziert
Stakeholder/ Beteiligte
Personen
Gruppen
Evaluatoren sind auch Stakeholder, weil sie wissenschaftliche Interessen haben
A VICTORY Modell
Fragebogen zur Identifikation von Befürwortern und Gegnern des Evaluationsvorhabens
A Ability: Bereitschaft und Fähigkeit, Ressourcen für die Evaluation zur Verfügung zu stellen
V Values: Einstellungen und Werthaltungen gegenüber Forschung und Evaluation
I Information: Existenz von Daten über bisherige Arbeitsweise des Programms
C Circumstances: Macht-, Weisungs- und Hierarchiestrukturen
T Timing: Prioritäten und Kompatibilität mit anderen Aktivitäten
O Obligation: Ausmaß an Verpflichtung, etwas tun zu müssen (Programm verbessern, Effektivität
prüfen)
R Resistance: Befürchtungen über negative Effekte und Widerstände
Y Yield: erwartete und erhoffte positive Konsequenzen der Evaluation
das Modell sollte immer auf konkrete Evaluationsvorhaben kontextualisiert werden
Art Checklist, wenn man eine Evaluation vornehmen will Anhand des Flussdiagramms und
Beantwortung dieser Fragen kann man Entscheidungen treffen, wie man weiter vorgehen sollte bei
dem Evaluationsprozess
Das CIPP-Modell: CIPP -Context, input, process, product
CIPP-Modell hat die Idee, dass man als Evaluator Dinge zusammenfassen muss und Dinge mit
dem Stakeholder abklären muss ist wie eine Checkliste zu betrachten, bei denen man
erfüllte Dinge abhaken kann
Das 5-Datenboxen Modell
Die Boxen
-Boxen sind im Sinne einer Cattell’schen Covariation Chart aufgebaut: 3 Dimensionen:
EVA-Box (Evaluationsbox)
Concept mapping
PR-Box (Prädiktorbox)
ETR-Box (experimentelle Treatmentbox) NTR-Box (nicht-experimentelle Treatmentbox)
CR-Box (Kriterienbox)
Theorien falsch?
Schlechte oder ungenügende Implementierung?
Schlechtes Management oder Monitoring?
Evaluationsmodelle oder Evaluationsmethodologien inadäquat?
Diese Prinzipien sind aus dem Linsenmodell von Brunswik (1955) abgeleitet, werden sie auch
als Brunswik-Symmetrie bezeichnet. Hiermit ist gemeint, dass sich z. B. Interventionen und
Kriterien im Generalitätsniveau der gemessenen Variablen entsprechen müssen.
Korrespondenzprinzip
Nulleffekte oder geringe Zusammenhänge können aus Asymmetrien im Linsenmodell
herrühren und erklärt werden.
Prädiktor auf einer komplett anderen Ebene als Kriterium Intervention passt nicht zur
Messmethode bzw andersrum
Asymmetry due to a broad higher level
Intervention ist auf einer breiteren Ebene abgefragt als das Kriterium:
o Bsp: Sozialkompetenztraining wo viele Dinge geschult werden und man teste das mit
einem Test zur Erkennung von Emotionen in Gesichtern das würde nicht alle
Aspekte des Sozialkompetenztrainings abdecken, wenn auch noch das Erkennen von
Strukturen in Gruppen dort geschult wurde
Sehr enge Intervention, die mit einem sehr breiten Kriterium abgeprüft wird: Intervention
zur Verbesserung der Kommasetzung (sehr enges Konstrukt), wobei man zur Überprüfung
der Wirksamkeit der Intervention einen Grammatiktest einsetzt Erhebungsinstrument ist
breiter als die Intervention
The hybrid case of asymmetry
Hybrid: man hat breite Intervention und breites Konstrukt Problem ist, dass sich nur
geringe Teile überschneiden: Kopfrechentraining schulen, aber Mathetest mit Textaufgaben
als Erhebungsinstrument Intervention unterscheidet sich sehr deutlich vom Kriterium
Im Grunde ist das eine Idee, dass man sich sehr viele Gedanken darüber machen sollte, welche
Verfahren valide sind und mit der Intervention korrespondieren, mit der ich die Konstrukte erheben
kann welche Erhebungsmethoden sind zutreffend?
Zusammengefasst: Das Linsenmodell soll verschiedene Abstraktionsebenen darstellen und ob eine
Intervention und das Konstrukt (was durch die Intervention verbessert werden soll) auf der gleichen
Ebene erfasst werden, sodass Effekte aufgedeckt werden können, weil die Erfassung der
Maßnahmen adäquat für das zu erfassende Merkmal sind
Bsp: Man möchte Extraversion als Merkmal erfassen und erfragt bei Personen die Neigung
auf Partys zu gehen es kann sein, dass man hier einen Effekt findet, aber an sich ist die
Sub-Eigenschaft zu abstrahiert bzw Extraversion hat weitaus mehr Facetten, weswegen man
das gesamte Ausmaß wahrscheinlich nicht erfassen kann Das Linsenmodell würde dann
versuchen diese Asymmetrie darzustellen
Plakativeres Beispiel: Man hat eine Interventionsmaßnahme zur Verbesserung
mathematischer Fähigkeiten und versucht diese mithilfe eines Deutsch-Tests zu evaluieren
Wenn man keinen Effekt aufdeckt (was nicht verwunderlich wäre), liegt es daran, dass die
Abstraktionsebene falsch ist bzw das zu messende Konstrukt auf einer anderen Ebene liegt
Ausgangslagen
-Prädiktoren identifizieren und z.B. überlegen wie man die Güte der Schule messen kann -> Kriterien
auch auf derselben Ebene messen wie die Prädiktoren
-„ In unserer Firma läuft es nicht! Was können wir besser machen?“ „Ist die Schulausbildung in
Deutschland gut?“ „Fühlen sich die BürgerInnen in Deutschland sicher?“
Präzisierung der Fragestellung und empirische Prüfung / Klärung
Needs Assessment als Zustandsdiagnose (allgemein versteht man darunter das markierte)
-„The family of procedures used by evaluators and other social researchers to systematically describe
and diagnose social needs [social problems / problems in general] is generally referred to as needs
assessment.“
Präzise Definition des Problems
Präzise Messung des Problems
Bestimmung und Identifikation der Nutznießer („Ziele“) der Intervention
Akkurate Beschreibung der Bedürfnisse/Bedarfe der Nutznießer
Beispiel 1
o Problem: Hohe Arbeitslosenquote in „inner ‐city neighborhoods“
o Annahme: Defizite im Angebot an Arbeitsstellen
o Maßnahme: Anreize für Arbeitgeber geschaffen, in „inner ‐city neighborhoods“
Stellen zu schaffen
o Effekt: Arbeitsplätze nehmen zu, doch Arbeitnehmer kommen aus anderen
Stadtgebieten Fehlplanung – Personen aus dem jeweiligen “inner ‐city ‐
neighborhood” bleiben arbeitslos
Beispiel 2
o Ziel: Erkennung von AIDS ‐Fällen verbessern
o Maßnahme: Ärzte erhalten Informationen über die AIDS ‐Diagnose mittels Bluttest
bei Risiko ‐Patienten
o Nicht berücksichtigt: Ärzte haben keine Angaben zur „sexuellen Vergangenheit“ ihrer
Patienten (keine Anamnese) keine Klassifikation als „high risk patient“ möglich
o Effekt: Alle Patienten getestet, hohe Kosten
Beispiel 3
o Problem: Hohe Abtreibungsraten in einem Stadtgebiet
o Maßnahme: Birth ‐control project erweitert, zusätzliche Teilnehmer sollten erreicht
werden
o Effekt: Keiner Nicht berücksichtigt: fast alle potentiellen Teilnehmer im Stadtgebiet
waren bereits im Projekt; Verhütung war bereits weit verbreitet; junge Frauen aus
dem Umland kamen zur Abtreibung ins Stadtgebiet
Beispiel 4
o Problem: Handfeuerwaffen bei kriminellen Handlungen
o Maßnahme: Verkauf an Schwerverbrecher (vormals bestraft) verboten
o Nicht berücksichtigt: Schwerverbrecher kaufen die Waffen nicht legal (Erhalt von
Waffen auf Schwarzmarkt oder durch Diebstahl)
o Effekt: Keiner!
Mit einer anständigen Statusdiagnostik hätten man Zeit und Kosten sparen können, weil man
dann hätte sehen können, dass die Maßnahmen keine Wirkung haben
Klärung:
o Wie sieht das Problem genau aus?
o Wer ist betroffen?
o Welche Charakteristika haben / teilen die Betroffenen?
o Sind die Charakteristika noch identisch mit denen bei der ersten Implementierung
des Programms?
o Welche Bedürfnisse haben die Betroffenen?
o Welche Reaktionen der Betroffenen sind zu erwarten?
o Sämtliche Annahmen (implizit und explizit) sind in Frage zu stellen! ‐ Mögliche
Probleme bei festen Überzeugungen der Auftraggeber … “Verwirren Sie mich nicht
mit Tatsachen, meine Meinung steht schon fest!”
o Probleme sind oft sozial konstruiert
Problemdefinition
Unzufriedenheit von Stakeholdern mit gegenwärtigem Zustand
o Identifikation eines Problems als Abweichung von Zielzustand
o Beobachtbare Fakten beschreiben ein Phänomen nicht als kritisch oder
verbesserungswürdig
o Definition des gewünschten Zustandes (Zielzustandes) ist nötig
o Definition des Zielzustandes ist zeit ‐ und kontextabhängig (was ist Armut?)
Problem der Obdachlosigkeit
o a) Obdachlose Person hat keine Verwandten soziale Isolation
o b) Obdachlose Person hat keinen Zugang zu einem Obdach Problematik der
Unterbringung
z.B. gibt es bei der Anzahl der Obdachlosen Schätzungen, die zwischen 2000 und 200000 Personen,
also um den Faktor 100 variieren sehr ungenau
Wo ? Lokale Verortung
Durchschnittswerte gelten nicht für alle!
Prävention kriminellen Verhaltens in einem Vorort in den USA aufgrund der amtlichen Statistik
zu delinquentem Verhalten
Nach Einführung eines Präventionsprogramms wurde festgestellt, dass es gar kein
Kriminalitätsproblem gab
Problem: a) Generalisierung von Stichprobendaten auf die Population
b) Unzulässige Übertragung von Populationsdaten auf Teilpopulationen
Wie groß?
Repräsentative Stichproben / Daten, um Bedarf zu ermitteln
Zur Verfügung stehende Datenquellen
o Surveys U.S. Census
o Mikrozensus in Deutschland verlässliche Daten über wirtschaftliche und soziale
Lage, Erwerbstätigkeit, Arbeitsmarkt und Ausbildung
Daten dienen der Statusdiagnose, aber auch Ermittlung von Trends
o SOEP: Sozioökonomisches Panel (https://www.diw.de/soep)
USA: Anzahl Kinder, die kostenloses Essen in Schulen erhalten als Indikator für Armut im
Einzugsgebiet der Schule
Soziale Indikatoren (Surveys U.S. Census)
o Einkommen des Haushaltes
o Alter, Geschlecht, Rasse der Personen in Haushalten
o Teilnahme an Förderprogrammen
Möglichkeit, Größe und Verbreitung eines Problems abzuschätzen
Möglichkeit, Veränderungen abzuschätzen
Möglichkeit, erste, wenn auch grobe, Abschätzungen von Effekten existierender
Maßnahmen
Keine Daten vorliegend
Daten zwar vorliegend, aber nicht auf dem richtigen Aggregationsniveau
Eigene Forschungsarbeiten zur Statusdiagnose
o Einholen von Expertenmeinungen
o Large ‐scale (sample) surveys
Aufwand der Datenerhebung hängt von Anforderungen an Statusdiagnose ab – Geht es
um: a) Gibt es ein Problem, wie sieht es aus? b) Wie groß ist das Problem (statistisch
abgesichert)?
Inzidenz vs Prävalenz
Inzidenz
o Anzahl neuer Fälle
Erkrankungen
Drogenabhängige
Kündigungen
Opfer von Verbrechen
…
Prävalenz
o Anzahl existierender Fälle
Kranke
Drogenabhängige
Ehemalige Mitarbeiter
Opfer von Verbrechen
Zielgruppenbestimmung
Inklusionskriterien
(Das seitliche in Worten statt in Formel: Die beiden Variablen müssen eine Autokorrelation aufweisen, aber die Korrelation
zwischen den beiden Variablen soll kleiner als 1 sein, Varianzen und Standardabweichungen müssen gleich sein)
Nebenwirkungen
• entwickeln sich zeitlich parallel zur Wirksamkeit
• nicht intendiert
• beeinflussen Wirkung weder positiv noch negativ
Folgewirkungen
• entwickeln sich später
•lassen sich auf Intervention zurückführen
Maßnahmenunspezifische Folgewirkungen
• Irgendeine Form der Intervention könnte diesen Effekt haben
Externe Wirkungen
• Konfundierte Variablen
A priori Effizienzanalyse
• Beschreibung der Maßnahme
• Frühere Durchführungen
• Simulationsszenarien
A posteriori Effizienzanalyse: hier kommt alles was oben steht zur Geltung
man kann unterschiedliche Fragen stellen z.B. ob das Wissen der Teens defizitär ist über Ernährung
und Kinderpflege (wenn das ausreichend ist kann kein Wissenszuwachs stattfinden); wie viele der
bedürftigen Personen nehmen tatsächlich teil, wenn sie das Angebot bekommen?
1. Impact Theory
Kausale Theorie / kausale Kette: Idee, dass man ein Jobtraining einer Zielgruppe darbietet, welches sich auf
die Qualifikation der Personen auswirkt, die Fähigkeiten bei der Arbeitssuche und Bewerbung und auch auf die
Arbeitsmotivation auswirkt wenn das erreicht wird, dann sollte ein weiteres distales Outcome sein, dass
durch die Verbesserungen den Personen einen bessere Stelle offenbart wird, wodurch sie einen besseren SES
bekommen
Cause effect sequence (instigating forces and effects) Wie wirkt sich die Maßnahme auf verschiedene
proximale und distale Merkmale aus?
Wie wird das Programm implementiert? Nicht mehr, wie man an die Personen ans Programm bekommt,
sondern wie die Personen mit dem Programm interagieren? Was sind Attribute der Intervention?
Bestehendes Programm
• Sukzessive Annäherung an Program Theory
– Theorieentwurf
– Rückkopplung mit Stakeholdern
– Überarbeitung
Dazu:
– Literatur über Programm
– Interviews mit Informanten
– Beobachtungen im Feld
– wissenschaftl. Literatur
Nutzen-Monitoring
Coverage
• Ausmaß, zu dem Mitglieder der Targetpopulation an der Maßnahme teilnehmen
• Wie viele Personen der Zielgruppe werden erreicht?
Bias
• Ausmaß, in dem bestimmte Gruppen der Targetpopulation überrepräsentiert sind
• Werden bestimmte Gruppen der gesamten Zielgruppe stärker angesprochen / erreicht?
Fiktives Beispiel:
Multiple Problemlage und eine Intervention (die Berufspraktikantin)
Zusammenfassung: GAS
Einsatz der GAS:
Therapieevaluation
Evaluation von Einrichtungen
Evaluation von Sozialprogrammen
Vorteile:
Kriterien‐ und Bewertungsfrage relativ eindeutig geklärt
« Demokratisches Instrument » Partizipation (Begünstigte können an Zielerreichung
mitwirken)
Motivation der Klienten durch Rückkopplung
Korrektive und verstärkende Rückmeldung an Therapeuten
Nachteile:
Reaktives Verfahren (deswegen nicht so ganz wissenschaftlich: es kann sein, dass aufgrund
der Zielformulierung Dinge passieren, die sonst nicht passiert wären
Beliebigkeit der Ziele und Gewichte
Fragebögen
+ standardisiert (Objektivität ist gegeben)
+ relativ leicht zu konstruieren
+ ökonomisch in Anwendung
+ leicht auszuwerten
+ normiert
‐ leicht verfälschbar (erwünschte und unerwünschte Antworten relativ leicht zu identifizieren?)
‐ Fragebögen setzen sprachliches Verständnis voraus
‐ Annahme: Personen besitzen valide Repräsentation des Gegenstandes
‐ Beispiel: Kompetenzselbsteinschätzungen vs. Wissenstests
Es sind ganz unterschiedliche Erhebungsmethoden! sind unterschiedlich gut geeignet für
eine Evaluation kommt darauf an, was das Ziel der Evaluation ist
Kompetenzselbsteinschätzung Likert ‐Skalierung in beide Richtungen verfälschbar (wie
Persönlichkeitstest)
Wissenstest z.B. Richtig ‐Falsch ‐Aufgaben nur in eine Richtung verfälschbar
(Leistungstest)
Wie aussagekräftig ist meine Evaluation wenn ich Prä-Post-Test habe, also Veränderungen
messe, oder auch Selbsteinschätzungen in der Evaluation einbezogen werden?
Alternativen
Leistungstests
Verhaltensbeobachtungen
Dokumentenanalyse
Textanalyse
Interviews
Physiologische Maße
Reaktionszeitgestützte Verfahren
Soziometrische Maße (=demographische Daten)
Multimethodale Erfassung
Passung von Modalität(en) und Erfassungsmethode(n)
Nebengütekriterien
Skalierung – entsprechen die Testwerte den Merkmalsausprägungen?
Normierung – ist ein Bezugssystem vorhanden? (Ausreichend große Eichstichprobe?)
Ökonomie – ist die Beanspruchung von finanziellen und zeitlichen Ressourcen vertretbar?
Nützlichkeit – haben die Konstrukte eine psychologische Relevanz? Haben die zu treffenden
Entscheidungen einen höheren Nutzen als Schaden?
Zumutbarkeit – Steht die Belastung der Teilnehmer durch die Erhebung im Verhältnis zum
Nutzen?
Unverfälschbarkeit – Ist eine (absichtliche) Verzerrung der Ergebnisse durch die Teilnehmer
möglich? (bei FBs oftmals nicht gegeben)
Fairness – werden systematisch alle Personengruppen berücksichtigt?
„Checkliste“ zur Konstruktion von Messinstrumenten (allgemein für quantitative und qualitative
Methoden
• welche Konstrukte müssen erhoben werden? Ausreichend genau spezifiziert und definiert?
Operationalisierbar?
• Instrumente verfügbar? Bewährung im Evaluationskontext?
• Ressourcen, um neues Instrument zu entwickeln?
• Ressourcen, um gewähltes Instrument einzusetzen?
• Instrument adäquat für Befragte?
• Einverständniserklärungen nötig? (Besonders im Schulkontext notwendig, weil man je nach Alter
der Kinder EV der Eltern braucht)
• Vertrauen Befragte der Aussagekraft des Instrumentes?
Checkliste ist relevant, da im Feld der Evaluation häufig ‚Ad ‐Hoc‘ ‐ Konstruktionen notwendig sind:
Checkliste an Fragen kann man durchgehen, weil es bei Evaluationen häufig so ist, dass bestimmte
Interventionen evaluiert werden sollen, für die häufig noch keine Erhebungsinstrumente bestehen
man muss Beobachtungs- und Erhebungsmethoden selber entwickeln, ohne Literatur als Basis
2. Planung von Untersuchungen
Grundlagen der Versuchsplanung
-Grund: John Locke: “A cause is that which makes any other thing either simple idea, substance, or
mode, begin to be; and effect is that which had its beginnings from some other thing”
ein Grund ist etwas, was einen Effekt hat
-Effekt: David Hume: “Counterfactual Thinking” Was passiert, wenn Personen ein Treatment
erhalten? Was wäre passiert, wenn dieselben Personen das Treatment nicht erhalten hätten? Δ =
Effekt
Problem beim Counterfactual Thinking ist, dass man nicht ausprobieren kann, ob es einen
Unterschied gibt -> man beachtet auch, was passiert wäre, wenn etwas nicht eingetreten wäre
man kann nur nah an den Zustand rankommen und versuchen die Bedingungen so zu erstellen,
dass sie nah am Zustand dran sind
- Simultanes Verabreichen und Vorenthalten eines Treatmens ist unmöglich (Problem des
Counterfactual Thinkings)
Wie kann sichergestellt werden, dass der Grund zum Effekt führt?
Approximation des “counterfactuals” mittels Gegenbedingung und Identifikation der Unterschiede
zwischen Gegenbedingung und Grund/Treatment
-Kausaler Zusammenhang nach John Stuart Mill gegeben bei:
1) zeitlicher Vorgeordnetheit des Grunds
2) Kovariation
3) Ausschluss von Alternativerklärungen bzw von Störvariablen
Kausalität
i) strenge Kausalitätsbedingung
i) Alle Störgrößen kontrolliert Randomisierung: ermöglicht Kontrolle der Störgröße
ii) Starke Kausalitätsbedingung
i)Störvariablen nicht mit UV korreliert
ii) Störvariablen interagieren nicht mit UV Keine Konfundierung
iii) Schwache Kausalitätsbedingung
i)Die Menge aller Störvariablen mit gleichsinniger Konfundierung und die Menge aller
Störvariablen mit gegensinniger Konfundierung verteilen sich gleichmäßig auf Stufen der UV
Konfundierungen gleichen sich aus
Gleichsinnige Konfundierung: Störgröße wirkt so auf die AV wie die UV Beispiel: UV:
Gedächtnistraing; Störgröße: IQ; AV: Behaltensleistung
Gegensinnige Konfundierung: Störgröße wirkt sich entgegen der Wirkung der UV auf die AV aus
Beispiel: UV: Gedächtnistraining; Störgröße: Müdigkeit; AV: Behaltensleistung
Personen, die eine Therapie bekommen haben und Personen, die keine Therapie bekommen
haben. Den unbehandelten Personen geht es besser als den Personen, die eine Therapie
bekommen haben. Das ist unplausibel und nicht zu erwarten. Eigentlich sollte es den
Personen in der Therapie besser gehen. Das ist aber dadurch bedingt, dass wir in den beiden
Gruppen unterschiedliche Geschlechterverhältnisse haben hier nicht der Fall:
Das Geschlecht stellt sich als eine Variable dar, die als Drittvariable, die mit der AV
zusammenhängt und den Zusammenhang zwischen UV und AV beeinflusst Aufgrund der
unterschiedlichen VPn-Verteilungen in den beiden Gruppen gibt es diesen paradoxen Effekt
Keine Interaktion, sondern 2 HEs: alte Therapie und neue Therapie VS. Sommer und Winter
Unterschied zwischen alter und neuer Therapie ist im Sommer größer als im Winter
Interaktion
Es könnte auch sein, dass eine Therapie im Sommer besser wirkt als im Winter, was komisch
aber möglich wäre
Keine Kontrollbedingungen
Zeitreihenanalysen
Selektives Kohortendesign
3. Auswertungen
Metaanalysen
Ziele zur Durchführung einer Metaanalyse
Beantwortung genereller Fragestellungen
Gesamtbild über viele Studien hinweg, die (meist) auf kleine Stichproben beruhen und daher
ungenaue Schätzung der Effekte liefern (Generalisierbarkeit)
o Kleinere Studien sind alleine eher weniger aussagekräftig, deswegen sammelt man
solche, um einen größeren summativen Effekt zu haben
Können Befunde repliziert werden?
Mögliche Fragestellungen
Ist die kognitive Verhaltenstherapie wirksam, um Ängstlichkeit bzw. Angststörungen bei
Kindern und Jugendlichen zu behandeln? (Cartwright ‐ Hatton et al., 2004)
Haben Augenzeugen verzerrte Erinnerungen von Ereignissen bzw. Vorfällen? (Douglass &
Steblay, 2006)
Unterscheidet sich das Temperament von Menschen hinsichtlich des Geschlechts? (Else ‐
Quest et al., 2006)
Was sind die neurophysiologischen Effekte sportbedingter Gehirnerschütterung? (Belanger &
Vanderploeg, 2005)
Wie kann schwangeren Frauen geholfen werden, mit dem Rauchen aufzuhören? (Kelley,
Bond & Abraham, 2001)
Grundfragen
Ergebnisse von Metaanalysen (kombinierte Ergebnisse aus vielen (allen) Studien zum Thema)
zu:
o Mittelwert und Varianz der Populationseffekte – d, r, usw.; zusätzlich
Konfidenzintervalle (Signifikanz)
o Variabilität der Effekte über Studien hinweg (Homogenität der Effektgrößen)
o Rolle von Moderatorvariablen (z.B. wirkt kognitive Verhaltenstherapie bei
Jugendlichen zur Behandlung von Essstörungen besser, wenn Elemente von
Gruppentherapie implementiert werden?)
Schritte in Metaanalysen
1.Literaturrecherche: gucken, was es gibt und das Ganze Katalogisieren und Zusammenfassen
1. Z.B. in elektronischen Datenbanken (ISI Web of knowledge, PubMed, PsychINFO)
2. Backward (Studien, die zitiert werden) und Forward (Studien, die zitieren)
3. Publication bias (file ‐drawer problem): Signifikante Ergebnisse werden mit höherer
Wahrscheinlichkeit veröffentlicht als nicht signifikante
– Die Wahrscheinlichkeit, dass signifikante Ergebnisse in wissenschaftlichen Artikeln
berichtet werden, ist acht mal höher als das Erscheinen nicht‐ signifikanter
Ergebnisse
– 97% aller Artikel in psychologischen Journalen berichten signifikante Effekte
4. Suche über Suchmaschinen aber auch durch direktes Anschreiben der AutorInnen (in der
Hoffnung, nicht veröffentlichte Daten zu erhalten)
5. Suche in acht Datenbanken:
1. Cochrane Controlled Trials Register
2. Current Controlled Trials
3. Medline
4. Embase/PsychINFO
5. Cinahl
6. NHS Economic Evaluation Database
7. National Technical Information Service
8. ISI Web of Science
6. Beachtung der Literaturangaben der genutzten Artikel
7. Manuelle Suche in 13 relevanten Journals (z.B. zur Ängstlichkeitsforschung)
8. Kontaktieren von Personen im Feld, um Informationen zu weiteren Untersuchungen zu
erlangen
2. Einschlusskriterien (Erst viel Recherchieren und dann entscheiden, was man in die Metaanalyse
aufnimmt und was nicht)
2. Einschlusskriterien
1. Gut oder schlecht durchgeführte Studien?
2. Klare Definition, was untersucht werden soll (Arbeitsdefinition, was eine kognitive
Verhaltenstherapie ist)
3. Angabe der Zahl der aufgenommen und ausgeschlossenen Studien
4. Aufnahme von Kriterien als Moderatorvariablen (Studien mit und ohne Kontrollgruppe;
methodisch starke gegenüber schwächeren Studien)
5. Kriterien der Probandengruppe (Alter, Geschlecht, Diagnose, Qualität des Outcomes)
4.Erste Analyse
4. Erste Analysen
1. Gewichteten Mittelwert der einzelnen Effektgrößen berechnen (Gewicht: N)
2. Falls eine Studie besonders groß ist, gewichteten Mittelwert mit und ohne berechnen, um
abschätzen zu können, wie groß der Effekt der Studie ist
3. Berechnung des Konfidenzintervalls für den Populationseffekt
4. Fixed oder random effects models?
1. Gibt es einen angenommenen Populationseffekt aus EINER Population? Beziehen
sich die Studien alle auf eine angenommene Population? Fixed‐effects Modell
(Effektgrößen sollten homogen sein, da sie aus einer Population stammen; z.B.
Hedges and colleagues method)
2. Gibt es mehrere Populationen? Die Studien beziehen sich auf unterschiedliche
Populationen! Random‐effects Modell (Effektgrößen können heterogen sein,
stammen aus „Superpopulation“; z.B. Hunter‐Schmitt Method)
3. Entscheidungshilfe: Tests zur Beurteilung der Heterogenität von Stichproben
4. Generelle Empfehlung: Eher Random‐effects Modelle berechnen – wenn Fixed‐
effects Modelle berechnet werden, wo Random‐effects Modelle adäquat sind,
erhöhen sich α‐Fehler artifiziell, umgekehrt ergeben sich keine so schwerwiegenden
Fehleinschätzungen
=.554 ist die mittlere Effektstärke, gemittelt über alle inkludierten Studien
2. Berechnung der Varianz der Effektgrößen
Funnel Plot zeigt die Höhe der Effektstärken gegen das N abgetragen: (man kann auch
zeigen, wie heterogen die SP ist)
Die Studien, die aus dem Funnel rausragen sind sehr unwahrscheinlich: es könnte sein, dass
diese zu einer anderen Subpopulation gehören
4. Korrektur der mittleren Effektgrößenschätzung (z.B. Vevea & Woods, 2005)
5. Cohens d, Korrelationskoeffizienten (r), Odds ‐Ratios (OR)
Wenn man das alles gemacht hat kann man den Bericht erstellen