04.3 UP Vorlesung Quasi - Und Natürliche Experimente Mit Audio

Vorlesung
Einführung in die Methoden der empirischen

Bildungsforschung
4.3 Quasi-Experimente und Natürliche Experimente
Martin Brunner
martin.brunner@uni-potsdam.de
1
Aufbau der Vorlesung
1. Einführung in das Thema und statistische Grundlagen

2. Erfassung empirischer Daten
2.1 Quantitative Messinstrumente
2.2 Qualitative Verfahren und Mixed Methods
3. Wissenschaftstheoretische Perspektiven
4. Studiendesigns und Evidenz
4.1 Experimente und Effektstärken
4.2 Gütekriterien der Studienanlage
4.3 Quasi-Experimente und Natürliche Experimente
4.4 Korrelative Studien
4.5 Meta-Analysen zur Synthese von Forschungsbefunden aus Einzelstudien
5. Qualitätssicherung im Schulwesen
5.1 Systemebene
5.2 Einzelschule
2
Inhalte der heutigen Vorlesung
• Quasi-Experimente
• Ursache und Wirkung: Wiederholung wichtiger Konzepte
• Prinzipien von Quasi-Experimenten
• Strukturelle Designelemente der Studienanlage
• Interne Validität von Quasi-Experimentellen Studiendesigns
• Studien ohne Kontrollgruppe
• Studien mit Kontrollgruppe
• Studien mit Kontrollgruppe und mehreren Messzeitpunkten
• Kohorten-Kontrolldesign
• Natürliches Experiment: Die Berlin-Studie
• Zeitreihenstudien
• Wie gut können Quasi-Experimente kausale Effekte approximieren?
3
• Prinzipien
4
Arten von Studiendesigns / Versuchsplänen
Überblick: Studiendesigns / Versuchspläne

• Experiment
• Eine Studie, in der eine unabhängige Variable aktiv manipuliert wird
(z.B. eine Intervention durchgeführt wird), um die Wirkung dieser
Manipulation beobachten zu können
• Randomisiertes Experiment (Bsp: Projekt STAR)
• Ein Experiment in dem die Studienteilnehmer zufällig (z.B. durch
Münzwurf) den experimentellen Bedingungen zugewiesen werden
• Goldstandard
• Quasi-Experiment (Bsp: Leko-Lemo-Studie)
• Ein Experiment ohne Randomisierung
• Natürliches Experiment (Bsp: BERLIN-Studie)
• Eine Studie, in der ein natürlich auftretendes Ereignis (z.B.
Bildungsreform) mit einer Vergleichsbedingung verglichen wird
• Korrelative Studie (Bsp: COACTIV-Studie)
• Eine Studie, in der die Größe und Richtung des Zusammenhangs
zwischen Variablen erfasst wird
Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Boston: Houghton Mifflin Company. 5
Was sind Ursache und Wirkung? Drei Bedingungen der Kausalität
Bedingungen für eine Kausale Beziehung: Implikationen für das Studiendesign

1. Bedingung: Die Ursache geht der Wirkung zeitlich voraus
• Wir manipulieren die angenommene ursächliche Variable (z.B. Gestaltung des
LekoLemo-Training anstelle normalen Unterrichts) und beobachten hinterher eine
Ergebnisvariable (z.B. Lesekompetenztest)
2. Bedingung: Die Ursache steht mit der Wirkung in Beziehung
• Wir analysieren, ob Ursache und Wirkung statistisch zusammenhängen (z.B.
Mittelwertvergleich oder Korrelationsanalyse)
3. Bedingung: Ausschluss plausibler Alternativerklärungen
• Wir nutzen zahlreiche Methoden in der Studienanlage, um Alternativerklärungen
auszuschließen (z.B. Randomisieren)
Interne Validität
Definition
• Eine empirische Studie wird dann als intern valide bezeichnet, wenn ihre
Ergebnisse die eindeutige Schlussfolgerung zulassen, dass die unabhängige
Variable (X) eine kausale Wirkung auf die abhängige Variable (Y) hat.
• Die Evidenz für die Schlussfolgerung basiert dabei auf
• den empirischen Ergebnissen der Studie selbst
• der Konsistenz dieser Ergebnisse
• über Studien hinweg
• mit den theoretischen Erwartungen
Was sind Ursache und Wirkung? Kontrafaktisches Modell
Ursache Wirkung
https://www.uni-bamberg.de/fileadmin/bagss/Bilder/Editorial/21711197.jpg
Donald Rubin
• Rubin‘s Kontrafaktisches Modell („counterfactual model“)
• Gedankenexperiment: Welche potentiellen Ereignisse würden wir für eine Person
beobachten, wenn diese unter identischen Rahmenbedingungen an allen
experimentellen Bedingungen teilnimmt
• Potentielle Ereignisse am Beispiel der LekoLemo-Studie
• Empirische Beobachtung
• Wir konnten beobachten, welche Leseleistung ein bestimmter Schüler (z.B.
Klaus) erzielte, der am Training teilnahm
• Kontrafakt
• Welche Leseleistung hätten wir für Klaus beobachten können, wenn er nicht
am LekoLemo-Training teilgenommen hätte?
Was sind Ursache und Wirkung? Kontrafaktisches Modell
Ursache Wirkung
https://www.uni-bamberg.de/fileadmin/bagss/Bilder/Editorial/21711197.jpg
Donald Rubin
• Rubin‘s Kontrafaktisches Modell („counterfactual model“)

• Kausale Wirkung/ kausaler Effekt
• Die Differenz zwischen der tatsächlichen Beobachtung und dem Kontrafakt
• Fundamentalproblem
• Wir können den Kontrafakt nie beobachten
• Lösung
• Wir approximieren den Kontrafakt durch
• das Design der Studie und/oder
• die statistischen Analysen
• Prinzipien
10
Prinzipien Quasi-Experimenteller Studien
Ursache Wirkung
Quasi-Experiment
• Ein Experiment ohne Randomisierung
Prinzipien von Quasi-Experimenten, um Alternativerklärungen auszuschließen
1. Identifikation plausibler Gefährdungsfaktoren der internen Validität
2. Primat der Kontrolle der Gefährdungsfaktoren durch die Studienanlage

(zusätzlich zu statistischer Kontrolle)
3. „coherent pattern matching“

• Vorhersage von Ergebnismustern, die nur durch den kausalen Effekt
entstehen können
• Prinzipien
12
Beschreibung der Studienanlage
Strukturelle Designelemente zum Ausschluss von Alternativerklärungen bzw.
Konfundierungen
• Strukturelle Designelemente zur Kontrolle von ..
• personengebundenen Störvariablen
• Störvariablen in der Versuchssituation
• Strukturelle Designelemente definieren die Studienanlage (Studiendesign)
Was sind die wichtigsten strukturellen Designelemente?

• Notation
• X = Pädagogische Intervention
• O = Empirische Daten
• R = randomisierte Zuweisung zu den untersuchten Experimentalgruppen
• NR = nicht-randomisierte Zuweisung (nicht-äquivalente Gruppen)
• Indizes (z.B. O1A) beziehen sich auf den Zeitpunkt der Erhebung (1,2,3 etc.)
sowie die erfassten Konstrukte (A, B, C etc.) bzw. alternative Interventionen
Beispiel 1: LekoLemo-Studie
Bisherige Darstellung
Notation
NR O1 X O2 O3
NR O1 O2 O3
• X = LekoLemo-Training
• 1 = Prätest, 2 = Posttest, 3 = Follow-Up Messung
• NR = nicht-randomisierte Zuweisung (nicht-äquivalente Gruppen)
14
Beispiel 2: Project STAR
Bisherige Darstellung
Notation
R XA {O1A, O1B} XA {O2A, O2B} XA {O3A, O3B} XA {O4A, O4B}
R XB {O1A, O1B} XB {O2A, O2B} XB {O3A, O3B} XB {O4A, O4B}
R {O1A, O1B} {O2A, O2B} {O3A, O3B} {O4A, O4B}
• XA = kleine Klassengröße, XB = reguläre Klassengröße und „teacher‘s aide“

• O: 1 = Vorschule, 2 = 1. Klasse, 3 = 2. Klasse, 4 = 3. Klasse; A = Leseleistung, B =
Mathematikleistung
15
• Prinzipien
16
Kultusministerkonferenz: Datengestützter Entwicklungskreislauf an einer Schule
Evidenzbasierung in der Schulpraxis
Sekretariat der Ständigen Konferenz der Kultusminister der Länder in der Bundesrepublik Deutschland. (2010). Konzeption der Kultusministerkonferenz zur Nutzung der Bildungsstandards für die
Unterrichtsentwicklung. München: Wolters Kluwer. Abgerufen von http://www.kmk.org/fileadmin/Dateien/veroeffentlichungen_beschluesse/2010/2010_00_00-Konzeption-Bildungsstandards.pdf
17
Ein-Gruppen Prä-Posttest-Design
O1 X O2 X? O3 X? O4
• X = Maßnahmenpaket; X? = (verändertes?) Maßnahmenpaket
Lässt diese Studienanlage intern valide Schlüsse zu?

18
O1 X O2
Effekt des
Trainings?

X = LekoLemo-Training
O1 O2
19
Wie ist die Qualität dieser Studienanlage zu bewerten?

• Counterfactual: Leseleistung zu O1
• Potentieller Effekt: Differenz  der Leseleistung zwischen O2 und O1
• Intern valide Schlüsse sind gefährdet aufgrund von
• Retest-Effekten
• Stichprobenausfall
• natürlichen Reifungs- oder Entwicklungsprozessen
• historischen Ereignissen, die simultan zur Intervention auftreten
• Um intern valide Schlüsse zu ermöglichen, sollten diese Gefährdungsfaktoren kontrolliert werden
Ein-Gruppen Prä-Posttest-Design mit zweifachem Prätest
O1 O2 X O3

21
O1 O2 X O3
Effekt des
Trainings?
X = LekoLemo-Training
O1 O2 O3
22

• Dieses Design hilft die natürlichen (linearen) Entwicklungs- und Reifungsprozesse
abzuschätzen
• Counterfactual
• Projektion (graue Linie) des Entwicklungsverlaufs auf O3
• Potentieller Effekt
• Differenz  der tatsächlichen Leseleistung für O3 und der für O3
vorhergesagten Leseleistung

• Intern valide Schlüsse sind gefährdet aufgrund von
• historischen Ereignissen, die simultan zur Intervention auftreten
• Re-Testeffekte, die über den Zugewinn von O1 zu O2 hinausgehen
• Nicht-linearen Entwicklungs- oder Reifungsprozessen
• Um intern valide Schlüsse zu ermöglichen, sollten diese Gefährdungsfaktoren
kontrolliert werden
Ein-Gruppen Prä-Posttest-Design mit nicht-äquivalenten Outcome-Variablen
{OA1 OB1} X {OA2 OB2}

25
{OA1 OB1} X {OA2 OB2} 
Fiktive LekoLemo-Studie
• nicht-äquivalente Outcome-Variable = Auswahl abhängiger Variablen mit
unterschiedlicher Sensitivität für den Interventionseffekt
• „coherent pattern matching“
• Leseleistung (OA) ist sensitiv für Effekt des Lesetrainings, Mathematikleistung (OB)
ist nicht/kaum sensitiv für den Effekt eines Lesetrainings
• Erwartetes Ergebnismuster: Leistungszugewinn bei der Leseleistung, keine
Veränderung der Mathematikleistung zwischen den beiden Messzeitpunkten
• Sofern das empirische das theoretisch-erwartete Ergebnismuster widerspiegelt,
ist das ein möglicher Nachweis für den kausalen Effekt des Trainings
s. West, S. G. (2009). Alternatives to Randomized Experiments. Current Directions in Psychological Science, 18(5), 299–304. 26
{OA1 OB1} X {OA2 OB2} 
Fiktive LekoLemo-Studie
• Counterfactual
• Leistungszugewinn in der Mathematikleistung (in der Abb. war kein
Leistungszugewinn beobachtbar)
• Potentieller Effekt
• Differenz  des Leistungszugewinn in der Leseleistung und dem
Leistungszugewinn in der Mathematikleistung
s. West, S. G. (2009). Alternatives to Randomized Experiments. Current Directions in Psychological Science, 18(5), 299–304. 27
{OA1 OB1} X {OA2 OB2} 

• Interne Validität wird gestützt, sofern
• die abhängige Variable A sensitiv für die Intervention ist und B nicht (oder in
deutlich geringerem Maße)
• A und B in gleicher Art und Weise von denselben Gefährdungsfaktoren der
internen Validität betroffen sind
• natürliche Entwicklungsprozesse
• Retest-Effekte
• historische Ereignisse
• Prinzipien
29
Prä-Posttest Kontrollgruppen Design
NR O1 X O2
NR O1 O2
Merkmale eines Prä-Posttest Kontrollgruppen Designs

• Die Kontrollgruppe
• nimmt nicht an der (pädagogischen) Zielintervention X teil
• sollte eine vergleichbare Verteilung aller Merkmale aufweisen, die für das
Outcome relevant sind
• sollte allen Gefährdungsfaktoren der internen Validität in gleicher Art und Weise
unterliegen wie die Interventionsgruppe
• Re-Test-Effekte, Stichprobenausfall, historische Ereignisse, ...
• Sorgfältig gewählte/gebildete Kontrollgruppen approximieren so das Counterfactual
• Welches Ergebnis hätte man für die Personen in der Interventionsgruppe
beobachten können, wenn diese nicht an der Intervention teilgenommen hätten
30
NR O1 X O2
NR O1 O2
Merkmale eines Prä-Posttest Kontrollgruppen Designs

• Der Prätest hilft
• Gruppenunterschiede bei der Variablen zu identifizieren, die am stärksten mit
der Outcomevariablen korreliert ist
• Je geringer die Unterschiede im Prätest sind, umso geringer ist die
Wahrscheinlichkeit für Verzerrungen bei der Schätzung des kausalen
Effekts durch Selektionseffekte
• Je geringer die Korrelation zwischen Prätestwerten und der Zugehörigkeit
zu den experimentellen Gruppen ist, desto höher ist die statistische
Schätzgenauigkeit (d.h., MoE ist geringer) der Effektstärke
• auf Basis statistischer Modelle adjustierte Werte für die Outcome-Variablen
zu berechnen, bei denen die Unterschiede in den Prätest-Werten
berücksichtigt („herausgerechnet“) werden 31
Prä-Posttest Kontrollgruppen Design mit Follow-Up
NR O1 X O2 O3
NR O1 O2 O3
Nutzung der Prätestwerte zur Berechnung adjustierter Mittelwerte

• Beispiel: Leko-Lemo-Studie
• Lesekompetenz wurde z-standardisiert mit M = 0 und SD = 1 für die
Gesamtstichprobe (Werte kleiner Null = unterdurchschnittliche Lesekompetenz, Werte gleich Null =
durchschnittliche Lesekompetenz, Werte größer Null = überdurchschnittliche Lesekompetenz)
• Berechnung adjustierter Mittelwerte mit einer Regressionsgleichung
• Die adjustierten Mittelwerte für die Trainings- und Kontrollgruppe
repräsentieren jeweils die (geschätzte) mittlere Leseleistung, die resultieren
würde, wenn die beiden Gruppen die gleiche mittlere Prätestleistung erzielt
hätten
• Die adjustierten Mittelwerte werden auch genutzt, um zu beurteilen,
inwiefern die Mittelwertunterschiede zwischen den beiden Gruppen
statistisch signifikant von Null verschieden waren, wenn die beiden Gruppen,
die gleiche mittlere Prätestleistung erzielt hätten 32
Prä-Posttest Kontrollgruppen Design: Mittelwertvergleich in der LekoLemo-Studie
adjustierter
Mittelwertunterschied* im
Follow-Up zwischen
Trainings- und
adjustierter Mittelwertunterschied beim Kontrollgruppe ist statistisch
Posttest ist statistisch nicht signifikant von signifikant von Null
Null verschieden verschieden.
LekoLemo-Studie: tatsächliche (gestrichelte Linien) und adjustierte Mittelwerte

(durchgezogene Linie)
Streblow, L., Schiefele, U., & Riedel, S. (2012). Überprüfung des revidierten Trainings zur Förderung der Lesekompetenz und der Lesemotivation (LEKOLEMO) für die Sekundarstufe I. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 44(1), 12–26. 33

• Ohne Randomisierung von Jugendlichen auf die beiden Gruppen muss man davon
ausgehen, dass sich die Leistungsentwicklung der beiden Gruppen vor Durchführung
des Trainings nicht voneinander unterschieden hatte, damit man den Unterschied in
der Leistungsentwicklung  als Effekt kausal auf das LekoLemo-Training zurückführen
kann
• Diese Annahme kann auf der Grundlage des in Studie 1 verwendeten quasi-
experimentellen Designs jedoch nicht empirisch überprüft werden.
34

• Bildung von Kontrollgruppen durch Parallelklassen in einem Jahrgang (z.B. 9a ist die
Interventionsgruppe, 9b ist die Kontrollgruppe)
35
• Prinzipien
36
Kontrollgruppendesigns mit mehreren Messzeitpunkten
• Beispiele: Einbezug mehrerer Prä- und Posttests

• Darstellung orientiert sich an der Arbeit von Raudenbush (2002)
• keine randomisierte Zuweisung der Jugendlichen zu Trainings- und
Kontrollgruppe
• die Lesekompetenz der Jugendlichen der Trainingsgruppe war im Prätest
(Messzeitpunkt T1) und Posttest (T2) im Mittel stärker ausgeprägt als die
Lesekompetenz der Jugendlichen in der Kontrollgruppe.
•  = Effektstärke, um den (potentiellen) Trainingseffekt abzubilden
•  repräsentiert die Differenz zwischen Trainings- und Kontrollgruppe
bezüglich der mittleren Leistungsentwicklung von T1 zu T2
•  war in allen Studien gleich, jedoch nicht dessen Interpretation
Brunner, M., Pant, H. A., & Stanat, P. (2014). Diagnostik und Evaluation. In T. Seidel & A. Krapp (Hrsg.), Pädagogische Psychologie (6. Aufl.) (S. 483–516). Weinheim: Beltz.
Raudenbush, S. W. (2001). Comparing personal trajectories and drawing causal inferences from longitudinal data. Annual Review of Psychology, 52, 501–525.
37
Fiktive Studien 2a und 2b zum LekoLemo-Training: Prä-Post-Design mit zusätzlichem

Prätest
• Der zusätzliche Prätest (Messzeitpunkt T0) ermöglicht es, die Entwicklung der Lesekompetenz zu
untersuchen, die nicht vom LekoLemo-Training beeinflusst wurde
• Studie 2a: Der Unterschied in der Leistungsentwicklung wurde nicht durch das Training bewirkt, da
die Leistung in der Trainingsgruppe bereits vor dem Training stärker anstieg
• Studie 2b: Die Leistungsentwicklungen von Trainings- und Kontrollgruppe verlief vor Beginn des
Trainings parallel. Dies ist ein starker Hinweis, darauf, dass der positive Effekt auf die
Leistungsentwicklung durch das Training verursacht wurde.
Brunner, M., Pant, H. A., & Stanat, P. (2014). Diagnostik und Evaluation. In T. Seidel & A. Krapp (Hrsg.), Pädagogische Psychologie (6. Aufl.) (S. 483–516). Weinheim: Beltz. 38
Fiktive Studien 3a und 3b zum LekoLemo-Training: Prä-Post-Design mit zusätzlichem

Prätest und Follow-Up Messung
• Der zusätzliche Posttest (Messzeitpunkt T3) wird auch Follow-Up-Test genannt
• Der Follow-Up Test ermöglicht es, die Nachhaltigkeit von Effekten zu untersuchen
• Studie 3a: Der positive Effekt auf die Leistungsentwicklung ist zu T3 verschwunden
• Studie 3b: Der positive Effekt auf die Leistungsentwicklung ist auch zu T3 beobachtbar
Brunner, M., Pant, H. A., & Stanat, P. (2014). Diagnostik und Evaluation. In T. Seidel & A. Krapp (Hrsg.), Pädagogische Psychologie (6. Aufl.) (S. 483–516). Weinheim: Beltz. 39
• Prinzipien
40
Kohortenkontroll-Designs
Klassenstufe Schuljahr
2016 2017 2018 2019 2020 2021 2022
1
2
3
4
5
6
Kohortenkontroll-Designs: Im Überblick
• In vielen institutionellen Kontexten (z.B. Einzelschulen, Schulsysteme) „wachsen“
Gruppen (= Kohorten) hoch und werden durch neue Gruppen ersetzt
• Kohorte 1 (orange): Erstklässler, die im Schuljahr 2016/17 eingeschult werden
• Kohorte 2 (lila): Erstklässler, die im Schuljahr 2017/18 eingeschult werden
• Eine Kohorte dient als Kontrollgruppe für die andere Kohorte
• Beispiel
• BERLIN-Studie
• Zentrale Annahme
• Selektionseffekte zwischen Kohorten sind geringer als zwischen anderweitig
zusammengestellten Vergleichsgruppen
Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and
quasi-experimental designs for generalized causal inference. Boston:
Houghton Mifflin Company. 41
Studiendesign zum datengestützten Entwicklungskreislauf an einer Schule
Mehrkohorten-Design für eine Grundschule mit 6 Leistungsmessungen zum

Schuljahresende
• Analyse von zwei Einschulungskohorten, idealerweise in engem zeitlichen Abstand
(z.B. zwei aufeinanderfolgende Jahrgänge)
42
• Prinzipien
43
Schulstruktur in Deutschland
Entwicklung des Schulwesens in Deutschland

• Viele Länder führten ein zweigliedriges Schulsystem ein
Autorengruppe Bildungsberichterstattung. (2018).
Bildung in Deutschland 2018: ein indikatorengestützter
Bericht mit einer Analyse zu Wirkungen und Erträgen
von Bildung (1. Auflage). Bielefeld: wbv Media.
44
BERLIN-Studie: Beispiel für ein natürliches Experiment
Reform des Berliner Sekundarschulwesens (Beschluss des Berliner Abgeordnetenhauses vom 25.06.2009)
• bis zum Schuljahr 2009/2010: Dreigliedriges System
• Hauptschule, Realschule, Gymnasium
• an den unterschiedlichen Schulformen können nicht alle allgemeinbildenden
Schulabschlüsse erworben werden
• ab dem Schuljahr 2010/2011: Zweigliedriges System
• Integrierte Sekundarschule, Gymnasium
• an den unterschiedlichen Schulformen können alle allgemeinbildenden
Schulabschlüsse erworben werden
Neumann, M., Becker, M., Baumert, J., Maaz, K., & Köller, O. (Eds.). (2017). Zweigliedrigkeit im deutschen Schulsystem: Potenziale und Herausforderungen in Berlin. Münster New York: Waxmann. 45
BERLIN-Studie: Beispiel für ein natürliches Experiment
Ziel der BERLIN-Studie

• Wissenschaftliche Begleitung und Evaluation der Auswirkungen der
Schulstrukturreform
• Evaluationsziele fokussieren auf die Ziele der Reform: auswählte Ziele
• Anstieg des mittleren Leistungsniveaus
• Alle Schüler*innen sollen zu höchstmöglichen schulischen Erfolgen und die
übergroße Mehrheit zum mittleren Schulabschluss am Ende der 10.
Jahrgangsstufe geführt werden
Neumann, M., Becker, M., Baumert, J., Maaz, K., & Köller, O. (Eds.). (2017). Zweigliedrigkeit im deutschen Schulsystem: Potenziale und Herausforderungen in Berlin. Münster New York: Waxmann. 46
BERLIN-Studie: Mehrkohortenkontrolldesign
Stichprobe Jahr
2011 2012 2013 2014 2015 2016 2017 2018
7. Jahrgangsstufe
8. Jahrgangsstufe
9. Jahrgangsstufe
10. Jahrgangsstufe / Ausbildung
11. Jahrgangsstufe
12. Jahrgangsstufe
13. Jahrgangsstufe
Kontrollkohorte (dreigliedriges Schulsystem)

Reformkohorte (zweigliedriges Schulsystem)
Mehrkohortenkontrolldesign
• Vergleich der erzielten Bildungserträge von zwei repräsentativen
Stichproben von Schülerkohorten
• Kontrollkohorte: dreigliedriges Schulsystem
• N = 2.783 Neuntklässler*innen
• Reformkohorte: zweigliedriges Schulsystem
• N = 2.109 Neuntklässler*innen Neumann, M., Becker, M., Baumert, J., Maaz, K., & Köller, O.
(Eds.). (2017). Zweigliedrigkeit im deutschen Schulsystem:
Potenziale und Herausforderungen in Berlin. Münster New
York: Waxmann.
47
BERLIN-Studie: Kohortengemeinsamkeiten und -unterschiede
Merkmal Kontrollkohorte Reformkohorte

Geschlecht (männlich: in %) 50.9 51.9
Alter (M, SD) 15.7 15.4
Lehrmittelzuzahlungsbefreiung (in %) 31.5 29.4
Migrationshintergrund (in %) 49.7 50.1
Anteil Gymnasiasten (in %) 41.0 42.6
Noten (Halbjahresnoten; M, SD)
Mathematik 3.3 3.4
Deutsch 3.2 3.1
Englisch 3.2 3.2
Kohortenvergleich soziokultureller und bildungsbezogener Schülermerkmale

• Weitgehende Konstanz der Kohorten der 9. Klässler*innen in Bezug auf die meisten
Schülermerkmale
• geringere Unterschiede
• geringeres Lebensalter der Schüler*innen der Reformkohorte in der 9. Klasse
• Migrationshistorie (nicht aus der Tab. ersichtlich)
• Mehr Schüler*innen der Kontrollkohorte wurden im Ausland geboren
Neumann, M., Becker, M., Baumert, J., Maaz, K., & Köller, O. (Eds.). (2017). Zweigliedrigkeit im
deutschen Schulsystem: Potenziale und Herausforderungen in Berlin. Münster New York:
Waxmann. 48
BERLIN-Studie: Methode - Schülerleistungen
https://cdn.pixabay.com/photo/
2019/03/30/20/52/test-
4092025_960_720.jpg
Standardisierte Tests zur Erfassung fachspezifischer Schülerleistungen

• Tests fokussierten auf funktionale, problemorientierte Anwendung von
fachspezifischem Wissen und Fertigkeiten in lebensnahen Kontexten
• Leseverständnis (Testitems aus PISA 2006)
• Mathematik (Testitems aus PISA 2006)
• Naturwissenschaften (Testitems aus PISA 2006)
• Englisch (Testitems aus IQB-Ländervergleich 2009)
• Schwierigkeit der Tests wurde an das durchschnittliche Leistungsniveau der
Schüler*innen an unterschiedlichen Schulformen angepasst
Neumann, M., Becker, M., Baumert, J., Maaz, K., & Köller, O. (Eds.). (2017). Zweigliedrigkeit im deutschen Schulsystem: Potenziale und Herausforderungen in Berlin. Münster New York: Waxmann.
49
BERLIN-Studie: Ergebnisse - Schülerleistungen
Reformkohorte besser
als Kontrollkohorte
Kontrollkohorte besser
als Reformkohorte
Kohortenvergleich der Schülerleistungen in der 9. Klasse

• Berechnung von nicht-adjustierten und adjustierten standardisierten
Mittelwertdifferenzen d als Effektgröße
• Da sich die Kohorten zumindest etwas in wichtigen leistungsrelevanten
Merkmalen unterschieden (z.B. Geschlecht, sozioökonomischer Status,
kognitive Grundfähigkeiten [„Intelligenz“], Migrationserfahrung, Bildung der
Eltern). Diese Unterschiede wurden bei den adjustierten standardisierten
Neumann, M., Becker, M., Baumert, J.,
Maaz, K., & Köller, O. (Eds.). (2017).
Zweigliedrigkeit im deutschen Schulsystem:
Mittelwertunterschiede „herausgerechnet“ Potenziale und Herausforderungen in Berlin.
Münster New York: Waxmann.
50
BERLIN-Studie: Ergebnisse - Schülerleistungen
Reformkohorte besser
als Kontrollkohorte
Kontrollkohorte besser
als Reformkohorte
Kohortenvergleich der Schülerleistungen in der 9. Klasse

• Lesebeispiel: Die mittlere (nicht-adjustierte) Leseleistung der Reformkohorte lag d =
0.13 Standardabweichungen unter der mittleren Leseleistung der Kontrollkohorte
• Ausgenommen für das Fach Englisch lag das mittlere Leistungsniveau der
Reformkohorte stets leicht unter dem mittleren Leistungsniveau der Kontrollhorte
• Die standardisierten Mittelwertunterschiede (nicht-adjustiert und adjustiert) waren
jedoch statistisch nicht signifikant von Null verschieden (p > .05) und damit evtl. rein
zufallsbedingt vgl Tab. 6.1 und Tab. 6.2 in Neumann, M., Becker, M., Baumert, J., Maaz, K., & Köller, O. (Eds.). (2017). Zweigliedrigkeit im deutschen
Schulsystem: Potenziale und Herausforderungen in Berlin. Münster New York: Waxmann. 51
BERLIN-Studie: Ergebnisse - Abschlüsse
vgl. Tab. 5.19

Neumann, M., Becker, M., Baumert, J.,
Maaz, K., & Köller, O. (Eds.). (2017).
Zweigliedrigkeit im deutschen
Schulsystem: Potenziale und
Herausforderungen in Berlin. Münster
New York: Waxmann.
Kohortenvergleich: Berechtigung zum Übergang in die gymnasiale Oberstufe (BGY)

• In der Reformkohorte erwarben in der 10. Jahrgangsstufe
• insgesamt mehr Schüler*innen die Übergangsberechtigung. Der Kohortenunterschied war
statistisch signifikant von Null verschieden.
• an nicht-gymnasialen Schulformen mehr Schüler*innen die Übergangsberechtigung. Der
Kohortenunterschied war statistisch signifikant von Null verschieden.
• am Gymnasium etwas weniger Schüler*innen die Übergangsberechtigung. Der
Kohortenunterschied war statistisch nicht signifikant von Null verschieden.
52
• Prinzipien
53
Unterbrochene Zeitreihenstudien
Beispiel: Zeitreihe mit 12 Messungen
O1 O2 O3 O4 O5 O6 O7 O8 O9 X O10 O11 O12
Unterbrochene Zeitreihe
• Zeitreihe = Große Anzahl an Messungen
• Für dieselbe Person
• Für dieselbe Analyseeinheit (z.B. schwere Autounfälle in den USA)
• Unterbrochene Zeitreihe
• Wie ändert sich das Muster in der Zeitreihe, wenn eine „Intervention“ X
stattfindet (z.B. X = „der 11. September“)?
54
Gefürchtete Risiken, 11.9.2001 und tödliche Verkehrsunfälle in den USA
mit X = 11. September 2001
“This number of about 350 lost lives is an estimate of the price Americans paid for
trying to avoid the risk of flying”
Gigerenzer, G. (2004). Dread risk, September 11, and fatal traffic accidents. Psychological Science, 15(4), 286–287. https://doi.org/10.1111/j.0956-7976.2004.00668.x
55
Unterbrochene Zeitreihenstudien
Beispiel: Zeitreihe mit 12 Messungen
O1 O2 O3 O4 O5 O6 O7 O8 O9 X O10 O11 O12
Unterbrochene Zeitreihe
• Hauptgefährdungsfaktoren der internen Validität
• Historische Ereignisse, die X überlagern
• z.B. wenn sich ab Oktober 2001 die Fahrverhältnisse auf den Straßen
wetterbedingt massiv verschlechtert hätten
• Änderung von Testverfahren
• z.B. wenn ab Oktober 2001 die Kategorie, was als „schwerer“ Unfall zählt,
geändert worden wäre
• Selektionseffekte (falls sich die Komposition der Analyseeinheit bei Beginn der
Intervention X ändern sollte)
• z.B. wenn ab Oktober 2001 andere Personengruppen am Straßenverkehr
in den USA teilgenommen hätten
56
• Prinzipien
57
Interne Validität von Quasi-Experimenten
Können Quasi-Experimente die kausalen Effekte genauso gut approximieren wie

randomisierte Experimente? Ja, aber mit geringerer Präzision!
• Meta-Analyse von Meta-Analysen: Mittlere standardisierte Effektgröße berechnet über 74
Meta-Analysen, die jeweils die Effektgrößen von Experimenten mit vs. ohne Randomisierung
verglichen
• „M“: Im Mittel gleicht sich die Über- oder Unterschätzung von Effekten in etwa aus
• „SD“: Randomisierte Experimente approximieren den „wahren“ Effekt effizienter mit einer
geringeren Anzahl an Personen/Studien, da die Effektgrößen weniger streuen
Lipsey, M. W., & Wilson, D. B. (1993). The efficacy of psychological, educational, and behavioral treatment. Confirmation from meta-analysis. American Psychologist, 48(12), 1181–1209. 58
Kontrollgruppen sind wichtig!

• Konservativere Schätzung kausaler Effekte
• Ein-Gruppen Prä-Posttest-Designs überschätzen im Vergleich zu Designs mit Kontrollgruppen
die Stärke des kausalen Effekts ( d = .79  . 47 = .29; s. Table 2 und Figure 3)
• Effizientere Schätzung kausaler Effekte
• Im Vergleich zu Ein-Gruppen Prä-Posttest-Designs approximieren Studiendesigns mit
Kontrollgruppe den „wahren“ Effekt effizienter, da die Effektgrößen weniger streuen (s. Table
2) 59
Lipsey, M. W., & Wilson, D. B. (1993). The efficacy of psychological, educational, and behavioral treatment. Confirmation from meta-analysis. American Psychologist, 48(12), 1181–1209.
Können Quasi-Experimente die kausalen Effekte genauso gut approximieren wie

randomisierte Experimente? Ja, aber nur, wenn Quasi-Experimente …
• dieselben methodischen Standards anlegen wie randomisierte Studien,
insbesondere
• Selbstselektionseffekte minimieren
• Personen sollten möglichst wenig Wahlmöglichkeiten haben, welcher
Versuchsbedingung sie angehören
• (große) Mittelwertsunterschiede zwischen Experimental- und
Kontrollgruppe im Prätest vermeiden
• Mittelwertsunterschiede im Prätest statistisch kontrollieren
• z.B. Berechnung adjustierter Mittelwertvergleiche zur Schätzung
kausaler Effekte
Heinsman, D. T., & Shadish, W. R. (1996). Assignment methods in experimentation: When do nonrandomized experiments approximate answers from randomized experiments? Psychological Methods, 1, 154–169.
60
Zusammenfassung
61
Zusammenfassung: Was Sie heute lernen konnten
• Zentrale Konzepte
• Studiendesigns, Bedingungen für eine kausale Beziehung, Kontrafaktisches
Modell, interne Validität
• Prinzipien
• Identifikation plausibler Gefährdungsfaktoren, Primat der Kontrolle, „coherent
pattern matching“
• Notation
• Diskussion der internen Validität von Quasi-Experimentalen Studiendesigns
• ohne Kontrollgruppe, mit Kontrollgruppe, unterbrochene Zeitreihe
• BERLIN-Studie als Beispiel eines natürlichen (Quasi-)Experiments mit
Mehrkohortenkontrolldesign
• Bedingungen unter denen Quasi-Experimente kausale Effekte gut approximieren
können
62

04.3 UP Vorlesung Quasi - Und Natürliche Experimente Mit Audio

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

04.3 UP Vorlesung Quasi - Und Natürliche Experimente Mit Audio

Hochgeladen von

Copyright:

Verfügbare Formate

Vorlesung

Einführung in die Methoden der empirischen

1. Einführung in das Thema und statistische Grundlagen

Überblick: Studiendesigns / Versuchspläne

Bedingungen für eine Kausale Beziehung: Implikationen für das Studiendesign

• Rubin‘s Kontrafaktisches Modell („counterfactual model“)

Prinzipien von Quasi-Experimenten, um Alternativerklärungen auszuschließen

1. Identifikation plausibler Gefährdungsfaktoren der internen Validität

2. Primat der Kontrolle der Gefährdungsfaktoren durch die Studienanlage

3. „coherent pattern matching“

Was sind die wichtigsten strukturellen Designelemente?

R XA {O1A, O1B} XA {O2A, O2B} XA {O3A, O3B} XA {O4A, O4B}

R XB {O1A, O1B} XB {O2A, O2B} XB {O3A, O3B} XB {O4A, O4B}

R {O1A, O1B} {O2A, O2B} {O3A, O3B} {O4A, O4B}

• XA = kleine Klassengröße, XB = reguläre Klassengröße und „teacher‘s aide“

Evidenzbasierung in der Schulpraxis

Lässt diese Studienanlage intern valide Schlüsse zu?

Wie ist die Qualität dieser Studienanlage zu bewerten?

Lässt diese Studienanlage intern valide Schlüsse zu?

Wie ist die Qualität dieser Studienanlage zu bewerten?

Wie ist die Qualität dieser Studienanlage zu bewerten?

{OA1 OB1} X {OA2 OB2}

Lässt diese Studienanlage intern valide Schlüsse zu?

{OA1 OB1} X {OA2 OB2} 

{OA1 OB1} X {OA2 OB2} 

{OA1 OB1} X {OA2 OB2} 

Wie ist die Qualität dieser Studienanlage zu bewerten?

Merkmale eines Prä-Posttest Kontrollgruppen Designs

Merkmale eines Prä-Posttest Kontrollgruppen Designs

Nutzung der Prätestwerte zur Berechnung adjustierter Mittelwerte

LekoLemo-Studie: tatsächliche (gestrichelte Linien) und adjustierte Mittelwerte

Wie ist die Qualität dieser Studienanlage zu bewerten?

Prä-Posttest Kontrollgruppen Design

• Beispiele: Einbezug mehrerer Prä- und Posttests

Fiktive Studien 2a und 2b zum LekoLemo-Training: Prä-Post-Design mit zusätzlichem

Fiktive Studien 3a und 3b zum LekoLemo-Training: Prä-Post-Design mit zusätzlichem

Mehrkohorten-Design für eine Grundschule mit 6 Leistungsmessungen zum

Entwicklung des Schulwesens in Deutschland

Ziel der BERLIN-Studie

Kontrollkohorte (dreigliedriges Schulsystem)

Merkmal Kontrollkohorte Reformkohorte

Kohortenvergleich soziokultureller und bildungsbezogener Schülermerkmale

Standardisierte Tests zur Erfassung fachspezifischer Schülerleistungen

Kohortenvergleich der Schülerleistungen in der 9. Klasse

Kohortenvergleich der Schülerleistungen in der 9. Klasse

vgl. Tab. 5.19

Kohortenvergleich: Berechtigung zum Übergang in die gymnasiale Oberstufe (BGY)

O1 O2 O3 O4 O5 O6 O7 O8 O9 X O10 O11 O12

mit X = 11. September 2001

O1 O2 O3 O4 O5 O6 O7 O8 O9 X O10 O11 O12

Können Quasi-Experimente die kausalen Effekte genauso gut approximieren wie

Kontrollgruppen sind wichtig!

Können Quasi-Experimente die kausalen Effekte genauso gut approximieren wie

Das könnte Ihnen auch gefallen