Sie sind auf Seite 1von 21

Thema 03: Metaanalysen

Übersicht
I. Externe Validität
II. Was ist Metaanalyse
III. Schritte einer Metaanalyse
IV. Fixed oder Random
V. Ergebnisse
VI. Beispiele

I. Externe Validität
Positivistische Perspektive
▪ Campbell & Stanley (1966) Cook & Campbell (1979) Shadish et al. (2002): Externe
Validität ist die Frage nach der Generalisierbarkeit von Befunden auf andere als die
untersuchten Populationen, Settings, Behandlungsvariablen und Messverfahren
▪ Kurze Antwort auf Frage ist: gar nicht. Vorausgesetzte Form der Generalisierung
beruht auf Induktion, die philosophische Grundhaltung ist positivistisch.
Kritisch Rationalistische Perspektive
▪ Deduktivistische / kritisch rationale Umdeutung externer Validität nötig. Adäquatheit
von Hypothesentests fokal. Intention der Bestätigung von Hypothesen durch
angestrebte ausbleibende Falsifikation zu ersetzen
Erörterung externer Validität einer Untersuchung sollte fragen:
▪ Sind die hergestellten oder aufgesuchten Bedingungen geeignet? Ist die
Operationalisierung gelungen?
▪ Wie vielfältig und verschiedenartig waren die untersuchten Personen, Situationen
und Messverfahren unter denen Hypothese nicht falsifiziert wurde?
▪ Besteht Hypothese auch Tests unter natürlichen, praxisbezogenen, „ökologischen“
Bedingungen?
Bedrohungen der externen Validität
▪ Shadish , Cook, & Campbell, 2002: The validity of inferences about whether the cause
effect relationship holds over variation in persons, settings, treatment variables, and
measurement variables
…bedroht, wenn Interaktionen mit …
▪ Beobachtungseinheiten ( Vpn
▪ Behandlungsvariationen (UV)
▪ Outcomevariablen (
▪ experimentellen Settings (Zeit, Kultur,…)
Es geht hier eigentlich nur um Generalisierung. Gelten die Ergebnisse im Allgemeinen oder
bezieht es sich nur auf die hier genannten Interaktionen? Um das festzustellen machen wir
diese externale Validierung und das geht am besten mit Metaanalysen.

II. Was ist Metanalyse?


Je nach Fragestellung können
unterschiedliche
Vorgehensweisen in Hinblick auf
Fokus, und Methode der
Synthese gewählt werden.
Metaanalyse ist quasi eine
spezifische Vorgehensweise bei
der Zusammenfassung der
Literatur.

Probleme anderer Forschungssynthesen


▪ Kaum Bezugnahme auf frühere Reviews
▪ Intransparenz der Studienselektion
▪ Intransparenz der Ergebnisselektion innerhalb selektierter Studien
▪ Größe der Effekte vernachlässigt
▪ Stichprobenfehler vernachlässigt
▪ quantitative (z.B. N ) oder qualitativer Aspekte (z.B. methodische Qualität) in
Primärdaten vernachlässigt
▪ Oft Scheinquantifizierung per „vote counting“
▪ Fehlende Berücksichtigung von Moderatoren

Meta-analyse
▪ Quantitative Forschungssynthese
▪ Weg zur Untersuchung von Replikationen (Replikationen nicht im Engen Sinne (genau
das gleiche nochmal untersucht) sondern eher allgemein (selbe Fragestellung
untersucht in verschiedenen Settings)
▪ Zusammenfassung umschriebener Forschungsbereiche
▪ Ziel: Identifizierung von Effekten, von Effektvariation und von Prädiktoren hierfür
▪ Basiert auf zentralem Prinzip der Wissenschaft: „The advancement of scientific
knowledge is based on a systematic building of one study on top of a foundation of
prior studies , the accumulation of which takes our understanding to ever increasing
heights .“ Card, 2012
Geschichte
▪ Starkes Interesse an Zusammenfassung von Ergebnissen empirischer (Sozial --)
Forschung Anfang 70er Jahre
▪ Einführung des Begriffs 1976 durch Gene V. Glass
▪ Parallele Entwicklung statistischer Aspekte der Metaanalyse durch:
o Glass, McGaw & Smith (1981): Psychotherapieeffektforschung
o Hunter, Schmidt & Jackson (1982): Validitätsgeneralisierung
o (später) Hedges & Olkin (1985), Rosenthal (1991)
▪ Heute etabliert, anerkannt, wichtig (In APA werden scheinbar fast nur noch
Metaanalyse veröffetlicht.) → http://psycnet.apa.org/PsycARTICLES/journal/bul/

Forschungsgegenstand
▪ Gegenstand: Untersuchungsergebnisse
▪ Ziel: Forschungsstand verstehen
o Markiert Status Quo des Wissens
o Hilft Zufallsbefunde zu erkennen
o Begründet praktische Maßnahmen
o Begründet Entscheidungen über
zukünftige Forschung,
Forschungsförderung etc.
▪ Annahme: Reviewer sind unfähig oder
unmotiviert, eine vollständige, rationale und
transparente Synthese verfügbarer
Forschungsergebnisse durchzuführen
▪ Konsequenz: Forschungssynthese selbst wissenschaftlich-methodischer Gegenstand
Probleme von Meta-analysen
Aber Untersuchungsergebnisse oft problematisch
▪ Exhaustion & Realisierung
▪ HARKing, p hacking, data snooping, specif. search
▪ Reproduzierbarkeit/Replizierbarkeit
▪ Omitting 0 results
▪ Unterpowerte Studien
▪ Publication bias , file drawer
▪ Fehler (Datenübertragung etc.)
▪ Undisclosed Flexibility in Data Collection and Analysis, researcher df : mehr Daten ,
Vpn raus, Bedingungen kombinieren, Daten transformieren
▪ Schwache Designs
▪ Fragwürdige Forschungspraktiken (74% spezielle DV, 71% Ende falls p<.05, 54% post
hoc Hypothesenanpassung)
Beispiele
www.cochranelibrary.com
Siehe auch
www.campbellcollaboration.org/

Mehr Beispiele auf den Folien

III. Schritte einer Metaanalyse


Systematik
1. Formulieren der Forschungsfrage
2. Reviewplan (im Sinne eines a priori Protokolls)
3. Umfassende Suche, Artikel Screenen
4. Unverzerrte Auswahl und Zusammenfassung
5. Kritische Bewertung und Kodierung der Daten
6. Synthese der Daten Effektstärken, Metaanalyse
7. Korrekturen berechnen, Heterogenität bestimmen, Moderatoren und Annahmen
testen
8. Beantwortung der Forschungsfrage
9. Interpretation der Ergebnisse
Alle Schritte werden explizit erörtert.
1. Forschungsfrage
▪ Population / Patient / Problem
▪ Intervention
▪ Vergleich
▪ Outcomes (primär, sekundär
▪ Zeit
2. A priori reviewplan
▪ Insbesondere Ein --& Ausschlusskriterien Studien
3. Umfassende Suche
▪ Suchkriterien, Liste Studien attribute ausgeschlossener Studien
▪ PubMed, Cochrane Central Register of Controlled Trials, Web of Science, PsycINFO
▪ Handsuche in Zeitschriften, Referenzlisten, Vorwärts Rückwärtszitationen
▪ Dissertation abstracts, Conference abstracts, Abschlussarbeiten, Preprints
▪ Clinical trials registers, EMBASE, CINAHL, LILACS, Databases from LMIC
▪ Persönliche Kommunikation, graue oder unpublizierte Arbeiten, Referenzen,
Gespräche
▪ „Browsing“
▪ (Email--) Anfrage (nicht) publizierter Studien
▪ Keyword Suche: Erstellen einer Liste von Keywords für die Variable von Interesse
▪ Boolsche Verknüpfung, Wildcards,
Phrasesearch,Fuzzysearch
▪ Suchmaschine und Datenbank
informiert auswählen
▪ Vorwärts Rückwärtszitationen:
Publish or Perish, google scholar ,
web of science , ggf. research Gate
etc.
Beispiel für Suchbegriffe (bei einer Studie von
ihm zu gf/gc):
▪ Name oder Akronyme von ability EI Tests:
o MSCEIT
o „Mayer Salovey Caruso Emotional Intelligence Test“
▪ Kombiniert mit Suchbegriffen für general cognitive ability
o valid*, cognit* test, psychometric, “psychometric propert *”, “IQ test”, “ability
test”, “ability measure*”, “mental ability”, “cognitive abilit *”, SAT, “cognitive
abilit
▪ Suchmaschinen
o PsycARTICLES , Medline, Embase , PsycINFO, PSYNDEX, & Cochrane libraries
o Für Graue Literatur: ProQuest Dissertations
▪ Explorative Suche mit Google Scholar
o “emotion* percept*”, “emotion* understand*”, “emotion* facilitation”,
“emotion* manag *”, and “emotion*
o “fluid intelligence”, “crystal* intelligence”, “general intelligence”, vocabulary,
knowledge, lexical, matri *, reasoning, “verbal intelligence”, “nonverbal

4. Unverzerrte Auswahl
▪ Database Bias
▪ Publikationsbias: Selektive Publikation positiver Effekte , signifikanter Effekte
▪ Englischbias: nicht englischsprachige Arbeiten häufig ausgeschlossen
▪ Zitationsbias: Sign./pos. Befunde eher häufiger zitiert als nonsig./neg. Befunde
▪ Publikationsformat: Dissertation, Zeitschrift, etc
▪ PRISMA Diagramm erstellen:

▪ Biases:
5. Kritische Bewertung und Kodierung
Zu kodierende Variablen:
▪ Artikelmerkmale: Veröffentlichungsjahr, Veröffentlichungsart (Dissertation,
Zeitschrift, etc.)
▪ Merkmale Stichprobe: N für Effekt, Anteil Frauen, etc.
▪ Merkmale Methode: Name der Tests, Reliabilität, Qualitätsrating Methoden
▪ Spezifische Ergebnisse: Art und Größe des Effektgröße (r, d, …)
▪ In code book sheet doppelt kodieren, Reliabilitätsschätzung

6. Synthese der Daten


▪ Effektstärken (ES) ermöglichen Meta Analyse
▪ ES enkodieren empirische Befunde numerisch
▪ Verschiedene ES
▪ u.U. mehrere Methoden der Berechnung einer ES
Haupttypen von ES
▪ Standardisierte Mittelwertsdifferenz (d, g,
▪ Odds Ratio, Relative Risks
▪ Korrelationen
www.campbellcollaboration.org/escalc/html/EffectSizeCalculator SMD10.php
http://faculty.ucmerced.edu/wshadish/software
▪ Verschiedene Effektgrößen in verschiedenen Studien
▪ Konvertierung in eine gemeinsame Metrik
▪ Gängige Metriken:
o r
o standardisierte Mittelwertsdifferenzen
▪ Cohen’s d, sd gepoolte SD sample
▪ Hedges’ g, s= gepoolte SD Population
▪ Glass’ Δ, s 1 =SD Kontrollgruppe
▪ aus Signifikanzwerten zurückgerechnet (zu pWerten werden Effektstärken errechnet)
▪ Odds ratio aus binären Daten bzw. Häufigkeiten
▪ Konvertierung in eine gemeinsame Metrik . Bspw:

▪ Rückrechnung aus Teststatistiken/p. Bspw:

▪ Ergebnisse oft unvollständig berichtet.


▪ Nötigenfalls Daten imputieren (bspw. Fehlende Reliabilität aus Literatur)
▪ Konsequenzen von Korrekturen zu durchdenken
▪ Ab wann werden Studien ausgeschlossen?
▪ Analog zu gängigen Missingproblemen in der Forschung

7. Artefakte ES
Bestimmung
▪ Stichprobenfehler
▪ Messfehler AV, Messfehler UV
▪ Dichotomisierung stetiger AVs; UVs
▪ Variabilitätseinschränkung UV
▪ Mangelnde Konstruktvalidität AV; UV
▪ Berichts oder Transkriptionsfehler
▪ Varianz, die auf Drittvariablen zurückzuführen ist
▪ Minderungskorrektur

▪ Mediansplit d.h. p = .50


o φ (c): Bei p = .50 ist z = 0, d.h. φ c ) = .3989
o Bestimme

▪ Korrelationen sinken bei Dichotomisierung kontinuierlicher Variable


▪ Dichotomisierung am Median: r2 .64 ursprüngliches r 2
▪ Dichotomisierung andere Stelle: r2 noch kleiner
▪ N für Signifikanz steigt, wahrer Zusammenhang unterschätzt, Regressionskontinuität
anzunehmen anzunehmen
Varianzeinschränkung
▪ Validität oft an ausgelesener Stichprobe bestimmt (Ausschnitt Populationsverteilung
des Kriteriums)
▪ Validität niedriger, als bei kompletter Verteilung
▪ bei irrepräsentativ breit streuenden Stichproben (z.B. Extremgruppen) Validität
überschätzt
Veranschaulichung
▪ 10.000 Fälle, 3 normalverteilte Variablen: X1, X2, Y
▪ Choleskitransformiert : rX1Y =.6, rX2Y =.4, rX1X2 =.5
▪ Was falls X1 und/oder X2 zur Selektion verwendet wird?
▪ Was falls Stichprobenvarianz eingeschränkt ist?
▪ Was falls Extremgruppendesigns?
▪ Ausmaß der Fehleinschätzung bei ungleicher stichproben- und Populationsvariation
kann über Gleichsetzung beider Standardschätzfehler abgeleitet werden

6&7: Effektstärken und Heterogenität


▪ Bestimmung Effektstärken
▪ Signifikanz des mittleren Effekts
▪ Bestimmung eines Konfidenzintervalls
▪ Im Fixed Effects Model: Homogenitätstest
▪ Im Random Effects Model: Heterogenitätsvarianz
▪ Moderatoranalysen

IV. Fixed vs. Random Effects


▪ Im Modell fester Effekte nehmen wir an, es existiert eine wahre Effektgröße, die für
alle eingeschlossenen Studien gilt. Der kombinierte Effekt ist die Schätzung dieser
gemeinsamen Effektgröße.
▪ Im Modell zufälliger Effekte nehmen wir an, dass der wahre Effekt von Studie zu
Studie variiert und bsp. größer wird wenn Personen älter werden oder die Dosis
erhöht wird. Eingeschlossenen Studien gelten als Zufallsstichprobe aus der
relevanten Verteilung und der kombinierte Effekt schätzt den mittleren Effekt in
dieser Verteilung.
Notation in Metaanalysen
▪ k = Anzahl unabhängiger Studien
▪ Ti = Beobachtete Effektgröße der i-ten Studie
▪ 𝜃i = Populationseffektgröße der i-ten Studie
▪ νi = Varianz der Populationseffektgröße der i-ten Studie
▪ Gesammelte Daten einer Meta Analyse bestehen somit aus k Schätzungen von
Effektgrößen T1 , …, Tk mit Parametern 𝜃1 ,…, 𝜃k und zugehörigen Varianzen
Varianzen ν1 , … , νk .

Modell fester Effekte


▪ Zentrale Annahme: 𝜃1 𝜃2 𝜃3= =… = 𝜃𝑘
▪ Schätzer für mittlere Effektstärke:

▪ Gewichte wi
▪ invers proportional zu bedingter Varianz jeder Studie
▪ Minimieren Varianz der Effekte
▪ Alternativ: Gewichtung mit Stichprobengröße 𝑁𝑖

Modell zufälliger Effekte:


▪ Die 𝜃i sind nicht fest bzw. gleich, sondern variieren (zufällig) über Studien hinweg.
Das heißt:

▪ Mehrere Schätzer für Stichprobengewichtungen


Heterogenität und Moderation
▪ Die Wahl des Modells und die Festlegung der Gewichte können nennenswerten
Einfluss auf die Ergebnisse haben (in FE größere Studien idR größeres Gewicht).

▪ Test der Homogenität von Q über Studien hinweg: χ ² Test mit k-1 Freiheitsgraden (H
0 = kein Unterschied)
▪ I²
o ~ .25 → niedrige Heterogenität
o ~.50 → moderate Heterogenität
o ~ .75 → hohe Heterogenität (Higgins & Thompson, 2002)
▪ T ²: Häufig berichtet aber schwierig zu interpretieren
V. Ergebnisse - Beantwortung der Forschungsfrage (Schritt 8)

Forest plot

Funnel plots

Influence
Symbolgröße proportional zu ES Gewicht .
Gepunktete Linie : 0 Effekt. Durchgezogene Linie
gewichtete lin. Regression aller ES (k = 257).
Qualität
▪ Fragwürdige Forschungspraktiken auch in Metaanalysen?
▪ Reproduzierbarkeit: 54 Metaanalysen in 2013-2014. Nur ⅔ enthalten komplette
Effektgrößentabelle . In jede 2. Studie Daten nicht verfügbar oder Effekte nicht
reproduzierbar (Lakens et al., 2017)
▪ Transparenz
▪ Fehlende file drawer Studien
▪ Rasch überholt
▪ Metaanalysen fortlaufend oder bottom up: http://metabus.org/ ,
http://metalab.stanford.edu/
Ausblick
▪ Metaanalytische Methoden entwickeln sich fort. Beispiele:
▪ Meta SEM
▪ Multilevel MA (one stage) vs. Ind.Participant MA (two stage [erst ES, dann
▪ Second order MA (Metaanalyse von Metaanalysen)
▪ Network MA
▪ Fortlaufende Metaanalysen, Replikations MA

VI. Beispiele
1. Beispiel
▪ .51 für GMA aus sehr großer
Studie (Hunter, 1980;
▪ Hunter & Hunter, 1984). Über
32.000 Beschäftigte in 515
verschiedenen Berufen. AV:
Performanz im Beruf und in der
Qualifikation
▪ Validität GMA fällt mit
Anspruch des Berufs : .58
managerial jobs, .51 für mittel komplexe Jobs, .23 für sehr simple Jobs
▪ Koeffizienten korrigiert für Messfehler im Kriterium und Varianzeinschränkung.
Operationale Validität
▪ Integritätsfragebogen:
o Würde jedermann stehlen, wenn die Bedingungen günstig sind?
o Haben Sie jemals daran gedacht, Geld von Ihrer Arbeitsstelle zu entwenden?
▪ Messfragen! Berufliche Performanz manifestiert in Quantität (n produzierter ,
verarbeiteter , verkaufter Einheiten ), Qualität der Arbeit Fehlerraten ,
Produktinspektion), Produktivität Quantität pro Zeit ), Kreativität , Selbsteinschätzung
, Peereinschätzung , Teameinschätzung , Assessment Center, Unfälle , Kündigung ,
Kündigungsabsichten , Training & Weiterbildung , Empfehlungsschreiben ,
Abmahnungen , Leistungserfassungen , Verspätungen , Fehlzeiten , Willfährigkeit mit
Firmenpolitik ), Org. Citizenship Beh .
▪ 8 Performanzdimensionen: berufsspezifische Fähigkeit, nicht berufsspezifische
Fähigkeit ; Fähigkeit mdl. & schriftl . Zu kommunizieren , Demonstration von
Anstrengung , Erhaltung pers. Disziplin , Erleichtern von Peer und Teamleistung ,
Führung , Management
▪ Evaluation von Trainings
o muss oft durchgeführt werden
o wird oft durchgeführt
o orientiert sich oft am Kirkpatrick Modell
▪ Beziehungen zwischen Trainingskriterien?
→ Alliger , G. M., Tannenbaum, S. I., Bennett, W., Jr., Traver , H. & Shotland , A.
(1997). A meta analysis of the relations among training criteria . Personnel
Psychology , 50 , 341 358.

2. Beispiel

4-Ebenen Modell (Kirkpatrick): Evaluationsmodell


für Lehren & Lernen. Evaluationsstufen in Relevanz
geordnet und zunehmend schwieriger zu
evaluieren. Evaluation auf höheren Ebenen liefert
bedeutsamere Informationen, um den Erfolg einer
Bildungsmaßnahme zu beurteilen.
1. Reaktion (Akzeptanz, Zufriedenheit, Nutzung): Wie
reagieren die Lernenden auf Trainingsmaßnahme?
2. Lernen (Lernerfolg, subjektiv, objektiv): Haben sich die Leistungen der Lernenden
verbessert?
3. Verhalten (Lerntransfer, Quantität, Qualität): Hat sich das Verhalten am Arbeitsplatz
verbessert?
4. Ergebnisse (Effizienz: betriebl . Kennzahlen): Rendite für das Unternehmen?

Kritik: keine kausale Beziehung zwischen 4 Ebenen


Ergebnisse:

3. Beispiel
Absorption

Analytical / Curiosity

Inquiring Intellect
Intolerance for Ambiguity

NFC

Novelty seeking

Typical Intellectual Engagement


Ergebnisse:

Das könnte Ihnen auch gefallen