Sie sind auf Seite 1von 4

AMT Evidenzbasierte Medizin

Systematische bersichtsarbeiten zu
Fragen der Therapie und Prvention
Eine Einfhrung in Frage und Antwort
Teil 2 Was macht eine gute bersichtsarbeit aus?
Antje Timmer, Freiburg, und Bernd Richter, Dsseldorf

Was macht eine gute


bersichtsarbeit aus?
In bersichtsarbeiten sollen zuver
lssig alle Studien, die zu einer be
stimmten Fragestellung vorliegen
und bestimmten Qualittskriterien
entsprechen, zusammengetragen und
nach Mglichkeit zusammengefasst
werden. Ein Ziel ist, dass das zusam
mengefasste Ergebnis wahr (richtig,
gltig, valide) ist.
Typische Phnomene, die die Validitt
einer Zusammenfassung von Studien
ergebnissen (Metaanalyse) beeintrch
tigen knnen, sind in Tabelle1 zu
sammengefasst. Diese werden als Bias
bezeichnet, das heit als systematische
Fehler, die in der Regel nicht nachtrg
lich ausgleichbar sind auch nicht mit
ausgefeilten statistischen Methoden.
Um die Validitt einer systematischen
bersichtsarbeit abzuschtzen, gibt
es bestimmte Gtekriterien (Tab.2).
Es ist beispielsweise wichtig, dass die
Auswahl der Studien reprsentativ ist
und dass vor einer Zusammenfassung
die Qualitt und Vergleichbarkeit der
Studien beurteilt wurde.

Was ist eine gute Fragestellung


fr eine systematische bersicht?
Und warum ist das wichtig?
Eine systematische bersichtsarbeit
ist typischerweise auf eine (oder weni
ge) konkrete Interventionen fr eine
konkrete Indikation beschrnkt. Eine
Eselsbrcke, die als Hilfestellung fr
die vollstndige Erfassung der Studien
fragen dienen kann, ist PICO oder auch
PIKE(T) (Tab.3).
Bei Einzelstudien mssen in der Regel
alle Kriterien genau festgelegt sein.
Bei systematischen bersichtsarbeiten

252

Arzneimitteltherapie 26. Jahrgang Heft 7 2008

Tab. 1. Phnomene, die die Zuverlssigkeit einer Metaanalyse einschrnken knnen


Stichwort

Erklrung

Folge fr den gepoolten Effekt

Apples and Oranges

Die Studien sind zu unterschiedlich Das Ergebnis ist nicht interpretierbar


(klinisch, methodisch, statistisch)

Garbage in garbage out Die Einzelstudien sind qualitativ


minderwertig (unzuverlssig)

Das Ergebnis ist mglicherweise falsch

Publication bias

Das Ergebnis berschtzt die Wirksamkeit der Intervention

Studien mit nicht signifikanten


oder wenig eindrucksvollen
Ergebnissen wurden bersehen

kann dies etwas anders gehandhabt


werden. Hier findet man im Titel hu
fig nur Indikation und Intervention.
Es muss jedoch in der Erluterung von
Studienfrage und Einschlusskriterien
zu allen Bestandteilen Stellung bezo
gen werden.
In Verbindung mit einer Eingrenzung
auf mglichst hochwertige Studien
formen (z.B. randomisierte kontrol
lierte klinische Studien) ist durch eine
fokussierte Fragestellung eine vollstn
dige Erfassung aller Studien zu einem
bestimmten Thema realistischer. Vor
allem aber trgt eine solche Fragestel
lung dazu bei, dass die Studien mg
lichst vergleichbar sind. Erst dadurch
wird eine Metaanalyse, mit der dann
die Fragestellung geklrt werden soll,
sinnvoll.

Tab. 2. Qualittsmerkmale einer guten


systematischen bersichtsarbeit
Fokussierte Studienfrage
Vordefinierte Ein- und Ausschlusskriterien fr
Studien
Umfassende systematische Suche nach den
Studien zur Studienfrage
Reproduzierbare Qualittsbewertung der Studien
Untersuchung auf Heterogenitt der Studien
Statistische Zusammenfassung (Metaanalyse) der
Studienergebnisse, falls mglich

Warum wird so viel Wert auf die


Literatursuche gelegt und wo und
wie wird gesucht?

entlastet, da er nicht mehr selbst auf


die Suche gehen muss, sondern sich in
einem gewissen Ma darauf verlassen
kann, dass ihm die komplette Litera
tur zu einer bestimmten Fragestel
lung prsentiert wird. Vor allem aber
ist bekannt, dass einfach zu findende
Studien keine reprsentative Auswahl
aller Studien zu einem Thema bie
ten. Verlsst man sich beispielsweise

An eine systematische bersichtsar


beit wird blicherweise der Anspruch
gestellt, alle zur Fragestellung durch
gefhrten Studien, die den Einschluss
kriterien entsprechen, abzubilden. Das
kann als Serviceleistung verstanden
werden der Leser wird bedeutend

Priv.-Doz. Dr. med. Antje Timmer, Deutsches Cochrane


Zentrum, Stefan-Meier-Str. 26, 79104 Freiburg,
E-Mail: timmer@cochrane.de
Priv.-Doz. Dr. med. Bernd Richter, Cochrane Metabolic
and Endocrine Disorders Group, Abteilung fr Allgemeinmedizin, Universittsklinikum Dsseldorf, Moorenstr. 5,
40225 Dsseldorf

Evidenzbasierte Medizin

Tab. 3. Bestandteile einer therapeutischen


Studienfrage (PICO, PIKET)
Krzel 1 Krzel 2 Erklrung
P

Population, Patienten (Indikation)

Intervention

Comparison, Kontrollintervention

Outcome, Endpunkt ( Zielkriterium)

Time, Zeit, Zeitraum (nicht


immer erforderlich)

auf die Studien, die man sowieso in


der Schublade hat, kann es zu Ver
zerrungen kommen. Denkbar sind
hier beispielsweise Publikationsbias
(siehe dort) oder Sponsorbias, die das
Gesamtergebnis zum Beispiel in Rich
tung einer gewnschten Wirkung ver
flschen knnen.
Fr systematische bersichtsarbeiten
werden blicherweise verschiedene
elektronische Datenbanken durch
sucht, meist zumindestens Medline,
Embase und die Cochrane Library.
Darber hinaus werden eventuell
Internetseiten von Arzneimittelbe
hrden (insbesondere FDA [US-ame
rikanische Zulassungsbehrde] und
EMEA [europische Zulassungsbehr
de]) berprft, Spezialregister genutzt,
Experten und Hersteller nach Studien
befragt und relevante Zeitschriften
und
Konferenzbnde
(Abstracts)
durchsucht. Wie weit Review-Autoren
hier gehen sollten, ist vom Einzelfall
abhngig zu machen. Nicht immer ist
eine sehr aufwendige Suche gerecht
fertigt. Wichtig ist aber, dass die Such
strategien (Suchwrter) und Quellen
gut dokumentiert sind. So kann der
Leser nachvollziehen, wie es zur Aus
wahl der Studien gekommen ist und
wie wahrscheinlich es ist, dass rele
vante Studien bersehen wurden.

Was ist Publikationsbias?


Es ist ein inzwischen gut untersuchtes
Phnomen, dass nicht nur die Relevanz
der Fragestellung und die Gte der Me
thode, sondern unter anderem auch
die Ergebnisse Einfluss darauf haben,
ob, wie schnell und wie gut Studien pu
bliziert werden. Beispielsweise geht es
hierbei darum,
welche Richtung ein Ergebnis hat
(ntzlich oder schdlich),

ob statistische Signifikanz erzielt


wurde,
wie dramatisch (gro) ein Effekt ist,
oder auch,
ob das beobachtete Ergebnis dem
erwnschten Ergebnis entsprach.
Das ist einerseits ein natrlicher Pro
zess, wenn man davon ausgeht, dass
ein neues und beeindruckendes Er
gebnis spannender zu lesen ist als fnf
nachfolgende Wiederholungsstudien,
die den Effekt dann nicht besttigen
konnten. Aussagen zum wahren Ef
fekt werden dadurch jedoch erheb
lich erschwert.
Wenn Studien mit statistisch nicht si
gnifikanten Ergebnissen eine geringere
Wahrscheinlichkeit haben, publiziert
zu werden, spricht man von Publika
tionsbias. In einem extremen Fall ver
schwinden mglicherweise 19Studien
mit uninteressanten, negativen oder
unerwnschten Ergebnissen in der
Schublade (file drawer problem),
whrend die eine Studie zum gleichen
Thema, die als einzige ein positives
Ergebnis zeigte, hochrangig publiziert
wird. Auch die versptete und weniger
sichtbare Publikation, beispielsweise
in einer nicht-englischen Sprache oder
in einer nicht in Medline gelisteten
Zeitschrift, hat einen hnlichen Effekt:
Studien mit positiven Ergebnissen
werden besser wahrgenommen. Zitati
onsbias, das heit die vermehrte Zitati
on dieser Studien in der Folgeliteratur
und die Doppelpublikationen beson
ders Aufsehen erregender Studien, ver
strken das Problem weiter.

Wie kann man Publikationsbias


untersuchen? Und was ist ein
Funnelplot?
In erster Linie sollte sich der Leser fra
gen, wie wahrscheinlich es ist, dass
Publikationsbias ein Problem ist, und
welchen Effekt Publikationsbias gege
benenfalls htte. Es gibt aber zudem
verschiedene graphische und statis
tische Methoden, um nachzuprfen,
ob Publikationsbias in einer Metaanaly
se problematisch war. Die bekannteste
graphische Methode ist der Funnelplot
(auf Deutsch: Trichtergraphik).
In dieser Graphik werden die Studien
ergebnisse gegen ein Ma der Studien
gre aufgetragen, beispielsweise das
relative Risiko gegen den Kehrwert der
Varianz (Abb.1). Der Erwartungswert
ist der Wert, den der Mittelwert der

AMT

Abb. 1. Funnelplot, symmetrisch kein Hinweis


auf Publication/Small Study Bias
Kleinere Studien streuen weiter; mittlerer Effekt
hier zum Beispiel 0,6

Abb. 2. Funnelplot, asymmetrisch Hinweis auf


Publication/Small Study Bias
Kleinere Studien mit einem Ma fr den Effekt
von etwa 1,0 und >1 (Unwirksamkeit einer Manahme) fehlen (siehe Pfeil): Mittlerer Effekt wird
grer (in diesem Beispiel bedeutet dies eine
grere Reduktion des relativen Risikos mit einem
Effektma, dass deutlich kleiner 1 ist [vergleiche
Abb. 1])

Ergebnisse annehmen wrde, wenn


die Studien unendlich hufig unter
gleichen Bedingungen wiederholt
wrden. Je grer eine Studie ist, desto
nher sollte ihr Ergebnis dem Erwar
tungswert kommen. Kleinere Studien
wrden dagegen zufallsbedingt weiter
um den Erwartungswert streuen. In
einer idealen Welt ergeben damit die
Studieneffekte gegen die Studiengr
e aufgetragen, einen symmetrischen
Kegel (umgekehrten Trichter) unten
grere Streuung, nach oben hin lie
gen die Effekte dann immer nher
zusammen. Eine Linie durch den ge
poolten Effekt sollte in der Mitte des
Trichters liegen und dem Erwartungs
wert mglichst gut entsprechen.
Publikationsbias ist ein besonderes
Problem bei kleineren Studien. Die
Anzahl kleinerer Studien ist meist
grer, sie zeigen aber hufiger nicht
statistisch signifikante Ergebnisse und
verschwinden auch eher in der Schub
lade, da sie mit weniger Aufwand pro
duziert wurden. Diese Studien finden

Arzneimitteltherapie 26. Jahrgang Heft 7 2008 253

AMT Evidenzbasierte Medizin


sich in einer Trichtergraphik im un
teren, breiteren Teil. Ist dieser Teil un
symmetrisch, das heit, befinden sich
auf der der Wirksamkeit abgewandten
Seite der Trichterbasis weniger Studien
als auf der Gegenseite, bedeutet dies,
dass der Verdacht auf Publikationsbias
besteht (Abb.2). Der gepoolte Effekt
wird sich damit vom Erwartungswert
entfernen, die Wirksamkeit wird ber
schtzt.
Es gibt noch andere Probleme, die
zu asymmetrischen Funnelplots im
Bereich der kleinen Studien fhren,
so dass man allgemeiner inzwischen
auch von Small Study Bias spricht.
Beim Funnelplot wie auch bei den
verschiedenen statistischen Tests auf
Publikationsbias oder Small Study Bias
kann problematisch sein, dass sie nur
bei ausreichend groen Metaanalysen
sinnvolle Ergebnisse liefern. Als Dau
menregel kann man sich merken, dass
man bei Reviews mit weniger als zehn
eingeschlossenen Studien und das be
trifft die Mehrheit der Reviews ohne
diese Methoden auskommen muss.

Warum ist die Beurteilung der


Studienqualitt der Einzelstudien
wichtig?
Gelegentlich wird an uns der Wunsch
herangetragen, fr eine bestimmte
Fragestellung eine Metaanalyse zu
machen, da es zu diesem Thema keine
vernnftigen Studien gbe. Leider ist
es aber so, dass in einer solchen Situ
ation dann auch keine vernnftige
Metaanalyse mglich ist. Hier greift
das
Garbage-in-Garbage-out-Prinzip:
Eine Metaanalyse ist immer nur so gut
wie die in sie eingeschlossenen Studi
en. Anders ausgedrckt: Falsche Ergeb
nisse werden durch Zusammenfassung
nicht richtiger. Vielmehr besteht die
Gefahr, dass durch die gegenber den
Einzelstudien erhhte Fallzahl eine Ge
nauigkeit entsteht, die das eigentlich
falsche Ergebnis glaubhafter erschei
nen lsst als gerechtfertigt. So ergibt
sich ein kleineres Konfidenzintervall
als Hinweis auf grere Przision (ge
nauere Schtzung). Es kann dadurch
auch zur Annahme einer statistischen
Signifikanz (z.B. p<0,05) kommen,
die bei den Einzelstudien aufgrund
kleinerer Fallzahlen nicht nachweis
bar war trotzdem sind die Ergebnisse
aber falsch. Den Unterschied zwischen
der Przision (p-Wert, Konfidenzinter

254

Arzneimitteltherapie 26. Jahrgang Heft 7 2008

Abb. 3. Schiescheibengleichnis: Richtigkeit und Przision (Genauigkeit)

vall) und der Richtigkeit (Richtung und


Gre) eines relativen Effekts kann
man sich gut an einer Schiescheibe
klar machen (Abb.3).
Gute systematische bersichtsarbeiten
liefern eine Beurteilung des Biasrisikos
und der Qualitt aller Einzelstudien,
und zwar nach nachvollziehbaren Kri
terien. Damit soll abgeschtzt werden
knnen, wie zuverlssig die Ergebnisse
der Einzelstudien sind.

Wie wird die Qualitt der


Einzelstudien beurteilt?
Zur Beurteilung des Biasrisikos der
Einzelstudie sollten genaue Kriterien
aufgestellt worden sein, die am besten
durch mehrere unabhngige Untersu
cher beurteilt werden. Typische Quali
ttskriterien einer Therapiestudie sind
in Tabelle 4 vorgestellt.
Andere Kriterien knnen, je nach Stu
dienfrage, hinzukommen.
Es gibt Qualittsscores, die verschie
dene Aspekte zusammenfassen (sum
mieren). Der bekannteste davon ist der
Jadad-Score, der in fnf Punkten die
Aspekte Randomisierung, Verblindung
und Erfassung von Ausfllen bewertet
[1]. Letztendlich ist jedoch entschei
dender, wie wahrscheinlich das Fehlen
bestimmter Qualittsmerkmale zur
Verzerrung von Ergebnissen fhren
kann. So ist eine fehlende Verblindung
bei Studien mit dem Zielkriterium
Sterblichkeit sicher weniger problema
tisch, als wenn es um Schmerzempfin
dung oder Behandlungszufriedenheit
geht. Als weiteres Beispiel ist eine feh
lende Bercksichtigung von Ausfllen
bei Studien mit sehr wenigen Ausfl

len mglicherweise eher mit validen


Ergebnissen zu vereinbaren als eine
Intention-to-treat(ITT)-Analyse bei sehr
hohen und zwischen den Gruppen
verschiedenen Ausfllen. Auch hier
gilt also, dass die Anwendung von me
thodischen Hilfsmitteln wie einem
Summationsscore nicht die eigene
kritische Beurteilung ersetzt.

Was passiert, wenn die


Einzelstudien von schlechter oder
unterschiedlicher Qualitt sind?
Die Strategien fr die Qualittsbewer
tung sollten vor Durchfhrung der
Analysen festgelegt sein. Das Ziel muss
sein, eine Verzerrung der zusammen
gefassten Ergebnisse durch nicht va
lide Einzelstudien zu verhindern. Es
kann dafr bereits in den Einschluss
kriterien Vorsorge getroffen werden.
Ist beispielsweise eine Randomisie
rung und Verblindung mglich und
erforderlich, um berhaupt zu validen
Ergebnissen zu kommen, sollten pri
mr nur randomisierte doppelblinde
Studien ausgewhlt worden sein. Nicht
immer ist dies jedoch klar, auch liegen
nicht immer viele Studien vor, die diese
Kriterien erfllen. Hufig mchte man
daher nicht auf Informationen aus we
niger validen Studien verzichten.
Sinnvoll und blich sind dann so ge
nannte Sensitivittsanalysen. Dabei
vergleicht man die gepoolten, also
zusammengefassten Ergebnisse aller
Studien mit dem Ergebnis von Analy
sen, aus der die fragwrdigen Studien
ausgeschlossen wurden. Dies kann
man fr verschiedene Aspekte durch
fhren, um beispielsweise die Effekte
mangelnder Verblindung, unklarer
Verdeckung der Zuordnung oder auch

Evidenzbasierte Medizin

Tab. 4. Qualittskriterien zur Beurteilung der Einzelstudien (Therapiestudien)


Randomisierung

Zufllige Zuordnung, echt (z.B. computergenerierte Zufallszahlen) besser


als quasi oder pseudo (z.B. Zuordnung nach Wochentag oder Patienten
identifikationsnummer)

Verdeckte Zuordnung

Die Zuordnung zur Studiengruppe ist auch bei unverblindeten Studien!


fr Patient und Studienarzt unvorhersehbar (Beispiel: eine zentrale Einheit,
die nicht mit der direkten Studiendurchfhrung betraut ist, verknpft die
Randomisierungssequenz mit einem zu behandelnden Individuum)

Verblindung

Verblindet werden knnen z.B. je nach Studienfrage Patient, Arzt, Auswerter


(Radiologe, Mikrobiologe ...), Statistiker, Pflegepersonal, Angehrige ...

Bercksichtigung aller eingeschlossenen Patienten

Alle Studienausflle sollten nach Stadium der Studie, Zahl und Ausfallgrund
dokumentiert sein. Auch Studienausflle mssen in der Analyse bercksichtigt werden (siehe Intention-to-treat-Analyse [ITT])

Intention-to-treat-Analyse
(ITT)

Alle Patienten werden so bercksichtigt, wie sie randomisiert wurden, z.B.


unabhngig davon, ob sie die Prfmedikation wirklich eingenommen haben
oder nicht

insgesamt der als schlechter beurteil


ten Studien zu untersuchen. Somit
kann in Sensitivittsanalysen unter
sucht werden, ob das Ergebnis einer
Metaanalyse robust ist gegenber
einer Variation verschiedener, die Va
liditt potenziell beeintrchtigender
Parameter.
Denkbar ist auch, einen Mindeststan
dard zu fordern, unter dem Studien,
auch wenn sie ansonsten die Ein
schlusskriterien erfllen, nicht in eine
Metaanalyse einflieen. So wrde man
etwa Studien mit einem hohen Risiko
fr Verzerrung (high risk of bias) aus
schlieen.
In frheren Metaanalysen wurde gele
gentlich ein Faktor eingefhrt, der zu
einer unterschiedlichen Gewichtung
der Einzelstudien in Abhngigkeit
ihrer Qualitt fhrte. Hochwertige Stu
dien bekamen dadurch im Vergleich
zu minderwertigen Studien mehr Ge
wicht in der Zusammenfassung. Dieses
Verfahren wird inzwischen nicht mehr
angewendet. Der Grund dafr ist unter
anderem, dass sich die Qualittsscores
als unzuverlssig und die daraus re
sultierenden Gewichtungen damit als
willkrlich erwiesen haben.

Wie wird beurteilt, ob die Studien


ausreichend hnlich sind, um
eine Zusammenfassung zu
rechtfertigen?
Diese Frage ist zunchst im Wesent
lichen eine inhaltliche. Schon bei der
Formulierung der Fragestellung muss
erwogen werden, wo eine Zusam
menfassung sinnvoll ist und wo nicht.
Wenn ein Medikament beispielsweise
bei der Divertikulitis anders wirkt als
bei der Colitis ulcerosa, ist es unsin
nig, Studien mit Patienten mit Diver
tikulitis und Studien mit Patienten mit
Colitis ulcerosa zusammenzufassen,
auch wenn es sich um das gleiche Me
dikament handelt. Die gleichen ber
legungen gelten fr die Entscheidung,
wie genau die Intervention einschlie
lich Dosierung und Applikationsform,
Vergleichsintervention, Zielkriterien
und Studiendauer zwischen den Studi
en jeweils bereinstimmen sollte.
Nicht immer ist jedoch genau vorher
abzuschtzen oder bekannt, ob und
welche Unterschiede fr die Aussage
von Bedeutung sind. In diesem Fall
kann man eine Metaanalyse auch
dafr nutzen, solche Unterschiede he
rauszuarbeiten. Wir werden hierauf in

AMT

der nchsten Folge dieser Serie noch


weiter eingehen.

Welche Rolle spielt die


Berichterstattung?
Die Qualitt des Berichts spielt natr
lich eine groe Rolle, wenn es darum
geht, eine bersichtsarbeit zu beur
teilen. Es kann manchmal schwierig
sein zu entscheiden, ob etwas, wie
etwa die unabhngige Qualittsbeur
teilung, nicht gemacht wurde oder nur
nicht berichtet wurde. Daher wurden
Standards entwickelt, die festlegen,
zu welchen Details Informationen
erforderlich sind. Aktuell wird das
QUOROM-Statement (Quality of re
porting of meta-analyses) dafr von
vielen Zeitschriften als verbindliche
Checkliste verwendet [2]. Es wird zur
zeit berarbeitet und voraussichtlich
in Krze unter dem Namen PRISMA
neu erscheinen. Solche Publikations
standards sind auch fr andere Stu
dienformen erhltlich und knnen
beispielsweise im Internet unter http://
www.equator-network.org eingesehen
werden.

Wie werden die Ergebnisse der


Studien zusammengefasst?
Auf die noch ausstehenden Gtekrite
rien angemessene Zusammenfassung
der Einzelstudienergebnisse und Un
tersuchung von Heterogenitt wer
den wir in der nchsten Folge dieser
Kurzserie eingehen.

Literatur
1. Jadad AR, Moore RA, Carroll D, Jenkinson C,
etal. Assessing the quality of reports of ran
domized clinical trials: is blinding necessary?
Control Clin Trials 1996;17:112.
2. Moher D, Cook DJ, Eastwood S, Olkin I, etal.
Improving the quality of reports of metaanalyses of randomised controlled trials: the
QUOROM statement. Quality of reporting of
meta-analyses. Lancet 1999;354:1896900.

Arzneimitteltherapie 26. Jahrgang Heft 7 2008 255