Sie sind auf Seite 1von 5

So funktioniert A/B-Testing – Der Einstieg

upliftr.de/blog/cro-grundlagen/so-funktioniert-ab-testing-der-einstieg/

January 2, 2018

Die Grundlagen des A/B Testings


In unserem letzten Artikel ging es darum, was getestet werden sollte. Jetzt müssen wir
unsere Hypothesen anwenden, bestätigen und daraus lernen. Wähle ein Testwerkzeug aus
und erstelle deine Optimierungen / alternativen Varianten, um sie im Test mit der aktuellen
Seite (wir nennen diese Original, Control oder Baseline) zu vergleichen.

Es gibt keinen Mangel an A/B-Testing-Tools, eines ist sogar in Google Analytics integriert
und völlig kostenlos. Wir verwenden am häufigsten Bunchbox, Optimizely und VWO, aber
es gibt auch Qubit, Adobe Target, Convert.com, A/B-Tasty, Kameleoon, Google Optimize
und viele andere.

Es ist wichtig zu wissen, dass du Tests ernst nehmen solltest. Ja, der Einstieg ist
mittlerweile ziemlich einfach, aber die wirklich relevanten Tests benötigen Vorbereitung und
die Hilfe eines Entwicklers (oder du solltest etwas HTML, CSS und JavaScript/jQuery
lernen).

Den visuellen Editor der meisten A/B-Testing-Tools solltest du nur verwenden, wenn du
kleine Änderungen vornehmen willst, z. B. die Texte (Überschrift, Copy etc.) optimieren

1/5
möchtest. Bei allen weiteren Tests riskierst du, dass deine A/B-Test Bemühungen aufgrund
von browserübergreifenden und geräteübergreifenden Kompatibilitätsproblemen
fehlschlagen.

A/B-Testing funktioniert nicht mal eben so und nebenbei – du musst richtig testen!
Schlechte Tests sind sogar noch schlimmer als gar keine Tests, da du sicher bist, dass die
Lösungen A, B und C gut funktionieren, auch wenn sie in Wirklichkeit deinem Geschäft
schaden.

Schlechte A/B-Testmethoden kosten Online-Händler in den USA laut Forschung von Qubit
bis zu 13 Milliarden US-Dollar pro Jahr. Nimm das nicht auf die leichte Schulter!

Man hört oft von Unternehmen, die über ein Jahr hinweg 100 A/B-Tests durchführen, doch
ihre Conversionrate stagniert. Warum? Weil sie falsch testen. Die meisten ihrer Tests
hatten entweder falsch-positive oder falsch-negative Ergebnisse. Das ist eine massive
Verschwendung von Zeit, Geld und Ressourcen.

Es gibt 4 Dinge, auf die du achten musst, wenn du dich entscheidest, ab jetzt mit dem A/B
Testing zu beginnen:

A/B-Testing Regel 1: Stelle sicher, dass deine Stichprobe


groß genug ist.
Um sicher zu sein, dass die Ergebnisse deines Tests tatsächlich gültig sind, musst du den
Umfang der Stichprobengröße kennen, die du benötigst.

Du benötigst eine bestimmte Anzahl von Testteilnehmern für die richtige statistische Power
(Aussagekraft). Wie groß deine Stichprobe sein muss erfährst du mithilfe der
Berechnungs-Tools für die Stichproben-Größe.Die Rechner findest du z.B. hier, hier oder
hier.

Die einzige wirkliche Gefahr besteht darin, den Test nach dem Betrachten der vorläufigen
Ergebnisse vorzeitig zu beenden. Es entsteht grundsätzlich kein Schaden bei einer
größeren Stichprobe (außer dass du mehr Zeit benötigst).

Eine grobe Empfehlung: Ignoriere deine Testergebnisse, bis du mindestens 350


Conversions pro Variante hast (definitiv mehr, wenn du die Ergebnisse
segmentübergreifend betrachten möchtest). Aber 350 sind keine magische Zahl –
berechne also immer die benötigte Stichproben-Größe im Voraus!

Verwandte Artikel: A/B-Tests beenden: Wie viele Conversions brauche ich?

A/B-Testing Regel 2: Teste mindestens einen


Geschäftszyklus
Bei einigen stark frequentierten Websites würdest du innerhalb von ein bis zwei Tagen die
erforderliche Stichproben-Größe erreichen. Aber das ist keine repräsentative Stichprobe.
Der Testzeitraum beinhaltet keinen vollständigen Geschäftszyklus, also alle Wochentage,

2/5
ein Wochenende, alle Traffic-Quellen, deinen Blog-Publishing- und E-Mail-Newsletter-
Zeitplan und alle anderen möglichen Variablen.

Für einen gültigen Test sollten also beide Bedingungen erfüllt sein – eine angemessene
Stichprobengröße und eine ausreichend lange Zeitspanne, um alle Faktoren (einen
vollständigen Geschäftszyklus oder besser noch zwei) zu berücksichtigen. Für die meisten
Unternehmen sind das 2-4 Wochen. Führe die Tests immer ganze Wochen nacheinander
durch (stoppe die Tests an den Tagen 7, 14, 21 oder 28).

A/B-Testing Regel 3: Achte auf statistische Signifikanz


Wenn ein A/B-Test-Dashboard (d.h. Bunchbox oder ein ähnliches frequentistisches
Statistik-Tool) sagt, dass eine „95%ige Chance besteht, die Baseline zu schlagen“ – was
bedeutet das? Es bedeutet, dass die Wahrscheinlichkeit, dass grundlegende Unterschiede
zwischen Variante A und B nur zufällig entstanden sind, 5 % beträgt.

Dies wird als Signifikanzniveau bezeichnet und „statistisch signifikante Ergebnisse“


bedeuten, dass das Signifikanzniveau niedrig ist (z. B. 5% oder 1%) – also die
Fehlerwahrscheinlichkeit des Tests niedrig ist. Dashboards nehmen normalerweise den
komplementären Wert (z. B. 95% oder 99%) und melden diesen als „Chance, das Original
zu schlagen“ oder so ähnlich.

Wenn die Ergebnisse nicht statistisch signifikant sind, können die Ergebnisse durch
zufällige Faktoren verursacht worden sein und es gibt keine Beziehung zwischen den
vorgenommenen Änderungen und den Testergebnissen.

Verwechsle aber nicht die statistische Signifikanz mit der Validität. Sobald dein Testing-
Tool angibt, dass du eine statistische Signifikanz von 95% (oder höher) erreicht hast,
bedeutet das nichts, wenn du nicht auch über eine ausreichend große Stichprobengröße
verfügst. Das Erreichen von Signifikanz im Testing-Tool ist keine Stoppe-sofort-den-Test-
Regel.

Lies dazu den Artikel von ConversionXL um zu erfahren, warum. Die Unterscheidung von
Validität und Signifikanz ist wichtig.

Bedenke Folgendes: Eine Probe bei Eintausend A/A-Tests (also zwei identische Seiten, die
gegeneinander getestet wurden) hat ergeben, dass:

771 Experimente von 1.000 zu einem bestimmten Zeitpunkt eine Signifikanz von 90%
erreichten.
531 Experimente von 1.000 zu einem bestimmten Zeitpunkt eine Signifikanz von 95%
erreichten.

Zitat vom Experimentator:

„Dies bedeutet, dass, wenn du 1000 Experimente durchgeführt hast und diese nicht auf
Wiederholungsfehler in irgendeiner Weise kontrolliert wurden, eine Rate erfolgreicher
positiver Experimente von bis zu 25% durch eine falsch-positiv-Rate erklärt werden könnte.
Aber du wirst in ungefähr der Hälfte deiner Experimente einen vorübergehenden
signifikanten Effekt sehen!“
3/5
Also, wenn du deinen Test stoppst, sobald du eine hohe statistische Signifikanz siehst, gibt
es eine 50%ige Chance, dass es kompletter Zufall ist. Ein sogenannter Münzwurf. Dieses
Verhaltens macht die Idee des Testens zunichte.

Stelle also sicher, dass du beim Testen Folgendes beachtest:

eine ausreichend große Stichprobengröße (vorab berechnet).


eine ausreichend lange Testdauer (~ 1-2 Geschäftszyklen).
statistische Signifikanz (95% oder höher).

Bis die ersten beiden Kriterien erfüllt sind, bedeutet statistische Signifikanz wenig.

A/B-Testing Regel 4: Führe separate Tests für deine Desktop-


und Mobil-Segmente durch
Es kann zwar sinnvoll erscheinen, A/B-Tests für deinen Gesamt-Traffic zusammen
durchzuführen (um schneller eine entsprechend große Stichprobe zu erhalten), in
Wirklichkeit ist es das jedoch nicht. Du musst deine mobile Zielgruppe und deine Desktop-
Besucher getrennt voneinander ansprechen.

Hier sind 5 Gründe warum das so ist:

Verschiedene Dinge funktionieren in verschiedenen Kontexten. Was für Mobile


funktioniert, funktioniert möglicherweise nicht auf dem Desktop (und umgekehrt).
Dein Desktop- und mobile Daten-Traffic Volumen ist unterschiedlich. Während dein
Desktop-Segment eine ausreichend große Stichprobengröße hat, kannst du den Test
nicht stoppen, da das mobile Segment noch eine größere Stichprobe benötigt.
Nicht jeder mobile Traffic ist gleich. Menschen auf unterschiedlichen Geräten/mobilen
Betriebssystemen verhalten sich anders.
Möglicherweise möchtest du für verschiedene Ziele (Makro-Conversions) optimieren
(z. B. Einkäufe für Desktops, aber E-Mail-Captures für Mobiltelefone).
Du kannst mehr Tests schneller erstellen. Wenn du Tests erstellest, die nur auf eine
einzelne Gerätekategorie zielen, werden weniger Entwicklungs- und
Qualitätssicherungs-Ressourcen pro Test benötigt. Dadurch bist du wesentlich
schneller bei der Erstellung von Tests.

Lies mehr dazu hier.

Was passiert, wenn ich eine Website mit wenig Traffic habe?
Viele Websites weisen nur geringen Traffic und geringe monatliche Transaktionszahlen
auf. Um also innerhalb von 4 Wochen einen Test abzuschließen (Du solltest einen Test
nicht länger als einen Monat laufen lassen, oder du läufst Gefahr, deine Stichprobe zu
verfälschen), benötigen du einen großen Uplift.

Wenn du auf größere Lifts zielst (also mehr als +50% Uplift), kommst du auch mit kleineren
Stichprobengrößen aus. Aber es wäre naiv zu glauben, dass kleinere Websites größere
Uplifts immer leichter erzielen können als große Websites.
4/5
Die einzige Möglichkeit, wenn du mit einer kleinen Website schnelle Fortschritte machen
möchtest, ist, große und radikale Änderungen zu testen. Du kannst keinen großen Uplift
erwarten, wenn du nur den Call-to-Action änderst (auch wenn Case Studies häufig etwas
anderes behaupten). Führe Conversion-Recherchen durch, identifiziere die Probleme
deiner Website und teste alle Änderungen auf einmal. Deine Chancen auf einen höheren
Lift steigt dadurch, du verlierst nur einen Teil des Wissens, welche Änderung für welchen
Teil des Uplifts verantwortlich war.

Denke auch daran: Testen ist keine obligatorische Komponente der Optimierung. Du
kannst deine Seite auch verbessern, ohne zu testen.

Es gibt keinen Ersatz für Erfahrung


Fange jetzt mit dem A/B-Testing an.

Es gibt eine ganze Menge darüber zu lernen, aber der Inhalt dieses Artikels und die Artikel
der CRO-Grundlagen-Reihe helfen dir bei einem guten Start.

Was du mitnehmen solltest


Berechne deine Stichprobengröße bevor du mit dem Test beginnst. Stoppe deinen
Test nicht, bis die benötigte Stichprobengröße erreicht ist und mindestens ein
vollständiger Geschäftszyklus durchlaufen ist, vorzugsweise zwei.
Du solltest eine Signifikanz von mindestens 95% erreichen, aber wenn du die
Signifikanz erreicht hast, bedeutet das nicht, dass du deinen Test sofort abbrechen
solltest. Lasse den Test laufen, bis die oben genannten Bedingungen erfüllt sind.
Segmentiere deinen Traffic. Teste Desktop/Tablet-Traffic getrennt vom mobilen
Traffic, um die Unterschiede im Traffic-Aufkommen, in der Nutzerabsicht, der
Kompatibilität usw. zu berücksichtigen.

Das Geheimnis eine Testing-Kultur zu entwickeln – Der CRO-Prozess

5/5