A/B-Test: Wie berechne ich Stichproben und Testdauer?

15 October 2018

Lesezeit :

7 Minuten

Ulf Mayer

Als Solutions Engineer kümmert sich Ulf um alle möglichen technischen Themen und entwickelt Lösungen, abgestimmt auf die individuellen Bedürfnisse und Ziele unserer Kunden

Erst kürzlich haben wir in einem Artikel besprochen, wann ein Test beendet werden kann. Hierbei wurde das beliebte Beispiel der Münze beschrieben und in theoretischer Form dargestellt, was benötigt wird, um einen Test tatsächlich zu beenden.

Heute gehen wir ins Detail, wie man die Berechnung der Stichprobengröße und Testdauer angeht und stellen einen beliebten und praktischen Online Rechner zur Verfügung:

[calculator]

Ein Beispiel, um zu erklären, wie man den Rechner verwendet: Auf einer Webseite oder innerhalb einer Shop-Applikation soll getestet werden, welche Auswirkungen es hat, den Funnel bis zum Checkout zu verändern.

Es soll zwei Testgruppen geben - eine Kontrollgruppe bzw. Referenzgruppe sowie eine Variante, in welcher eine Veränderung auf der Adresseingabe stattfindet. Der Test wird auf 100% des gesamten Traffics ausgespielt - auf jede Variante (Referenz und Veränderung) kommen 50% des Traffics.

Als Hauptziel wird das Conversionziel der „Dankeseite“ gewertet, jedoch auch Mikroziele, wie bspw. die Adresseingabe, Zahlungsdateneingabe und Bestellübersicht. Wie lange braucht es nun, bis man ein verlässliches Ergebnis erhält und feststellen kann, welche Variante besser funktioniert? Um dies zu beantworten, müssen mehrere Werte in Betracht gezogen werden:

Signifikanz Wie hoch soll die statistische Signifikanz sein, also wie hoch ist die Wahrscheinlichkeit, dass das gleiche Ergebnis eintrifft, wenn der Test wiederholt wird? Häufig liest man auch von Konfidenzniveau (umgekehrte Metrik zu Signifikanz) oder p-Wert, welcher aus der Statistik kommt.
Conversionrate Welche derzeitige Conversionrate besteht bereits für das Hauptziel?
Minimaler nachweisbarer Effekt (Improvement Rate) Welcher prozentuale Anteil zur Steigerung der Conversion Rate soll eintreten?

Anschließend erhält man eine erforderliche Besuchergröße je Variation. Somit kommen wir zu zwei weiteren Faktoren, welche man einsetzen kann, um herauszufinden wie lange es dauert bis man feststellen kann, welche Variante besser funktioniert:

Besucheranzahl Die Besucheranzahl geht von minimal 2 Variationen aus, welche aufgeteilt werden. Es ist möglich, die Besucher als tägliche oder monatliche Anzahl in den Rechner einzugeben. Je höher der Traffic, desto schneller erhält man ein signifikantes Ergebnis. Hierbei wird von Besuchern (Visitors) ausgegangen, nicht Besuchen (Visits).
Anzahl Varianten Je mehr Varianten (A/B/C/n) ausgespielt werden, desto mehr Traffic bzw. Besucher werden benötigt. Je Variante wurde zuvor die Besuchergröße berechnet. Nun kann man diese Stichprobengröße mit den Variationen multiplizieren, um den Gesamttraffic zu erhalten, welcher vorhanden sein muss.

Um die Gewichtung von einzelnen Besuchern so gut wie möglich auszubalancieren, sollte ein Test möglichst 7 Tage andauern, sodass externe Faktoren wie bspw. das Wochenende und somit eine potentiell andere Besuchergruppe nivelliert werden.

Ebenso sollte man bei einer Berechnung Feiertage oder saisonale Effekte berücksichtigen, welche zu einer Verfälschung der Ergebnisse führen könnten. Der Onlinerechner rundet mit einem Faktor von 7, sodass diese Effekte möglichst ausgeschlossen werden.

1 Die Stichprobengröße berechnen

Dies kann nun an dem Beispiel des Onlineshops gezeigt werden. Angenommen, der Shop hat einen monatlichen Traffic von 200.000 Besuchern, und eine Haupt-Conversionrate von 3%, also 6.000 Bestellungen.

Nun soll eine Verbesserung von 15% eintreten, wenn man von einer Signifikanz von 95% ausgeht. So wird je Testvariante (Kontrollgruppengröße und Variantengröße) ein Traffic in Höhe von ca. 37.363 Besuchern benötigt - der Test wird ca. 2 Wochen laufen, bis dieser stabil ist, also statistisch relevant und die Ergebnisse ausgewertet werden können.

2 Die Testdauer berechnen

Ein Test sollte möglichst nicht zu lange andauern - ideal sind 1-2 Wochen. Je nach Aufwand und Testszenario kann eine Dauer von 4 Woche jedoch ebenfalls Sinn ergeben. Um die Testdauer berechnen zu können, benötigt man zu den 3 oben beschriebenen Punkten, folgende Metriken:

Wie viel Traffic (Anzahl Besucher) ist monatlich/täglich vorhanden Um eine Testdauer zu berechnen, benötigt man die Kennziffer des Traffics für die zu testende Website. Um dann konkret einen Test mit einer bestimmten Anzahl an Varianten zu starten, sollte man sich somit zunächst darüber bewusst werden, wie viele Besucher insgesamt zur Verfügung stehen um getestet zu werden.
Wie viel Traffic soll ein- bzw. ausgeschlossen werden? Anschließend kann man ermitteln, wie viele Besucher für einen Test ideal wären, oder ob man bspw. auch Benutzer von einem Test ausschließen möchte.
Wie viele Varianten sollen getestet werden? Ausgegangen wird immer von 2 Varianten (Referenz vs. Variation), jedoch ist es bei mehr Traffic ebenfalls möglich, noch weitere Variationen zu testen.

3 Wie ist der minimal nachweisbare Effekt zu verstehen?

Hat man wie in dem Beispiel eine Conversionrate von 3% und möchte 15% Uplift nachweisen, so sollte die Conversionrate im Anschluss bei mindestens 3,45% liegen.

Diese Kennziffer kann auch dazu herangezogen werden, die grundsätzlichen Entwicklungkosten des Tests zu berechnen. Steigert man die Conversionrate durch den Test um 15%, welche Anzahl an Käufen bzw. wie viel Umsatz kann dadurch mehr erzielt werden?

4 Welche Möglichkeiten gibt es, einen sinnvollen, minimal nachweisbaren Effekt zuvor zu bestimmen?

Ausgangspunkte für die Bestimmung des minimal nachweisbaren Effekts (Improvement Rate) können folgende Punkte sein:

Testhistorie: Man hat bereits Ergebnisse aus ähnlichen Tests und wendet diese wiederum an.
Business Relevanz: Welcher Conversion-Unterschied rechtfertigt eine betriebliche Handlung (z.B. Umsetzung der Gewinnervariante im Produktivsystem)?
Kontraste: Kleine Unterschiede tendieren zu kleinen Conversion-Unterschieden und umgekehrt.
Conversion Funnel: Signifikante Uplifts sind auf vorgelagerten Metriken eher zu identifizieren als auf nachgelagerten.
Erfahrung: Diese können zunächst falsch oder daneben liegen, mit steigender Erfahrung werden diese Upliftschätzungen jedoch genauer.

Ein konkretes Beispiel hierzu: Der Webshop von Lacoste hat einen Test mit 3 Varianten erstellt.

Hierbei wurde getestet, welche Auswirkung es hat, dem Benutzer bei den Produkten unterschiedliche Methoden der Größenbestimmung (bei Mode ist dies sehr relevant) bereitzustellen. Die Besucher waren sicher, ihre Kleidergröße korrekt einschätzen zu können und bestellten umso lieber.

Der Test führte in der Gewinnervariante zu +1,47% mehr Umsatz und 22,8% weniger Rücksendungen.

Möchten Sie dies ebenfalls mit Ihrem Onlineshop testen? Lassen Sie sich von den Erfahrungen unserer E-Commerce-Kunden inspirieren oder sprechen Sie unsere Conversionspezialisten an, um passende Testideen für Ihren Onlineshop zu ermitteln!

Themen in diesem Artikel

A/B testing

Ulf Mayer

Als Solutions Engineer kümmert sich Ulf um alle möglichen technischen Themen und entwickelt Lösungen, abgestimmt auf die individuellen Bedürfnisse und Ziele unserer Kunden

Empfohlene Artikel

A/B-Test: Wie berechne ich Stichproben und Testdauer?

1 Die Stichprobengröße berechnen

2 Die Testdauer berechnen

3 Wie ist der minimal nachweisbare Effekt zu verstehen?

4 Welche Möglichkeiten gibt es, einen sinnvollen, minimal nachweisbaren Effekt zuvor zu bestimmen?

Geheimnisse erfolgreicher Tests: Wertvolle Insights und Learnings

23 Experten teilen ihre Experimentation Prognosen für das Jahr 2024

Was die meisten Leute über A/B-Testing und CRO nicht verstehen

Geheimnisse erfolgreicher Tests: Wertvolle Insights und Learnings

Test auf Barrierefreiheit: Welche 3 Grundregeln gilt es zu beachten?

Kameleoon AI Copilot verändert, wie Teams experimentieren