Login
Deutsch

Sprache auswählen

English
Français
Deutsch
Plattform
SOLUTIONS
Experimentation
Feature Management
add-ons & KEY Features
Mobile App Testing
Recommendations & Search
Personalization
Single Page Applications
Für deinen Tech Stack
Lösungen
Für Alle Teams
Marketing
Product
Engineering
Für verschiedene Branchen
Healthcare
Banken & Versicherungen
E-commerce
Automobil
Reise & Tourismus
Medien & Entertainment
B2B

Optimize digital experiences by chatting with AI and win up to $100,000

Join the contest
TarifpaketeKundenRessourcen
Demo anfordern

Quick links

Eine Demo buchen
Eine Demo buchen
All resources
A/B-Test: Wie berechne ich Stichproben und Testdauer?

A/B-Test: Wie berechne ich Stichproben und Testdauer?

Ulf Mayer
Published on
October 15, 2018
A/B-Testing

Article

Erst kürzlich haben wir in einem Artikel besprochen, wann ein Test beendet werden kann. Hierbei wurde das beliebte Beispiel der Münze beschrieben und in theoretischer Form dargestellt, was benötigt wird, um einen Test tatsächlich zu beenden.

Heute gehen wir ins Detail, wie man die Berechnung der Stichprobengröße und Testdauer angeht und stellen einen beliebten und praktischen Online Rechner zur Verfügung:  

Zum Calculator

Ein Beispiel, um zu erklären, wie man den Rechner verwendet: Auf einer Webseite oder innerhalb einer Shop-Applikation soll getestet werden, welche Auswirkungen es hat, den Funnel bis zum Check-out zu verändern.

Es soll zwei Testgruppen geben – eine Kontrollgruppe bzw. Referenzgruppe sowie eine Variante, in welcher eine Veränderung auf der Adresseingabe stattfindet. Der Test wird auf 100 % des gesamten Traffics ausgespielt – auf jede Variante (Referenz und Veränderung) kommen 50 % des Traffics.

Als Hauptziel wird das Conversionziel der „Dankeseite“ gewertet, jedoch auch Mikroziele, wie bspw. die Adresseingabe, Zahlungsdateneingabe und Bestellübersicht. Wie lange braucht es nun, bis man ein verlässliches Ergebnis erhält und feststellen kann, welche Variante besser funktioniert? Um dies zu beantworten, müssen mehrere Werte in Betracht gezogen werden:

  • Signifikanz: Wie hoch soll die statistische Signifikanz sein, also wie hoch ist die Wahrscheinlichkeit, dass das gleiche Ergebnis eintrifft, wenn der Test wiederholt wird? Häufig liest man auch von Konfidenzniveau (umgekehrte Metrik zu Signifikanz) oder p-Wert, welcher aus der Statistik kommt.
  • Conversionrate: Welche derzeitige Conversionrate besteht bereits für das Hauptziel?
  • Minimaler nachweisbarer Effekt (Improvement Rate): Welcher prozentuale Anteil zur Steigerung der Conversion Rate soll eintreten?

Anschließend erhält man eine erforderliche Besuchergröße je Variation. Somit kommen wir zu zwei weiteren Faktoren, welche man einsetzen kann, um herauszufinden, wie lange es dauert, bis man feststellen kann, welche Variante besser funktioniert:

  • Besucheranzahl: Die Besucheranzahl geht von minimal 2 Variationen aus, welche aufgeteilt werden. Es ist möglich, die Besucher als tägliche oder monatliche Anzahl in den Rechner einzugeben. Je höher der Traffic, desto schneller erhält man ein signifikantes Ergebnis. Hierbei wird von Besuchern (Visitors) ausgegangen, nicht Besuchen (Visits).
  • Anzahl Varianten: Je mehr Varianten (A/B/C/n) ausgespielt werden, desto mehr Traffic bzw. Besucher werden benötigt. Je Variante wurde zuvor die Besuchergröße berechnet. Nun kann man diese Stichprobengröße mit den Variationen multiplizieren, um den Gesamttraffic zu erhalten, welcher vorhanden sein muss.

Um die Gewichtung von einzelnen Besuchern so gut wie möglich auszubalancieren, sollte ein Test möglichst 7 Tage andauern, sodass externe Faktoren wie bspw. das Wochenende und somit eine potenziell andere Besuchergruppe nivelliert werden.

Ebenso sollte man bei einer Berechnung Feiertage oder saisonale Effekte berücksichtigen, welche zu einer Verfälschung der Ergebnisse führen könnten. Der Onlinerechner rundet mit einem Faktor von 7, sodass diese Effekte möglichst ausgeschlossen werden.

Die Stichprobengröße berechnen

Dies kann jetzt an dem Beispiel des Onlineshops gezeigt werden. Angenommen, der Shop hat einen monatlichen Traffic von 200.000 Besuchern, und eine Haupt-Conversionrate von 3 %, also 6.000 Bestellungen.

Jetzt soll eine Verbesserung von 15 % eintreten, wenn man von einer Signifikanz von 95 % ausgeht. So wird je Testvariante (Kontrollgruppengröße und Variantengröße) ein Traffic in Höhe von ca. 37.363 Besuchern benötigt – der Test wird ca. 2 Wochen laufen, bis dieser stabil ist, also statistisch relevant und die Ergebnisse ausgewertet werden können.

Die Testdauer berechnen

Ein Test sollte möglichst nicht zu lange andauern – ideal sind 1–2 Wochen. Je nach Aufwand und Testszenario kann eine Dauer von 4 Woche jedoch ebenfalls Sinn ergeben. Um die Testdauer berechnen zu können, benötigt man zu den 3 oben beschriebenen Punkten, folgende Metriken:

  • Wie viel Traffic (Anzahl Besucher) ist monatlich/täglich vorhanden: Um eine Testdauer zu berechnen, benötigt man die Kennziffer des Traffics für die zu testende Website. Um dann konkret einen Test mit einer bestimmten Anzahl an Varianten zu starten, sollte man sich somit zunächst darüber bewusst werden, wie viele Besucher insgesamt zur Verfügung stehen, um getestet zu werden.
  • Wie viel Traffic soll ein- bzw. ausgeschlossen werden? Anschließend kann man ermitteln, wie viele Besucher für einen Test ideal wären, oder ob man bspw. auch Benutzer von einem Test ausschließen möchte.
  • Wie viele Varianten sollen getestet werden? Ausgegangen wird immer von 2 Varianten (Referenz vs. Variation), jedoch ist es bei mehr Traffic ebenfalls möglich, noch weitere Variationen zu testen.

Wie ist der minimal nachweisbare Effekt zu verstehen?

Hat man wie in dem Beispiel eine Conversionrate von 3 % und möchte 15 % Uplift nachweisen, so sollte die Conversionrate im Anschluss bei mindestens 3,45 % liegen.

Diese Kennziffer kann auch dazu herangezogen werden, die grundsätzlichen Entwicklungkosten des Tests zu berechnen. Steigert man die Conversionrate durch den Test um 15 %, welche Anzahl an Käufen bzw. wie viel Umsatz kann dadurch mehr erzielt werden?

Welche Möglichkeiten gibt es, einen sinnvollen, minimal nachweisbaren Effekt zuvor zu bestimmen?

Ausgangspunkte für die Bestimmung des minimal nachweisbaren Effekts (Improvement Rate) können folgende Punkte sein:

  1. Testhistorie: Man hat bereits Ergebnisse aus ähnlichen Tests und wendet diese wiederum an.
  2. Business Relevanz: Welcher Conversion-Unterschied rechtfertigt eine betriebliche Handlung (z. B. Umsetzung der Gewinnervariante im Produktivsystem)?
  3. Kontraste: Kleine Unterschiede tendieren zu kleinen Conversion-Unterschieden und umgekehrt.
  4. Conversion Funnel: Signifikante Uplifts sind auf vorgelagerten Metriken eher zu identifizieren als auf nachgelagerten.
  5. Erfahrung: Diese können zunächst falsch oder daneben liegen, mit steigender Erfahrung werden diese Upliftschätzungen jedoch genauer.

Ein konkretes Beispiel hierzu: Der Webshop von Lacoste hat einen Test mit 3 Varianten erstellt.

Hierbei wurde getestet, welche Auswirkung es hat, dem Benutzer bei den Produkten unterschiedliche Methoden der Größenbestimmung (bei Mode ist dies sehr relevant) bereitzustellen. Die Besucher waren sicher, ihre Kleidergröße korrekt einschätzen zu können und bestellten umso lieber.

Der Test führte in der Gewinnervariante zu +1,47 % mehr Umsatz und 22,8 % weniger Rücksendungen.

Auch interessant für deinen Onlineshop? Lass dich von den Erfahrungen erfolgreicher E-Commerce-Kund:innen inspirieren oder sprich direkt mit unseren Conversion-Spezialist:innen, um maßgeschneiderte Testideen für deinen Shop zu entwickeln.

Antworten, Ideen und Insights an einem Ort

Experimentation-Experten im KI-Zeitalter: Unverzichtbar oder ersetzbar?

AI

Article

Test auf Barrierefreiheit: Welche 3 Grundregeln gilt es zu beachten?

UX

Article

Geheimnisse erfolgreicher Tests: Wertvolle Insights und Learnings

A/B-Testing

Article

Experiment your way

Get the key to staying ahead in the world of experimentation.

[Placeholder text - Hubspot will create the error message]
Thanks for submitting the form.

Newsletter

PlatTform
ExperimentationFeature ManagementPBX Free-TrialMobile App TestingProduct Reco & MerchData AccuracyData Privacy & SecuritySingle Page ApplicationAI PersonalizationIntegrationen
guides
A/B-TestingVibe ExperimentationFeature FlaggingPersonalizationFeature ExperimentationAI für A/B-TestingClient-Side vs Server-Side
Tarifpakete
PreismodelleMTU vs. MAU
Branchen
GesundheitswesenBanken & VersicherungenE-CommerceAutomobilReise & TourismusMedien & EntertainmentB2B
TEAMS
MarketingProductEngineering
Ressourcen
Customers StoriesAcademyDev DocsUser ManualProduct RoadmapCalculatorWho’s Who
Wir im Vergleich
OptimizelyVWOAB Tasty
partner
Tech Partner & IntegrationenPartners Directory
Unternehmen
Über unsKarriereKontaktSupport
Rechtliches
DSGVOTrust CenterLegal Notice & CSUPCI DSS
© Kameleoon — 2025 All rights Reserved
Legal Notice & CSUPrivacy policyPCI DSSPlatform Status