A/B-Testing: Bayes vs. Frequentist — zwei Ansätze im Vergleich

Eine Methode, zwei Ansätze: Amine Chaibi, Doktor der Informatik und Statistik-Experte, erklärt, worum es beim Bayes- und Frequentist-Ansatz genau geht und was beim A/B-Testing wirklich zählt.
In der Welt des Experimentation- und A/B-Testing kursiert seit einiger Zeit ein Gerücht: Es soll eine „neue“ Methode geben, die das Testen revolutioniert — mit schnelleren, besseren und einfacheren Ergebnissen. Die seit Jahren bewährte frequentistische Testmethode sei angeblich „falsch“. Stattdessen rückt der Bayes’sche Ansatz in den Fokus — „neu“, obwohl er bereits im 18. Jahrhundert formuliert wurde.
Doch stimmt das? Haben wir uns jahrelang geirrt?
Bayes vs. Frequentist, eine alte Debatte
Seit der Aufklärung stehen sich zwei große statistische Ansätze gegenüber: der Frequentist-Ansatz und der Bayes’sche Ansatz.
Der frequentistische Ansatz basiert ausschließlich auf Beobachtungen — er ist also experimentell und induktiv. Die Bayes’sche Methode hingegen kombiniert erhobene Daten mit vorhandenem Wissen: zum Beispiel Erkenntnissen aus früheren Studien oder Experteneinschätzungen, um zu belastbaren Ergebnissen zu gelangen.
Der Unterschied wird besonders deutlich, wenn man sich ein konkretes Beispiel ansieht.
Lass uns zehn Mal eine Münze werfen.
Stellen wir uns vor, eine Münze wird zehnmal geworfen.Natürlich nähern sich die Ergebnisse der frequentistischen Methode mit steigender Wurfanzahl immer mehr dem theoretischen Wert von 0,5 an.
- Frequentist-Ansatz:
Hier interessiert die Wahrscheinlichkeit für das konkrete Experiment. Wird bei zehn Würfen sechs Mal „Kopf“ erzielt, ergibt sich eine beobachtete Wahrscheinlichkeit von K = 0,6. - Bayes’scher Ansatz:
Hier geht es weniger um die reine Häufigkeit im aktuellen Experiment, sondern um das zugrunde liegende Gesetz. Ist die Münze nicht manipuliert, wird angenommen, dass die Wahrscheinlichkeit für „Kopf“ bei 50 % (K = 0,5) liegt — eine Einschätzung, die auf früheren Experimenten und bestehendem Wissen beruht.
Die Stärken der Bayes’schen Methode – und ihre Schwächen
Die Bayes’sche Methode ist besonders effizient, wenn bereits vergleichbare Experimente in der Vergangenheit durchgeführt wurden. Sie findet Anwendung in vielen Bereichen — etwa beim Erkennen von Spam: Durch das Wissen über typische Spam-Merkmale lässt sich die Wahrscheinlichkeit berechnen, dass eine neue Nachricht Spam ist, sobald bestimmte Wortmuster auftauchen.
Der große Vorteil dieses Ansatzes:
- Keine feste Beobachtungsdauer nötig — Ergebnisse können kontinuierlich ausgewertet werden.
- Schnell verfügbar — Resultate stehen bereits während des laufenden Tests zur Verfügung.
- Kein festgelegter Stichprobenumfang erforderlich — es braucht keinen Mindest-Traffic, um valide Ergebnisse zu sehen.
Damit ist die Bayes’sche Methode besonders attraktiv, wenn schnelle Erkenntnisse entscheidend sind, etwa in dynamischen Umgebungen wie A/B-Testing und Personalisierung.
Wenn das so ist, warum kommt diese Zauberformel erst jetzt ins Gespräch?
Ganz einfach: Die Bayes’sche Methode ist zwar beim Münzwurf sehr objektiv, kann aber im Bereich User Experience problematisch sein. Der Grund: Sie bezieht frühere Ergebnisse ein, die unter anderen Bedingungen entstanden sein können — und genau das widerspricht einem der Grundprinzipien von A/B-Testing: gleiche Testbedingungen für alle Varianten.
Die Bayes’sche Methode leitet Wahrscheinlichkeiten neuer Ereignisse aus vergangenen Ereignissen ab. Bei A/B-Tests können jedoch saisonale Effekte oder andere externe Faktoren diese „Vorkenntnisse“ verfälschen. Das Risiko für falsch positive Ergebnisse steigt dadurch erheblich. Während das beim Spam-Filter nicht dramatisch ist, kann es bei Conversion-Tests zu fehlerhaften Entscheidungen führen.
Zudem ist der Bayes-Ansatz deutlich komplexer. Er beruht auf Wahrscheinlichkeitsverteilungen, die schwieriger zu interpretieren sind als der im Frequentist-Ansatz gebräuchliche Vertrauensindex (Konfidenzintervall).
Bei A/B-Tests werden die Ergebnisse als Gewinn oder Verlust an Conversions ausgedrückt — häufig in einem Intervall wie [-0,5 %, +2 %]. Doch dieses Intervall hilft Marketing-Teams oft wenig, weil unklar bleibt, ob der wahrscheinliche Effekt eher am unteren oder oberen Ende liegt. Außerdem sind die Grenzen solcher Intervalle teilweise willkürlich und basieren auf Annahmen über statistische Relevanz.
Die Vorteile der Frequentist-Methode
Die Frequentist-Methode, die auch in Bereichen wie Wirtschaft und Medizin eingesetzt wird, wurde von Anfang an als Standard für A/B-Tests gewählt. Sie stützt sich ausschließlich auf die Daten des laufenden Tests und setzt strikt identische Bedingungen für alle Varianten voraus — daher gilt sie als klar data-driven.
Doch auch diese Methode hat Grenzen. Wir haben dem Thema bereits eine eigene Artikelserie über statistische Signifikanz gewidmet:
Vor allem die benötigte Traffic-Menge kann problematisch sein und bestimmte Testarten unmöglich machen. Zudem ist die Zuverlässigkeit der Ergebnisse erst nach Ende des Tests gegeben.
Ein häufiger Fehler ist das sogenannte „Repeated Picking“ — also das wiederholte Prüfen von Zwischenergebnissen. Diese Zwischenstände sind statistisch nicht belastbar und können zu falschen Entscheidungen führen.
Welche Methode sollte genutzt werden?
Einer der umfassendsten Vergleiche zwischen Bayes und Frequentist stammt vom Statistiker Valen Johnson und wurde in den Proceedings der US-amerikanischen National Academy of Sciences veröffentlicht.*
Die frequentistische Analyse basiert darauf, ausschließlich die im Experiment gesammelten Daten auszuwerten, um ein signifikantes Ergebnis zu erreichen. Die Bayes’sche Methode hingegen vergleicht zwei Hypothesen und schätzt die Wahrscheinlichkeit, dass eine von ihnen korrekt ist — unter Einbeziehung bereits vorhandener Daten und früherer Erkenntnisse.
Johnson kam zu dem Schluss, dass die gängige Signifikanzschwelle von 95 % bei Anwendung der Bayes’schen Methode nicht ausreicht. Seine Analyse stützt damit die Entscheidung vieler A/B-Testing-Tools, auf den Frequentist-Ansatz zu setzen.
Heißt das, die Bayes’sche Methode sei wertlos? Nein. Sie hat klare Vorteile — wenn die Rahmenbedingungen stimmen. Für A/B-Tests wird jedoch meist der frequentistische Ansatz bevorzugt, weil er verlässlichere und leichter interpretierbare Ergebnisse liefert und die Nachteile gut handhabbar sind.
Generell gilt: Die Debatte „Frequentist vs. Bayes“ ist hoch wissenschaftlich und oft weit von den praktischen Anforderungen der Marketing- und Experimentation-Teams entfernt. Es geht nicht darum, dass eine Methode per se „besser“ ist, sondern darum, die Logik beider Ansätze zu verstehen — oder sich bei Bedarf von Expert:innen beraten zu lassen.
* Valen E. Johnson, Revised Standards for Statistical Evidence, Proceedings of the National Academy of Sciences, Vol. 110, No. 48, 26. November 2013
