Skip to main content
ab-tests-results

Deuten Sie Ihre A/B-Testergebnisse falsch?

30 October 2020
Lesezeit : 
6 minutes
Lauréline Kameleoon
Lauréline Saux
Laureline is Content Manager and is in charge of Kameleoon's content. She writes on best practice within A/B testing and personalization, based on in-depth analysis of the latest digital trends and conversations with Kameleoon's customers and consultants.


Erfolgreiche A/B-Tests bestehen aus mehreren Schritten – von der Ausarbeitung des Ablaufs und dem Verständnis dafür, wie man eine Hypothese formuliert, bis hin zum Aufbau Ihrer A/B-Tests und dem Zeitpunkt, an dem diese beendet werden können. All diese Schritte sind wichtig, aber ebenso wichtig ist es, sicherzustellen, dass Sie Ihre Ergebnisse richtig interpretieren.

Beim A/B-Testing geht es darum, zu lernen und fundierte Entscheidungen auf der Grundlage Ihrer Ergebnisse zu treffen. In diesem Artikel befassen wir uns damit, wie Sie Ihre Testergebnisse möglicherweise falsch interpretieren können:

  • Falsch-Positive Ergebnisse
  • Segmente nicht korrekt prüfen
  • Zu viele Varianten auf einmal testen
  • Einen fehlgeschlagenen Test direkt aufgeben

1 Falsch-positivie Ergebnisse

ES GIBT TATSÄCHLICH 4 RESULTATE BEI EINEM A/B-TEST

Es gibt nicht nur Erfolg oder Misserfolg – sondern auch:

  • Falsch-positiv (Sie erkennen einen Gewinn, wenn es keinen gibt)
  • Falsch-negativ (Sie erkennen keinen Gewinn, obwohl es einen gibt
  • Kein Unterschied zwischen A und B (nicht schlüssig)
  • Erfolg (entweder A oder B konvertiert mehr)

Eine ausführlichere Erklärung finden Sie unter Hypothesentests. Es ist die mathematische Methode die bei (frequentist) A/B-Testing verwendet wird.

Es ist wichtig, diesen Punkt zu verstehen, denn Sie hätten falsch-positive Ergebnisse als echte Erfolge interpretieren können. Und darauf basierend geschäftliche Entscheidungen treffen können.

Nehmen wir das bekannte Beispiel von Google: 41 Shades of Blue. Doug Bowman, der ehemalige Chefdesigner, verließ tatsächlich das Unternehmen (allerdings aus Design-Gründen) deswegen: „Ja, es ist wahr, dass sich ein Team bei Google nicht zwischen zwei Blautönen entscheiden konnte, deshalb testeten sie 41 Farbtöne zwischen den einzelnen Blautönen, um zu sehen, welcher davon besser abschneidet. Ich hatte kürzlich eine Debatte darüber, ob ein Rand 3, 4 oder 5 Pixel breit sein sollte, und wurde gebeten, meinen Fall zu beweisen. In einem solchen Umfeld kann ich nicht arbeiten. Ich bin es leid, über solch winzige Designentscheidungen zu debattieren...“ (Hier können Sie seinen kompletten Artikel lesen).

Egal, ob Sie ihm zustimmen oder nicht, dass es vom Designstandpunkt aus gesehen falsch ist – es ist auch mathematisch falsch, je nachdem, wie Sie diese Tests durchführen. Sie haben zwei Möglichkeiten sich dem zu nähern:

  1. Sie führen „Cascade Testing“ durch, z.B. A vs B, dann B vs C, dann C vs D. Wir erklären weiter unten, warum das nicht funktionieren wird.
  2. Sie machen einen A/B/n-Test, d.h. Sie testen alle Variationen parallel.

Cascade Testing

Stellen Sie sich vor, Sie möchten eine andere Überschrift für eine Produktseite testen. Sie haben Ihre aktuelle (A) gegen die neue (B). B gewinnt, aber Ihrem Chef gefällt die Formulierung nicht und er möchte, dass Sie eine etwas andere Version ausprobieren. Dann haben Sie das Gefühl, Sie könnten es besser machen und sie wieder ändern. Und wieder. Am Ende testen Sie nacheinander 10 verschiedene Varianten dieser Überschrift. Warum ist das ein Problem? Beginnen Sie mit Test 1. A vs B ergab B als Sieger mit 95% statistischer Signifikanz.

Das bedeutet, dass eine 5%ige Wahrscheinlichkeit besteht, dass dieses Ergebnis ein falsch-positives ist. Dann haben Sie eine dritte Überschrift getestet, B vs C. Dabei gewinnt C ebenfalls mit 95% Signifikanz. Das Problem ist, dass die Wahrscheinlichkeit eines falsch-positiven Ergebnisses mit dem vorherigen Test zusammenhängt. Ihr zweiter Testsieger, C, hat tatsächlich eine 9%ige Chance, ein falsch-positives Ergebnis zu erhalten. Nach 10 Tests mit Ihrer Überschrift (C vs D, D vs E,...) haben Sie selbst bei 95% Signifikanz bei Ihrem zehnten Test eine 40%ige Chance, dass Ihr Gewinner ein falsch-positives Ergebnis erhält. Bei den 41 Variationen von Google beträgt die Wahrscheinlichkeit 88%. Deshalb sollten Sie niemals Cascade Tests durchführen.

A/B/N TESTING

Beim A/B/n-Testing testen Sie statt nur eine Version B eine größere Anzahl an Variationen gegen Ihre Kontollversion A. Das heißt Sie haben Ihre Kontrolle A gegen die Variation B, C, D, E, F usw., alle zur gleichen Zeit und unter den gleichen Bedingungen. Dies ist statistisch gesehen viel genauer.

Wie wir jedoch in unserem Artikel über das Beenden Ihrer A/B-Tests geschrieben haben, benötigen Sie mindestens 300 Conversions pro Variation, bevor Sie den Test beenden. In unserem Google-Beispiel würden Sie 12.300 Conversions benötigen. Wenn Sie Google-ähnlichen Traffic haben, ist das kein Problem. Aber für den Rest von uns dauert es sehr lange, diese Zahlen zu erreichen. Sie könnten sogar zu lange testen und verzerrte Ergebnisse erhalten. Diese Art von Test wird selten benötigt und kann oft ganz vermieden werden, indem man mit einer besseren Hypothese beginnt.

2 Segmente nicht korrekt prüfen

Befolgen Sie die Regel des Web Analytics Guru Avinash Kaushik: „Melden Sie niemals eine Metrik, ohne sie zu segmentieren, um tiefe Einblicke in das zu erhalten, was sich wirklich hinter dieser Metrik verbirgt.” Die meisten Daten, die Sie von Ihrem Analysetool erhalten, sind die zusammengetragene Daten. Es nimmt den gesamten Traffic und erzeugt hübsche Grafiken, die nicht die ganze Geschichte erzählen. Da Ihre Besucher mit unterschiedlichen Zielen auf Ihre Website kommen, muss sie ihnen eine Vielzahl von Experiences vermitteln. Selbst wenn sie aus dem gleichen Grund kommen, brauchen Sie wahrscheinlich nicht den gleichen Inhalt.

Wenn Sie eine effektive Website wollen, dürfen Sie Ihren Traffic nicht als gesichtslosen Fleck betrachten – Sie müssen segmentieren. Das betrifft auch Ihre Testergebnisse. Wenn Sie diese nicht segmentieren, könnten Sie Tests fälschlicherweise ablehnen. Ein Experiment könnte dazu führen, dass Ihre Variation insgesamt verliert, aber in einem bestimmten Segment gewinnt. Stellen Sie sicher, dass Sie Ihre Segmente überprüfen, bevor Sie ein ungültiges Urteil über einen Test abgeben.

Denken Sie daran, dass bei der Überprüfung von Segmenten in einem Testergebnis gelten dieselben Regeln bezüglich der statistischen Gültigkeit. Bevor Sie festlegen, dass Ihre Variation bei einem bestimmten Segment gewonnen hat, prüfen Sie, ob Sie genügend Conversions und eine ausreichend große Stichprobengröße auf diesem Segment haben. Hier sind drei Möglichkeiten, wie Sie Ihre Daten segmentieren können:

1. NACH QUELLE

Woher kommen Ihre Besucher – aus Anzeigen, sozialen Netzwerken, Suchmaschinen oder Ihrem Newsletter? Betrachten Sie dann solche Daten wie z.B. die Seiten, welche die Besucher aufrufen, je nachdem, woher sie gekommen sind, ihre Churn Rate, den Unterschied in der Kundentreue oder ob sie zurückkommen.

2. NACH VERHALTEN

Was machen sie auf Ihrer Website? Menschen verhalten sich je nach ihren Absichten und Bedürfnissen unterschiedlich. Sie können sich fragen: Welchen Inhalt lesen Menschen, die Ihre Website mehr als 10 Mal im Monat besuchen, im Vergleich zu denen, die nur zweimal kommen? Auf welche Seite klicken Leute, die während ihres Besuchs mehr als 5 Seiten anschauen, im Vergleich zu denen, die nur eine Seite aufgerufen haben? Stöbern sie in denselben Produktkategorien und Preisklassen?

3. NACH ERGEBNIS

Segmentieren Sie nach den Aktionen, die die Besucher auf Ihrer Website ausgeführt haben, wie z.B. einen Kauf tätigen, einen Newsletter abonnieren, eine Premium-Ressource herunterladen oder eine Kundenkarte beantragen. Bilden Sie Besuchergruppen mit ähnlichen Ergebnissen und stellen Sie die gleiche Art von Fragen, die wir oben gestellt haben. Sie werden sehen, welche Kampagnen funktioniert haben und welche Produkte die Kunden nicht ansprechen. Durch die Segmentierung erhalten Sie verwertbare Daten und genaue Ergebnisse. Mit verwertbaren Daten und präzisen Ergebnissen können Sie fundierte Entscheidungen treffen, und mit fundierten Entscheidungen steigern Sie Ihre Einnahmen und Ihren Unternehmenserfolg.

3 Zu viele Varianten auf einmal testen

Änderungen mit großer Wirkung dürften potenziell große Vorteile bringen. Also ändern Sie das CTA, fügen eine Überschrift, ein Video, ein Testimonial und einen Text hinzu. Dann testen Sie es mit Ihrer aktuellen Seite. Und es gewinnt. Das ist zwar gut, erzählt aber nicht die ganze Geschichte. Woher werden Sie wissen, welche Ihrer Änderungen die Conversion auf Ihrer Seite verbessert und welche sie verringert haben?

Wenn man nicht wirklich messen kann, was passiert ist und wodurch und wie das Ergebnis tatsächlich beeinflusst wurde, dann sind die Tests nicht so nützlich.

Was wäre, wenn eine Ihrer Änderungen sich positiv auf die Conversion auswirkte und die anderen aber negativ? Dann könnten Sie den Test als fehlgeschlagen werten, obwohl Elemente erfolgreich waren Testen Sie daher nicht mehrere Variablen auf einmal. Es sei denn, Sie wissen, wie man Multivariate Tests durchführt, aber da dies eine enorme Menge an Traffic erfordert, wird es selten verwendet.

4 Einen fehlgeschlagenen Test direkt aufgeben

Wenn Sie unsere Tipps zur Erstellung einer fundierten Hypothese befolgt haben, sollte jeder Ihrer Tests aus diesen Faktoren abgeleitet werden, wobei mehrere dieser Faktoren am besten kombiniert werden sollten:

Sie verfügen beispielsweise über Analysedaten, die zeigen, dass Personen Zeit auf einer Produktseite verbringen und diese dann wieder verlassen. Sie haben auch eine On-Page-Umfrage, bei der die Besucher angaben, dass das Produkt nicht ganz ihren Anforderungen und Bedürfnissen entspricht. Ihre heuristische Analyse zeigte, dass Sie Probleme mit der Deutlichkeit hatten. Click Maps zeigen, wie die Besucher Ihre gesamten Produktbilder durchgehen. Sie entscheiden sich dann, eine Kopie zu ändern und bessere Bilder auf der Seite hinzuzufügen, um sie deutlicher zu machen. Ihr Test endet und die Ergebnisse sind nicht schlüssig, ohne dass die Conversion Rates gestiegen sind. Was tun Sie jetzt? Setzen Sie ein Häkchen in die Spalte „zu schlecht“, kommen Sie zu dem Schluss, dass die Deutlichkeit nicht wirklich ein Problem war und machen weiter mit dem nächsten Test?

Definitiv nicht. A/B-Testing ist ein sich stets wiederholender Prozess. Schauen Sie sich Ihre Daten noch einmal an und überlegen Sie, wie Sie Ihre Seite verbessern können.

  • Sie können Testimonial hinzufügen
  • Sie können Informationen entfernen, die für das Produkt nicht relevant sind
  • Sie können ein Video einfügen

Testen Sie schrittweise. Es gibt nicht nur eine Lösung für ein bestimmtes Problem. Es gibt unendlich viele und es könnte sehr wohl eine Kombination aus mehreren Lösungen erfolgreich sein.

Suchen Sie nach anderen Lösungen und testen Sie wieder und wieder.  

Themen in diesem Artikel
Lauréline Kameleoon
Lauréline Saux
Laureline is Content Manager and is in charge of Kameleoon's content. She writes on best practice within A/B testing and personalization, based on in-depth analysis of the latest digital trends and conversations with Kameleoon's customers and consultants.