Aller au contenu principal
statistiques-bayesiennes-vs-frequentistes
Articles métier

A/B testing : statistiques bayésiennes vs fréquentistes

Auteur
Amine Chaibi
Partager

Une drôle de rumeur semble (vouloir) faire du bruit dans le microcosme de l’A/B testing : une nouvelle méthode statistique (statistiques bayésiennes vs fréquentistes) viendrait révolutionner la pratique et donner des résultats plus probants, plus rapidement et plus simplement.

En résumé, la méthode dite « fréquentiste », utilisée depuis une dizaine d’années par toutes les solutions d’A/B testing ne serait pas la bonne : l’approche dite « bayésienne » , déjà bien connue des statisticiens depuis le… XVIIIème siècle, serait plus adaptée à la pratique.

Tout le monde se serait-il donc trompé pendant toutes ces années au point de pousser désormais certains à brûler ce qu’ils ont adoré ?

Statistiques bayésiennes vs fréquentistes, quelles différences ?

Depuis le siècle des Lumières, deux écoles statistiques s'affrontent : les fréquentistes et les bayésiens.

La statistique fréquentiste, que nous pourrons qualifier d'expérimentale ou d'inductive, repose sur la loi des observations.

La statistique bayésienne, que l'on peut qualifier de théorique ou déductive, permet de combiner l’information apportée par les données avec les connaissances a priori provenant soit d’études antérieures soit d’avis d’experts, dans le but d'obtenir une information a posteriori.

Afin de mieux comprendre la différence entre ces deux approches, prenons un exemple simple.

Lançons une pièce 10 fois.

  • Si on se base sur une modélisation fréquentiste, alors il existe une « vraie » probabilité d'obtenir pile, qui a comme valeur p. Si par exemple, on obtient 6 fois sur 10 pile, alors la probabilité d'obtenir pile à partir des résultats de cette expérience est égale à 6/10 = 0.6.
  • Selon l'approche bayésienne, on ne s’intéresse pas à cette probabilité mais plutôt à sa loi a priori. En effet, si la pièce est équilibrée alors a priori la probabilité d'obtenir pile est la même que celle d'obtenir face, c'est-à-dire 1/2 = 0.5. Cette probabilité a priori est obtenue à partir des résultats d'autres expériences effectuées par le passé.
  Il est évident que la probabilité calculée par la méthode fréquentiste convergera vers 0.5 si la pièce est lancée un nombre important de fois.

Approche bayésienne : intérêts et limites

L’intérêt de l’approche bayésienne est fort quand on peut tenir compte d’expériences passées parfaitement similaires. Elle est donc utilisée dans plusieurs domaines comme par exemple la détection de spams : la connaissance préalable des spams permet d’associer une probabilité correspondant au nombre de fois où un type de mot apparaît.

Cette probabilité, obtenue grâce aux expériences passées, permet de considérer un mot comme étant typique d’un spam. Le principal avantage de la méthode est donc de s'affranchir d’un horizon fixe et d'avoir des résultats le plus rapidement possible.

Par ailleurs, il est inutile de fixer au préalable la taille d’un échantillon nécessaire et d’un niveau de trafic pour effectuer un test : les résultats sont consultables tout au long de l'expérience et sont plus rapides à obtenir.

Pourquoi donc le monde de l’A/B testing n’a-t-il pas adopté l'approche bayésienne plus tôt ?

Tout simplement parce que l'approche bayésienne part d'un postulat qui est éminemment objectif quand il s’agit de lancer une pièce mais peut être qualifié d’éminemment subjectif quand il s’agit d’une expérience utilisateur. Prendre en compte des résultats précédents qui se sont produits dans une autre échelle de temps et dans des conditions potentiellement complètement différentes n’est tout simplement pas recommandé, sinon proscrit, dans l’A/B testing. En effet, le 1er précepte de la pratique est en effet de comparer deux variantes exactement dans les mêmes conditions de traitement, donc concomitamment et non séquentiellement.

- Des résultats invalides

La statistique bayésienne déduit la probabilité d'un événement en tenant compte de celles d'autres événements déjà évalues : dans un contexte de test A/B, la connaissance a priori peut être affectée par un effet de saisonnalité ou simplement de tendance et fausser les résultats.

En d'autres termes, le risque de détecter un faux positif devient beaucoup plus élevé. Pas forcément grave dans le cas d’un spam ; beaucoup plus problématique dans le cas d’un test A/B.

- Des résultats imprécis

La méthode bayésienne a aussi comme inconvénient d'être nettement plus difficile à appréhender : les statistiques bayésiennes cherchent à calculer une distribution de probabilités, qui est un concept plus complexe qu'un simple indicateur de confiance. Dans le cas de l'A/B testing, cette distribution de probabilités se base sur les gains ou pertes de conversion.

Simplifier à l'extrême cette distribution pour la ramener à un simple intervalle de type [-0,5 %, +2%] de gains n'apporte pas un éclairage suffisant au marketeur dans la lecture des résultats (est-ce -0,5 % ou plutôt +2% ?). D'autant qu'en réalité, la distribution est évidemment basée sur l'intervalle [-∞, +∞]. Le « cut-off » sur l'intervalle [-0,5 %, +2%] est arbitraire à partir d'un seuil où l’on juge que les poids statistiques sont négligeables.

La puissance de la méthode fréquentiste

La méthode fréquentiste, universellement employée dans l’économie ou la santé s’est également imposée à l’A/B testing depuis sa création. Cette méthode se base uniquement sur les données du test dans des conditions rigoureusement similaires pour les variantes (d’où sa réputation de méthode « data-driven »).

Les inconvénients de l'approche fréquentiste sont bien connus et nous les avons amplement détaillés dans notre série de 3 articles dédiées à la significativité statistique :

Par exemple, le niveau de trafic requis ne permet pas tout type de test en toute circonstance. De plus, la fiabilité des résultats n’est réelle qu’à l’issue du test : il faut savoir résister à la tentation du « repeated picking » en cours de test car les résultats intermédiaires n’ont tout simplement aucune validité.

Quelle approche privilégier, fréquentiste ou bayésienne ?

L’une des analyses les plus rigoureuses confrontant l'approche fréquentiste à l'approche bayésienne a été réalisée par le statisticien Valen Johnson qu’il a résumée dans un article paru dans les actes de l'Académie des sciences américaine en 2013 (1).

Son analyse fréquentiste avait comme objectif d'explorer les données collectées pour en faire émerger un effet significatif qui ne peut s'expliquer autrement que par l'hypothèse de l'expérience.

Son analyse bayésienne confrontait deux hypothèses et évaluait les chances que l'une soit vraie par rapport à l'autre, en se basant sur les données disponibles à l'instant de l'expérience et des informations connues au préalable sur le sujet.

Sa conclusion est que le seuil de significativité statistique, couramment admis de 95%, est insuffisant dans le cas de l’approche bayésienne pour conclure que le test est significatif.

Autrement dit, il ne fait que conforter le choix des éditeurs de solutions d'A/B testing pour l’approche fréquentiste.

Faut-il pour autant disqualifier la méthode bayésienne ?

Non, car elle possède des atouts très appréciables quand les circonstances le permettent. Il s’avère que le monde de l’A/B testing a logiquement adopté l’approche fréquentiste car la plus forte fiabilité et la moindre complexité de lecture des résultats l’emportent largement sur les inconvénients cités plus haut.

De manière plus générale, l’appréciation du choix de la méthode fréquentiste vs bayésienne tourne très rapidement à un débat d’experts bien éloigné des préoccupations des équipes marketing. Dans l’absolu, il n’y a pas de meilleure méthode qu’une autre, l’important est de bien comprendre les logiques sous-jacentes ou d’être conseillé par quelqu’un qui les maîtrise bien.

livre blanc ab testing kameleoon (1) Valen E. Johnson, Revised Standards for Statistical Evidence, Proceedings of the National Academy of Sciences, Vol. 110, No. 48, 26 November 2013,
Amine Chaibi