Skip to main content
Quando fermare un A/B test
3 September 2020

Quando fermare un A/B test?

Reading time
8 minuti
Autore
Lauréline Kameleoon
Lauréline Saux
Laureline is Content Manager and is in charge of Kameleoon's content. She writes on best practice within A/B testing and personalization, based on in-depth analysis of the latest digital trends and conversations with Kameleoon's customers and consultants.

Fermare un A/B test troppo presto è senza dubbio uno degli errori più frequenti e pericolosi dei marketer. Arrestando un processo di sperimentazione prematuramente, c'è il rischio di non ottenere alcun risultato. Ancor peggiore è la possibilità di trarre conclusioni errate dai test, prendendo scelte che poi andranno ad avere un impatto negativo sul conversion rate.

Quali sono gli elementi da prendere in considerazione per fermare un A/B test al momento giusto? In questo articolo andiamo a rivedere i quattro parametri da osservare per definire la durata ottimale per i tuoi test:

  • L'indice di fiducia,
  • La grandezza del campione,
  • La durata del test,
  • La varietà dei dati.

Nota: affidarsi a uno di questi indicatori non è sufficiente. Bisogna infatti prenderli in considerazione tutti per identificare il momento migliore per fermare il test.

1 L’indice di fiducia

Non bisogna fidarsi di un test con un indice di fiducia inferiore al 95%. L'indice di fiducia è una percentuale che definisce le possibilità di ottenere i migliori risultati con la variante testata. Al 95%, c'è quindi ancora un 5% di possibilità (cioè 1 su 20) che il risultato finale non corrisponda al risultato ottenuto dal test. Se si arresta un test con un indice dell'80%, si passerà da 1 possibilità su 20 di ottenere un risultato aleatorio a 1 possibilità su 5! Realizzando un test con due varianti identiche (un test A/A) ci sono più di 7 possibilità su 10 di ottenere un indice di fiducia del 95% in un dato momento. Da solo l'indice di fiducia non è sufficiente, tantomeno pertinente: è necessario infatti prendere in considerazione altri elementi per assicurarsi la validità di un test.

significance-level-ab-testing

2 La grandezza del campione

Quando si parla di grandezza del campione, si parla del numero delle persone che devono essere esposte al test per ottenere risultati di valore.

Un campione rappresentativo dell'audience

Il tuo campione deve essere rappresentativo dell'audience (salvo che non venga effettuato un A/B test su un segmento specifico). In effetti, all'inizio di un test, il campione non terrà ancora conto di tutte le tipologie di visitatori che arrivano sul sito e i risultati potrebbero essere falsati, dato che i visitatori esposti al test non saranno necessariamente gli stessi che vedranno poi l'ottimizzazione. Conoscere l'audience è essenziale e bisogna analizzare il traffico prima di lanciare un A/B test. Ecco un esempio degli elementi da conoscere:

  • Quanti visitatori vengono da PPC (SEA), traffico diretto, ricerche organiche, e-mail, referral, ecc. Il tasso dei nuovi visitatori vs i visitatori esistenti.
  • Una variazione poi potrebbe riscontrare un grande successo la prima giornata, ma potrebbe poi essere alla fine la variante meno efficace, man mano che il campione cresce.

Arrestando il test dopo una giornata, avrai dei risultati incompleti e non applicabili alla maggior parte dell'audience.

Un campione sufficientemente importante

Il campione deve poi essere sufficientemente ampio per subire una variazione naturale dei dati. Più è piccolo, più la variazione è ampia tra una versione e un'altra. Che cosa significa? Ecco un esempio concreto. Si lancia una moneta 10 volte: la probabilità "reale" della nostra moneta è del 50% - si ripete l'esperienza 5 volte e si calcola la percentuale di apparizione della croce (C = croce; T = testa).

1 2 3 4 5 6 7 8 9 10 % T
C T C T C T C T T C 50
C T C C C T C T C C 30
T C T C C T T T T T 70
T C T C C C C T C T 40
T T T C T C T T T T 80

Il risultato varia dal 30 all'80%. Si riproduce la stessa esperienza lanciando poi 100 volte la moneta (grazie a un simulatore). Il risultato varia dal 47 al 54%. Più il campione è ampio, più i risultati ottenuti saranno prossimi al valore "vero" (compreso tra il 47% e il 54%, quindi del 50%).

quale misura per il mio campione?

Una cosa si applica a tutti i metodi statistici: più si raccolgono dati, più i risultati saranno affidabili. Tuttavia il risultato varierà in funzione del metodo applicato dal tool (bayesiano o frequentista). Qui di seguito alcuni consigli per i clienti che utilizzano Kameleoon (e seguono il metodo frequentista). Per determinare la grandezza del campione, raccomandiamo di utilizzare una calcolatrice come questa (Kameleoon allo stesso modo ne ha una). Verrà data una buona stima della grandezza del campione richiesto - queste cifre potrebbero non essere ottimali se lo strumento non ricorre a statistiche di tipo frequentista. Detto ciò, la validità dei risultati non sarà però influenzata. La calcolatrice permette al tempo stesso di non fermare i test prima di conoscere la grandezza richiesta del campione (non sarà necessario verificare le performance delle variazioni fino al raggiungimento di queste cifre).

Utilizza la calcolatrice: inserisci i tassi di conversione attuale e la variazione minima attesa. Si raccomanda comunque si realizzare 300 conversioni per variazione prima di considerare lo stop del test; talvolta anche 1.000 conversioni per variazione se il traffico del cliente lo permette. Per riassumere, più è sinonimo di migliore. Si può decidere infine di arrestarlo prima se esiste una differenza importante tra l'originale e la variazione.

3 La durata del test

Raccomandiamo di lanciare test con durata di diverse settimane (almeno di 2 - 3 settimane). Se possibile, l'ideale è lanciare un test in corrispondenza del ciclo di vendita (vedi punto 2). Esiste infatti un momento ideale per inviare un'e-mail o postare sui canali social: in effetti la gente si comporta in maniera differente a seconda del momento della giornata, facendosi influenzare da numerosi fattori esterni (meteo, attualità, saldi, ecc). I tassi di conversione sono quindi influenzati da tutto questo. Per comprendere meglio è necessario analizzare i tassi di conversione nel corso della giornata e notare le variazioni che sussistono da un giorno all'altro. Lanciando il test in funzione del ciclo di vendita, si potranno catturare i dati dei nuovi visitatori e quelli dei visitatori pronti a convertire (creando così un test che tenga conto dei numerosi fattori esterni e delle origini del traffico). È importante gestire test su interi cicli per limitare l'effetto dei fattori esterni. Quindi, se si inizia di giovedì, si termina poi di giovedì (prevedendo come minimo dalle 2 alle 3 settimane di test). Nel caso in cui la durata del test debba essere estesa, si ragiona in termini di una settimana (e non soltanto qualche giorno) per rispettare la durata del ciclo.

4 La varietà dei dati

Se l'indice di fiducia e i tassi di conversione sono ancora molto fluttuanti, significa che ancora non è il momento di arrestare il test - i dati devono stabilizzarsi. Bisogna considerare poi due fenomeni: 

  • L'effetto novità: quando i visitatori reagiscono al cambiamento perché si tratta di una novità. Si affievolisce con il tempo;
  • Ritorno alla media: più dati vengono raccolti, più il risultato del test di baserà su valori reali. È per questo motivo che si ottengono risultati variabili all'inizio di un test. Ed è per questo che un indice di fiducia del 95% da solo non è sufficiente per mettere fine a un test.

variability-results-ab-test

È necessario quindi assicurarsi che l'indice di fiducia e i tassi di conversione si stabilizzino prima di arrestare il test - le fluttuazioni devono essere minime. Immaginiamo due versioni:

  • Una versione A con un tasso di conversione del 18,4% ± 1,2%,
  • Una versione B con un tasso di conversione del 14,7% ± 0,8%.

Ciò significa che il tasso di conversione della versione A si trova tra (18,4 – 1,2 cioè 17,2) e (18,4 + 1,2 cioè 19,6), e che quello della versione B si trova tra (14,7 – 0,8 cioè 13,9) e (14,7 + 0,8 cioè 15,5).

Per venire al dunque, il miglior modo per non cedere alla tentazione di fermare un test perché una variabile sembra "risaltare" è quello di non verificare i risultati troppo presto.

Prima di mettere fine a un test, bisogna avere le seguenti condizioni:

  • Un indice di fiducia del 95%,
  • Un campione rappresentativo dell'audience,
  • Un test sufficientemente lungo,
  • Tassi di conversione e di fiducia stabili.

Non bisogna arrestare un test prima di aver preso in considerazione questi elementi - per non perdere né tempo, né denaro.

 

Lauréline Kameleoon
Lauréline Saux
Laureline is Content Manager and is in charge of Kameleoon's content. She writes on best practice within A/B testing and personalization, based on in-depth analysis of the latest digital trends and conversations with Kameleoon's customers and consultants.
Temi trattati in questo articolo