Podle mě je hodně ošidné používat počet shlédnutých stránek na návštěvníka a bounce rate jako konverzní metriky:
A pak bych se ještě vyjádřil k samotné výchozí koncepci experimentu. Myslím, že A/B testování by nemělo být zužováno na náhodné prohazování boxů na jinak špatně zpracované stránce - to by ho pak mohly s odpuštěním realizovat cvičené opice nebo počítače samotné. A/B testování by se mělo nasazovat v průběhu návrhu či optimalizace stránky, kdy máme více hypotéz o tom, jak mohou věci fungovat, a potřebujeme se rozhodnout pro tu správnou.
Ten váš příklad působí klasicky v "Google-Do-It-Yourself" stylu, který ale podle mě v praxi nepřináší výsledky a vede k tomu, že lidé A/B testování i optimalizaci zavrhnou.
dovolím si reagovat obsáhleji, neboť se problematickou A/B testování zabývám a ve vašem článku je přítomná poměrně závažná chyba. Konkrétně se budu věnovat kapitole "Výsledky experimentu" a uvedené tabulce.
Obecně jste zvolili správný postup, nicméně ve vyhodnocení zcela chybí statistické ověření výsledků, takže nevíte zda zlepšení oproti kontrolnímu vzorku je prkazatelné nebo náhodné. Dovolím si ukázat, že dle Vámi uvedených čísel v tabulce nelze zlepšení boucerate prokázat. Je nutné v experimentu pokračovat, neboť zlepšení je vzhledem k velikosti vzorků příliš malé a vejde se do statistické chyby (zjednodušuji, statistici prosím nekamenujte). Budu se dále zabývat jen varintou 4 - tedy viteznou. U ostatnich je to analogicke.
A/B test je statistickým testem, kdy zamítáme nulovou hypotézu, které zní "VARINTA č.4 udrží méně uživatelů než kontrolní vzorek". Pokud si tedy nazveme veličinu NONBOUNCE = POCET_VISITS_KTERI_ZUSTANOU / POCET_VISITS (tedy 1-BOUNCERATE), lze nulovou hypotézy formulovat jako H_0: NONBOUNCE_CONTROL >= NONBOUNCE_VARINTA4. Abychom mohli tvrdit, ze VARINTA4 je lepsi musime zamitnout nulovou hypotezu se spolehlivosti typicky 0.05. Vagne receno - mame pouze 5% pravdepodobnost, ze vysledek je nahoda.
K porovnání použijeme test proporcí dvou binomických rozdělení. Nebudu zatěžovat jak se počítá - pokud by to někoho zajímalo, rád vysvětlím, ale omezené možnosti formátování v komentáři mne k tomu nelákají. Co dostaneme? Dostaneme, ze pro CONTROL nám z 307visits zůstalo 229 a pro varintu 4 z 276 zůstalo 213. Výslená p-value testu proporcí je tedy 0.23 a což je podstaně více než 0.05. Tedy nemůžeme zamítnout nulovou hypotézu na 0.05 a tedy lepší výsledek varnaty 4 nemůžeme považovat za prokázaný. Je nutné v testu pokračovat. Odhadem do nasbírání nad 600 visits u každé varinty.
Jiným způsobem s trouchou nepřesnosti lze říci, že NONBOUNCE_CONTROL = 74.59+-4.9 [%] a NONBOUNCE_VARINTA4 = 77.17 +- 4.95 [%]. Tedy intervaly se překrývají. Pokud používáte například Google Website Optimizer, tak tento tuto spolehlivost počítá za vás (a výše uvedeným způsobem). Pokud ale počítáte výsledky sami na základě tabulky počet vzorků versus počet úspěchů, pak je nutné si toto ověřit zde uvedeným způsobem.
Závěr: pokračujte prosím v experimentu, výběrem varinty 4 jste zvolili varintu, které je možné lepší jen náhodou a dočasně. Doporučuji ponechat například 10% uživatelů jako kontrolní vzorek a na delším časovém období ověřit, zda se opravdu potvrdí lepší vlastmosti této verze.
Pro případné otázky jsem k dispozici na jiri.stepan(at)etnetera.cz . Díky za pozornost a držím palce při optimalizaci webu.
Dobrý den,
plně s vámi souhlasím (nemusel jste to ani tak rozepisovat, nicméně děkuji).
Toho, že nemůžeme zamítnout nulovou hypotézu jsme si byli vědomi, nicméně klient potřeboval udělat test rychle (a to jsme jej ještě prodloužili o několik dní), i za cenu možné statistické chyby.
Proto jsme také psali, že se jednalo o "velmi jednoduché" a "miniaturní" testování (jak co do přípravy, tak průběhu).
Prosím o pochopení, jedná se spíše o příklad pro širokou veřejnost, která se s testováním spíše seznamuje.