Почему a/b-тесты уменьшают конверсию

В Driveback мы всегда сталкиваемся с необходимостью проведения A/B-тестов для проверки тех либо иных догадок. На проведении многих A/B-тестов настаивают отечественные клиенты. Часто мы тратим по паре часов, дабы растолковать, из-за чего тот либо другой тест делать полностью бессмысленно.

В собственной практике мы очень редко встречали маркетологов, каковые бы до конца осознавали, как верно делать A/B-тесты. Хуже того, большая часть из них делают тесты полностью неправильно!

В данной статье мы попытаемся продемонстрировать, как неправильно совершённые A/B-тесты c виду смогут продемонстрировать отличные результаты, каковые, но, будут всего лишь иллюзией успеха. В лучшем случаев, это приведет к ненужным трансформациям на сайте, и утрата времени и денег. В нехорошем — к трансформациям, каковые в конечном итоге смогут повредить прибыли и конверсии.

Базисные понятия

Начать стоит в первую очередь с базисных понятий, каковые известны каждому математику, но забыты многими новоиспеченными экспертами по актуальному в наше время A/B-тестированию. Это такие понятия как “статистическая мощность”, “статистическая значимость”, “регрессия и” множественные “сравнения”. Осознавая эти правила вы сможете защититься от заблуждений и дезинформации, каковые наводнили индустрию A/B-тестирования и отличать иллюзорные результаты от настоящих.

1. Статистическая мощность

Статистическая мощность — это всего-навсего возможность (в процентах) того, что тест выяснит отличие между двумя вариантами, в случае если эта отличие вправду существует.

Предположим, вы желаете выяснить, имеется ли отличие между ростом мужчин и женщин. Если вы измерите всего лишь одну даму и всего лишь одного мужчину, может оказаться так, что вы не увидите того факта, что мужчины выше дам. Возможно вам попалась мужчина и волейболистка роста ниже среднего.

Но, измерив достаточное количество различных женщин и мужчин, вы заключите, что в действительности мужчины выше. Все это вследствие того что статистическая мощность возрастает при повышении размера выборки.

Полностью таким же образом это трудится и в применении к конверсии других-веб и интернет магазинов-сайтов. Допустим, мы желаем проверить, увеличится ли конверсия, в случае если вебмагазин будет давать скидку 10% на определенный вид товаров. Будет ли виден прирост в конверсии зависит от статистической мощности теста.

Чем выше мощность — тем выше возможность, что вы заметите настоящий итог.

В собственной практике мы много раз сталкивались с обстановкой, в то время, когда в первую семь дней A/B-теста со большим перевесом “побеждал” вариант №1 (см. изображение 1).

Изображение 1: Итог по окончании 2 посетителей и дней 33000 тестирования в каждую ветку

Но, поле успехи достаточной статистической мощности итог выравнивался, и потом уже с безотносительным постоянством побеждал вариант №2 (см. изображение 2).

Изображение 2: Итог по окончании 2 посетителей и недель 400000 тестирования в каждую ветку.

Какой же размер выборки можно считать достаточным?

Достаточный размер статистической выборки зависит от следующих размеров:

  • Статистической мощности, которой мы желаем достигнуть
  • Статистической значимости (обращение о ней отправится ниже)
  • Величины результата (для вебмагазинов это возможно отличие в конверсиях)

Мы рекомендуем не доверять тестам, статистическая мощность которых ниже 80-90%. Надеясь на результаты таких тестов вы имеете возможность значительно навредить собственной конверсии.

Для подсчета оптимального размера выборки возможно применять калькулятор на отечественном сайте.

Принципиально важно! Размер выборки в каждую ветку A/B-теста нужно выяснить еще до начала теста и не поменять до его окончания! Ниже мы обрисуем, из-за чего это очень принципиально важно!

2. Статистическая значимость

Допустим, A/B-тест был совершён в соответствии с требованиями, обрисованными выше. Достигнута нужная статистическая мощность и наконец возможно взглянуть на результаты теста. Сейчас нужно выяснить, есть ли тот итог, что показывает тест статистически значимым.

Несложными словами это указывает: каков шанс того, что отличие видна в том месте, где ее в действительности нет.

Либо еще легче — какова возможность того, что мы бы заметили подобный итог, если бы вместо A/B теста проводили A/A-тест (тестирование варианта сайта против себя же самого). В случае если такая возможность мелка — результаты теста можно считать статистически значимыми. Если она громадна — итог возможно чистой случайностью (погрешностью) и ему не следует доверять.

Мы придерживаемся строгого мнения, что уровень статистической значимости должен быть минимум 95%. Так, шанс заметить итог в том месте, где его в действительности нет — всего 5% (p-value = 5%).

Как раз проверка статистической значимости результата оказывает помощь выяснить настоящего “победителя”.

Для определения статистической значимости возможно применять множество калькуляторов. Один из них вы имеете возможность отыскать у нас на сайте.

Самая критическая и частая ошибка в A/B-тестировании — останавливать тест, когда делается заметно, что один из вариантов побеждает с значительным отрывом. Кроме того в случае если итог наряду с этим есть статистически значимым — это верный путь взять false-positive (ложноположительный) итог!

Как мы уже писали ранее, не обращая внимания на то, что итог проходит тест на статистическую значимость, это не означает, что он верный. В полной мере вероятно он ошибочен, т.к. не достигнут нужный размер выборки.

Мы понимаем, что очень сложно удержаться далеко от Гугл Analytics и подождать месяц, пока тест не будет закончен, не заглядывая в результаты раньше времени. Но именно это спасет вас от важных неточностей!

Это легко проверить проводя A/A-тест (тестирование одной и той же версии сайта против себя же). Допустим, мы запустили на сайте на данный момент/A-тест и контролируем его результаты ежедневно, впредь до завершения, любой раз останавливая тест при успехи статистической значимости (p-value = 5%). Вы заметите, что практически ежедневно вы станете приобретать статистический значимый итог того либо иного варианта!

И это не будет прекращаться , пока выборка не станет большой. В случае если функционировать обрисованным выше методом в A/B-тесте — 80% ваших результатов будут безотносительной чушью. Лишь вдумайтесь — 80%!

Разглядим важность статистической значимости на одном из настоящих примеров. На изображении 3 продемонстрирован пример результатов A/B-теста одного из отечественных клиентов. Конверсия вариант DRIVEBACK_OFF оставляет 1.47%, конверсия варианта DRIVEBACK_ON — 1.21%.

Какой по вашему точке зрения вариант побеждает?

Почему a/b-тесты уменьшают конверсию

Изображение 3: Пример результата А/Б-теста, что не есть статистически значимым.

Предполагаем, что вы уверенны, что вариант DRIVEBACK_OFF лучше. Вы станете поражены, что в действительности это результаты не A/B-теста, а A/A-теста. Если вы внесете эти значения в любой калькулятор, он скажет вам, что итог не есть статистически значимым.

Так, в действительности, результат есть всего-навсего громадным куском тщетной информации.

3. Множественное сравнение

Еще одна весьма страшная неточность, которую допускает большая часть маркетологов — проведение сходу нескольких A/B-тестов в один момент. Выделим пара разновидностей для того чтобы тестирования:

  • Проведение в один момент нескольких A/на следующий день-тестов, каковые воздействуют на одну и ту же метрику и затрагивают одинаковые сегменты пользователей.
  • Мультивариативное тестирование (“какой из 5 дизайнов продемонстрирует лучшую конверсию?”)
  • Сегментирование постфактум. В то время, когда вы сперва совершили тест, а позже смотрите его результаты на различных сегментах, пока не отыщете хотя бы один, что даст хороший итог.

Ответ, из-за чего такое проведение тестов есть нехорошей идеей лежит в простой математике и в понимании для того чтобы термина как коррекция на множественное тестирование.

Любой тест имеет шанс 5% (в случае если мы выбрали p-value = 0.05) продемонстрировать победителя в том месте, где его в конечном итоге нет. Это достаточно маленькая возможность, которая есть удовлетворительной как правило. Но при проведении n таких тестов, возможность того, что хотя бы один из них будет неверным, равна 1 — (1 — 0.05)n, что громадно уже кроме того при маленьких n (к примеру, при n = 5 она равна приблизительно 23%!!!).

Так, проводя большое количество тестов вы без сомнений отыщете победителя, но ваша “победа” будет всего лишь иллюзией.

4. Регрессия

С громадным сомнением относитесь к тестам, каковые были очень успешными, но при повторном проведении не подтвердили собственные результаты. Вы имеете возможность поразмыслить, что легко со временем итог пропал. Но настоящая правда содержится в том, что вероятнее результата вовсе и не было, и в первоначальный раз вы false-positive итог.

Это прекрасно узнаваемый феномен, что в статистике именуется регрессией. Данный термин общеизвестен среди статистиков, но многие эксперты по A/B тестированию чуть ли о нем слышали.

Заберём несложной пример. Допустим, имеется класс студентов, каковые делают тест из 100 пунктов, где вероятны лишь два варианта ответа — “да” и “нет”. Предположим, что все студенты выбирают ответы полностью случайным образом.

В итоге, любой студент возьмёт за тест случайный бал — от 0 до 100 со средним баллом по классу приблизительно 50.

Сейчас заберём 10% из тех студентов, кто собрал большой бал и назовем их “отличниками”. По окончании чего дадим им тот же самый тест, в котором они снова же ответят на вопросы случайным образом. В итоге, итог при второй попытке у них будет ниже, чем в первоначальный раз. Все это связано с тем, что полностью не имеет значения, какую оценку они взяли в первоначальный раз.

Они все равно соберут в среднем 50 баллов. Из этого покажется фальшивое чувство, что “отличники” быстро сдали менее умными. Но, правда содержится в том, что они ни при каких обстоятельствах не были умнее, чем остальные.

В A/B-тестировании происходит полностью так же. В случае если ваш первый тест был false-positive, то все последующие тесты конечно же продемонстрируют уменьшение “отличия”, которой в действительности не было. И обстоятельством этому будем регрессия к среднему значению.

Исходя из этого, в случае если ваш повторный тест через какое-то время не продемонстрировал прироста к конверсии — задайте себе вопрос: а был ли мой начальный тест совершён верно? Если вы желаете верить витогах собственного тестирования — постоянно проводите контрольное тестирование через некое время, дабы убедиться в том, что результаты первого теста были верными.

10 советов верного A/B-тестирования

На этом мы закончим изучение неинтересной “мат. части” и перейдем к выводам, каковые следуют из всего обрисованного выше. Мы составили перечень из 10 главных советов, каковые окажут помощь вам верно проводить тесты и верить вих итогах.

1. Выясните минимальный размер выборки до начала теста

Неизменно определяйте количество визитёров сайта, нужных в каждую ветку теста, заблаговременно! Не следует тест в надежде, что возможно спустя семь дней итог будет статистически значимым и вы сможете решить в пользу той либо другой альтернативы. Кроме того если он и будет статистически значимым — это ни о чем не говорит, в случае если выборка не достигла определенного заблаговременно размера.

Возможно встретить большое количество статей, где пишут “вам необходимо минимум 1000 конверсий каждую ветку с целью проведения теста” либо “приблизительно 3000 наблюдений на каждую вариацию – в большинстве случае достаточно”. Не существует никаких волшебных цифр! Все зависит только от цели вашего теста, базисной конверсии величины и вашего сайта видимого результата.

Для определения размера выборки в каждую ветку теста вы имеете возможность воспользоваться отечественным калькулятором:http://tools.driveback.ru/sample-size.html

2. Игнорируйте результаты A/B-теста, пока он не закончен

Заведите привычку кроме того не заглядывать в результаты теста до его окончания. Кроме того в случае если в первой ветке вы видите 100 конверсий из 1000 визитёров, а во второй всего лишь 50 из 1000 — игнорируйте результат. Он совсем ни о чем не говорит и еще неоднократно может измениться в любую сторону до окончания теста.

3. Контролируйте статистическую значимость результата только по окончании проведения теста

Статистическую значимость результата нужно контролировать лишь по окончании окончания теста. Для этого существует множество инструментов, таких как калькулятор у нас на сайте: http://tools.driveback.ru/significance.html

В случае если итог не есть статистически значимым — не следует пробовать подобрать сегмент, где он есть значимым, либо пробовать поменять другие параметры. У вас остается лишь два выбора:

  • Согласиться с тем, что величину видимого результата, которую вы выяснили до начала теста, заметить нереально.
  • Продолжить тест еще на пара недель.

4. Тестируйте все дни семь дней и все бизнес-циклы

Ваш тест обязан проходить в течение одного, а лучше двух полных бизнес циклов и обязан включать:

  • Все дни семь дней.
  • Все источники траффика (в случае если лишь вы не проводите тест для определенного источника траффика).
  • Целый цикл рассылок и публикаций, каковые вы проводите систематично.
  • Достаточное время для визитёров сайта, каковые не принимают ответ сходу (а думают над приобретением в течение 10-20 дней).
  • Каждые другие внешние факторы, каковые смогут оказывать влияние на конверсию (к примеру сутки заработной плата, сутки аванса, праздничные дни и т.д.)

5. Применяйте сегментирование

Заблаговременно выясните сегмент пользователей, для которых проводится тест.

Допустим, вы желаете протестировать, воздействует ли спецпредложение на карточке определенного товара на возможность его приобретения.

Альтернатива A: вы отображаете скидку 10% на карточке товара “Х”

Альтернатива B: вы не отображаете никаких скидок на карточке товара “Х”

Не следует проводить тест между всей аудиторией сайта. Его стоит проводить среди тех пользователей, кто теоретически имел возможность заметить скидку (был на карточке товара “Х”). Все остальные пользователи для нас просто не воображают интереса и только будут уменьшать величину видимого результата.

6. Забудьте про A/B-тесты, в случае если у вас нет трафика!

Если вы делаете 1-2 продажи в неделю и проводите тест, где B в конечном итоге конвертируется на 15% лучше, чем А — как вы об этом по большому счету определите? Кроме того, в случае если каким-то случайным образом в сегмент А попадет залетный “шопоголик” — он сломает вам статистику на большое количество месяцев вперед!

Как бы вы не обожали A/B-тестирование, это очевидно не то, что вы должны применять для оптимизации конверсии при мелком трафике. Кроме того в случае если вариант B существенно лучше, у вас смогут уйти месяцы (а время от времени и годы!) дабы достигнуть статистической значимости результата.

Так, если вы станете проводить тест 5 месяцев — вы просто-напросто выкинете на воздушное пространство кучу денег. Вместо этого, необходимо иди на более большие и радикальные трансформации и просто реализовать вариант B без какого-либо тестирования. Никаких A/B-тестов, на B и замечайте за своим счетом в банке!

Дело в том, что если вы планируете вносить какие-то трансформации на сайт без трафика — вы ожидаете громадного подъема в прибыли либо генерации лидов: 50% либо 100%. Вы легко увидите данный подъем на вашем счете в банке кроме того без каких-либо тестов уже в первую семь дней (или это возможно резкое повышение количества собранных емэйлов либо взятых звонков).

Время — деньги! Не тратьте напрасно время на ожидание результатов, каковые займут многие месяцы.

7. Проводите тесты лишь на базе догадок

Догадка — недоказанное утверждение, предположение либо предположение. В большинстве случаев, догадка высказывается на базе последовательности подтверждающих её наблюдений (примеров), и исходя из этого выглядит правдоподобно. Догадку потом либо обосновывают, превращая её в установленный факт, либо же опровергают, переводя в разряд фальшивых утверждений.

Затевать тестирование, не привязанное к какой-либо догадке — это то же самое что садиться за руль и просто ехать не осознавая того, куда вы едете и из-за чего. Вероятно в итоге вы куда-то и приедете, вот лишь какой опыт вы от этого получите и к каким выводам придете?

Вы имеете возможность израсходовать кучу времени и ресурсов, меняя цвета кнопок, шрифты, размер текста. Но, такое тестирование будет бессмысленно, в случае если в основании не лежит рациональная догадка, подкреплённая весомыми доводами.

«Я пологаю, что на светло синий кнопку будут нажимать чаще, чем на зеленую» — адекватной догадкой не есть!

Исходя из этого мы настоятельно не рекомендуем проводить тщетные A/B-тесты, не подкрепленные никакими данными – они никак не повлияют на вашу прибыль. А кроме того в случае если каким-то случайным образом вы и получите хороший итог — какой урок вы из него вынесете? Никакого. Так как куда серьёзнее то, что вы определите о собственной аудитории.

Это окажет помощь вам изучать поведение визитёров вашего сайта и в будущем планировать более успешные тесты.

8. Не проводите пара тестов в один момент

Проведение в один момент нескольких тестов — верный путь взять false-positive, о чем мы детально обрисовали в разделе про множественное сравнение.

Допустим, вы тестируете, как на приобретение вещи “Х” отразится баннер на основной странице. Наряду с этим вы кроме этого тестируете, как на все приобретения отразится скидка 10% за подписку на рассылку. В итоге, вы случайным образом поделите всех ваших визитёров на следующие сегменты:

Таблица 1: Проведение в один момент двух A/B-тестов

Создав 3 одновременных A/B теста — вы получите уже 9 сегментов. Кроме того если вы все-таки сумеете верно сгруппировать сегменты для определения результатов каждого теста в отдельности — направляться учесть поправку на множественное тестирование. В случае если в каждом отдельном тесте уровень статистической значимости был 95%, то при проведении 2 одновременных тестов (4 сегмента) в один момент — уровень статистической значимости станет всего 81.4% для каждого теста.

Это значит, что в 18.6% случаев вы станете видеть итог в том месте, где его в конечном итоге нет. Как мы уже говорили ранее, минимальный уровень значимости для верного проведения A/B-тестов должен быть минимум 95%.

Исходя из этого, ни при каких обстоятельствах не проводите более одного A/B-теста, если вы осознаёте, что дополнительные тесты затронут тот же сегмент пользователей. В самом же A/B-тесте ни при каких обстоятельствах не применяйте более 2 вариаций, забудьте про мультивариативное тестирование.

9. Не ожидайте громадного повышения конверсии

Мы довольно часто встречаем клиентов, каковые видят повышение конверсии на 2% и говорят что-то наподобие “Всего 2%? Это через чур мало! Кроме того не хочется заморачиваться с реализацией этого трансформации.”

Но вот в чем правда. В случае если ваш сайт оптимален, вам вряд ли стоит ожидать громадных скачков в в конверсии. В случае если кто-то продемонстрировал вам результаты A/B-теста, в соответствии с которому вашу конверсию увеличили на 20-30% это может означать только две вещи:

  • Ваш сайт — настоящее г**но
  • Вас одурачили (либо неправильно совершили тест)

Большая часть выигрышных тестов дают маленькое повышение конверсии — 1%, 2%, 5%. Для некоторых больших вебмагазинов, повышение конверсии кроме того на 1% может стать результатом повышения выручки на миллионы рублей. Тут уже все зависит от безотносительных цифр.

Но взглянуть на все это в возможности 12 месяцев.

Один тест — это один тест. Но вы планируете делать множество тестов. Кроме того увеличивая конверсию на 1% ежемесячно — это уже 12% в течение года!

12% к выручке — это уже большой итог.

Исходя из этого, стремитесь к мелким победам. Так как в итоге любая из них внесет вклад в неспециализированное повышение прибыли.

10. Неизменно проводите повторный тест спустя некое время

Тут правило простое. Ваш тест продемонстрировал впечатляющие результаты, но вы не до конца уверены в природе столь прекрасных результатов? Кроме того, по окончании реализации трансформаций на сайте вы не видите значительного трансформации в прибыли?

В обязательном порядке совершите повторный тест спустя пара месяцев. Может оказаться так, что в прошедший раз вы всего лишь взяли false-positive.

——

Применяйте вышеприведенные советы при проведении следующего A/B-теста. Кроме того если вы и не сможете добиться повышения конверсии — вы хотя бы не уменьшите ее, надеясь на ошибочные и иллюзорные результаты неправильно совершённого теста.

Случайные статьи:

«А/Б тесты или как выстрелить себе в ногу» Тимур Козьменко


Подборка похожих статей:

riasevastopol