Осторожно! сплит-тест — это иллюзия

Мы специально применяли данный провоцирующий заголовок для привлечения вашего внимания. Этот пост вправду ответствен для любого практикующего маркетолога.

Сплит-тест возможно иллюзией и вот из-за чего.

Хороший маркетолог в течение года проводит десятки сплит-тестов, и результаты многих из них кажутся обнадеживающими — новые варианты лендингов смогут принести вам прирост лидов и продаж больше чем на 25%.

Воодушевленные заманчивыми возможностями, вы используете протестированные трансформации посадочных страниц, но доходы компании, увы, не возрастают на четверть.

Спустя год по окончании окончания тестирований коэффициент конверсии все еще так же высок, как в момент успехи порога статистической значимости и остановки сплит-теста.

В чем же содержится неточность? Ответ таков: прирост был мнимым.

Трансформации лендинга сначала не вели к подъему наиболее значимых бизнес-метрик. Да, вы достигли 95% статистической достоверности либо кроме того еще более большого значения этого параметра. Но это ничего не означает, по причине того, что достижение порога значимости — не то же самое, что подтверждение истинности некоего утверждения (в нашем случае — «новый вариант лендинга принесет повышение количества лидов»).

  • Методика проведения сплит-тестирования

Правило остановки сплит-тестирования

Осторожно! сплит-тест — это иллюзия

В случае если на протяжении тестирования вы достигли уровня значимости 95% либо 99%, это отнюдь не равнозначно тому, что вы нашли какое-то выигрышное ответ, обязательно ведущее к успеху — это совсем не взаимосвязанные материи.

Вот наглядная иллюстрация: результаты через 2 дня по окончании начала тестирования.

Произведенное на посадочной странице изменение стало причиной катастрофическому ухудшению конверсии (падение на 89,5%, причем это значение выходит далеко за пределы погрешности измерения — этим цифрам возможно доверять безоговорочно). Шансы нового варианта лендинга (Variation 1) победить начальный вариант посадочной страницы (Control) равны нулю.

Перед нами — статистически значимый итог. Загрузим эти числовые значения в любой online калькулятор статистической значимости, и он подтвердит достоверность взятых данных:

Итак, сплит-тест, имеющий предельное значение статистической значимости (100%), говорит о том, что начальный вариант лендинга конвертирует визитёров в лиды на 800% действеннее, чем его модифицированная версия (Variation 1). Внесенные трансформации были не то что ненужны, а попросту вредны.

Но не будем торопиться с выводами и продолжим тестирование. Вот какие конкретно результаты мы видим через 10 дней:

Новый вариант лендинг пейдж, ранее имевший нулевые шансы на победу, побеждает контрольную страницу с возможностью 95%. И как это осознавать? Из-за чего полученные в начале теста 100% достоверности и прогноз «0% на победу» стали тщетными?

Да вследствие того что они сначала были таковыми.

Если вы через чур рано останавливаете сплит-тест, существует очень большая вероятность того, что вы выберете неправильного победителя тестирования. К сожалению, рассмотренный выше сценарий все еще видится в практике оптимизации конверсии чаще, чем следовало бы: когда достигнут порог значимости, маркетолог имплементирует кажущееся успешным изменение на посадочную страницу и перенаправляет на нее целый трафик.

Но в действительности предполагаемые 800% подъема конверсии по прошествии некоего времени становятся равны нулю либо кроме того принимают отрицательные значения (что по сути свидетельствует прямые денежные утраты).

Но мнимый подъем конверсии еще не самое нехорошее, что может произойти с маркетологом, через чур рано прервавшим тест — значительно страшнее фальшивое чувство уверенности в том, что вы чему-то обучились, определили что-то новое, что-то сделали верно.

Пробуя применить полученные «знания» в последующих сплит-тестах вторых лендингов, вы раз за разом станете повторять одну и ту же неточность. Полученный вами опыт в действительности не то что ненужен — он вреден, а его использование на практике не приведет ни к чему, не считая безлюдной траты сил, времени и денег.

Кроме того 95% достоверности определения варианта-победителя, достигнутые на десятый сутки тестирования, еще не предлог для прекращения изучения. Статистическая выборка через чур мелка, безотносительная отличие в конверсии образовывает всего 19 достижений целей в примере выше. Обстановка может кардинальным образом измениться всего за один сутки.

Тон Весселинг (Ton Wesseling), основатель облачного сервиса сплит-тестирования Testing Agency, даёт предупреждение:

«Вы должны знать, что остановка теста сразу же по достижении порога статистической достоверности есть “смертным грехом номер 1”. В действительности вы еще не взяли значимый итог, пригодный для использования на практике: 77% из A/A-тестов (некая посадочная страница тестируется против той же самой страницы) в определенный момент достигают порога значимости».

  • Опровержение 10 мифов о сплит-тестировании

Чем не есть статистическая значимость

Достижение порога достоверности — это не команда «Стоп!» для вашего сплит-теста («правило остановки», stopping rule). Статистическая значимость — не единственный критерий, определяющий, закончено ли тестирование либо его направляться продолжить.

Статистическая значимость никак не коррелирует с достоверностью утверждения, что вариант Б целевой страницы лучше варианта А. Достижение порога достоверности никак не предотвратит маркетолога о том, что предпочтя вариант Б варианту лендинга А он совершит неточность.

Вышеприведенные утверждения являются ничем иным как очень обширно распространенными в кругах веб-маркетологов заблуждениями. Широкое распространение аналогичных точек зрения не делает их, но, менее ошибочными.

Тест должен быть продолжительным

Если вы прекратите собственные сплит-тесты через пара дней по окончании начала процесса, вы совершите неточность. Не имеет значения, приобретаете ли вы 10 000 переходов на лендинг в сутки — полное число конверсий, очевидно, имеет значение, но маркетолог обязан кроме этого отслеживать чистое время проведения тестирования.

Мэтт Гэршофф (Matt Gershoff), CEO SaaS-решения по оптимизации пользовательского опыта, растолковывает, из-за чего продолжительность проведения теста столь серьёзна:

«Одна из трудностей онлайн-тестов — невозможность осуществлять контроль действия бессчётных пользователей. Это сложная задача, поскольку активность визитёров отличается в различное время суток, времена года и определённые дни недели. Вследствие этого мы должны быть уверены, что мы собираем статистику по каждому релевантному циклу сотрудничества пользователей с сервисом.

Таковой подход разрешает нам приобретать более репрезентативную (более статистически точную) выборку, чем выборка на базе среднестатистических значений.

Обратите внимание, что несложная сегментация не примет решение отечественную задачу, поскольку нам необходимы статистику по будним и выходным дням и т. д. Еще нам нужна ежедневная выборка данных либо же выборка в течении нескольких часов, осуществляемая пара раз в день. Такие эти разрешат вычислить средние величины посещаемости/конверсии и выяснить внешние события, воздействующие на количество трафика/конверсию.

Вся эта статистика помогает для получения правильных оценок влияния времени дней, в которое происходит сотрудничество пользователя из определенного сегмента целевой аудитории с веб-ресурсом, на конверсию. Предварительная базисная сегментация происходит на базе предпочтений пользователя: выбранные им опции сервиса, приобретённый пакет одолжений и т. д.».

Уже привычный нам эксперт по оптимизации конверсии Пип Лайя (Peep Laja) на протяжении сплит-тестов увидел любопытную довольно часто повторяющуюся закономерность:

  • Первая пара дней: новый вариант лендинга (вариант Б) побеждает с громадным отрывом, что в большинстве случаев разъясняется действием «фактора новизны».
  • По окончании первой семь дней новый вариант заметно побеждает.
  • По окончании второй семь дней вариант Б побеждает с маленьким перевесом.
  • По окончании четвертой семь дней происходит регрессия конверсии нового лендинга к среднему значению, а подъем исчезает.

Так что в случае если маркетолог останавливает тест раньше, чем через 4 семь дней (а возможно, и всего через пара дней по окончании запуска), будучи уверен, что у него на руках выигрышный вариант целевой страницы, то он совершает неточность. В то время, когда новый вариант страницы будет размещен в Сети и на него будет направлен трафик, маркетолог сможет насладиться тем, что именуется «мнимый подъем». Разочарование, но, наступит достаточно не так долго осталось ждать: да, инструмент тестирования продемонстрировал рост конверсии на 25%, но на банковском счете никакого роста не отмечается. 😉

Запустите сплит-тест на достаточно продолжительное время. Убедитесь, что он включает в себя 2 бизнес-цикла, содержит достаточно переходов и конверсий, вычисляемых в безотносительных размерах, и длится нужное для получения точных результатов время.

  • Как оптимизировать конверсию при низком трафике?

Пример мнимого подъема

Вот тест ресурса eCommerce: длительность 35 дней, таргетированный трафик принимался лишь от визитёров, заходящих с десктопов, число переходов составило примерно 3000 на любой из вариантов лендинга.

Замечаем следующую картину:

  • В первую несколько дней вариант номер 3 (светло синий линия) побеждает с солидным опережением — доход на каждого визитёра образовывает $16 против $12,5 на контрольном варианте лендинга. Имеется победитель! Многие маркетологи заканчивают тест как раз сейчас, а это — неточность.
  • Через 7 дней светло синий линия еще наверху с довольно громадным отрывом.
  • Через 14 дней побеждает вариант номер 4 (оранжевая линия).
  • По окончании 21 дня — «оранжевый» вариант до тех пор пока побеждает.
  • Финиш теста (35 сутки): отличия в показателях нет.

Представим, что на проведение теста у вас ушло меньше 4 недель — вы два раза рисковали «поставить не на ту лошадь».

Правило остановки

Так в то время, когда же сплит-тест возможно завершить?

Универсального ответа нет, в каждом конкретном случае действуют особенные факторы, определяющие момент остановки опробований. Но возможно выделить пара прекрасно зарекомендовавших себя правил, каковые понадобятся вам как правило.

Пип Лайя делится собственными правилами остановки:

  • Продолжительность тестирования не меньше 3 недель (лучше 4).
  • Предельное число достижений целей конверсии — не меньше 250-400 на любой вариант лендинга.
  • Статистическая значимость — минимум 95%.

Очевидно, 2 однообразных сплит-тестов не бывает, исходя из этого необходимо вносить соответствующие коррективы в соответствии с условиями проведения тестирования, маркетинговой нишей, типом оффера, источниками траффика и т. д.

А вот что говорит по этому поводу Тон Весселинг:

«Тестируйте как возможно продолжительнее — по крайней мере, 1 полный цикл приобретения. Чем больше данных, тем выше статистическая сокровище теста. Чем больше трафика, тем больше шанс верно выяснить победителя при достаточном уровне достоверности сплит-теста.

Маленькие трансформации на целевой странице смогут сильно повлиять на конверсию, но это случается не так уж и довольно часто. Как правило вариант-победитель будет только чуть лучше всех остальных, так что маркетологу нужен солидный массив данных для точного определения статистически точного победителя.

В случае если же тест продолжается через чур продолжительно, то участники начинают удалять cookies по схеме “10% каждые 2 семь дней”. Возвращаясь к тестированию, “испытатели” смогут предпочесть второй вариант лендинга, не тот, что в начале сплит-теста — так с течением времени ваша статистическая выборка будет “загрязняться” все больше.

В конечном счете показатель конверсии приблизится к некоему среднестатистическому значению, а сплит-тест окажется фактически ненужным. Большая продолжительность теста — 4 семь дней».

  • статистическая достоверность и Оптимизация конверсии

Что делать, в случае если через 3 либо 4 семь дней тестирования размер выборки составил меньше 400 конверсий на вариант?

В случае если за 4 семь дней статистически значимый размер выборки не достигается, рекомендуется продолжить тест еще на 7 дней.

Неизменно проводите тест полными семь дней, т. е. если вы запустили его в понедельник, он обязан закончится в воскресенье 4 семь дней спустя. В случае если тест будет прерван среди семь дней, вы имеете возможность нечайно исказить полученные результаты.

В случае если наблюдать отчет трансформации бизнес-метрик по дням семь дней, то возможно подметить определенные колебания (ежедневные флуктуации). Вот пример: по четвергам на данном веб-ресурсе выручка в 2 раза больше, чем по воскресеньям и субботам, а коэффициент конверсии по тем же четвергам практически в 2 раза выше, чем в субботу.

Так что если вы не тестируете полными семь дней, вы рискуете взять неточные эти.

Не забывайте: длительность теста отсчитывается всецело завершенными семь дней.

Не забывайте о сегментах: однообразные правила остановки для каждого из них

Сегментация есть ключом к пониманию процесса сплит-тестирования. Вот весьма распространенный пример: вариант Б целевой страницы проигрывает варианту А по неспециализированным итогам, но одновременно с этим вариант Б демонстрирует лучшую конверсию в определенных сегментах (по трафику от Facebook, среди пользователей мобильных устройств и т. д.).

Перед тем как приступить к анализу любых сегментированных данных, вы должны убедиться, что у вас имеется статистически точная выборка данных для каждого отдельного сегмента (250-400 конверсий на любой вариант).

Рекомендуется проведение таргетированных сплит-тестов с тестовой конфигурацией «целевая аудитория/сегмент» вместо анализа результатов по каждому сегменту по окончании завершения тестирования. При подобном подходе вы станете уверены, что любой сегмент имеет выборку адекватного размера.

Специалист по оптимизации конверсии Andre Morys из наибольшего в мире агентства CRO Web Arts так говорит о собственных правилах остановки «сегментированных» сплит-тестов:

«Я постоянно настаиваю на том, что маркетологам нужна репрезентативная выборка (т. е. представительный пример, англ. represantative sample), если вы желаете дабы ваши эти были по-настоящему нужны. Что имеется в виду под «представительным»? — спросите вы.

В первую очередь ваша статистика обязана включать как будние, так и выходные дни. Вы должны учитывать трансформации погоды, по причине того, что данный фактор заметно воздействует на поведение клиентов. Но самое основное: вы должны учитывать все источники трафика, в особенности eBooks либо White Papers, особые маркетинговые кампании, телевизионную рекламу — все, одним словом!

Чем продолжительнее выполняется тест, тем лучше вы осознаёте происходящее.

Как-то мы проводили тестирование большого ритейлера актуальной одежды в средней фазе летней распродажи. Было весьма интересно заметить, как во время «фазы твёрдых распродаж» результаты драматически упали до 70% и восстановились до прошлых значений спустя семь дней по окончании окончания данной фазы. Мы ни при каких обстоятельствах бы не определили об этом феномене, если бы отечественное тестирование продолжалось меньше 4 недель.

Отечественное основное правило проведения тестов звучит так: 3000-4000 конверсий на продолжительность испытания и каждый вариант 3-4 семь дней. Таковой подход снабжает количество трафика, в полной мере достаточное для начала сплит-анализа и тестов отдельных сегментов при соблюдении условия статистической значимости собранных данных.

“Смертный грех номер 1” в тестировании: искать рост конверсии в сегментах, если не достигнут порог статистической достоверности; к примеру, у вас имеется 85 конверсий против 97. Это полная ерунда».

Обучаться на тестированиях — вот что вправду принципиально важно, серьёзнее кроме того чем приобретать сиюминутную прибыль. А сегментация тестовых данных — один из лучших способов обучиться оптимизировать конверсию скоро, надежно, на жёстком фундаменте знаний, а не на зыбкой земле предположений. Легко убедитесь, что в каждом из сегментов собрано достаточно данных, а позже уже делайте какие-либо выводы.

Заключение

Не прекращайте ваш тест лишь вследствие того что вами достигнут уровень статистической значимости в 95% либо выше. Обратите внимание на безотносительное количество конверсий, приходящееся на любой вариант лендинга, и на длительность тестирования.

Высоких вам конверсий!

По данным conversionxl.com, image source Craig Johnston

Случайные статьи:

Сплит-тестирование (сплит-тест, A/B тест) — что можно тестировать?


Подборка похожих статей:

riasevastopol