Почему a/a-тестирование — пустая трата времени? — Про успех, стратегию, карьеру и маркетинг

В заголовок этого поста вынесен ответ специалиста по оптимизации конверсии Крэйга Салливана (Craig Sullivan) на довольно часто задаваемый ему вопрос: «Обязан ли я предварительно совершить A/A-тесты, дабы проверить, корректно ли подготовлен мой A/B-тест?».

Крэйг проводит сплит- и мультивариантные тестирования с 2004 года, пристально отслеживая движение каждого из них. Маркетолог согласится, что израсходовал впустую большое количество времени и напрасных упрочнений, перед тем как обучился проводить имеющие практическую сокровище тесты. И вот что с высоты собственного опыта заявляет господин Салливан:

Имеется более действенные методы применять драгоценное время, чем проводить A/A-тесты.

Сходу оговоримся: проводить А/А-тесты не то дабы в корне неправильно — методы действеннее применять время, выделенное для тестирования лендингов.

Количество проводимых тестов, несомненно, принципиально важно, но значительно серьёзнее то, какое количество их вы завершаете каждый месяц, да и то, какую пользу вы из этих действий извлекаете — от получения практического опыта до повышения прибыли и оптимизации конверсии. Проведение А/А-тестирований может «съесть» единственный по-настоящему полезный ресурс — время.

Основная хитрость масштабной программы оптимизации — понижение соотношения цены ресурсов (рабочее время, оплата услуг и трафика маркетинговой платформы), требующихся для CRO, к производительности тестирования: и достигнутым результатам скорости, количеству взятых знаний, отказу от неэффективных методик в пользу трудящихся приемов.

Действия маркетолога по запуску тестов целевой страницы в чем-то похожи на работу авиадиспетчера большого аэропорта — у вас имеется строго ограниченное количество взлетно-посадочных полос, и вы должны быть уверены, что используете их максимально действенным образом.

С опаской! Сплит-тест — это иллюзия

Ниже мы подробнее разглядим следующие темы:

Какие конкретно виды А/А-тестов существуют?
Из-за чего маркетологи выполняют А/А-тесты?
В чем заключаются неприятности А/А-тестирования?
«Нечистый секрет» сплит-тестирования
Триангуляция данных
Смотрите на тест как шеф-повар
Сегментация

Какие конкретно виды А/А-тестов существуют?

A/A — 50% распределение

Самая популярная установка параметров теста — 50/50, исходный вариант лендинга тестируется «сам против себя». Для чего?

В этом случае мысль теста содержится в подтверждении правильности (валидации) предварительных настроек. При показе одного и того же варианта лендинга 2 контрольным группам пользователей в течение достаточного долгого периода времени вы должны взять приблизительно однообразные значения конверсии от каждой группы.

Так вы определяете соотношение «сигнал/шум» (нужные/ненужные эти) в массиве приобретаемой информации. В случае если обратиться к известному примеру с подбрасыванием монетки («орел либо решка»), вы должны подбрасывать ее , пока количество выпавших «орлов» не сравнится с числом выпавших «решек».

Неприятность в том, что это воздействие занимает время, которое, в большинстве случаев, употребляется для полноценного сплит-теста. В случае если у вас громадный трафик, вы имеете возможность применить А/А-тесты, в случае если вам так угодно, но разумнее будет перед запуском сплит-тестирования предпринять следующие шаги:

кроссбраузерное тестирование лендинга
тестирование на разных типах устройств
показ посадочной страницы семье и друзьям («мама-тест»)
интеграция инструментов аналитики в процесс теста
подробное пошаговое рассмотрение плана и гипотезы тестирования

Данный комплексный способ трудится стремительнее и лучше, чем запуск А/А-тестов. Применяйте триангуляцию (ниже мы подробнее разберем данный способ), внимательно замечайте за происходящими процессами и продолжайте тестирование до успехи порога статистической значимости, дабы минимизировать влияние инструментария, волатильности проблем и трафика несовместимости браузеров/устройств на результаты тестов.

Маркетологи редко вспоминают над тем, что именно неточности, которые связаны с волатильностью трафика и некорректным отображением аналогичных посадочных страниц на разных типах устройств и в различных браузерах, являются самой распространенной обстоятельством искажения результатов A/B-теста.

Методика проведения сплит-тестирования

A/A/B/B — 25% распределение

A/A/B/B-тест — сегментирование входящего трафика на 4 выборки (25%): двум отдельным группам пользователей показывают в случайном порядке 2 варианта лендингов (A и B), что дает нам 4 вероятные комбинации страниц — A/A, A/B, B/B, B/A.

Для чего это делается? Во-первых, для предварительной проверки настроек главного сплит-теста (как в хорошем A/A-тестировании), во-вторых, для определения величины отклонений между взятыми от различных групп средними результатами тестирования.

Иначе говоря рекомбинация вариантов A/A, A/B, B/B, B/A разрешает маркетологу в один момент приобретать результаты простого A/A-теста (в то время, когда обе группы видят однообразный вариант, A либо B) и хорошего A/B-теста (последовательность показа вариантов лендингов каждой группе соответствует отдельному полноценному сплит-тесту: к примеру, A, A, B, B для первой группы).

Предположим, что вы убедились в валидности тестового инструментария, но разброс средних значений конверсии, взятых от различных групп, чрезмерно велик.

Что делать? — Успокоиться и принять как данность: основная ваша неточность в том, что вы вычисляете среднее значение на базе весьма маленькой статистической выборки.

Поясним на примере: представим, что трафик вашего лендинга/сайта — 20 визитёров. При применении A/A/B/B-теста они сегментируются на 4 выборки по 5 человек в каждой. Что будет, в случае если 5 из них являются постоянными визитёрами и случайно появились в одной статистической выборке?

Исказит ли данный фактор результаты теста?

Очевидно, да.

Из-за чего маркетологи применяют данный способ? По большей части вследствие того что он вправду трудится , если у вас маленькое количество конверсий — допустим, вы лишь начали тесты, либо у вас своеобразная маркетинговая ниша и ваш оффер таргетирован на очень узкую целевую аудиторию.

Статистическое значение имеют результаты, полученные по достижении 350 конверсий на выборку при длительности теста минимум 2 семь дней, — так вычисляет Крэйг Салливан.

Неприятность с применением этого способа содержится в том, что вы расщепляете трафик на лендинги А и В на 4 сегмента, так что «эффект перекоса» (effect of skew) проявляется посильнее, действенный размер выборки меньше, а следовательно, показатель неточностей (error rate) для каждой отдельной выборки выше.

Несложнее говоря, шансы на то, что в этом случае вы получите заведомо искаженные эти, выше, чем при простого А/В-теста. Кроме этого вследствие того что размеры выборок меньше, показатель неточностей будет выше для каждого проводимого измерения.

Если вы попытаетесь применить тестирование по схеме A/не/меньше/B/B/B, вы влияние «результата перекоса». По большому счету, суть всех этих предварительных приготовлений сводится не к определению того, как следствия тестов, полученные от аналогичных выборок, отклоняются от среднего значения (такие отклонения именуются флуктуацией) — речь заходит о том, как флуктуация коррелирует с уровнем сегментации трафика (данный вопрос будет рассмотрен ниже).

Как оптимизировать конверсию при низком трафике?

A/B/A — лучший метод

Данный способ имеет следующие преимущества: он разрешает распознать неприятности маркетингового инструментария (как простой A/A) с меньшими затратами времени. Действительно, у него имеется тот же недочёт, что и у A/A/B/B-теста: 2 однообразные выборки (A) будут получать пропорционально в 2 раза меньше трафика на каждую, следовательно, показатель неточностей для них будет выше.

И, очевидно, потому, что 2 выборки А будут маленькими, тестирование до успехи статистически значимых результатов займет больше времени, чем при простого A/B-теста.

Однако, перед нами — лучший метод валидации теста. Не смотря на то, что без данной стадии подготовки к главному сплит-тестированию в полной мере возможно обойтись.

Из-за чего маркетологи выполняют А/А-тесты?

Время от времени они делают это вследствие того что в кругах маркетологов A/A-тесты считаются чем-то наподобие «визитки» хорошего эксперта по оптимизации, залогом того, что главный тест будет совершён максимально шепетильно и непредвзято.

A/A-тест кроме этого рассматривается как «главная репетиция» перед главным действием — это эргономичный метод запустить процесс с предварительной отладкой: ясно, что ремонт автомобиля «на ходу» обойдется значительно дороже, чем его техобслуживание в гараже.

Но в отличие от качественного предстартового технического обслуживания A/A-тест неимеетвозможности удалить все недостатки, содержащиеся в догадке, средствах и сценарии практического сплит-тестирования. Быть может, что A/A-тест стоит применять в случаях, в то время, когда вы контролируете какой-то сложный метод главного тестирования, что вы собираются использовать в будущем. Но предварять любой сплит-тест предварительным A/A-тестированием совсем не обязательно.

Дедукция как разработка сплит-тестирования

В чем заключаются неприятности А/А-тестирования?

Неприятность в первую очередь содержится в том, что вы тратите настоящий платный трафик и драгоценное тестовое время на предварительную операцию (фактически A/A-тест), никак напрямую не содействующую ни оптимизации конверсии, ни росту доходов.

Если вы пробуете запустить 40 сплит-тестов в месяц, то у вас фактически не будет возможности приобретать «живые эти», проанализировать их и внести нужные коррективы в процесс тестирования — целый время и ваш трафик будут поглощены предварительным тестированием, которое должно продолжаться не меньше 2–4 недель. А стоит ли оно того?

Вторая неприятность кроется в том, что практически 80% A/A-тестов в какой-то момент достигнут порога статистической значимости. Иначе говоря тестовая совокупность констатирует, что с высокой степенью достоверности уникальный вариант лендинга лучше, чем уникальный вариант лендинга. Из-за чего?

По причине того, что такова величина тестовой выборки, и по причине того, что вы принимаете тест неправильно.

А если вы используете мелкую выборку, вы имеете возможность прийти к фальшивому умозаключению, что у вас что-то не в порядке — не достаточно трафика, нехорошие инструменты аналитики и т. д., не смотря на то, что это, быть может, далеко не так.

Еще одна неприятность: в то время, когда вы проводите A/A-тестирование, вы сравниваете конверсионную производительность двух аналогичных целевых страниц. количество и Размер выборки данных, что потребуются вам чтобы убедиться в отсутствии значимого искажения результатов, будут огромными если сравнивать с A/B-тестом.

какое количество людей необходимо, дабы при опробовании «слепым способом» вкуса кока-колы (против той же кока-колы) заключить, что всем участникам теста данный напиток понравился одинаково? 500 человек? 50 000 человек?

Миллион?

Как раз исходя из этого умелые маркетологи ни при каких обстоятельствах не выполняют сплит-тесты с весьма похожими целевыми страницами — найти предельно небольшие преимущества одного варианта лендинга над вторым весьма тяжело. При аналогичной страницы эта задача делается фактически невыполнимой: вы имеете возможность проводить A/-A тест на пара недель продолжительнее, чем конкретно сам A/B-тест и не взять никакой полезной информации — или вследствие того что «сломались» настройки теста, или вследствие того что «сломалась» ваша свойство осознавать статистические выборки.

Хорошим примером маркетологов, не до конца осознающих что и для чего они делают, смогут послужить те «специалисты», что настойчиво выполняют затяжные A/A-тестирования, забывая о существовании вторых источников искажений результатов тестов: медлительно преобразующихся пользователях (Slower Converter) и эффекте новизны (Novelty Effect).

статистическая достоверность и Оптимизация конверсии: это что может значить?

Медлительно преобразующиеся пользователи

Если вы станете проводить сплит-тест в течение 2 недель, а средний покупательский цикл образовывает 4 семь дней, вы, останавливая тестирование, «вырежете» из учитываемой выборки некоторых пользователей, находящихся в конверсионной воронке, но не прошедших ее до конца. Подобное ответ неизбежно приведет к искажению результатов теста.

Вот из-за чего маркетологу принципиально важно знать продолжительность покупательского цикла — в A/B-тесте не должны учавствовать лишь скоро преобразующиеся пользователи, составляющие только некую часть от всей целевой аудитории оффера.

Маркетолог Тон Весселинг (Ton Wesseling) рекомендует не останавливать тест, в то время, когда вы «закрываете» главную массу новых визитёров. Пускай те пользователи, что прошли лишь часть конверсионной воронки, видят, что опыт длится, и продолжают перемещение к ее финальному этапу. Это хороший метод совершить участника через тестовую совокупность и расширить статистическую выборку — соответственно, и точность взятых результатов — без привлечения новых пользователей.

Эффект новизны

Уточнив продолжительность покупательского цикла, вы имеете возможность оптимизировать финальную фазу тестирования. А возможно ли избежать искажений, появляющихся на начальной стадии опыта? Да, но для этого направляться устранить влияние так именуемого «результата новизны».

Предположим, что первый участник тестирования посещает реализовывающий лендинг в течение 4 недель (продолжительность покупательского цикла), наряду с этим он все время видел ветхий вариант целевой страницы некоего неповторимого товарного предложения. На протяжении собственного последнего визита он видит прекрасную страницу, значительно лучше нежели прежде раскрывающую преимущества данного оффера. Участник срочно принимает ответ о покупке — все, конверсионное воздействие совершено.

Второй участник, замечавший одинаковый вариант лендинга в течение тех же 4 недель, посещает страницу в очередной раз и так же, как и прежде видит ветхую (контрольную) версию страницы. По окончании 4 недель у обоих участников заканчивается их «жизненный цикл» в рамках проводимого сплит-теста, но один успел завершить конверсию, по причине того, что заметил новый вариант лендинга, второй — нет.

Так эффект новизны искажает результаты теста. Теоретически, нежелательное влияние возможно минимизировать, начав тест на пара недель раньше и «маркируя» всех визитёров посредством cookie — так вы отфильтруете для принятие участия в опыте лишь новых пользователей, а не тех, кто возможно подвержен влиянию результата новизны в конце покупательского цикла. Нужно, дабы участники сплит-тестирования пребывали на одном и том же этапе пользовательского цикла.

На результаты сплит-теста воздействует множество искажающих факторов, и большая часть из них посредством A/A-теста распознать запрещено.

Эффект первичности в интернет-маркетинге

«Нечистый секрет» тестирования

Любой бизнес имеет собственные особенности, подвержен влиянию тенденций рынка, подчиняется определенным законам цикличности. Анализ результатов сплит-тестов, наблюдение за поведением целевой аудитории на лендингах и сайтах — лучшие методы обучиться оптимизации маркетинговых стратегий, непременно.

Но в практике тестирования имеется одна «нечистая тайна».

Вы взяли 15% прирост конверсии на протяжении сплит-тестов, совершённых в январе этого года? Так вот — быть может, что таких результатов вы не добьетесь ни при каких обстоятельствах больше!

Из-за чего? Ну может произойти так, что вам сократят бюджет на PPC-маркетинг, значит, вы станете приобретать более «холодные» лиды. Быть может, вы дадите рекламу по ТВ, что оттолкнет от вашего бренда людей, высоко ценивших ваши прошлые online-креативы.

Не смотря на то, что подождите минуточку — все может трудиться значительно лучше, чем вы думаете. Но вы этого не понимаете. Это как известный парадокс «кота Шрёдингера» (Schrodinger s Cat): вы не понимаете, продемонстрирует ли повторно совершённый сплит-тест тот же подъем конверсии.

В этом содержится неприятность последовательного тестирования — вы должны двигаться дальше, не зная, сохранился ли прирост конверсии, зафиксированный в каком-либо из ранее совершённых сплит-тестов.

Не прекращайте тесты насовсем

Дабы убедится в том, что в ходе сплит-тестирования был выбран лучший вариант лендинга, Крэйг Салливан оставляет законченные тесты, трудящимися «на холостом ходу» (5–10% от количества тестового трафика) на пара недель по окончании их «официального закрытия».

Если вы всегда занимаетесь оптимизацией и тестированием, то это беспокойство о внесенных на лендинг трансформациях носит скорее отвлечённый интерес, по причине того, что главным подтверждением вашей правоты помогает повышение количества лидов и прирост прибыли — критерии чисто практические.

Неприятность в том, что маркетологи тестируют какой-то элемент маркетинговой стратегии, оптимизируют его, а после этого раз и окончательно забывают о нем. Но у Крэйга имеется лендинги, к каким он возвращается 4 года спустя по окончании окончания сплит-теста и все еще находит резервы для оптимизации.

Не тратьте силы — сфокусируйтесь на «внушаемых» клиентах!

Триангуляция данных

Отметим, что триангуляция имеется «применение нескольких исследовательских способов как метод получения более точных эмпирических данных если сравнивать с результатами, приобретаемыми при применении какого-либо одного способа в отдельности».

Несложнее говоря, маркетолог на протяжении сплит-теста обязан располагать как минимум 2 пакетами анализа и инструментов метрики.

Это разрешит вам иметь 2 массива данных для триангуляции либо сверки результатов, взятых от различных источников, между собой. Если вы увидите резкую диспропорцию, то сможете устранить ее источник перед началом фактически сплит-теста.

Умелые маркетологи много раз сталкивались с расхождением данных, взятых от инструментов A/B-тестирования, с метрикой, выдаваемой аналитическими пакетами типа Гугл Analytics. Исходя из наличия данной неприятности, вы просто не имеете возможность доверять метрике, взятой из единственного источника — у вас в резерве должен быть другой вариант данных для сравнения.

Не плачьте о потерянных данных, в то время, когда будет поздно —, что вы застраховались от аналогичных проблем. К тому же наличие 2 достаточно инструментов метрики упрощает своевременную диагностику данных, приобретаемых на протяжении сплит-теста.

Смотрите на тест как шеф-повар

Маркетолог обязан доходить к каждому тестированию как известный повар к приготовлению трудоемкого «коронного блюда»: он обязан всегда искать, дегустировать, пробовать и перепроверять собственный сплит-тест от начала и до конца.

Вот что по этому поводу говорит Салливан:

«Основное, что я получил от внимательного наблюдения за тысячами тестирований — сейчас я интуитивно ощущаю, что происходит и что может пойти не так. Время от времени я могу контролировать тест сотню раз в неделю без видимой обстоятельства, легко по причине того, что разброс результатов выглядит странным для меня.

Сопротивляйтесь искушению нарисовать прекрасный график в начале тестов и подгонять приобретаемые эти под него!

В случае если тест идет меньше одного бизнес-цикла (покупательский цикл), к примеру, семь дней — игнорируйте результаты. В случае если у вас меньше 350 завершенных конверсий на выборку — не говоря уж о 250 — игнорируйте результаты. В случае если приобретаемые эти до тех пор пока что резко отличаются друг от друга — игнорируйте результаты.

Ваше “блюдо” еще не готово.».

Сегментация

Любой умелый маркетолог знает, что метрика, приобретаемая от лендинга, с течением времени заметно изменяется: допустим, что на веб-ресурс приходят случайные визитёры, заметившие вашу новую рекламу; это изменение трафика с неким временным лагом воздействует на характер и точность данных, приобретаемых вами.

Громадная неприятность с результатами сплит-тестов кроется в том, что маркетолог приобретает некие средние значения, не обращая внимания на то, что скрыто в «среднего» — отдельные сегменты трафика.

Применяя инструменты аналитики (тот же Google Analytics), вы имеете возможность настроить большую производительность тестирования для каждого сегмента. Но тут требуется громадная осторожность: чем больше у вас сегментов, тем меньше размер статистической выборки, соответствующей каждому из них. Не дробите трафик на совсем уж маленькие сегменты либо по крайней мере не доверяйте слепо данным, взятым при низком количестве завершенных конверсий либо от очень маленькой группы пользователей.

Сегментация может дать вам крайне полезную данные о релевантности A/B-тестирования, по причине того, что она базируется на известных атрибутах визитёров — демографические характеристики, история посещений и т. д., — а не на абстрактных и неточных цифровых данных. Если вы запускаете неудачный сплит-тест, не приведший к приросту конверсии, вы однако имеете возможность заметить, как разные группы (сегменты) пользователей отреагировали на вашу догадку тестирования, а это сама по себе весьма полезная информация.

Сегментация клиентской базы как инструмент увеличения эффективности бизнеса

Вместо заключения

Будущее сплит-тестирования в собственности все более правильной персонализации тестов, все более узкой сегментации трафика — но, очевидно, без фанатизма! 😉

Получению правильных результатов тестов содействует не только вышеупомянутая сегментация, но и триангуляция — использование более чем одного пакета инструментов метрики и аналитики. Никто, очевидно, не отменяет, «антропогенный фактор» — персональный опыт маркетолога, совершившего большое количество тестирований.

Имеется ли польза от A/A- и A/A/B/B-тестов? Быть может, что мы что-то упускаем из виду, но вероятнее, эти тесты попросту ненужны. До тех пор пока что какое количество-нибудь убедительных соперников у хорошего ветхого A/B-теста нет.

Высоких вам конверсий!

По данным conversionxl.com, image source flickr.hannahmartin

Случайные статьи:

КИНО ЭТО ПУСТАЯ ТРАТА ВРЕМЕНИ

Подборка похожих статей:

Почему иногда сплит-тест — это пустая трата времени?

Все уже давно привыкли к мысли, что сплит-тестирование постоянно приносит собственные плоды. Но сейчас мы обрисуем кейсы, в которых они ненужны, и…
Почему a/b-тесты уменьшают конверсию

В Driveback мы всегда сталкиваемся с необходимостью проведения A/B-тестов для проверки тех либо иных догадок. На проведении многих A/B-тестов настаивают…
Осторожно! сплит-тест — это иллюзия

Мы специально применяли данный провоцирующий заголовок для привлечения вашего внимания. Этот пост вправду ответствен для любого практикующего…
82% Маркетологов не умеют тестировать. и вот почему

По мере того, как оптимизация конверсии делается приоритетом для большинства компаний, появляется множество разной информации о формах, инструментах и…

Случайные статьи:

КИНО ЭТО ПУСТАЯ ТРАТА ВРЕМЕНИ

Подборка похожих статей:

riasevastopol