Поднимая «занавес тайны» над p-значениями, или как научиться любить малые данные (small data)

При всех восторженных беседах о том, как прекрасны (и как они огромны, не забудьте упомянуть об этом!) громадные эти (Big data), один из самых любимых маркетологами инструментов оптимизации конверсии (CRO) — сплит-тестирование — трудится очевидно с малыми данными (small data). Сама же по себе оптимизация, успешная либо нет, определяется множеством факторов, но наконец-то сплит-тестирование в конечном итоге сводится лишь к изучению статистической выборки.

Предположим, что вы показываете 2 другие предположения надписи на CTA-кнопке (к примеру, «Скидка 50%» против «Получите два по цене одного») визитёрам вашего лендинга. Вы смотрите, как прекрасно трудится любой вариант, а после этого принимаете ответ, какой из них оставить на посадочной странице для получения большой отдачи.

В случае если делать выводы по описаниям, то сплит-тест представляет собой достаточно несложный процесс. В некоем смысле так и имеется. Сложности появляются тогда, в то время, когда появляются вопросы довольно статистической значимости совершённого тестирования, например, о том, что такое P-значение (P-value) и как его возможно трактовать чтобы с уверенностью принимать обоснованные бизнес-ответа.

Дабы начать разбираться в этих в действительности глубоких вопросах, необходимо иметь базисное представление о том, что такое выборка данных (sampling, сэмплинг).Поднимая «занавес тайны» над p-значениями, или как научиться любить малые данные (small data)

  • Что такое Big Data в маркетинге: неприятности, методы, способы анализа

«Сыр без молока не сделать»

Мэтт Гершофф (Matt Gershoff), специалист по оптимизации конверсии с более чем 15-летним опытом, так растолковывает важность выборки:

«У меня в колледже был доктор математических наук, что взлетал как баллистическая ракета, в то время, когда кто-нибудь в классе допускал неточность, связанную с базисными концепциями его науки. Должно быть, он вырос на ферме, поскольку его остроты имели некоторый сельскохозяйственный оттенок.

Его любимым присловьем было: Как вы имеете возможность сделать сыр, если вы не понимаете, где забрать молоко?.

Наряду с этим доктор наук, возможно, имел в виду, что запрещено действенно воплощать идеи на практике, если не понимать их концептуальные базы. Для оптимизатора конверсии условным сыром станет сплит-тестирование, а выборка будет молоком».

Попытаемся узнать, где мы сможем отыскать отечественное «молоко».

Пара предварительных пояснений

Для начала напомним, из каких базисных «строительных блоков» состоят A/B-тесты:

Среднее значение (Mean) — средняя величина (Average), среднее число конверсий; отметим, что для коэффициента конверсии (Conversion rates) это не составит большого труда число событий n (конверсий), умноженное на возможность (n*p).

Дисперсия случайной величины (Variance) — средняя вариабельность (изменчивость) данных. Главный суть этого параметра: чем выше дисперсия, тем с меньшей точностью возможно угадать среднее значение для каждого отдельного участника статистической совокупности.

Распределение возможности (Probability distribution) — это функция (для простоты возможно думать о распределении как о правиле), определяющая возможность некоего результата (финала). К примеру, итог бросания игральной кости определяется равномерному распределению возможности — все числа имеют один шанс из 6 появляться на верхней грани кубика (возможность p = 1 / 6).

В предстоящих рассуждениях о выборке мы будем по большей части применять обычное распределение, графически отображающееся в виде колоколообразной кривой. Не забывайте, что распределение возможности в совокупности равняется 1 (100%).

  • Что такое статистическая значимость при оптимизации конверсии?

Статистический критерий как еще один главный показатель эффективности

Статистический критерий (Test statistic) — это показатель, применяемый при проведении сплит-тестов для сравнения результатов, взятых при опробовании варианта А и варианта B примера (к примеру, различных заголовков лендинга; вариантов возможно больше двух). Статистический критерий несложнее всего принимать как еще один из главных показателей эффективности (KPI, Key Performance Indicator).

В случае если данный KPI отечественного сплит-теста близок к нулю, то у нас нет особенных оснований считать, что отечественные 2 варианта вправду отличаются.

Но чем дальше от нуля этот показатель, тем у нас больше доказательств, что эти 2 предположения различаются по коэффициенту конверсии.

Новый KPI учитывает отличие между средними значениями (Mean) конверсии тестируемых вариантов и включает в себя вариабельность результатов опробований.

Статистический критерий вычисляется по следующей формуле:

где Mean of ‘A’ и Mean of ‘какое количество’ — среднее значение конверсии для вариантов А и В, Variance of ‘A’ и Variance of ‘B’ — дисперсия случайной величины для тестирования варианта А и для тестирования варианта B, n — совокупное число конверсий.

До тех пор пока данный показатель думается сложным, не следует через чур зацикливаться на математике: все сводится к определению разности между A и B — как отличия при простом сравнении двух объектов — и делению взятой разности на вычисленную вариабельность данных.

Чем выше показатель вариабельности в знаменателе отечественной дроби, тем громадную сокровище для устранения всякой неопределенности получает разность, замечаемая в числителе: кроме того если она достаточно громадна, громадная вариабельность нивелирует ее и отечественный статистический критерий так же, как и прежде будет близок к нулю.

Получается, что чем выше дисперсия случайной величины, тем больше должна быть замечаемая отличие показателей, дабы мы имели возможность взять высокое значение KPI отечественного теста.

Не забывайте, что чем выше значение статистического критерия, тем больше у вас настоящих доказательств, что отличие в показателях конверсии не позвано некой случайностью.

  • Как показалось понятие о среднем значении?

Сперва определяем выборку

Сейчас отклонимся от прошлой темы отечественного повествования и уделим мало внимания выборке, что в будущем разрешит нам пролить свет на загадочное P-значение.

Для наглядности предположим, что мы устраиваем и пробуем прорекламировать конференцию по вопросам веб-оптимизации и аналитики конверсии. Так как отечественное мероприятие будет иметь успех лишь тогда, в то время, когда нас посетит хотя бы некий нужный минимум участников, мы желаем мотивировать их на предварительную регистрацию. Ранее мы применяли промокод «Analytics200» для получения 200-долларовой скидки на право участия в конференции.

Но с учетом того, что сплит-тестирование — это актуальная, «тёплая» тема, может ли быть так, что другой промокод «A/BTesting200» окажет помощь нам расширить количество прошедших регистрацию?

Следовательно, нам необходимо совершить сплит-тестирование контрольного («Analytics200») и другого («A/BTesting200») промокодов.

Мы обычно принимаем сплит-тест как один неразрывный процесс, не смотря на то, что в действительности его практическая «механика» делится на 2 части:

  1. Сбор данных (Data Collection) — та часть, в то время, когда мы показываем пользователям в качестве промокода или «Analytics200», или «A/BTesting200». Потом мы заметим, что тут прослеживается некоторый компромисс между большей информированностью (меньшей вариабельностью) и затратами. Из-за чего затратами? Вследствие того что мы вкладываем и время, и предшествующий возможно лучший вариант в сплит-тест, сохраняя надежду, что мы отыщем что-то лучшее, чем то, что у нас имеется на данный момент. Само по себе A/B-тестирование не есть оптимизацией — это инвестиция в данные.
  2. Анализ данных (Data Analysis) — вторая добрая половина процесса тестирования, в которой мы выбираем способ получения вывода из «сырых» данных, собранных нами. Для большинства маркетологов, проводящих сплит-тестирование, это будет хороший подход — проверка нулевой догадки. Вторая часть — это в то время, когда мы выбираем статистическую значимость (Statistical Significance), вычисляем р-значение и делаем выводы.

Узкие различия между способами получения выводов кроются в различии фундаментальных догадок о случайности и статистике в целом. В случае если кратко, то британский статистик Рональд Эйлмер Фишер (Ronald Aylmer Fisher) применял P-значение как доказательный критерий, разрешающий отвергнуть нулевую догадку (Null hypothesis); а Пирсон (Pearson) и Нейман (Neyman), к примеру, для проверки статистических догадок ввели в математическую статистику понятия неточностей ошибок и первого рода второго рода (Type 1 and Type 2 errors).

Потому, что в подходе Фишера к тестированию P-значения играются решающую роль, то мы будем пользоваться его методикой.

  • 17 самых довольно часто задаваемых вопросов о сплит-тестировании

Косвенная логика статистического тестирования

Предоставим Мэтту Гершоффу возможность на несложном примере растолковать нам одну из наиболее значимых черт статистической значимости:

«в один раз ночью Салли и Боб ожидают Джима, давшего обещание подвезти их к себе по окончании работы. В случае если Боб возвращается к себе с Джимом практически каждую ночь, то у Салли это будет в первоначальный раз. Боб говорит Салли, что в среднем он ждёт Джима около 5 мин..

По окончании приблизительно 15 мин. ожидания Салли начинает подозревать, что Джим не приедет, дабы подвезти их. Тогда Салли задаёт вопросы Боба: “Ты заявил, что Джим появляется здесь через 5 мин. ожидания в среднем. А ожидать его 15 мин. — это в порядке вещей?” Боб отвечает: “Не переживай, тут такое автомобильное перемещение, что для меня бывает ожидать так продолжительно, как мы на данный момент ожидаем, если не продолжительнее.

В соответствии с моему опыту такое случается приблизительно в 15% случаев, в то время, когда я поджидаю Джима”. Салли мало успокаивается.

Обратите внимание: Салли задала вопрос лишь о том, как довольно часто приходится ожидать Джима столь продолжительно. По окончании того, как она выяснила, что замечаемое ею время ожидания не есть особенной уникальностью, она почувствовала себя более комфортно, словно бы бы Джим уже показался на горизонте.

Примечательно, что в действительности она желала знать, как велика возможность того, что Джим подвезет их. Но этого она не определила. Скорее, она только взяла сведения о том, какова возможность — с учетом всех поездок Боба с Джимом — появления водителя на 15 мин. позднее.

В данной косвенной логике и содержится сущность классической статистической проверки догадки».

Возвратимся к нашей гипотетической конференции

Для аргументации отечественных последующих рассуждений предположим, что реклама конференции через промокод «Analytics200» имеет подлинный коэффициент конверсии 0,1 (10%). В реальности данный показатель скрыт от нас — вот из-за чего мы прежде всего уделяем внимание выборке — но в отечественном моделировании сплит-теста мы совершенно верно знаем, что конверсия равна 0,1. Значит, любой раз, в то время, когда мы отправляем промокод «Analytics200», приблизительно 10% получателей рассылки регистрируются на конференцию.

Итак, послав 50 потенциальным визитёрам отечественной конференции промокод «Analytics200», мы ожидаем взять приблизительно 5 лидов. Но мы не будем поражены, что в конечном итоге подписчиков окажется немного меньше либо больше. Но что означает «пара»? Будем ли мы поражены, заметив цифру 4? А как по поводу 10?

25 либо по большому счету нуля?

А понимаете ли вы, что P-значение может ответить на вопрос, как неожиданным будет результат?

Разовьем эту идею: заберём несколько группу из 50 потенциальных лидов, а 1000 отдельных выборок по 50 человек в каждой (в общем итоге 5000 участников). По окончании запуска симуляции сплит-теста и ее графического отображения возьмём гистограмму, расположенную ниже:

По горизонтальной оси расположены сгруппированные по частоте повторяемости коэффициенты конверсии (Conversion Rate Bins), по вертикальной — процентное соотношение выборок

Результаты отечественного моделирования продемонстрировали нам Conversion rates, расположенные в диапазоне 2% до 20%, а средний коэффициент конверсии 100 выборок составил 10,1%, что страно близко к его подлинному значению.

  • статистическая достоверность и Оптимизация конверсии: это что может значить?

Необычные факты о выборках

Факт 1

Среднее значение конверсии повторяющихся выборок будет равняется среднему коэффициенту преобразования для главной совокупности, из которой были забраны выборки.

Факт 2

Коэффициенты конверсии выборок будут примерно равняться обычному распределению (Normal distribution; распределение Гаусса) — это указывает, что большинство выборок дает результаты преобразования, группирующиеся около среднего значения конверсии, а случаи резких отклонений от среднего значения будут видеться весьма редко. Следовательно, мы можем применять свойства обычного распределения (распределение Стьюдента, либо t-распределение), дабы определить, как неожиданными будут полученные нами результаты сплит-тестирования.

Это ответственное умозаключение, по причине того, что кроме того в случае если коэффициент преобразования каждой отдельной выборки не соответствует подлинной конверсии, то, наверное, он ближе к этому значению, чем нет. Моделирование теста продемонстрировало, что 53% выборок имеет конверсию от 7 до 13%. Таковой разброс результатов именуется неточностью выборки (Sampling error).

Осталось определиться с размерами выборки. Имеется 2 параметра, определяющих доброкачественность выборки, т. е. какое количество неточностей выборки мы возьмём:

1. Естественная вариабельность отечественной главной совокупности.

2. Размер выборок.

Мы не имеем никакого контроля над изменчивостью главной совокупности, но мы можем руководить размером выборки. За счет его повышения мы уменьшаем неточность выборки, следовательно, мы будем более уверенны, что конверсия отечественной выборки приблизится к подлинному среднему значению.

Факт 3

Разброс результатов тестирования выборок снижается с возрастанием количества выборочной совокупности (N). Чем больше размер выборки, тем правильнее результаты теста каждой из них соответствуют подлинному среднему значению.

В случае если мы подготовим еще один комплект выборок для моделирования теста, но в этом случае повысим размер выборочной совокупности с 50 до 200 человек, то разброс измеренных конверсий снизится до диапазона значений от 5% до 16,5% против прошлого — от 2% до 20%. Обратите внимание, что промежутку коэффициентов конверсии от 7% до 13% будут соответствовать 84% выборок, в то время как при совокупной выборки, насчитывавшей 50 потенциальных лидов, данный показатель равнялся 53%.

Гистограмма для 100 выборок по 200 человек в каждой

Мы можем вычислять размер выборки собственного рода «регулятором», манипулируя которым мы уменьшаем либо увеличиваем точность отечественных оценок. Увеличивая количество составляющих отечественных выборок до бесконечности, мы приобретаем идеально ровные кривые обычного распределения. В условном «центре» каждой из них будет находится подлинное среднее значение, а ширина кривой (дисперсия) будет распределяться размером каждой выборки.

На левом графике значения, наверное, расположены на большом растоянии от подлинного среднего, на правом — ближе к подлинному среднему.

  • Как трудятся сплит-тесты: памятка для гуманитариев

Из-за чего эти не всегда должны быть громадными

Кроме того в случае если экономика с чисто отвлечённой точки зрения не есть настоящей наукой, она также внесла свою лепту в сокровищницу знаний человечества. К примеру, вот это правило: при других равных условиях мы должны ожидать, что каждое отечественное последующее вложение будет приносить меньший доход, чем предыдущее. Данный принцип убывающей доходности в полной мере применим к процессу сплит-тестирования.

График зависимости величины стандартной неточности выбора (Standard Error) от размера выборки (Samples Size)

На графике мы видим, что с повышением размера выборочной совокупности неточность выборки минимизируется. Но понижается она с неизменно уменьшающейся скоростью, что свидетельствует, что мы приобретаем меньше и меньше информации от каждого прибавления составляющих в отечественной выборке.

Так получается, что в данном конкретном случае переход к размеру выборки в 50 единиц быстро сокращает неопределенность, но следующее повышение выборочной совокупности с 150 до 200 человек уже не дает столь заметного трансформации. В противном случае говоря, мы сталкиваемся с повышением затрат на получение какой-либо дополнительной точности результатов. Это явление именуется предельной величиной (Marginal value) данных, и его принципиально важно иметь в виду, в то время, когда речь идет о тестировании.

Как раз в силу существования предельной величины более дорогостоящими и трудоемкими становятся сплит-тесты вариантов, имеющих весьма родные по значениям коэффициенты конверсии — тяжелее всего выбирать, основываясь на минимальных отличиях результатов.

Отечественный статистический критерий — как уже отмечалось ранее — учитывает величину отличия между результатами тестов для вариантов А и В, да и то, как велика вариабельность (изменчивость) отечественных данных. В случае если замечаемая отличие идет вверх, то статистический критерий возрастает; понижаться он начинает при повышении неспециализированной дисперсии.

Формула определения статистического критерия (t) с подстановкой переменных для отечественного гипотетического тестирования

С этого момента будем принимать отечественный статистический критерий строго по существу, не углубляясь в подробности — так, как мы поступали, приобретая выборки для отечественных средних значений. Таким же образом как ранее на одиночное среднее значение мы сейчас наблюдаем на разность 2 средних — B и A. Выясняется, что отечественные «3 необычных факта о выборках» с таким же успехом применимы и к разностям средних значений.

А сейчас, разглядев теоретические базы, мы наконец-то можем близко приступить к Р-значениям.

  • Пивовар, революционизировавший прикладную статистику

Осуществлять контроль, не впадая в нарциссизм

Вот как это трудится. Мы собираем эти для обоих вариантов промокодов, «Analytics200» (А) и «A/BTesting200» (В). После этого мы делаем вид, что запускаем A/A-тест (не A/B!).

Следовательно, мы наблюдаем на итог так, словно бы бы мы рассылали всей подписной базе один промокод «Analytics200».

Потому, что мы сами подбирали совокупности тестируемых образцов, мы знаем, что обе группы данных будут центрироваться около одного и того же среднего значения, владея однообразной дисперсией — не забывайте, что мы притворяемся, словно бы обе выборки забраны из одной главной совокупности (получатели промокода «Analytics200»). Так как нас интересует как раз отличие результатов, мы ожидаем, что разность средних значений (Analytics200 – Analytics200) будет равна нулю, поскольку конверсия однообразной выборки должна иметь одно да и то же значение.

Применяя «3 факта о выборках», возможно с достаточной степенью достоверности смоделировать гипотетический A/A-тест. Мы ожидаем, что в нашем случае в среднем никакой отличия в итогах между каждой выборкой не будет.

Возможность получения значимых (хороших от нуля) результатов

Зная об неточности выборки (Sampling error), мы не будем поражены, заметив, что значения разности результатов будут близки к нулю, не смотря на то, что и не равны ему. Но мы удивимся тому, что итог определяется тем, как на большом растоянии от нуля он расположен. Дабы совершенно верно сообщить, как возможно появление результатов, хороших от нуля, нам достаточно принять как факт, что отечественные эти подчиняются обычному распределению.

Значения, находящиеся на большом растоянии от нуля (к примеру, 3 либо –3), имеют низкую возможность появления в итогах теста.

  • Из-за чего A/A-тестирование — безлюдная трата времени?

Наконец-то P-Value!

Последний ход: наблюдаем, где отечественный статистический критерий значительно уменьшается на данном распределении. Запустив A/A-тест, в диапазоне между – 2 и 2 мы не заметим ничего неожиданного. За пределами упомянутого диапазона мы найдём достаточно редко приобретаемые результаты.

Сейчас наложим отечественный статистический критерий (t) на график распределения результатов A/A-теста. Так мы сможем разглядеть, как на большом растоянии он находится от нуля, и какова возможность взять такое значение на протяжении A/A-теста.

Статистический критерий (t) при наложении на кривую результатов A/A-теста может оказаться в «области ожидаемых результатов» (Not Surprising) либо в «области неожиданных результатов» (Surprising)

Мы видим, что статистический критерий находится в «области неожиданностей». Возможность появления «области неожиданности» определяется P-значением. Формально говоря, P-значение имеется возможность заметить хороший от нуля (превосходящий) итог при предположении, что нулевая догадка верна.

В случае если отечественный тестовый критерий был в «области неожиданности», мы отвергаем нулевую догадку (как это было бы при настоящего A/A-теста). В случае если итог находится в «области ожидаемых результатов», мы принимаем догадку и проводим настоящий сплит-тест.

  • С опаской! Сплит-тест — это иллюзия

Вместо заключения: 7 выводов

Вот что необходимо не забывать о P-значениях:

1. Тот, кто проводит тест, тот и определяет, что такое «неожиданность»

В действительности получается, что вывод из результатов теста зависит от того, кто делает данное изучение. То, как довольно часто вы станете удивляться, зависит от того, как высоко P-значение, которое вы должны заметить (либо «уровень доверия» в способе Пирсона-Неймана; к примеру, 95%), дабы «удивиться».

2. Логика применения Р-значения очень извилиста

Мы должны вычислять, что нулевая догадка верна, дабы оценить аргументы, благодаря которым мы можем отвергнуть нулевую догадку. Эта необычная логика и есть постоянным источником путаницы.

3. Р-значение ничего не может сказать нам о возможности того, что вариант В лучше, чем А

Кроме этого мы не определим, сколь громадна возможность того, что мы совершили ошибку, предпочтя один вариант второму. Эти ошибочные представления очень обширно распространены, но однако они остаются фальшивыми.

Эту неточность довольно часто совершают кроме того так именуемые «специалисты». Сейчас вы сможете растолковать им, что P-значение имеется только возможность получения хорошего от нуля результата , если нулевая догадка верна.

4. В научном сообществе бурлят дебаты о значимости P-Value для извлечения выводов из сплит-тестов

Многие маркетологи отстаивают хорошую диагностику на статическую значимость как «золотой стандарт» отрасли, но среди экспертов по статистике по этому поводу не утихают споры.

5. Вы постоянно можете взять высшее (значительное) P-значение

Не забывайте, что стандартная неточность с одной стороны зависит от трансформаций главной совокупности данных, с другой — от размера выборки. На трансформации мы никак воздействовать не можем, но нет ничего, что мешает нам — в случае если мы готовы «платить» за это — безостановочно собирать всё больше и больше данных.

На деле, но, появляется вопрос: имеется ли польза от взятых результатов? Сам по себе факт, что итог имеет высокое P-значение (либо есть статистически значимым в подходе Пирсона-Неймана), не имеет никакого практического значения.

6. Не волнуйтесь беспричинно

Самое основное — вначале собрать эти, на базе которых возможно выработать трудящуюся идею. Выбор между вариантами, мало различающимися меж собой, неизменно тяжёл. В случае если тяжело выбрать «победителя», по причине того, что предпочтение одного варианта второму ведет к похожему результату, то один из вариантов и прекратите тревожиться о том, верно либо неправильно вы поступили.

Принимайте вашу программу тестирования как портфельные инвестиции: вместо приобретения пакета ценных бумаг вы запускаете «пакет» сплит-тестов, ожидая получить от него дополнительную данные, талантливую дать вам большую отдачу (увеличение конверсии).

7. P-значение не равнозначно «правилу Стоп»

Это еще одна нередкая неточность. Для того, чтобы получить достоверные результаты, разрешающие трактовать P-значение, вы определяетесь с размером выборки, а после этого проводите тестирование. А вот дальше необходимо выбрать время прекращения тестов, причем оно должно быть связано не с достижением большого P-значения либо статистической значимости, а с получением настоящих результатов: оптимизации конверсии, роста выручки и т. д.

Высоких вам конверсий!

По данным conversionxl.com, image source fickleandfreckled

Случайные статьи:

Suspense: World of Darkness / The Locked Room / The Sisters


Подборка похожих статей:

riasevastopol