Анализ влияния в маркетинге: Практическое введение

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Анализ мощности в маркетинговых измерениях

За последние несколько лет работы в области маркетинговых измерений я заметил, что анализ мощности — одна из наиболее плохо понимаемых тем, связанных с тестированием и измерениями. Иногда его неправильно понимают, а иногда вообще не применяют, несмотря на его основополагающую роль в разработке тестов. Эта статья и последующие за ней — мои попытки исправить ситуацию.

В этом сегменте я расскажу о:

  • Что такое статистическая мощность?
  • Как её вычислить?
  • Что может влиять на мощность?

Ошибки в тестировании: типы I и II

В тестировании есть два типа ошибок:

  • Тип I:
    • Техническое определение: мы ошибочно отвергаем нулевую гипотезу, когда нулевая гипотеза верна.
    • Определение для неспециалистов: мы говорим, что есть эффект, когда его на самом деле нет.
    • Пример: A/B-тестирование нового креатива и вывод, что он работает лучше старого дизайна, когда на самом деле оба дизайна работают одинаково.
  • Тип II:
    • Техническое определение: мы не отвергаем нулевую гипотезу, когда нулевая гипотеза ложна.
    • Определение для неспециалистов: мы говорим, что нет эффекта, когда он есть.
    • Пример: A/B-тестирование нового креатива и вывод, что он работает так же, как старый дизайн, когда на самом деле новый дизайн работает лучше.

Что такое статистическая мощность?

Большинство людей знакомы с ошибкой типа I. Это ошибка, которую мы контролируем, устанавливая уровень значимости. Мощность связана с ошибкой типа II. Точнее, мощность — это вероятность корректного отклонения нулевой гипотезы, когда она ложна. Это дополнение к ошибке типа II (т. е. 1 – ошибка типа II). Другими словами, мощность — это вероятность обнаружения истинного эффекта, если он есть.

Роль α и β

Если оба типа ошибок важны, почему ошибки типа II и мощность так плохо понимаются и игнорируются, в то время как тип I всегда учитывается? Это потому, что мы можем легко выбрать уровень ошибки типа I. Фактически мы это и делаем, устанавливая уровень значимости α (обычно α = 0,05) для наших тестов. Мы заявляем, что нас устраивает определённый процент ошибок типа I.

Вычисление мощности: шаг за шагом

КонцептСимволТипичное значениеТехническое определениеОпределение для неспециалистов
Ошибка типа Iα0,05 (5 %)Вероятность отклонения нулевой гипотезы, когда нулевая гипотеза на самом деле вернаСказать, что есть эффект, когда на самом деле разницы нет
Ошибка типа IIβ0,20 (20 %)Вероятность не отвергнуть нулевую гипотезу, когда нулевая гипотеза на самом деле ложнаСказать, что нет эффекта, когда он есть
Мощность1 − β0,80 (80 %)Вероятность корректного отклонения нулевой гипотезы, когда альтернативная гипотеза вернаШанс обнаружить истинный эффект, если он есть

Быстрая справка: типы ошибок и мощность

Вычисление мощности: шаг за шагом

Настройка теста и тестовая статистика

Как было сказано выше, лучше сначала пройти через процесс тестирования, а затем вернуться назад, чтобы определить, как можно вычислить мощность.

N_a <- 1000  
N_b <- 1000  
alpha <- 0.05  

critical_z <- function(alpha, two_sided = FALSE) {
  if (two_sided) qnorm(1 - alpha/2) else qnorm(1 - alpha)
}

Результаты теста

  • xa = 100 — количество конверсий от креатива A.
  • xb = 150 — количество конверсий от креатива B.
  • pa = xa / Na = 0,10 — конверсионная ставка креатива A.
  • pb = xb / Nb = 0,15 — конверсионная ставка креатива B.

Интуиция за мощностью

Теперь, когда мы прошли через процесс тестирования, где же проявляется мощность? В процессе выше мы записываем выборочные конверсионные ставки, pa и pb, а затем вычисляем тестовую статистику, z. Однако, если бы мы повторили тест много раз, мы бы получили разные выборочные конверсионные ставки и разные тестовые статистики, все центрированные вокруг истинных конверсионных ставок креативов.

Выбор истинного размера эффекта

Если нам нужны истинные конверсионные ставки для вычисления мощности, как мы их получим? Если бы они у нас были, нам не нужно было бы проводить тестирование. Поэтому нам нужно сделать предположение.

Вычисление и визуализация мощности

Теперь, когда у нас есть недостающие ингредиенты, истинные конверсионные ставки, мы можем вычислить мощность. Вместо измеренных pa и pb у нас теперь есть истинные конверсионные ставки ra и rb.

Кривые мощности

Теперь, когда у нас есть интуиция и математика за мощностью, мы можем исследовать, как мощность меняется в зависимости от разных параметров. Графики, генерируемые из такого анализа, называются кривыми мощности.

Взаимосвязь с размером эффекта

Ранее я утверждал, что чем больше размер эффекта, тем выше мощность. Интуитивно это имеет смысл. Мы, по сути, сдвигаем правую колоколообразную кривую на графике выше дальше вправо, так что площадь за пределами критического порога увеличивается.

Взаимосвязь с размером выборки

К сожалению, мы не можем контролировать размер эффекта. Это либо значимый размер эффекта, который вы хотите обнаружить, либо основанный на предыдущих исследованиях. Что мы можем контролировать, так это размер выборки. Чем больше размер выборки, тем меньше стандартное отклонение распределения и тем больше площадь под кривой за пределами критического порога (представьте, что вы сжимаете стороны, чтобы сжать колоколообразные кривые на графике выше). Другими словами, больший размер выборки должен приводить к более высокой мощности.

Взаимосвязь со значимостью

Влияет ли уровень значимости α на мощность? Интуитивно, если мы более склонны принимать ошибку типа I, мы более склонны отвергать нулевую гипотезу, и, следовательно, (1 − β) должна быть выше.

Анализ мощности

Так что же такое анализ мощности? Анализ мощности — это процесс вычисления мощности с учётом параметров теста. В анализе мощности мы фиксируем параметры, которые мы не можем контролировать, а затем оптимизируем параметры, которые мы можем контролировать, для достижения желаемого уровня мощности. Например, мы можем зафиксировать истинный размер эффекта, а затем вычислить размер выборки, необходимый для достижения желаемого уровня мощности.

Источники

[1] Р. Ларсен и М. Маркс, «Введение в математическую статистику и её приложения».

Что дальше в серии?

Я ещё не решил окончательно, но я определённо хочу осветить следующие темы:

  • Анализ мощности в геотестировании.
  • Подробное руководство по установке истинного размера эффекта в различных контекстах.
  • Реальные примеры из практики.