Воздействуя на тех, кого можно убедить: Предсказывайте маркетинговый рост на Python

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Поиск инсайтов

Предыдущая статья упоминала отток клиентов: как мы можем обнаружить клиентов, которые склонны покупать в других торговых точках?

Маркетинговая команда свяжется с ними и попытается противостоять соблазну конкурентов.

Сегодняшняя статья выходит за рамки прогнозов риска оттока.

Мы хотим определить, насколько эффективной была маркетинговая кампания; и предсказать, какой резонанс среди клиентов мы можем ожидать, когда расширим охват пилотной кампании с небольшого подмножества клиентов на более крупные группы. Какие клиенты проявят положительный отклик на наши рекламные акции? Маркетинговая команда будет искать персуадивов (клиентов, которых можно убедить).

Традиционно при планировании кампании по работе с клиентами маркетологи различают четыре категории клиентов:

  • Sure things или always-takers будут покупать продукцию предприятия независимо от того, направляем ли мы на них рекламные действия. Попытки увеличить их склонность к покупке ещё большего количества товаров были бы расточительными. Вместо этого ресурсы следует потратить на группы клиентов, которые ещё не составляют захваченную аудиторию. Если рекламное действие предлагает финансовый стимул, например скидку, даже если клиент купил бы товар и без неё, маркетинговое действие приведёт к прямым убыткам для бизнеса.
  • Lost causes или never-takers не будут покупать больше продукции предприятия независимо от того, свяжется ли с ними маркетинговая команда. Усилия, время и бюджет, потраченные на маркетинговые коммуникации, были бы расточительными.
  • Sleeping dogs, defiers или do-not-disturbs проявляют сильное отвращение к маркетинговым коммуникациям. У них выше склонность покупать что-либо, если они не чувствуют себя осаждёнными рекламными акциями. Их раздражают рекламные объявления; или это повышает их осведомлённость о том, что они могут отменить услугу, на которую они подписались несколько месяцев или лет назад. Было бы не только расточительно направлять на них маркетинговые сообщения, но и контрпродуктивно.
  • Persuadables положительно реагируют на действия по охвату. Маркетинговая коммуникация повысит их склонность к покупке продукции предприятия. Они, скорее всего, купят при контакте, но вряд ли купят, если их оставить в покое.

Чтобы сосредоточить усилия и ресурсы маркетинговой команды, нам нужно определить единственную группу клиентов, которая имеет значение в кампаниях: персуадивов.

Классификация клиента не высечена в камне. Она будет зависеть от конкретного маркетингового действия, которое мы хотим протестировать. Скидка в 10% может перевести клиента в категорию персуадивов, тогда как рекламное предложение бесплатных билетов на фильм «Кошки» может превратить его в потерянное дело — или наоборот.

Uplift modelling стремится определить эффект воздействия на целевую переменную. Если воздействие состоит из маркетингового действия, коэффициентом отклика клиента будет целевая переменная. Коэффициент отклика может быть измерен частотой заказов, посещениями веб-сайта или кликами. Если есть контрольный набор данных — клиенты, с которыми маркетинговая кампания не контактировала, — то мы можем определить uplift: разницу в коэффициентах отклика между группой воздействия и контрольной группой.

Зависимости

Помимо наших основных библиотек, таких как pandas и numpy, мы устанавливаем и импортируем Scikit-uplift, он же sklift.

Мы также импортируем класс _train_test split из Scikit-learn и _catboos_t classifier. Вместо catboost вы можете использовать любой альтернативный классификатор, если его синтаксис совместим с методами классификации scikit-learn, например xgboost.

Обработка данных

Набор данных Hillstrom, поставляемый со sklift, состоит из 64 000 клиентов, которые совершили покупки у онлайн-ритейлера в течение 12 месяцев до запуска маркетинговой кампании. Бизнес отправил рекламные электронные письма 2/3 этих клиентов, равномерно разделив их между кампаниями «Мужская электронная почта» и «Женская электронная почта». Треть из 64 000 клиентов служила контрольной группой, не получавшей электронных писем.

Бизнес отслеживал, какие клиенты — получавшие или не получавшие электронные письма — посещали веб-сайт в течение двух недель после завершения кампании. Он использовал количество посещений для измерения коэффициентов отклика.

Ритейлер зафиксировал следующие характеристики клиентов:

  • recenty = месяцы с момента последней покупки;
  • history_segment = скобки расходов в долларах за последние 12 месяцев;
  • history = фактическая сумма, потраченная за последние 12 месяцев;
  • men’s = клиент купил мужские товары (признак не обозначает пол клиента), двоичное значение 1 или 0;
  • women’s = клиент купил женские товары;
  • zip_code;
  • newbie = клиент совершил покупки не ранее чем за 12 месяцев до этого;
  • channel = заказы на покупку через телефон, веб-сайт или мультиканал;
  • segment = лечение = «Мужская электронная почта», «Женская электронная почта» или «Без электронной почты»;
  • visit = целевая переменная = посещения веб-сайта ритейлера после рекламной электронной почты, двоичное значение 1 или 0.

Альтернативно набор данных можно загрузить с помощью одной из двух альтернативных целевых переменных:

  • target_col = конверсия — клиент отправил заказ на покупку, двоичное значение 1 или 0;
  • target_col = расходы — доллары, потраченные клиентом в течение двух недель периода наблюдения.

Модели uplift

4.1. Модель трансформации класса

Метод Class Transformation или Revert Label был разработан Ясковским и Ярошевичем в 2012 году для клинических испытаний (Uplift modeling).

Он различает четыре случая:

  • control responders: лица, которые ответили (посетили веб-сайт) без получения лечения;
  • control non-responders: члены контрольной группы, которые не посетили веб-сайт;
  • treatment responders: лица, которые ответили после получения лечения;
  • treatment non-responders: лица, которые получили лечение, но не ответили.

Идея, лежащая в основе модели, заключается в том, что в контрольную группу не-респондентов могли входить некоторые персуадивы. Они не получили лечения и поэтому не были побуждены реагировать.

4.2. Solo Model

Solo Model, также известная как S-Learner или Treatment Dummy approach, основана на статье, опубликованной Дэвидом Ло в 2002 году. Она разделяет обучающий набор данных между выборками лечения и контрольными выборками.

4.3. Две независимые модели

Двухмодельный подход обучает первую модель на наборе данных о лечении, а вторую модель — на контрольной группе. Вычитая баллы контрольной модели из баллов модели лечения, мы получаем эффекты uplift (gutierrez17a.pdf).

4.4. Две зависимые модели, контрольная группа лидирует

Подход с двумя зависимыми моделями запускает две модели последовательно. Вторая модель принимает результаты первой модели в качестве дополнительной переменной признака.

4.5. Две зависимые модели, лидирует группа лечения

Вместо того чтобы передавать результаты модели контрольной группы в модель лечения, мы можем изменить порядок моделей. Метод «ddr_treatment» советует методу сначала обработать модель лечения; а затем использовать её результат в качестве дополнительной столбца-признака в модели контрольной группы.

Сравнение моделей

5.1. Qini Curve и площадь под кривой uplift AUUC

Модель ранжирует клиентов по их uplift-баллам от высокого к низкому: от самых рьяных персуадивов до самых ворчливых do-not-disturbs. Затем она строит кумулятивную разницу между коэффициентами отклика группы лечения и контрольной группы.

Выводы

Мы узнали, что мы можем ожидать, что «Мужская электронная почта» улучшит вовлечённость клиентов, измеряемую посещениями веб-сайта, на uplift в 5,4%.

Количественный uplift позволит нам принимать обоснованные решения.