Модели атрибуции в маркетинге
Модели атрибуции в маркетинге широко используются сегодня для разработки маркетинговых стратегий. Стратегии основаны на распределении кредита между каждой точкой контакта на протяжении всего пути клиентов. Существует множество различных типов моделей, хотя их можно разделить на две группы: одноточечные модели атрибуции и многоточечные модели атрибуции. Обычно эти модели легко интерпретировать и внедрять. Они могут быть полезны в редких случаях. Однако большинство из них не способны самостоятельно построить надёжную маркетинговую стратегию.
Проблема заключается в том, что все эти модели либо работают на основе правил, которые могут быть неприменимы к определённым данным/отраслям, либо полагаются на ограниченный объём данных, что приводит к потере ценной информации. Чтобы узнать больше о типах моделей атрибуции в маркетинге, ознакомьтесь с моей предыдущей статьёй.
Сегодня я хотел бы обсудить, как мы использовали машинное обучение для разработки маркетинговой стратегии, данные, которые мы использовали, и результаты, которых мы достигли. В этой статье мы рассмотрим следующие вопросы:
- Где лучше всего получать данные?
- Как подготовить данные для обучения модели?
- Как эффективно использовать прогнозы модели и делать значимые выводы?
Я представлю всё это на примере данных одного из наших клиентов, некоторые части которых были изменены. Эти изменения не повлияют на общие результаты. Давайте назовём эту компанию XYZ. Публикация этих данных была разрешена клиентом.
Данные
Существует несколько способов получения журналов трафика с веб-сайтов. Эти методы не всегда предоставляют исчерпывающую информацию, которая может потребоваться для анализа. Однако иногда возможна интеграция одного источника в другой, а иногда можно вручную накапливать и объединять данные из нескольких источников. Вы также можете самостоятельно написать скрипты для сбора необходимой информации. Теперь давайте поговорим о наиболее востребованных в настоящее время источниках и данных, которые вы можете получить из них:
Google Analytics
Google Analytics (GA4) — это мощная платформа, которая предоставляет вам доступ к различным инструментам аналитики веб-сайтов и позволяет измерять вовлечённость и трафик в ваших приложениях и на веб-сайтах. Обычно используется атрибуция по последнему клику, однако вы можете построить свою собственную модель атрибуции на основе данных GA4, собирая следующие данные:
- автоматические события (такие как ad_click, ad_impression, app_exception, file_download, first_visit, page_view и т. д.);
- расширенные измерения (scroll, click, video_start, video_progress и т. д.);
- рекомендуемые события (add_to_cart, begin_checkout, add_payment_info, purchase, add_to_wishlist и т. д.);
- пользовательские события.
Google Analytics предлагает вам различные события для разных отраслей.
Pixel
Pixel — это инструмент, который позволяет отслеживать рекламные акции и активность посетителей на вашем сайте. Он даёт вам некоторое представление о том, как ваша аудитория взаимодействует с рекламой в соц.сетях, и данные о том, как эти пользователи ведут себя на вашем сайте после того, как они нажимают на рекламу. В общем, вы получите те же данные, что и при использовании Google Analytics. Тем не менее Pixel больше ориентирован на ретаргетинг, поэтому вы получите больше инструментов для этого по сравнению с Google Analytics.
Yandex Metrika
Yandex Metrika имеет схожие функции с вышеупомянутыми сервисами. Однако у него есть свои плюсы и минусы. Как недостаток, Yandex Metrika имеет ограничение на количество обрабатываемых запросов с одного аккаунта (5 000 запросов/день). В то же время Google Analytics имеет ограничение в 200 000 запросов/день. Преимущество заключается в том, что у Yandex Metrika есть Webvisor, который помогает вам отслеживать все движения мыши.
Существуют не все доступные сервисы, которые вы можете использовать для получения пользовательских данных. Хотя многие типы данных представлены в каждом источнике данных, при выборе источника данных вы можете обратить внимание на такие факторы, как простота настройки отчётов и интеграция с другими продуктами. Мы выбрали Google Analytics (GA4), потому что он предоставляет исчерпывающие данные и удобные инструменты. Кроме того, данные легко интегрируются с BigQuery, и мы используем инфраструктуру Google Cloud. Таким образом, необработанные данные выглядят следующим образом:
Подготовка данных
Возвращаясь к поставленной задаче, мы стремимся определить, какие рекламные кампании более привлекательны для инвестиций, чтобы сократить расходы на распределение бюджета при сохранении или увеличении уровня доходов. Поэтому представление данных GA4 удобно для нас, поскольку оно содержит информацию о каждом действии пользователя/точке контакта, таком как:
- нажатия кнопок;
- прокрутка;
- просмотр фотографий;
- поиск и т. д.
В свою очередь, все эти действия могут быть преобразованы в микроконверсии, которые нам нужны. Мы будем использовать этот набор микроконверсий для прогнозирования вероятности совершения пользователем покупки в каждой сессии.
При решении такой задачи могут быть интересны следующие микроконверсии:
- посещение страницы распродажи;
- просмотр популярных или ключевых продуктов;
- поиск определённого размера;
- просмотр фотографий продукта;
- просмотр всех фотографий продукта;
- просмотр информации по уходу за изделием;
- добавление товара в корзину покупок и т. д.
Фактически вы можете придумать любое количество микроконверсий самостоятельно. Выбор микроконверсий во многом зависит от конкретных характеристик вашего магазина/бизнеса.
В итоге мы остановились на следующих функциях и микроконверсиях для нашей модели. Общее количество всех наших функций — 97. Это подмножество наших функций:
Вы можете увидеть множество функций, связанных с UTM, они означают следующее:
- utm_source — название платформы или инструмента, который используется для создания среды;
- utm_medium — определяет тип или канал трафика высокого уровня;
- utm_campaign — название маркетинговой кампании;
- другие функции utm относятся к первой точке контакта в пути пользователя или в сеансе.
Давайте вернёмся к обсуждению других функций. Некоторые столбцы доступны в необработанных данных, поэтому с ними ничего делать не нужно. Однако некоторые столбцы не готовы к использованию, и вам придётся сначала выполнить некоторые манипуляции. Вот пример того, как мы получили микроконверсию, такую как добавление продукта в корзину покупок:
Модель
Я хотел бы напомнить вам, что, используя модель, мы хотим получить вероятность совершения пользователем покупки в каждой точке контакта. Затем мы преобразуем это в вероятность совершения покупки в течение сеанса. Поэтому мы использовали модель классификации, в которой мы использовали predict_proba для получения вероятности покупки при каждом взаимодействии пользователя. После опробования нескольких моделей, начиная с линейных и заканчивая бустингом, мы остановились на использовании CatBoostClassifier. Перед развёртыванием и ежедневной переобучкой модели была выполнена настройка гиперпараметров. Мы не будем вдаваться в подробности создания модели, поскольку мы следовали классическому подходу настройки гиперпараметров, последующего обучения модели и расчёта соответствующих метрик.
Теперь модель обучается на данных за один месяц, поскольку изменение этого периода на более длительный или короткий не показало значительного улучшения. Кроме того, мы используем порог 0,1 для определения покупки. Мы специально использовали это значение, потому что оно в 10 раз выше базовой вероятности покупки у нашего клиента. Это служит для нас триггером для рассмотрения этих событий и выяснения, была ли совершена покупка, а если нет, то почему. Другими словами, любые действия, где вероятность модели > 0,1, классифицируются как покупка. В результате мы получили следующие значения для метрик recall и accuracy:
- Recall на TEST: 0,947.
- Accuracy на TEST: 0,999.
На основе полученных метрик мы видим, что мы всё ещё пропускаем некоторые покупки. Возможно, пути к этим покупкам отличаются от типичного пути пользователя.
Итак, у нас есть все функции и вероятности модели, и теперь мы хотим построить отчёт и понять, какие рекламные кампании недооценены, а какие переоценены. Чтобы получить ad_campaign, мы объединяем utm_source, utm_medium и utm_campaign. Затем мы возьмём максимальную вероятность в пределах каждой пользовательской сессии и умножим её на среднее значение заказа за тот же период времени, что и набор данных для тестирования. После этого мы создадим отчёт, рассчитав сумму для каждой рекламной кампании.
Это даёт нам следующий отчёт:
Теперь мы должны перейти к маркетинговым метрикам. Поскольку мы хотим измерить успех маркетинговых кампаний, мы можем рассмотреть следующие метрики, которые часто используют маркетологи:
- ROAS (Return on Ad Spend) — маркетинговая метрика, которая измеряет эффективность цифровой рекламной кампании;
- CRR (Cost Revenue Ratio) — показатель, который измеряет соотношение операционных расходов к доходам, полученным бизнесом.
Мы рассчитаем их, используя наши данные, и сравним со значениями ROAS и CRR, которые маркетологи обычно получают, используя атрибуцию по последнему клику.
Поскольку мы видим только три платные кампании за анализируемый период, мы найдём метрики для этих кампаний в GA4. И добавим факт ROAS и CRR на основе атрибуции по последнему клику. Мы обсуждали, почему атрибуция по последнему клику не является точным подходом для оценки вклада рекламной кампании в предыдущей статье.
И используя упомянутые выше формулы, мы рассчитаем окончательный отчёт с прогнозируемыми ROAS и CRR:
Теперь у нас есть все данные, чтобы сделать выводы о рекламных кампаниях:
- Мы видим, что кампания «google/cpc/mg_ga_brand_all_categories_every_usa_0_rem_s_bas» переоценена, поскольку её прогнозируемый ROAS в 2 раза ниже, чем ROAS, основанный на атрибуции по последнему клику. Скорее всего, пользователи часто совершают покупки после нажатия на эту рекламную кампанию, но они уже являются тёплыми клиентами.
- Рекламная кампания «/cpc/010323_main» недооценена, поскольку её прогнозируемый ROAS в 4 раза выше фактического ROAS.
- И кампания «google/cpc/mg_ga_brand_all_categories_every_latvia_0_rem_s_bas» имеет схожие прогнозируемые и фактические ROAS.
И с этими данными вы можете самостоятельно разработать маркетинговые стратегии на следующий период. Также не следует забывать, что маркетинговые стратегии требуют тестирования. Однако это выходит за рамки нашей статьи.
Спасибо за чтение!
Надеюсь, что идеи, которыми я поделился сегодня, были для вас полезны. Если вы хотите связаться со мной, пожалуйста, добавьте меня в LinkedIn.
