Фотография Фреда Суванди на Unsplash
«Как инвестиции в размере X долларов в каждый маркетинговый канал повлияют на продажи?» — это причинно-следственный вопрос, на который должна ответить модель маркетингового микса (Marketing-Mix-Model, MMM), чтобы помочь компаниям решить, как распределить бюджеты маркетинговых каналов в будущем. Как мы увидим, результаты ответа на этот вопрос сильно зависят от того, какие переменные вы учитываете: пропуск важных переменных или включение «неправильных» переменных в вашу модель приведёт к предвзятости и неверным причинно-следственным оценкам. Это огромная проблема, поскольку неверные причинно-следственные оценки в конечном итоге приведут к ошибочным маркетинговым решениям и финансовым потерям.
В этой статье я хочу рассмотреть эту проблему и дать рекомендации о том, какие переменные следует учитывать, а какие нет, в вашей MMM, со следующей структурой:
- Мы увидим, почему выбор переменных так важен в моделях маркетингового микса, на примере того, как сильно могут различаться оценки каналов в зависимости от набора переменных, которые вы учитываете в моделируемой ситуации.
- Мы рассмотрим потенциальные источники предвзятости. Вы поймёте, какие типы переменных вы должны обязательно учитывать, а какие нет. Эта глава основана на теории из стандартных работ в области причинных выводов Джудеи Перл [1][2] и на очень проницательном веб-сайте Матеуса Факуре [3].
- Мы применим эти знания к нашему примеру с моделируемыми данными.
1. О важности выбора переменных в MMM
Давайте рассмотрим простой пример, чтобы продемонстрировать, насколько важен выбор переменных в MMM. Для простоты и сосредоточенности на проблеме выбора переменных мы будем использовать простую линейную регрессию. Имейте в виду, что проблема выбора переменных остаётся столь же важной, если использовать более сложные MMM (например, байесовские модели с эффектами насыщения и переноса).
Предположим, вы работаете в отделе маркетинга онлайн-спортивного магазина, и ваш отдел рекламировал вашу платформу через телевидение, YouTube и Instagram в течение трёх лет. Теперь пришло время оценить вклад каждого из этих маркетинговых каналов в продажи. Вы начинаете со сбора еженедельных данных о расходах на маркетинговые каналы и продажах компании, и это выглядит следующим образом:
Продажи и расходы на маркетинг во времени
Самый минималистичный подход для MMM — это подгонка продаж с помощью линейной регрессии по маркетинговым каналам:
Однако вы знаете, что есть много дополнительных переменных, которые могут повлиять на продажи, и вам интересно, следует ли включать их в вашу модель. Это:
- Сезонные переменные, поскольку вы знаете, что продажи имеют естественные сезонные колебания.
- Переменные, связанные с чемпионатом мира по футболу, поскольку вы знаете, что продажи растут во время крупных спортивных событий.
- Цена, поскольку вы предполагаете, что продажи сильно зависят от цены.
- Посещаемость веб-сайта, поскольку вы знаете, что продажи растут, когда на вашем сайте больше посещений.
Учитывая, что у вас есть эти данные/переменные, вы решаете подогнать 5 различных линейных регрессионных моделей, принимая во внимание 5 различных наборов переменных:
В результате получаются оценки каналов, представленные ниже:
Как вы можете видеть, оценки для разных каналов сильно зависят от набора переменных, которые вы учитываете. Это означает, что если вы хотите принимать маркетинговые решения на основе модели, вы придёте к совершенно разным выводам в зависимости от того, какой набор переменных вы выберете.
Вывод — если вы не будете тщательно выбирать переменные в вашей MMM, вы можете принимать маркетинговые решения, подбрасывая монетку. Но не волнуйтесь! Благодаря теории причинно-следственных связей, есть способ помочь вам определить, какие переменные вы должны учитывать, а какие нет! В оставшейся части этой статьи я объясню, как это сделать, что позволит вам узнать, какой из 5 наборов переменных (если таковой имеется) приводит к точным причинно-следственным оценкам.
2. Источники предвзятости
Источник 1: пропуск переменных-конфаундеров
Чтобы добиться беспристрастности ваших оценок, вы должны тщательно продумать, какие переменные являются так называемыми переменными-конфаундерами. Это переменные, которые вы обязательно должны учитывать в своей модели, иначе у вас будут предвзятые оценки.
Что такое переменная-конфаундер?
Переменная-конфаундер — это переменная, которая оказывает как причинное влияние на продажи компании, так и на один или несколько ваших маркетинговых каналов. Например, в нашем примере с онлайн-спортивным магазином переменная «Чемпионат мира по футболу» является переменной-конфаундером. Действительно, компания увеличивает расходы на телевизионную рекламу из-за чемпионата мира, а чемпионат мира по футболу приводит к увеличению продаж футболок.
Почему нам нужно учитывать переменные-конфаундеры?
Проблема заключается в том, что если мы не учтём этот тип переменной-конфаундера, наша MMM «смешает» эффект телевизионной рекламы с эффектом чемпионата мира. Действительно, поскольку чемпионат мира увеличивает расходы на телевидение и продажи, может показаться, что дополнительные продажи, генерируемые за счёт дополнительных расходов на телевидение, на самом деле в значительной степени обусловлены чемпионатом мира.
Источник 2: включение переменных-медиаторов
Часто мы склонны думать, что «ничего не случится, если мы просто учтём ещё одну переменную». Но, как мы увидим, это утверждение неверно. Действительно, если вы учитываете так называемые переменные-медиаторы, причинно-следственные оценки для ваших маркетинговых каналов будут предвзятыми!
Что такое переменная-медиатор?
В контексте, где вы хотите измерить влияние телевизионной рекламы на продажи, переменная-медиатор — это переменная, через которую телевидение косвенно влияет на продажи. Например, телевизионная реклама может косвенно влиять на продажи, увеличивая количество посетителей вашего интернет-магазина:
Почему учёт медиаторов создаёт предвзятость?
Если вы не учтёте посредника «посещения», ваша модель будет оценивать влияние телевидения на продажи, учитывая как прямой эффект (телевидение → продажи), так и косвенный эффект (телевидение → посещения → продажи).
Источник 3: включение переменных-коллидеров
Другой тип переменной, который может привести к предвзятости, если её учитывать в вашей MMM, — это так называемые переменные-коллидеры.
Что такое переменная-коллидер?
Переменная-коллидер для эффекта телевидения на продажи — это переменная, на которую как телевидение, так и продажи оказывают причинное воздействие.
3. Результаты моделирования
Теперь, когда мы знаем, как выбрать правильные переменные для нашей MMM, давайте вернёмся к нашему первоначальному примеру и определим, какие переменные выбрать.
Моделируемые данные:
Маркетинговые бюджеты были определены следующим образом:
Уравнения продаж:
Вкратце, три канала причинно зависят от сезона, чемпионата мира и цены. Остальная вариация случайна.
Уравнение посещений:
Продажи зависят от сезона, бюджета в маркетинговых каналах, цен, чемпионата мира и посещений веб-сайта.
Теперь, когда мы знаем причинно-следственные связи между переменными в моделируемых данных, мы можем определить, какие переменные являются конфаундерами, медиаторами или коллидерами для оцениваемых причинно-следственных связей (→ Причинно-следственный эффект маркетинговых каналов на продажи).
Типы переменных:
Как мы видим в формулах, сезон, чемпионат мира и цена влияют как на распределение бюджета по маркетинговым каналам, так и на продажи. Следовательно, эти три переменные являются конфаундерами и должны быть учтены в нашей MMM.
Как мы видим в формулах, переменная «посещения» является медиатором. Действительно, маркетинговые каналы оказывают причинное влияние на посещения, а посещения — на продажи. Следовательно, эту переменную не следует учитывать в модели.
Истинный причинно-следственный эффект:
Из уравнений, которые определяют, как мы генерировали моделируемые данные, мы можем легко получить истинный причинно-следственный эффект маркетинговых каналов.
Оценённые причинно-следственные эффекты с различными наборами переменных:
Мы имеем представление об истинных причинно-следственных эффектах и можем сравнить их с оценками, которые мы получили бы при выборе различных наборов переменных (наборы, указанные в части 1).
Как мы видим на рисунке выше, истинный причинно-следственный эффект маркетинговых каналов на продажи оценивается правильно только тогда, когда учитываются все переменные-конфаундеры (→ Сезон, чемпионат мира, цена) и не учитываются медиаторы (→ Посещаемость веб-сайта).
Заключение
В заключение, выбор правильного набора переменных имеет решающее значение для получения непредвзятых причинно-следственных оценок в моделировании маркетингового микса. Как мы видели в нашем примере, неучёт конфаундеров или включение таких переменных, как медиаторы или коллидеры, может значительно исказить результаты вашей MMM, что приведёт к ошибочным маркетинговым решениям и потенциальным финансовым потерям. Это должно подчеркнуть важность глубокого осмысления причинно-следственных связей между переменными, которые вы моделируете. Как только они будут определены, вы теперь знаете, какие переменные вы должны учитывать, а какие нет, чтобы получить непредвзятые оценки каналов! Для более глубокого погружения я настоятельно рекомендую ознакомиться с литературой по причинно-следственным выводам, указанной ниже.
Примечание: если не указано иное, все изображения и графики принадлежат автору.
Код и данные
Для тех, кто хочет поближе познакомиться с кодом и данными, не стесняйтесь заглянуть сюда: MMM_HowToAvoidBiasedChannelEstimates.ipynb
Литература:
[1] J. Pearl — The Book of Why: The New Science of Cause and Effect (2018) [2] J. Pearl — Causality: Models, Reasoning, and Inference (2000) [3] M. Facure — Causal Inference for the Brave and the True https://matheusfacure.github.io/python-causality-handbook/landing-page.html
