Использование синтетических данных в цифровом маркетинге
В этой статье мы рассматриваем пример использования генерации синтетических данных для решения распространённой проблемы цифровых маркетологов и специалистов по стратегии брендов. Поскольку кампании запускаются в быстро меняющихся условиях, мы не можем рассчитывать на сбор подробных данных о них. Мы показываем, как использование синтетически сгенерированных данных для создания больших наборов данных может повысить ценность данных, собранных при небольшом объёме выборки.
Вызовы цифрового маркетинга
Маркетологи и специалисты по стратегии брендов имеют огромный выбор благодаря постоянным инновациям в цифровом маркетинге, где новые тенденции появляются каждые несколько месяцев. Донесение правильного контента до нужной аудитории в нужное время и с минимальными затратами остаётся огромной задачей для брендов. Чтобы ответить на вопрос «Куда мне инвестировать следующий доллар?», данные — лучший друг бренда. Но не у всех брендов или кампаний много данных.
Цифровой маркетинг — это эмпирическая дисциплина. Маркетологи должны постоянно адаптироваться к созданию нового и увлекательного контента, проблемам конфиденциальности, быстроменяющимся омниканальным стратегиям и так далее. Они собирают много данных, но не всегда статистически значимых.
В конечном итоге у них будут небольшие или средние наборы данных для изучения конкретной проблемы. Трудно прогнозировать успех кампании, когда у нас есть данные только за один год, потому что такого подхода не существовало два года назад. В этом контексте синтетические данные могут стать новым инструментом для извлечения ценности из существующих данных и решения новых задач.
Табличные синтетические данные: забытые данные
Одной из самых перспективных технологий сегодня являются синтетические данные. Все говорят о DALL-E или других инструментах для генерации изображений или текста. Табличные данные не продвинулись так же, как изображения или текст. Табличные синтетические данные актуальны только для нескольких экспертов в области обработки данных и машинного обучения.
Генеративно-состязательные сети
Генеративно-состязательные сети, или GANs, — одна из самых инновационных технологий в машинном обучении. Ян Гудфеллоу впервые представил GANs в 2014 году. Идея заключалась в том, чтобы создать две отдельные нейронные сети и противопоставить их друг другу. Первая нейронная сеть (генератор) генерирует новые данные, статистически похожие на входные данные. Второй нейронной сети (дискриминатору) поручено определять, какие данные искусственно созданы, а какие нет.
S-образная кривая в цифровом маркетинге
Мы видим из закона Госсена об убывающей предельной полезности, что перерасход средств может быть угрозой для маркетинговой стратегии. Эта идея также известна как теория убывающей предельной полезности, а в маркетинге — как рекламная S-образная кривая.
Практический пример
Мы связались с новым брендом, который был запущен два года назад. С тех пор они инвестировали в различные кампании (Google, VK, LinkedIn и т. д.). Они собрали ограниченный объём данных и попросили нас придать им смысл, чтобы улучшить свою рекламную стратегию.
Генерация синтетических данных
Чтобы сгенерировать синтетические данные, мы будем использовать открытую библиотеку Python nbsyntehtic. Мы запустили эту библиотеку недавно и включили новые пакеты специально для решения этой проблемы. Мы использовали некондициональные генеративно-состязательные сети Вассерштейна.
Результаты
Мы сгенерировали набор синтетических данных из 2000 образцов на основе исходных 19 образцов табличных данных. Код можно найти здесь. На рисунке 5 мы видим сравнение обоих наборов данных.
Сравнение с помощью машинного обучения
Чтобы проверить «взаимозаменяемость» обоих наборов данных, мы можем использовать их в задаче машинного обучения. В нашем случае мы использовали регрессор случайного леса, чтобы предсказать переменную MMR. Затем мы использовали тот же алгоритм для того же прогноза на синтетическом наборе данных. Наконец, мы использовали алгоритм, обученный на синтетических данных, для прогнозирования MMR, используя исходные значения данных.
Другой подход с использованием обучения на многообразии
Обучение на многообразии — это нелинейная техника уменьшения размерности. Многие наборы данных, как считается, имеют искусственно высокую размерность, и всю информацию можно извлечь из низкоразмерного многообразия, встроенного в пространство данных. Интуитивно понятно, что для каждого высокоразмерного пространства данных существует эквивалентное низкоразмерное.
Заключение
Мы увидели общую проблему, с которой сталкиваются многие бренды и агентства при подготовке новых кампаний. Они хотят основывать свои решения на доступных данных, но эти данные часто не позволяют им выделить релевантные действенные идеи. Мы увидели, что, используя синтетические данные, они могут оценить имеющиеся данные.
Примечания
- nbsynthetic — это проект с открытым исходным кодом, запущенный NextBrain.ai.
- Мы хотели бы поблагодарить Atomic 212 за помощь в понимании маркетинговых концепций и требований к решениям на основе данных в цифровом маркетинге.
- Код для этой статьи можно найти здесь.
Ссылки
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., & Bengio, Y. et al. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.
- Gossen, H. (1854). The Laws of Human Relations and the Rules of Human Action Derived Therefrom. (1983). Cambridge, MA: MIT Press.
- Johansson, J. K. (1979). Advertising and the S-Curve: A New Approach. Journal of Marketing Research, 16(3), 346–354. https://doi.org/10.1177/002224377901600307
- Arjovsky, M., Chintala, S. & Bottou, L.. (2017). Wasserstein Generative Adversarial Networks. Proceedings of the 34th International Conference on Machine Learning, in Proceedings of Machine Learning Research 70:214–223.
- Pedregosa et al. (2012). Scikit-learn: Machine Learning in Python, JMLR 12, pp. 2825–2830.
- Ilya Tolstikhin, Bharath K. Sriperumbudur, and Bernhard Schölkopf (2016). Minimax estimation of maximum mean discrepancy with radial kernels. In Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS’16). Curran Associates Inc., Red Hook, NY, USA, 1938–1946.
- Arthur Gretton, Karsten M. Borgwardt, Malte J. Rasch, Bernhard Schölkopf, and Alexander Smola. 2012. A kernel two-sample test. J. Mach. Learn. Res. 13, null (3/1/2012), 723–773.
- Donoho, David. (2000). High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality. AMS Math Challenges Lecture. 1–32.
- Aggarwal, C. ,Hinneburg, A., Keim, D. (2002). On the Surprising Behavior of Distance Metric in High-Dimensional Space. First publ. in: Database theory, ICDT 200, 8th International Conference, London, UK, January 4–6, 2001 / Jan Van den Bussche … (eds.). Berlin: Springer, 2001, pp. 420–434
- K. S. Beyer, J. Goldstein, R. Ramakrishnan, and U. Shaft. (1999). When is “nearest neighbor” meaningful? in Proc. 7th Int. Conf. Database Theory, pp. 217–235.
- Alexander Hinneburg, Charu C. Aggarwal, and Daniel A. Keim. (2000). What Is the Nearest Neighbor in High Dimensional Spaces? In Proceedings of the 26th International Conference on Very Large Data Bases (VLDB ’00). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 506–515.
- François, D., Wertz, V., & Verleysen, M. (2007). The Concentration of Fractional Distances. IEEE Transactions on Knowledge and Data Engineering, 19, 873–886.
- Han, Henry & Teng, Jie & Xia, Junruo & Wang, Yunhan & Guo, Zihao & Li, Deqing. (2021). Predict high-frequency trading marker via manifold learning. Knowledge-Based Systems. 213. 106662. 10.1016/j.knosys.2020.106662.
- Trefethen, L. N., & Bau III, D. (1997). Numerical linear algebra (Vol. 50). Siam.
