ШЭРОН ЛИН, менеджер по аналитике в Twitch и бывший специалист по данным в Okta о решении сложной задачи создания модели прогнозирования оттока клиентов в Okta, используемых ею критериях и моделях, которые она оценивала:
Оценка модели оттока
При выборе одной из множества моделей для прогнозирования оттока корпоративных клиентов простая точность не покажет всей картины. Отток предприятий должен составлять менее 25%, поэтому простая точность — это ещё не всё. Модель, которая утверждает, что «никто не уйдёт», будет иметь точность 75%. Поэтому нужно сосредоточиться на точности (precision) и полноте (recall).
- Точность (Precision) — это процент всех случаев оттока, которые модель правильно идентифицирует.
- Полнота (Recall) — это процент идентифицированного оттока, который фактически происходит.
Они оценивают ложные срабатывания, которые приводят к ненужным и дорогостоящим усилиям по предотвращению оттока, и ложные отрицания, которые приводят к тому, что компании уходят, не будучи идентифицированными.
Модели классификации (с учителем)
Прогнозирование оттока обычно рассматривается как задача классификации, классифицируя клиента как да/нет для оттока.
Логистическая регрессия — это простая отправная точка. Её легко объяснить и реализовать, поэтому её легко внедрить. За многими крупными компаниями стоит простая логистическая регрессия. Когда данных очень много (например, в онлайн-рекламе), логистическая регрессия может очень быстро обучить модель. Но в корпоративной компании с тысячами точек данных может не быть достаточно данных для получения очень хороших результатов.
Наивный байесовский классификатор обычно используется с классификацией текста, и он хорошо работает при решении для нескольких классов. Вместо простого да/нет он может классифицировать клиентов как низкий/средний/высокий риск. Но после разделения набора данных на обучающие и тестовые данные для каждого отдельного класса у вас всё равно может не быть достаточно данных для получения хороших результатов.
Случайный лес может давать хорошие результаты при меньшем объёме данных, поэтому это одна из лучших моделей классификации для прогнозирования оттока. И она может быть идеальной, если вы используете необработанные данные, но её критическая слабость заключается в том, что она не очень хорошо обрабатывает динамические данные. У неё проблемы с такими данными, как «использование клиентом за последние 30 дней», которые постоянно меняются.
Модели аномалий (без учителя)
Поскольку отток предприятий — это редкое событие, стоит рассматривать его как аномалию и тестировать модели, созданные для обнаружения аномалий.
Многомерное гауссовское распределение часто используется для обеспечения безопасности, например, для выявления DDoS-атак. Оно работает лучше всего, когда аномалии происходят одинаково. Это не идеальная модель, если корпоративные клиенты уходят по разным причинам.
Кластеризация хороша для выявления различных групп компаний. В зависимости от используемых данных она может группироваться по полезным индикаторам оттока или чему-то бесполезному, например, по цвету логотипа компаний.
Каждая модель будет иметь свои сильные стороны, и её производительность будет зависеть от используемых данных и поведения оттока ваших клиентов. В корпоративной среде это особенно сложная задача, потому что точек данных наверняка будет меньше. Тестируйте разные модели и найдите ту, которая обеспечивает наилучшую точность и полноту для выявления и предотвращения оттока.
Краткое содержание от Reforge. Оригинальная статья Шэрон Лин, менеджер по аналитике в Twitch.
