Прогнозирование в сравнении с поисковыми моделями Чего не хватает специалистам по обработке Данных

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Как специалисты по работе с данными, мы очень сосредоточились на создании алгоритмов, причинно-следственных/прогнозных моделей и рекомендательных систем (а теперь и генеративного искусственного интеллекта). Мы оптимизируем точность, настраиваем гиперпараметры и ищем следующую большую модную модель для внедрения в производство. Но в нашем стремлении внедрить передовую реализацию мы упустили класс моделей, которые могут изменить наше представление о самой бизнес-проблеме.

Рассмотрим рост платформенных компаний, таких как Amazon, Spotify, Netflix, Uber и Upstart. Хотя их отрасли кажутся совершенно разными, они по сути действуют как посредники на рынках поиска и подбора между агентами спроса и предложения. Ценностное предложение этих компаний заключается в снижении затрат на поиск для клиентов путём предоставления платформы и алгоритма подбора для соединения агентов в условиях неопределённости и разнородных предпочтений.

Основная задача

На этих рынках фундаментальные вопросы — это не просто стандартные изолированные задачи машинного обучения, такие как «как мы прогнозируем спрос?» или «как реклама влияет на коэффициент оттока?». Вместо этого критические задачи включают:

  • Сколько поставщиков мы должны привлечь, учитывая ожидаемые модели спроса?
  • Как мы проектируем механизмы подбора, которые генерируют оптимальное распределение?
  • Какие стратегии ценообразования максимизируют доход платформы, одновременно обеспечивая рост платформы и удовлетворённость клиентов?
  • Как мы справляемся с побочными эффектами, когда изменения в одном примитиве модели имеют волновой эффект?

Традиционные подходы в области науки о данных рассматривают эти задачи как независимые задачи оптимизации и выделяют для них отдельные рабочие потоки. Однако экономисты работали над этими проблемами с 1980-х годов и разработали единую теоретическую основу для описания взаимозависимой природы динамики этих платформ, называемую моделями поиска. Кроме того, это то, что я глубоко изучал в аспирантуре, но не видел применения в отраслевой работе, поэтому я хотел бы привлечь внимание к этому набору моделей.

Почему это важно для специалистов по данным

Наука о данных как область отлично справляется с измерениями и алгоритмами, но отстаёт в формулировке задач (которую мы оставили на усмотрение руководителей проектов и руководителей). Понимание этих теоретических основ помогает нам понять, какие метрики измерять и какие алгоритмы создавать. Вместо того чтобы создавать изолированные модели прогнозирования, мы можем разрабатывать системы, которые работают совместно для учёта эффектов равновесия, стратегического поведения и петель обратной связи. Этот теоретический подход помогает нам определить правильный эксперимент для проведения, понять, когда наши модели терпят сбой (сдвиг когорты) из-за изменений в предпочтениях агентов, и разработать меры, которые оказывают первостепенное влияние на результаты равновесия.

В этой статье я представлю теорию, лежащую в основе моделей поиска, и продемонстрирую их практическое применение на примере кредитной платформы (Upstart/LendingClub/Prosper), которая подбирает заёмщиков и банки в качестве конкретного примера. Мы рассмотрим, как эта структура может помочь в разработке стратегий привлечения партнёров, ценообразования и механизмов взимания платы, а также какие рычаги следует использовать для стимулирования роста. Заинтересованные читатели могут перейти к следующему разделу, чтобы кратко ознакомиться с историей возникновения этих моделей, или сразу перейти к практическому примеру, чтобы понять, как разработать эти модели.


Экономическая литература

Эта модель заимствована из экономики 1980-х годов, когда Дейл Мортенсен, Кристофер Писсаридес и Питер Даймонд пытались понять, почему существует безработица, даже когда есть вакансии. Эта серия вопросов привела их к получению Нобелевской премии в 2010 году за свою работу. Их модель Даймонда-Мортенсена-Писсаридеса (DMP) изменила наше представление о рынках. Основная идея заключается в том, что поиск работы (или найм кого-либо) занимает время (и требует денег), что приводит к трениям на рынке, в остальном конкурентном. Даймонд показал в 1982 году, что, когда поиск стоит дорого, заработная плата не определяется совокупным спросом и предложением. Вместо этого они определяются путём переговоров между конкретным работником и фирмой после двусторонних переговоров.

Мортенсен расширил эту идею, показав, что затраты на поиск создают пул безработных даже в здоровой экономике. У работников формируется «резервная заработная плата» — минимальная сумма, которую они примут, исходя из того, что они ожидают найти, если продолжат поиск. Фирмы аналогичным образом балансируют затраты на содержание открытой вакансии с ожидаемой ценностью, которую работник принесёт. Писсаридес затем связал эти индивидуальные переговоры с общеэкономическими моделями, показав, как безработица и создание рабочих мест связаны с деловыми циклами.

В 2005 году Даффи, Гарлену и Педерсен применили тот же подход к финансовым рынкам. На внебиржевых рынках покупатели и продавцы должны найти друг друга, как работники и фирмы. Этот процесс поиска создаёт спрэды между ценой покупки и продажи и объясняет, почему один и тот же актив может торговаться по разным ценам в одно и то же время. Продавец, которому нужны наличные немедленно (высокий спрос на ликвидность), может принять более низкую цену, в то время как тот, у кого достаточно времени, может подождать более выгодного предложения.

Третья часть головоломки связана с экономикой платформ. Платформы создают рынок, который требует наличия как продавцов, так и покупателей. Платформы для совместного использования поездок нуждаются как в водителях, так и в пассажирах. Кредитные платформы нуждаются как в заёмщиках, так и в банках. Литература по двусторонним рынкам показывает, как платформы могут максимизировать свой доход, устанавливая цены и совместно контролируя размер агентов спроса и предложения. Платформы должны установить цену, чтобы гарантировать, что участники останутся на рынке (ограничение совместимости стимулов), и что принятие сделки будет выгодно для этих агентов (ограничение индивидуальной рациональности). Платформы также могут обрабатывать случаи множественных рынков (книги Amazon/электроника), где спрос/предложение из одного сегмента может иметь побочный эффект на другой сегмент.

Эти три взаимосвязанных направления исследований могут быть объединены, чтобы дать нам инструменты для понимания современных цифровых платформенных фирм. Ниже я покажу практический пример того, как эти концепции объединяются в теоретической модели для понимания оптимального поведения кредитной платформы.


Практический пример: кредитные платформы

Давайте применим эту схему к кредитным платформам, таким как Upstart, LendingClub и Prosper. Эти компании используют искусственный интеллект для андеррайтинга кредитов, соединяя банки, у которых есть доступный капитал, с потребителями, которым нужны кредиты. Они выступают в роли посредников, где партнёрские банки предлагают различные типы кредитов (персональные, авто, ипотека), а потребители подают заявки на кредит. Платформы зарабатывают деньги за счёт комиссий за выдачу кредита, комиссий за обслуживание и штрафов за просрочку платежа, одновременно снижая затраты на поиск для обеих сторон, поскольку банкам не нужно самостоятельно находить и оценивать заёмщиков, а потребителям не нужно обходить несколько банков.

С точки зрения платформы эти фирмы сталкиваются с ключевыми экономическими задачами:

  1. Прогнозирование спроса: сколько спроса на кредиты мы увидим в следующем квартале?
  2. Управление предложением: сколько партнёрских банков нам нужно для удовлетворения этого спроса?
  3. Разработка конкуренции: как мы заставляем банки конкурировать за заёмщиков, не отпугивая их?
  4. Механизм подбора: следует ли нам использовать аукционы, объявленные цены или алгоритмический подбор для подбора заёмщиков и кредиторов?
  5. Оценка рисков: как мы моделируем как склонность банка к риску, так и вероятность дефолта заёмщика?
  6. Сегментация рынка: есть ли какие-либо побочные эффекты между кредитованием в разных сегментах рынка?

Ни один из этих вопросов не является простым, и у каждого есть множество движущихся частей. Вы можете спрогнозировать спрос на кредиты с помощью моделей временных рядов, но это совокупное число необходимо разбить по типам кредитов, суммам и срокам, поскольку у банков разные предпочтения в этих измерениях. Меньшие банки с ограниченным капиталом могут захотеть выдавать только краткосрочные кредиты заёмщикам с высоким кредитным рейтингом, в то время как крупные банки могут предоставлять более долгосрочные кредиты от рискованных заёмщиков, если у них есть избыточный капитал. Алгоритм подбора должен учитывать эти предпочтения, обеспечивая при этом достаточную ценность (торговый профицит) для принятия предложения.

В этой схеме каждый кредит представляет собой трёхсторонние переговоры между заёмщиком, банком и платформой. У заёмщика есть право отклонить любое предложение, у банка есть возможность установить резервную процентную ставку, а у платформы есть право определять распределение общего торгового профицита. Платформа контролирует ключевые параметры, такие как процентные ставки и сборы, поскольку их изменение влияет на участие с обеих сторон. Ставки, которые слишком высоки, приводят к тому, что заёмщики уходят, и снижают уровень принятия и увеличивают отток. Ставки, которые слишком низки, снижают удовлетворённость партнёров и уменьшают их количество. Каждое решение сдвигает равновесие, и понимание этих динамик имеет решающее значение для роста платформы.

Модельная среда

Давайте создадим простейшую модель, чтобы понять эту динамику. Мы начнём с предположений, которые делают математику более управляемой, что составит нашу среду. В этой среде существует только один тип кредита, который длится только один период, идентичные заёмщики и идентичные банки.

Наша среда существует в дискретном времени t∈T без межпериодного дисконтирования. Существует кредит размером S с процентной ставкой r, где r — эндогенная переменная (результат, принятый в системе, а не примитив модели).

Заёмщики прибывают на платформу с безусловной скоростью Пуассона Λ. Заёмщики приходят на платформу с требованием кредита размером S, который они оценивают в V(S). У них есть линейная функция полезности U_L = V(S) – (1+r)S, то есть оценка, которую они получают от кредита за вычетом платежа, который они должны сделать в следующем периоде.

С этого места текст переведён полностью, если вам нужно перевести ещё что-то — дайте знать.