Создание единого механизма распознавания намерений

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Понимание намерений пользователя — основа работы

В сфере обслуживания клиентов понимание намерений пользователя имеет основополагающее значение, особенно в той области, где я работаю. Однако в разных командах предприятий распознавание намерений часто происходит изолированно, каждая команда разрабатывает собственные конвейеры для разных продуктов: от помощников по устранению неполадок до чат-ботов и инструментов сортировки проблем. Эта избыточность замедляет инновации и усложняет масштабирование.

Выявление закономерности в переплетении систем

В рабочих процессах с использованием искусственного интеллекта мы заметили закономерность — многие проекты, хотя и служат разным целям, связаны с пониманием вводимых пользователем данных и классификацией их по меткам. Каждый проект решает эту задачу независимо, с некоторыми вариациями. Одна система может сочетать FAISS с встраиванием MiniLM и обобщением LLM для популярных тем, в то время как другая объединяет поиск по ключевым словам с семантическими моделями. Хотя такие конвейеры эффективны по отдельности, у них есть общие компоненты и проблемы, что открывает широкие возможности для консолидации.

Мы нанесли их на карту и поняли, что все они сводятся к одному основному шаблону:

  • очистка входных данных;
  • преобразование их во встраивания;
  • поиск похожих примеров;
  • оценка сходства;
  • присвоение метки.

Как только вы это увидите, становится очевидным: зачем заново выстраивать одну и ту же систему? Не лучше ли создать модульную систему, которую разные команды могли бы настраивать под свои нужды без начала с нуля? Этот вопрос вывел нас на путь к тому, что мы теперь называем унифицированным механизмом распознавания намерений (Unified Intent Recognition Engine, UIRE).

Осознав это, мы увидели возможность. Вместо того чтобы позволять каждой команде создавать собственное решение, мы могли бы стандартизировать основные компоненты, такие как предварительная обработка, встраивание и оценка сходства, оставляя при этом достаточную гибкость для каждой продуктовой команды, чтобы они могли подключать свои собственные наборы меток, бизнес-логику и пороговые значения рисков. Эта идея стала основой для фреймворка UIRE.

Модульный фреймворк, разработанный для повторного использования

По своей сути UIRE — это настраиваемый конвейер, состоящий из повторно используемых частей и подключаемых модулей для конкретных проектов. Переиспользуемые компоненты остаются неизменными:

  • этапы предварительной обработки;
  • модели встраивания;
  • векторный поиск;
  • логика оценки сходства.

Каждая команда может добавить свои собственные наборы меток, правила маршрутизации и параметры риска поверх этого.

Вот как обычно выглядит поток:

Входные данные → Предварительная обработка → Обобщение → Встраивание → Векторный поиск → Оценка сходства → Сопоставление меток → Маршрутизация

Мы организовали компоненты следующим образом:

  • Повторяющиеся компоненты: этапы предварительной обработки, обобщение (если требуется), инструменты встраивания и векторного поиска (например, MiniLM, SBERT, FAISS, Pinecone), логика оценки сходства, фреймворки настройки порогов.
  • Элементы, специфичные для проекта: пользовательские метки намерений, обучающие данные, бизнес-правила маршрутизации, пороговые значения уверенности, скорректированные с учётом рисков, и необязательный выбор обобщения LLM.

Превращение фреймворка в живой репозиторий для непрерывного роста

Ещё одно преимущество унифицированного движка — возможность создания общего живого репозитория. По мере того как разные команды будут внедрять фреймворк, их настройки, включая новые модели встраивания, конфигурации порогов или методы предварительной обработки, могут быть возвращены в общую библиотеку. Со временем этот коллективный интеллект сформирует всеобъемлющий корпоративный инструментарий лучших практик, ускоряя внедрение и инновации.

Это устраняет распространённую проблему «изолированных систем», которая преобладает во многих предприятиях. Хорошие идеи остаются запертыми в отдельных проектах. Но с общей инфраструктурой становится гораздо проще экспериментировать, учиться друг у друга и неуклонно улучшать всю систему.

Почему такой подход имеет значение

Для крупных организаций с множеством текущих инициатив в области искусственного интеллекта модульная система предлагает множество преимуществ:

  • Избежание дублирования инженерных работ и сокращение накладных расходов на обслуживание.
  • Ускорение создания прототипов и масштабирования, поскольку команды могут комбинировать и сочетать предварительно созданные компоненты.
  • Возможность командам сосредоточиться на том, что действительно важно — повышении точности, уточнении граничных случаев и тонкой настройке взаимодействия, а не на перестройке инфраструктуры.
  • Упрощение расширения на новые языки, бизнес-домены или даже типы данных, такие как изображения и аудио.

Такая модульная архитектура хорошо согласуется с тем, куда движется проектирование систем искусственного интеллекта. Исследования Sung et al. (2023), Puig (2024) и Tang et al. (2023) подчёркивают ценность встраиваемых, повторно используемых конвейеров для классификации намерений. Их работа показывает, что системы, построенные на векторных рабочих процессах, более масштабируемы, адаптивны и просты в обслуживании, чем традиционные классификаторы.

Расширенные функции для обработки реальных сценариев

Конечно, реальные разговоры редко следуют чётким моделям с одним намерением. Люди задают запутанные, многослойные, иногда двусмысленные вопросы. Именно здесь модульный подход действительно сияет, потому что он упрощает внедрение расширенных стратегий обработки. Вы можете создать эти функции один раз, и они могут быть повторно использованы в других проектах.

  • Обнаружение нескольких намерений, когда запрос задаёт несколько вопросов одновременно.
  • Обнаружение выхода за пределы области действия для пометки незнакомых входных данных и направления их к человеку или получения ответа по умолчанию.
  • Лёгкая объяснимость за счёт извлечения примеров ближайших соседей в векторном пространстве, чтобы объяснить, как было принято решение.

Такие функции помогают системам искусственного интеллекта оставаться надёжными и снижать сопротивление со стороны конечных пользователей, даже когда продукты расширяются во всё более непредсказуемые среды с высокой вариативностью.

Заключительные мысли

Унифицированный механизм распознавания намерений — это не столько упакованный продукт, сколько практическая стратегия интеллектуального масштабирования искусственного интеллекта. Разрабатывая концепцию, мы признали, что проекты уникальны, развёртываются в разных средах и требуют разного уровня настройки. Предлагая предварительно созданные компоненты с большой гибкостью, команды могут работать быстрее, избегать лишней работы и создавать более интеллектуальные и надёжные системы.

По нашему опыту, применение такой настройки дало значимые результаты — более быстрые сроки развёртывания, меньше времени, потраченного впустую на избыточную инфраструктуру, и больше возможностей сосредоточиться на точности и граничных случаях с большим потенциалом для будущих достижений. По мере того как количество продуктов с поддержкой искусственного интеллекта будет расти в разных отраслях, такие фреймворки могут стать важными инструментами для создания масштабируемых, надёжных и гибких систем.

Об авторах

Шрути Тивари — менеджер по продуктам в области искусственного интеллекта в Dell Technologies, где она возглавляет инициативы в области искусственного интеллекта для повышения качества поддержки корпоративных клиентов с помощью генеративного искусственного интеллекта, агентских фреймворков и традиционного искусственного интеллекта. Её работа была представлена на VentureBeat, CMSWire и Product Led Alliance, и она обучает профессионалов созданию масштабируемых и ответственных продуктов на основе искусственного интеллекта.

Вадирадж Кулкарни — специалист по данным в Dell Technologies, специализирующийся на создании и внедрении мультимодальных решений искусственного интеллекта для обслуживания корпоративных клиентов. Его работа охватывает генеративный искусственный интеллект, агентский искусственный интеллект и традиционный искусственный интеллект для повышения эффективности поддержки. Его работа была опубликована на VentureBeat о применении агентских фреймворков в мультимодальных приложениях.

Ссылки:

  1. Sung, M., Gung, J., Mansimov, E., Pappas, N., Shu, R., Romeo, S., Zhang, Y., & Castelli, V. (2023). Pre-training Intent-Aware Encoders for Zero- and Few-Shot Intent Classification. arXiv preprint arXiv:2305.14827. https://arxiv.org/abs/2305.14827
  2. Puig, M. (2024). Mastering Intent Classification with Embeddings: Centroids, Neural Networks, and Random Forests. Medium. https://medium.com/@marc.puig/mastering-intent-classification-with-embeddings-34a4f92b63fb
  3. Tang, Y.-C., Wang, W.-Y., Yen, A.-Z., & Peng, W.-C. (2023). RSVP: Customer Intent Detection via Agent Response Contrastive and Generative Pre-Training. arXiv preprint arXiv:2310.09773. https://arxiv.org/abs/2310.09773
  4. Jina AI GmbH. (2024). Jina-Embeddings-v3 Released: A Multilingual Multi-Task Text Embedding Model. arXiv preprint arXiv:2409.10173. https://arxiv.org/abs/2409.10173