RAG мертв? Развитие контекстной инженерии и семантических уровней для агентного ИИ

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Введение

Генерация с дополнением на основе извлечения (RAG) могла быть необходима для первой волны корпоративного ИИ, но она быстро превращается во что-то гораздо большее.

За последние два года организации поняли, что простого извлечения текстовых фрагментов с помощью векторного поиска недостаточно. Контекст должен быть управляемым, объяснимым и адаптивным к целям агента.

В этом посте рассматривается, как происходит эта эволюция и что это значит для лидеров в области данных и ИИ, создающих системы, способные ответственно рассуждать.

Вы узнаете ответы на несколько ключевых вопросов:

Как графы знаний улучшают RAG?

Они придают структуру и смысл корпоративным данным, связывая сущности и отношения между документами и базами данных, чтобы сделать извлечение более точным и объяснимым как для людей, так и для машин.

Как семантические уровни помогают LLM получать более качественные ответы?

Семантические уровни стандартизируют определения данных и политики управления, чтобы агенты ИИ могли понимать, извлекать и рассуждать над всеми видами данных, а также над инструментами ИИ, памятью и другими агентами.

Как развивается RAG в эпоху агентского ИИ?

Извлечение становится одним из этапов более широкого цикла рассуждений (всё чаще называемого «конструированием контекста»), где агенты динамически пишут, сжимают, изолируют и выбирают контекст из данных и инструментов.

TL;DR

(RAG) приобрела известность после запуска ChatGPT и осознания того, что существует ограничение на размер контекстного окна: вы не можете просто скопировать все свои данные в интерфейс чата. Команды использовали RAG и её варианты, такие как GraphRAG (RAG с использованием графовой базы данных), чтобы добавить дополнительный контекст в подсказки во время запроса. Популярность RAG вскоре обнажила её слабые стороны: помещение неверной, нерелевантной или просто слишком большого количества информации в контекстное окно может ухудшить, а не улучшить результаты. Для преодоления этих ограничений были разработаны новые методы, такие как системы переоценки (re-rankers), но RAG не была создана для выживания в новом агентском мире.

По мере того как ИИ переходит от одиночных запросов к автономным агентам, извлечение и его варианты становятся лишь одним из инструментов в арсенале агента, наряду с написанием, сжатием и изоляцией контекста. По мере усложнения рабочих процессов и информации, необходимой для их выполнения, извлечение будет продолжать развиваться (хотя его могут называть контекстным инжинирингом, RAG 2.0 или агентским извлечением).

Рост популярности RAG

Что такое RAG?

RAG, или генерация с дополнением на основе извлечения, — это метод извлечения релевантной информации для дополнения запроса, который отправляется в LLM, чтобы улучшить ответ модели.

Вскоре после того, как ChatGPT стал популярным в ноябре 2022 года, пользователи поняли, что LLM не были обучены на их собственных данных. Чтобы восполнить этот пробел, команды начали разрабатывать способы извлечения релевантных данных во время запроса для дополнения запроса — подход, известный как генерация с дополнением на основе извлечения (RAG). Термин появился в статье VK в 2020 году, но популярность моделей GPT сделала этот термин и практику широко известными.

Инструменты вроде LangChain и LlamaIndex помогали разработчикам создавать такие конвейеры извлечения. LangChain был запущен примерно в то же время, что и ChatGPT, как способ связать различные компоненты, такие как шаблоны запросов, LLM, агенты и память, для приложений генеративного ИИ. LlamaIndex также был запущен в то же время, чтобы решить проблему ограниченного контекстного окна в GPT3 и тем самым включить RAG.

Что такое GraphRAG?

GraphRAG — это вариация RAG, где в качестве базы данных для извлечения используется граф знаний или графовая база данных.

Одной из вариаций RAG стала особенно популярной: GraphRAG. Идея здесь заключается в том, что данные, дополняющие запросы LLM, хранятся в графе знаний. Это позволяет модели рассуждать над сущностями и отношениями, а не над плоскими текстовыми фрагментами.

В начале 2023 года исследователи начали публиковать статьи, в которых рассматривалось, как графы знаний и LLM могут дополнять друг друга. В конце 2023 года Хуан Секеда, Дин Аллеманг и Байрон Джейкоб из data.world выпустили статью, демонстрирующую, как графы знаний могут повысить точность и объяснимость LLM. В июле 2024 года Microsoft открыла исходный код своего фреймворка GraphRAG, что сделало графовое извлечение доступным для более широкой аудитории разработчиков и укрепило GraphRAG как узнаваемую категорию в рамках RAG.

Рост популярности GraphRAG возродил интерес к графам знаний, подобно тому, как Google запустил свой Knowledge Graph в 2012 году. Внезапный спрос на структурированный контекст и объяснимое извлечение придал им новую актуальность.

С 2023 по 2025 год рынок отреагировал быстро:

  • 23 января 2023 года — Digital Science приобрела metaphacts, создателей платформы metaphactory: «платформа, которая поддерживает клиентов в ускорении внедрения графов знаний и продвижении демократизации знаний».
  • 7 февраля 2023 года — Progress приобрела MarkLogic. MarkLogic — это мультимодальная NoSQL база данных, особенно сильная в управлении данными RDF, основным форматом данных для графовых технологий.
  • 18 июля 2024 года — Samsung приобрела Oxford Semantic Technologies, создателей графовой базы данных RDFox, для обеспечения рассуждений на устройстве и возможностей личного знания.
  • 23 октября 2024 года — Ontotext и Semantic Web Company объединились, чтобы сформировать Graphwise, явно ориентируясь на GraphRAG.
  • 7 мая 2025 года — ServiceNow объявила о своём приобретении data.world, интегрируя графовый каталог данных и семантический слой в свою корпоративную платформу рабочих процессов.

Эти события связаны с графами знаний и связанными с ними семантическими технологиями. Если мы расширим это до включения управления метаданными и/или семантических слоёв в более широком смысле, то сделок будет больше, в первую очередь приобретение Salesforce лидера в области метаданных Informatica за 8 миллиардов долларов.

Эти шаги знаменуют собой явный сдвиг: графы знаний больше не являются просто инструментами управления метаданными — они стали семантической основой для ИИ и приблизились к своим истокам в виде экспертных систем. GraphRAG сделал графы знаний актуальными снова, предоставив им решающую роль в извлечении, рассуждениях и объяснимости.

В моей повседневной работе в качестве руководителя продукта в компании, занимающейся семантическими данными и ИИ, мы работаем над устранением разрыва между данными и их фактическим значением для некоторых из крупнейших компаний мира. Подготовка их данных для ИИ — это сочетание обеспечения их взаимодействия, обнаружения и использования, чтобы они могли передавать LLM контекстуально релевантную информацию для получения безопасных и точных результатов. Это непростая задача для крупных, строго регулируемых и сложных предприятий, управляющих экспоненциальными объёмами данных.

Падение RAG и рост контекстного инжиниринга

RAG мертва? Нет, но она эволюционировала. Первоначальная версия RAG полагалась на однократный плотный векторный поиск и брала верхние результаты для прямой передачи в LLM. GraphRAG основывалась на этом, добавив некоторую графовую аналитику и фильтры сущностей и/или отношений. Эти реализации почти сразу столкнулись с ограничениями, связанными с релевантностью, масштабируемостью и шумом. Эти ограничения подтолкнули RAG к новым эволюциям, известным под многими именами: агентское извлечение, RAG 2.0 и, совсем недавно, контекстный инжиниринг.

Следуя циклу ажиотажа вокруг RAG в 2024 году, неизбежно наступило разочарование. Хотя можно быстро создать демонстрацию RAG на нескольких документах, масштабирование приложения в корпоративном секторе становится гораздо сложнее.

Одной из проблем при масштабировании приложения RAG является объём данных, необходимых для извлечения. «Я думаю, что проблема, с которой сталкиваются люди, заключается в масштабировании. Это здорово для 100 документов, но внезапно у меня появляется 100 000 или 1 000 000 документов», — говорит Раджив Шах.

Но по мере взросления LLM их контекстные окна увеличивались. Размер контекстных окон был первоначальной проблемой, для решения которой и была создана RAG. Это поднимает вопрос о том, нужна ли RAG всё ещё или она полезна.

Чтобы решить проблему переполнения модели или предоставления неверной или нерелевантной информации, стала популярной переоценка (re-rankers).

Что такое контекстный инжиниринг?

«Искусство и наука заполнения контекстного окна именно той информацией, которая нужна на каждом этапе траектории агента». Ланс Мартин из LangChain.

Я хочу сосредоточиться на контекстном инжиниринге по двум причинам:

  • основатели терминов RAG 2.0 и Agentic Retrieval (Contextual AI и LlamaIndex соответственно) начали использовать термин «контекстный инжиниринг»;
  • это более популярный термин, основанный на тенденциях поиска в Google.

Контекстный инжиниринг можно рассматривать как эволюцию промпт-инжиниринга. Промпт-инжиниринг заключается в составлении запроса таким образом, чтобы получить нужные результаты, а контекстный инжиниринг — в дополнении этого запроса соответствующим контекстом.

RAG приобрела известность в 2023 году. С тех пор всё стало «агентским». RAG была создана исходя из предположения, что запрос будет сгенерирован человеком, а ответ будет прочитан человеком. С агентами нам нужно переосмыслить, как это работает.

Ланс Мартин разбивает контекстный инжиниринг на четыре категории: писать, сжимать, изолировать и выбирать. Агентам необходимо писать (или сохранять или запоминать) информацию от задачи к задаче, как и людям. Агентам часто приходится иметь слишком много контекста при переходе от задачи к задаче, и им нужно каким-то образом сжимать или конденсировать его, обычно посредством суммирования или «прореживания».

Вместо того чтобы давать модели весь контекст, мы можем изолировать его или разделить между агентами, чтобы они могли, как описывает Anthropic, «одновременно исследовать разные части проблемы».

Вместо того чтобы рисковать контекстной гнилью и ухудшением результатов, идея здесь состоит в том, чтобы не давать LLM достаточно верёвки, чтобы повеситься.

Агентам приходится использовать свою память, когда это необходимо, или обращаться к инструментам для извлечения дополнительной информации, то есть им нужно выбирать (извлекать), какой контекст использовать. Одним из таких инструментов может быть векторное извлечение, то есть традиционная RAG. Но это всего лишь один инструмент в наборе инструментов агента.

Будущее извлечения светлое. Как мы можем гарантировать, что агенты смогут извлекать различные наборы данных в рамках предприятия? От реляционных данных до документов? Ответ всё чаще называют семантическим слоем.

Контекстный инжиниринг нуждается в семантическом слое

Что такое семантический слой?

Семантический слой — это способ прикрепления метаданных ко всем данным в форме, доступной для чтения как человеком, так и машиной, чтобы люди и компьютеры могли последовательно понимать, извлекать и рассуждать над ними.

Существует недавняя тенденция со стороны тех, кто работает в области реляционных данных, создать семантический слой поверх реляционных данных. Snowflake даже создала инициативу Open Semantic Interchange (OSI), чтобы попытаться стандартизировать способ документирования компаниями своих данных, чтобы подготовить их для ИИ.

Но фокусировка исключительно на реляционных данных — это узкий взгляд на семантику. Что насчёт неструктурированных данных и полуструктурированных данных? Именно с таким типом данных большие языковые модели справляются лучше всего, и именно он положил начало всей ярости RAG.

Google десятилетиями извлекал релевантную информацию из всего интернета, используя структурированные данные. Под структурированными данными здесь понимается машиночитаемый метаданные, или, как его описывает Google, «стандартизированный формат для предоставления информации о странице и классификации содержимого страницы».

Будущее семантического слоя объединит миры реляционных и структурированных данных, сочетая строгость управления реляционными данными с контекстуальной насыщенностью библиотечных наук и графов знаний.

Будущее RAG

Вот мои прогнозы на будущее RAG:

RAG будет продолжать развиваться в сторону более агентских паттернов. Это означает, что извлечение контекста — это лишь часть цикла рассуждений, который также включает в себя написание, сжатие и изоляцию контекста. Извлечение становится итеративным процессом, а не однократным.

Извлечение будет расширяться и включать все виды данных (мультимодальное извлечение): реляционные, контентные, а затем изображения, аудио, геоданные и видео.

Извлечение будет расширяться, чтобы включать метаданные о самих инструментах, а также «памяти».

Графы знаний будут играть ключевую роль в качестве метаданных между реляционными и неструктурированными данными, заменяя узкое определение семантического слоя, используемого в настоящее время, более надёжной системой управления метаданными.

Будут набирать популярность показатели оценки контекста извлечения.

Защитные ограждения в виде политики как кода обеспечат соблюдение контроля доступа, политик, нормативных требований и лучших практик при извлечении.

Заключение

RAG никогда не была конечной целью, а только отправной точкой. По мере перехода в эпоху агентского ИИ извлечение превращается в часть полноценной дисциплины: контекстного инжиниринга. Агентам нужно не просто находить документы; они должны понимать, какие данные, инструменты и память актуальны для каждого шага в их рассуждениях. Это понимание требует семантического слоя — способа понимания, извлечения и управления всеми корпоративными данными. Графы знаний, онтологии и семантические модели обеспечат эту связующую ткань.

Следующее поколение извлечения будет ориентировано не только на скорость и точность; оно также будет ориентировано на объяснимость и доверие. Будущее RAG — это не просто извлечение, а извлечение, которое учитывает контекст, политику и семантическую обоснованность.

Об авторе: Стив Хедден — руководитель отдела управления продуктами в TopQuadrant, где он возглавляет стратегию для TopBraid EDG, платформы для управления графами знаний и метаданными. Его работа сосредоточена на преодолении разрыва между управлением корпоративными данными и ИИ с помощью онтологий, таксономий и семантических технологий. Стив регулярно пишет и выступает о графах знаний и развивающейся роли семантики в системах ИИ.