Памятка: Непрерывное обучение для агента LLM без тонкой настройки

Вы когда-нибудь хотели, чтобы ваш ИИ-агент мог учиться и адаптироваться на лету, как это делаете вы? Представьте себе ИИ-помощника, который после однократного невыполнения задачи запоминает свою ошибку и больше её не повторяет. ИИ, который не просто реагирует на запросы, но становится умнее с каждым взаимодействием.

В течение многих лет это был святой Грааль искусственного интеллекта, мечта, сдерживаемая двумя основными препятствиями. Мы создали мощных ИИ-агентов, но они либо остаются ограниченными в рамках фиксированного способа мышления, либо терпят неудачу в реальных сценариях, требующих непрерывного обучения. Это классическая дилемма: статичный гений против медленного ученика с ненасытной жаждой власти и данных.

Но что, если есть третий путь? Появилась новая исследовательская статья, в которой предложен способ, позволяющий ИИ-агентам непрерывно учиться в изменяющейся среде без значительных затрат на тонкую настройку массивных моделей, которые их поддерживают. Memento — это революционный подход, который делает именно это. Предоставляя агентам LLM внешнюю, человекоподобную память, Memento предлагает масштабируемый, эффективный и невероятно мощный путь к следующему поколению универсальных ИИ. В этом блоге мы разберём детали Memento и то, как он работает.

Проблема с сегодняшними агентами LLM

Агенты больших языковых моделей (LLM) — это будущее. В отличие от традиционных LLM, которые просто отвечают на вопросы, эти агенты активно решают проблемы. Они могут автономно выполнять сложные задачи, используя внешние инструменты и анализируя проблемы шаг за шагом.

Однако, какими бы мощными они ни были, большинство агентов LLM попадают в одну из двух категорий, каждая из которых имеет критический недостаток:

Жёсткий агент. Этот тип агента построен с фиксированным, жёстко запрограммированным рабочим процессом. Он отлично справляется со своей конкретной работой, но не может адаптироваться. Он не будет включать новую информацию самостоятельно или учиться на своих ошибках в режиме реального времени. Представьте себе высокоспециализированную машину, которая может выполнять только одну задачу идеально.
Агент тонкой настройки. Это более гибкий, но невероятно дорогостоящий подход. Эти агенты обновляются путём тонкой настройки их основных параметров LLM на основе новых данных или обучения с подкреплением. Это позволяет добиться более динамичного поведения, но процесс представляет собой логистический кошмар. Это делает их непрактичными для непрерывного онлайн-обучения.

Memento был создан для решения этой центральной задачи: как создать ИИ, который может непрерывно учиться без постоянного, дорогостоящего и рискованного процесса тонкой настройки?

Что такое Memento?

Memento — это, по сути, фреймворк, управляемый памятью, который позволяет агентам LLM учиться на опыте, как это сделал бы любой человек. Они вспоминают, адаптируются и повторно используют прошлые случаи без переобучения базовой большой языковой модели, на которой они построены.

Создатели Memento обратились к самой мощной и эффективной машине для обучения, которую мы знаем: человеческому мозгу. Люди не «настраивают» свой мозг каждый раз, когда узнают что-то новое. Вместо этого мы полагаемся на свою память. Мы храним прошлый опыт, учимся на своих успехах и неудачах и используем эти воспоминания для принятия решений в будущем, что известно как Case-Based Reasoning (CBR). Это психологический принцип, который предполагает, что мы решаем новые задачи, вспоминая и адаптируя решения из похожих прошлых ситуаций.

Memento переносит этот человекоподобный подход на агентов LLM. Вместо тонкой настройки основной модели LLM Memento предоставляет агенту внешнюю эпизодическую память, называемую Case Bank. В Case Bank хранятся прошлые траектории, включая предпринятые шаги, результаты и то, закончились ли они успехом или неудачей. Это позволяет агенту «учиться на лету» без единого градиентного обновления базовой модели.

Код фреймворка Memento можно найти здесь: GitHub.

Что происходит в Memento?

Ядром этой системы является Memory-augmented Markov Decision Process (M-MDP). Это способ моделирования процесса принятия решений агентом, где его память является ключевой частью каждого выбора. Это огромный сдвиг по сравнению с традиционными моделями, которые полагаются исключительно на свои внутренние фиксированные знания.

Теперь, когда мы знаем, что такое Memento, давайте углубимся в его архитектуру.

Как работает архитектура Memento?

Memento работает по простой, но мощной двухэтапной схеме:

Этап 1: планирование на основе прецедентов

Здесь агент думает. LLM действует как Планировщик, принимая пользовательский запрос и, как человек, разбивая его на список подзадач. Секретный соус здесь — это Case Memory.

Прежде чем действовать, Планировщик «читает» из своего Case Bank, извлекая прошлый опыт, наиболее похожий на текущую задачу. Агент затем использует эти прошлые случаи, включая как успешные, так и неудачные попытки, чтобы сформировать свой текущий план, помогая ему избежать предыдущих ошибок и применить проверенные стратегии.

Как только у Планировщика появится стратегия, он передаёт подзадачу Исполнителю. Это ещё один LLM, оснащённый полным набором внешних инструментов, таких как веб-поиск, интерпретаторы кода и файловые процессоры. Исполнитель выполняет план, выполняя подзадачи одну за другой, используя правильные инструменты для выполнения работы. Агент даже оснащён мощными инструментами поиска и сканирования для извлечения и анализа информации из Интернета в режиме реального времени.

Каждое действие, которое предпринимает агент, и награда, которую он получает (успех или неудача), записываются и «заносятся» обратно в Case Bank. Это создаёт непрерывный цикл обратной связи, в котором память агента постоянно растёт и становится умнее с каждым новым взаимодействием. Этот процесс формализован с помощью мягкого Q-обучения, метода, который позволяет агенту со временем изучить ценность различных кейсов (опытов). Это изощрённый способ гарантировать, что агент научится определять, какие прошлые опыты наиболее ценны для извлечения.

Memento: производительность в реальном мире

Фреймворк Memento — это не просто теоретическая концепция; он продемонстрировал поистине замечательные результаты. В статье подробно описаны обширные оценки по нескольким бенчмаркам, и цифры убедительны:

Первое место в GAIA. Memento занял первое место в рейтинге GAIA, бенчмарке, предназначенном для проверки способности агента выполнять сложные, долгосрочные задачи, требующие использования инструментов и автономного планирования. Результаты были особенно сильными в тестовом наборе, где он набрал 79,40%, что стало новым эталоном для открытых агентских фреймворков.
Превосходство над конкурентами. На наборе данных DeepResearcher, который тестирует исследования в реальном времени, Memento достиг впечатляющего показателя F1 66,6% и 80,4% PM. Он превзошёл современные системы, основанные на обучении, доказав, что подход, основанный на памяти, может быть более эффективным, чем брутфорс-тонкая настройка.
Сила памяти. Исследования по удалению отдельных компонентов в статье подтвердили критическую роль Case Bank. Добавление памяти на основе прецедентов повысило точность выполнения задач вне распределения на 9,6%, продемонстрировав силу обучения на основе прошлого опыта.

Фреймворк Memento, основанный на сочетании таких моделей, как GPT-4.1 и o4-mini, демонстрирует, что дело не в использовании самой большой модели, а в использовании правильной структуры для использования возможностей этой модели.

Заключение

Фреймворк Memento представляет собой глубокий сдвиг в том, как мы думаем о создании ИИ-агентов. Он доказывает, что мы можем создавать высокопроизводительные системы, непрерывно обучающиеся без crippling затрат и технических сложностей, связанных с тонкой настройкой модели.

Этот подход предлагает мощный, масштабируемый и эффективный путь к созданию действительно универсальных агентов LLM — ИИ, который может решать широкий спектр задач и становится лучше с каждым взаимодействием. Принимая человекоподобную парадигму памяти и обучения, Memento — это не просто лучший способ создания ИИ; это более интуитивный способ. Это шаг к AGI, который не просто действует разумно, но учится и адаптируется гораздо более… человечно.

Готовы увидеть, как подход, основанный на памяти, может изменить способ создания вами ИИ? Ознакомьтесь с кодом и посмотрите, как Memento работает в действии. Будущее ИИ уже здесь, и оно построено на основе памяти, а не только на грубой силе.

Часто задаваемые вопросы

Q1. Что такое Memento в агентах LLM?

A. Memento — это управляемый памятью фреймворк, который позволяет агентам LLM непрерывно учиться, используя внешний Case Bank, избегая дорогостоящей тонкой настройки при одновременном повышении адаптивности.

Q2. Как Memento помогает агентам улучшить производительность?

A. Он сохраняет прошлые успехи и неудачи, извлекает похожие случаи для новых задач и адаптирует стратегии, позволяя агентам избегать ошибок и действовать умнее.

Q3. Насколько эффективен Memento по сравнению с тонкой настройкой?

A. Memento превзошёл системы с интенсивным обучением, заняв первое место в бенчмарке GAIA с 79,4% и повысив точность выполнения задач вне распределения на 9,6% — и всё это без переобучения базовой модели.

Ану Мадан — эксперт в области разработки учебных программ, написания контента и B2B-маркетинга, обладающий талантом преобразовывать сложные идеи в значимые повествования. Её внимание сосредоточено на генеративном ИИ, и она создаёт проницательный, инновационный контент, который обучает, вдохновляет и способствует значимому взаимодействию.

Настраивайте агентов LLM без дополнительной настройки LLM! Спасибо Memento!