Расширение Reforge — бесплатный помощник, который встраивается в ваши повседневные инструменты
Расширение Reforge — это бесплатный помощник, который встраивается в ваши ежедневные инструменты. Оно помогает вам начать работу, действовать более стратегически и создавать более качественные проекты. В его основе — знания ведущих экспертов в области технологий.
Полное видео:
ВИДЕО
В июне Дэн Вольчонок, вице-президент по новым продуктам, поделился подробным рассказом о создании расширения Reforge. На этом мероприятии он осветил:
- Дорожная карта: от концепции к реальности
- Почему мы создали его, что мы создали и как мы создали первые версии
- Как это работает: технология, стоящая за расширением
- Как мы перешли от простого RAG к цепочке мыслей
- Что внутри: взгляд на наш стек
- Подробные сведения об инструментах, использованных для создания продукта, и специальная презентация о том, как мы используем Adaline для тестирования и усовершенствования наших подсказок.
Ознакомьтесь с полной записью и сопутствующим блогом здесь.
Теперь мы возвращаемся с частью 2, чтобы показать, как мы улучшили расширение по трём важным критериям — интеллектуальность, удержание и рост.
Дэн расскажет, как мы:
- Оптимизировали нашу цепочку мыслей (CoT) и использовали лучшие в классе подсказки Anthropic для улучшения работы.
- Удвоили удержание с помощью одной лишь функции.
- Увеличили количество переходов по электронной почте в четыре раза с помощью расширения.
Прежде чем мы углубимся в это, настоятельно рекомендуем скачать расширение бесплатно здесь!
Скачать бесплатно здесь
Контекст расширения
Но сначала давайте разберёмся, зачем мы создали этот инструмент и каково его текущее положение.
В мире, где работа, требующая интеллектуальных усилий, часто разрознена по таким инструментам, как Notion, Google Docs, Confluence и Jira, Reforge поставила перед собой задачу создать расширение, которое интегрируется непосредственно в эти платформы, предоставляя контекстуальные предложения, которые помогают пользователям писать, просматривать и улучшать документы — независимо от того, составляют ли они PRD, план запуска, билеты на продукт, методические рекомендации или стратегическую дорожную карту.
«Мы хотели помочь людям делать более качественную работу, предоставляя наш опыт прямо там, где они уже работают», — объяснил Дэн. Расширение связывает пользователей с фреймворками, обратной связью и реальными примерами из базы знаний Reforge, не требуя от них переключения между вкладками или приложениями. Кроме того, оно работает на базе топовых моделей OpenAI, предоставляя вам доступ к передовым инструментам искусственного интеллекта без необходимости писать подсказки.
Расширение делает больше, чем просто предлагает соответствующие предложения; оно создано для решения сложных задач, предлагая обратную связь, основанную на опыте. От того, что оно действует как «менеджер по продукту над вашим плечом», до активного руководства пользователями, чтобы избежать распространённых ошибок, расширение предлагает бесшовную интегрированную функциональность.
Хотя оно бесплатно для всех, участники Reforge for Teams получают дополнительные функции, такие как настраиваемые шаблоны компаний, встроенные в расширение!
1. Улучшение интеллекта за счёт оптимизации нашей цепочки мыслей (CoT)
Давайте углубимся в то, как мы сделали расширение умнее, сосредоточив внимание на улучшениях в нашей системе рассуждений по цепочке мыслей.
В предыдущей сессии мы обсудили простую блок-схему, описывающую работу нашей системы генерации с дополненной выборкой (RAG).
Проблема — ранние версии расширения изо всех сил пытались различать разные типы документов. «Мы заметили ограничения современных моделей искусственного интеллекта, когда дело дошло до обратной связи», — объяснил Дэн. PRD и пользовательский образ, например, требуют совершенно разных подходов к оценке. Однако первоначальная модель ИИ относилась к ним одинаково, предлагая общие отзывы, которые часто не соответствовали действительности.
Улучшение цепочки мыслей
Первоначальное решение — чтобы улучшить это, мы ввели новый шаг (как показано выше), где мы определяем тип документа, с которым работает пользователь. Как только мы узнаем тип документа, мы направляем модель, чтобы она давала обратную связь, специально подходящую для этого типа документа. Хотя мы не переделывали всю систему, это усовершенствование имело значительное значение.
На этой блок-схеме, например, когда пользователь нажимает «Помогите мне улучшить мой документ», первое, что мы делаем, — это классифицируем документ. Мы теперь категоризируем его как что-то вроде PRD (документ с требованиями к продукту), персону, техническую спецификацию или даже результаты эксперимента — каждый из которых требует отдельного подхода к оценке.
Новая оптимизация — то, что начиналось с 13 типов документов, расширилось до 180 уникальных типов. Этот сдвиг не был гламурным — он включал бесчисленные часы сопоставления соответствующего контента Reforge с каждым типом документа и постоянного уточнения вопросов, которые ИИ задавал бы. Но эта фундаментальная работа была необходима для повышения качества обратной связи.
Каждый тип документа имеет описание, ключевые синонимы для документа, которые нужно искать в заголовках документов, образцы документов и объяснение эксперта о том, что отличает хорошее от отличного.
Как только мы классифицируем документ, мы используем накопленные в Reforge знания, чтобы определить, что предложил бы настоящий эксперт для этого типа документа. Мы используем богатство знаний с платформы Reforge, которая включает образовательный контент и примеры из реальной жизни. Это позволяет нам основывать нашу обратную связь на практических советах, адаптированных к типу документа.
Поэтому каждый документ тщательно сопоставляется с соответствующими курсами и руководствами, которые наиболее актуальны в библиотеке контента Reforge.
Далее мы задаём вопрос: как эксперт оценил бы этот документ?
Эти вопросы написаны экспертами и предназначены для того, чтобы начать цепочку мыслей LLM. Затем LLM берёт эти вопросы в сочетании с документом пользователя, базой знаний Reforge, меткой и описанием документа и размышляет о новых вопросах. Наконец, LLM отвечает на эти вопросы.
Проблемы с нашим первоначальным подходом?
- Начальные вопросы были слишком общими : у нас мог быть общий вопрос вроде: «Будет ли этот документ лучше, если в нём будет описано, как он отличается от продуктов конкурентов на переполненном рынке?» Хотя это разумный вопрос, мы поняли, что можем сделать лучше.
Изменение 2 — мы переписали все наши начальные вопросы, чтобы сделать их более конкретными и действенными. Теперь мы задаём более целенаправленные вопросы, например: «Насколько эффективно наше сообщение подчёркивает уникальные преимущества нашего продукта по сравнению с конкурентами? Есть ли конкретные конкурентные преимущества, которые мы должны подчеркнуть больше?»
- Высота и продуманность вопросов сильно различались. Например, мы обнаружили, что многие вопросы были сосредоточены на вещах, которые «отсутствовали» в документе, что приводило к тому, что пользователи добавляли материал, а не задавали вопросы о том, что можно было бы уточнить, или, возможно, удалить из документа.
Изменение 3 — мы отправились в путешествие с экспертами и определили 9 основных типов обратной связи. Затем мы убедились, что начальные вопросы охватывают все 9 типов обратной связи.
Улучшения подсказок в рамках цепочки мыслей
Наконец, и, возможно, самое главное, мы полностью переработали наши подсказки.
Я хочу сосредоточиться на финальной и, возможно, наиболее важной подсказке. Это та, которая в конечном итоге отвечает на начальные вопросы и даёт пользователю правильную обратную связь для нужного документа в нужное время.
Ранее системная подсказка была относительно короткой, и даже после того, как мы исправили предыдущий шаг с помощью более качественной идентификации документов, более качественных начальных вопросов и более качественного сопоставления, конечные ответы всё равно казались слишком общими или высокого уровня.
Хотя процесс включал в себя цепочку мыслей (CoT), поскольку было несколько шагов до этого (идентификация документа, создание начальных вопросов и т. д.), когда мы дошли до нашего последнего шага процесса — ответа на начальные вопросы — мы вернулись к одному шагу.
Теперь мы значительно расширили нашу подсказку, чтобы создать CoT внутри нашего CoT.
Сначала подумайте! — мы направляем модель, чтобы она более тщательно продумала проблему, что и является цепочкой рассуждений. После того как мы проведём её через серию шагов критического мышления, мы просим модель перефразировать свою обратную связь, сделав её более действенной и конкретной, чтобы предложения были не просто общими замечаниями, а ценными рекомендациями.
Затем извлеките! — мы также говорим модели использовать шаг извлечения. Мы хотим, чтобы LLM использовала базу знаний Reforge, но мы не хотим, чтобы она обучала пользователя теории (по крайней мере, поначалу). Мы хотим, чтобы она предоставила чёткое применение обратной связи.
Например, мы давали обратную связь вроде: «Настройте реку обратной связи». Хотя это технически правильно, это расплывчато и требует знания того, что такое река обратной связи, чтобы что-то с этим сделать. Теперь мы даём гораздо более конкретные советы, например: «Свяжитесь с 20–30 пользователями, которые не зарегистрировались, и попросите их оставить отзыв о процессе».
Мы также предоставляем модели конкретные примеры, чтобы помочь ей сформулировать предложения более эффективно. Это было огромным улучшением по сравнению с предыдущей версией, где мы не предоставляли никаких примеров и полагались на нулевое обоснование. Теперь мы даём около 20 примеров, что заметно улучшило качество обратной связи.
Мы также подчёркиваем важность выделения наиболее действенной части рекомендации. Раньше мы просто просили модель обобщить точку, но теперь мы подчёркиваем необходимость того, чтобы обратная связь была действенной и конкретной. Например, вместо общего предложения «настроить цикл обратной связи» мы теперь даём конкретные шаги, например: «Провести опрос 10 пользователей, которые не завершили регистрацию, чтобы собрать идеи о том, почему они выбыли». Такой точный подход к обратной связи гораздо более ценен.
Это тот тип мышления, который помог нам сделать процесс обратной связи более интеллектуальным и актуальным. Мы получили массу положительных отзывов с момента внесения этих изменений, и мы только начинаем.
💡 Создание инструментов на базе искусственного интеллекта — это не только о ярких функциях. Иногда это кропотливая, незаметная работа, которая обеспечивает точность и надёжность инструмента. Для поддержания точности работы нет ярлыков
«Создание продуктов искусственного интеллекта сегодня — это не только о ярких демонстрациях. Это о том, чтобы проделать неинтересную работу по доведению мелочей до совершенства — понять компромиссы между скоростью, стоимостью и качеством, и постоянно оценивать правильность вывода», — сказал Дэн. Команда также улучшила способность ИИ генерировать точную и действенную обратную связь, отказавшись от расплывчатых подсказок вроде «настроить цикл обратной связи» в пользу более конкретных и тактических предложений, таких как «провести опрос 20–30 пользователей, которые выбыли во время воронки, чтобы уточнить ваше сообщение».
Такое внимание к точности не было просто улучшением интерфейса — оно напрямую повлияло на пользовательский опыт. Теперь расширение способно предлагать высоко адаптированные, контекстуально-специфичные рекомендации, гарантируя, что пользователи получают не просто обратную связь, а правильную обратную связь для своей конкретной ситуации.
2. Вне поля зрения, вне ума: делая расширение незабываемым
После запуска расширения Reforge команда столкнулась с удивительно распространённой проблемой — пользователи любили инструмент, но многие просто забывали, что он существует.
Несмотря на положительные отзывы о его полезности, расширение не становилось ежедневной привычкой для пользователей. Дэн описал это как классическую проблему «вне поля зрения, вне ума».
«Мы сделали то, что сделала бы любая хорошая продуктовая команда — мы опросили пользователей», — объяснил Дэн. Результаты были поразительными: пользователи последовательно говорили, что установили расширение, сочли его полезным во время первых сеансов, а затем тут же забыли о его существовании. Комментарии вроде: «Я забыл, что у меня оно есть, через три минуты после установки» были шокирующе частыми.
Эта проблема была не сбоем самого продукта, а скорее признаком того, что расширение не делало достаточно, чтобы напомнить пользователям о его ценности ненавязчивым образом. Вместо того чтобы пользователи активно искали расширение, Reforge нужно было подталкивать их в нужный момент. Но как сделать инструмент более заметным, не становясь при этом навязчивым?
Решение: встроенные подсказки
ВИДЕО
Чтобы решить эту проблему, команда взяла пример с таких инструментов, как Grammarly, которые мягко подсказывают пользователям с помощью предложений, пока они печатают, не будучи при этом подавляющими. Reforge внедрила функцию, при которой расширение будет отображать тонкие контекстуальные подсказки — маленькие пузырьки, прикреплённые к определённым разделам документа в таких инструментах, как Notion или Google Docs.
Например, если вы составляли PRD в Notion, всплывающий пузырь Reforge мог появиться рядом с разделом, предлагая улучшения ясности документа или рекомендуя ключевой фреймворк из библиотеки контента Reforge. Эти пузырьки действуют как мягкие толчки, помогая пользователям действовать, не нарушая их рабочий процесс. И самое главное, они напоминают им, что расширение есть, когда оно им больше всего нужно.
Результаты? Reforge удвоила показатели удержания пользователей, у которых была эта функция. Раньше активность пользователей резко возрастала в первую неделю после установки, но затем значительно снижалась. Но с появлением новых подсказок показатели за первую неделю более чем удвоились, с последующим устойчивым использованием после запуска функции.
«Мы не видели, чтобы пользователи удаляли расширение», — отметил Дэн. «Им оно нравилось; они просто забывали, что оно у них есть. Поэтому, сделав его более проактивным, но всё ещё ненавязчивым, мы смогли вернуть пользователей в строй, не будучи навязчивыми».
GPT-4.0 Mini: золотая середина между скоростью, качеством и стоимостью
Критическим компонентом успеха этой функции стал выбор подходящей модели ИИ. Reforge остановилась на GPT-4.0 Mini, версии модели OpenAI, которая обеспечивает идеальный баланс между скоростью, интеллектом и стоимостью.
GPT-4.0 Mini стал прорывом для нашего случая использования: он был достаточно быстрым, чтобы предоставлять предложения в режиме реального времени, достаточно умным, чтобы создавать высококачественную обратную связь, и, что наиболее важно, достаточно экономичным для масштабирования среди всех пользователей.
Reforge протестировала различные модели ИИ, включая GPT-3.5 Turbo, которая была дешевле, но не обладала необходимым интеллектом для сложной обратной связи, и полную версию GPT-4.0, которая была слишком дорогой для необходимого масштаба. «GPT-4.0 Mini нашёл золотую середину — он был достаточно умён, быстр и дёшев, чтобы эта функция работала для нас», — объяснил Дэн.
Внедряя такие контекстуальные подсказки, управляемые GPT-4.0 Mini, Reforge превратила расширение из инструмента, о котором пользователи забывали, в инструмент, с которым они взаимодействовали регулярно — удвоив при этом показатели удержания.
💡 Ключевой урок здесь заключается в том, что при запуске функций на базе ИИ вы всегда должны думать наперёд — создавайте для модели, которая будет доступна через шесть месяцев, а не только для той, что существует сегодня. Технологии развиваются так быстро, что вы не захотите, чтобы ваш продукт устарел, когда выйдет следующая итерация.
Использование лучших в своём классе подсказок от Anthropic
Мы изучали системные подсказки Anthropic для Claude, чтобы улучшить наши собственные возможности ИИ. Хотя они ещё не выпустили системные подсказки для артефактов, мы получили ценную информацию из того, что доступно. Вот некоторые ключевые выводы, которые мы реализовали:
А. Поощрение ИИ «думать»
Мы обнаружили раздел в подсказке Anthropic, где ИИ по сути «думает», записывая свой мыслительный процесс, хотя этот вывод не виден пользователям. Внедрив аналогичный подход, мы значительно улучшили предложения нашего ИИ.
Есть причина, по которой они включают это без вывода. Пока ИИ обдумывает процесс, он генерирует более точные прогнозы и более релевантные токены, потому что он обдумывает, что он делает и почему.
Например, есть раздел, который говорит: «Подумайте в течение одного предложения о том, как это оценивается по критериям хорошего и плохого артефакта». Мы вдохновились этим и создали аналогичные элементы в нашей подсказке.
B. Стремление к критической обратной связи
Мы дали указание нашему ИИ быть более критичным и резким в отношении таких проблем, как слова-заполнители, отсутствие конкретики, ограниченный кругозор и недостаточная подотчётность по показателям. Такой подход помогает генерировать более ценные и действенные отзывы для наших пользователей.
Мы подчеркнули, что пользователи должны слышать честную правду, которую люди часто боятся им сказать. Мы чувствовали, что нам нужно включить некоторые провокационные элементы, чтобы стимулировать более глубокое мышление. Это не для вывода предложений напрямую, а для того, чтобы ИИ оценивал документ, что затем влияет на его предложения.
C. Предоставление конкретных примеров
Теперь мы предоставляем 20 различных примеров гипотетических предложений в наших подсказках. Например, мы, вероятно, написали бесчисленное количество раз: «Наши показатели удержания не соответствуют нашим целям». Пример здесь может быть таким: указать конкретную метрику, которая не соответствует цели, и её значение.
Мы подкрепляем критические показатели, указывая метрику и то, насколько она далека от цели. Например, «Наш чистый доход от удержания составляет 35%, а наша цель — 40%. Мы отстаём от наших целей по доходам на 5 миллионов долларов». Это похоже на версию А+ того, что могло бы быть в вашем документе, устанавливающую более высокий стандарт.
Это похоже на пример из функции артефактов Claude от Anthropic. Вы можете увидеть там строку документации и пример. Например, если пользовательский запрос — «Можете ли вы помочь мне создать скрипт на Python для вычисления факториала числа?», он пройдёт через некоторое размышление о создании скрипта на Python. Затем он включает метаданные, которые они, вероятно, используют для отображения артефактов в Claude. Мы во многом смоделировали наш подход, и это значительно улучшило наши предложения.
Техническая реализация
С технической точки зрения мы столкнулись со значительной проблемой при внедрении предложений в наиболее релевантных точках. Многие пользователи говорили нам, что, хотя предложения были хорошими, им нужно было точно знать, где в их документе применить их.
Чтобы реализовать эту новую функцию, нам пришлось сопоставить каждое предложение с конкретным фрагментом документа. Вы можете увидеть примеры здесь для Notion, Microsoft Word Online и Google Docs. Для каждого из этих инструментов нам нужно было получить доступ к содержимому документа, а затем попросить языковую модель предоставить обратную связь с соответствующими идентификаторами. Это позволяет нам показывать предложения в соответствующих местах.
Один из наших талантливых инженеров должен был выяснить, как получить доступ к информации в документах пользователей для поддержки этой функции, а затем изменить веб-страницы в браузере пользователя, чтобы отображать предложения, выделять соответствующий текст и отображать предложение при нажатии.
Всё это должно было быть сделано без вмешательства в работу Google Docs, Notion и Microsoft Word. Это была масштабная инженерная работа, причём большая часть её была специфична для отдельных инструментов, которые используют люди.
3. Увеличиваем вовлечённость в четыре раза с помощью персонализированного маркетинга на базе ИИ
ВИДЕО
Расширение Reforge включает в себя мощную функцию, которая помогает пользователям составлять самые разные документы, от PRD до должностных инструкций, персон и карьерных лестниц. Несмотря на ценность функции, многие пользователи не знали о её существовании, не говоря уже о том, что она может сделать. Те, кто использовал её, были впечатлены результатами, и показатели удержания для этой функции высоки. Задача заключалась в том, чтобы привлечь больше людей к её использованию в первую очередь.
Решение? Мы использовали возможности ИИ для создания высоко персонализированной маркетинговой кампании, которая не просто рассказывала пользователям, что может сделать расширение — она показывала им, используя индивидуальный контент, уникальный для их роли и компании. Эта кампания произвела революцию в подходе Reforge к вовлечению пользователей и маркетингу.
Персонализация в масштабе: как это сделал Reforge
Дэн рассказал о процессе использования автоматизации и ИИ для создания уникальных примеров PRD для тысяч пользователей. Вместо того чтобы рассылать общие электронные письма, Reforge использовала ИИ для создания полностью проработанных PRD, специфичных для контекста каждого пользователя, на основе его должности, компании и того, чем занимается его компания.
Вот как это работало:
- Reforge собирала метаданные об пользователях, когда они искали определённые термины, такие как «PRD» или «дорожная карта», на платформе. Эти данные включали профиль пользователя. Если в профиле была указана информация о компании пользователя, мы извлекали описание компании из Clearbit.
- Используя эти данные, ИИ создавал уникальное представление продукта для компании — что-то смежное с текущим портфелем продуктов, но не пересекающееся с ним.
- Затем, используя весь контекст пользователя и эту новоиспечённую идею, мы использовали фактическую подсказку из расширения Reforge для создания PRD.
- Далее ИИ создавал персонализированную тему письма и форматировал черновик в HTML, в результате чего получался адрес электронной почты, который чувствовал себя индивидуально для каждого пользователя.
- Наконец, система автоматизации электронной почты Reforge отправляла эти персонализированные электронные письма пользователям, предоставляя им готовый к использованию документ, который напрямую отвечал их потребностям.
Результат? 100% открытость (это не шутка) и CTR 14,2%. Обычно наши электронные письма имеют открытость в 50–60% и CTR в 1,5–2%. Разумеется, это было огромным улучшением.
Вместо того чтобы требовать от пользователей представить, как расширение может им помочь, мы предоставили им контекстуальный, действенный контент прямо в их почтовых ящиках, что позволило им легко увидеть ценность инструмента. «Мы увидели, что наши показатели открытости и кликабельности взлетели», — сказал Дэн. «Люди не просто читали электронные письма — они взаимодействовали с контентом и использовали расширение в результате».
Масштабирование персонализации с помощью автоматизации
Первая версия этого была запущена Дэном с использованием VS code на его диске. Он собирал по 500–1000 пользователей за раз и запускал пакетный процесс. Затем Бен (член команды Дэна) брал эти данные и отправлял массовую рассылку полностью персонализированных электронных писем.
Чтобы продвинуть этот процесс ещё дальше, Дэн и Бен создали приложение, которое автоматизировало рабочий процесс с помощью Zapier. Каждый раз, когда пользователь искал определённые термины на платформе, приложение автоматически генерировало персонализированный контент — всё, от черновика документа до темы электронного письма — и отправляло его без какого-либо ручного вмешательства. Мы также теперь сортировали пользователей по одному из четырёх типов документов, отправляя составленные PRD, документы о позиционировании, дорожные карты продуктов и методические рекомендации в зависимости от поведения пользователей при поиске.
«Мы начали с Python-скрипта, но затем масштабировали его до приложения, которое могло обрабатывать тысячи пользователей», — объяснил Дэн. «Теперь, каждый раз, когда кто-то ищет что-то вроде «PRD», он получает персонализированное электронное письмо с фактическим, пригодным к использованию PRD, основанным на его должности и компании».
Такой подход не только повысил вовлечённость, но и продемонстрировал, как Reforge может использовать ИИ для расширения возможностей персонализации таким образом, чтобы это было значимым для каждого отдельного пользователя. Речь шла не о рассылке общих сведений — мы предлагали пользователям нечто, что сразу же было для них актуально.
Будущее маркетинга на базе ИИ
Дэн подчеркнул, что такой персонализированный маркетинг на базе ИИ — это только начало. По мере того как инструменты ИИ становятся всё более совершенными, способность адаптировать контент к потребностям отдельных пользователей будет только улучшаться. «Я думаю, что это только вопрос времени, когда все будут ожидать такого уровня персонализации», — сказал Дэн. «Общие маркетинговые электронные письма будут казаться ленивыми, и планка будет поднята выше для взаимодействия с пользователями осмысленным образом».
Для Reforge успех этой кампании продемонстрировал не только то, как ИИ может повысить эффективность маркетинга, но и то, как его можно использовать для преодоления разрыва между потенциалом продукта и пониманием пользователем этого потенциала. Показывая пользователям, как именно расширение может им помочь, Reforge изменила подход к вовлечению и повысила уровень принятия.
Вопрос:
Можете описать уровень усилий, которые вы приложили для тонкой настройки контента и подсказок?
Ответ:
Мы потратили немало времени на тонкую настройку контента и подсказок. Одним из инструментов, которые мы используем, является Adeline, которая позволяет нам оценивать наши подсказки, контекст, который мы передаём в LLM, и ответы. Мы установили определённые правила — например, мы хотим, чтобы в каждом ответе была хотя бы одна ссылка на контент Reforge, или чтобы ответ соответствовал определённому типу документа. Adeline позволяет нам экспериментировать с разными подходами, например, настраивать подсказку или фильтровать контекст, который передаётся в LLM, и помогает нам определить, какие конфигурации генерируют наилучшие ответы.
Это было неоценимо для обеспечения того, чтобы обратная связь была не только актуальной, но и соответствовала правильному контексту для пользователя.
Вопрос:
Как вы измеряли качество вывода «в дикой природе»? Вы полагались на отзывы пользователей, такие как «большой палец вверх/большой палец вниз», и используете ли вы LLM для оценки ответов?
Ответ:
Мы не храним пользовательские данные из соображений конфиденциальности, поэтому мы в значительной степени полагаемся на качественные отзывы и опросы для оценки качества ответов. Мы спрашиваем пользователей, которые уходят, почему они ушли, и недавно мы добавили возможность ставить лайки и дизлайки в расширении для таких функций, как предложения JIRA и встроенные отзывы. Пока что наш рейтинг «нравится» для встроенных предложений составляет около 90%, что нас радует.
Что касается использования LLM для оценки ответов, мы пока этого не делаем, но рассматриваем такую возможность для будущих улучшений. Поскольку мы не сохраняем содержимое документа, мы также не можем отладить дизлайк, что является проблемой. Однако мы можем рассмотреть возможность попросить пользователей добровольно предоставить дополнительный контекст, когда они оставляют отрицательный отзыв.
Вопрос:
Каков был размер команды, которая выполнила все улучшения, о которых вы рассказали, и какие роли в неё входили?
Ответ:
Мы начали с команды из трёх человек — я, дизайнер и инженер. К середине июня мы добавили ещё одного инженера-программиста и человека с гибридной ролью, который занимается как маркетингом, так и повышением интеллектуального уровня продукта. Итак, сейчас основная команда состоит из пяти человек. Эта небольшая команда смогла действовать быстро и многое сделать, но наличие людей с междисциплинарными навыками было ключом к нашей скорости.
Вопрос:
Каковы, по вашему мнению, следующие уровни для расширения, помимо расширения количества шаблонов? Также как вы планируете конкурировать с Notion AI?
Ответ:
Для расширения одним из следующих направлений, которыми мы воодушевлены, является распознавание того, на каком этапе жизненного цикла находится документ — это просто набор заметок, черновик или что-то, что уже было отправлено. Сейчас расширение предлагает предложения независимо от зрелости документа. Мы хотим создать более интеллектуальную обратную связь, основанную на стадии документа.
Что касается конкуренции с Notion AI, наша стратегия заключается в том, чтобы сосредоточиться на конкретной нише. Notion пытается быть всем для всех, что затрудняет адаптацию их продукта к конкретным вариантам использования. Reforge, с другой стороны, ориентирована на технические роли, такие как менеджеры по продуктам, маркетологи и дизайнеры. Специализируясь на этих областях и работая с несколькими инструментами, мы можем предложить гораздо более целенаправленные решения. У нас также есть уникальное преимущество в виде обширной библиотеки контента и сети экспертов, что позволяет нам предоставлять высококачественные, контекстуальные предложения, основанные на реальных знаниях.
Вопрос:
Рассматриваете ли вы возможность использования моделей, отличных от OpenAI, таких как LLaMA или других?
Ответ:
Да, мы постоянно экспериментируем с разными моделями. Такие инструменты, как Adeline, облегчают нам переключение между такими моделями, как GPT от OpenAI, Gemini и Claude. Мы даже тестировали Grok и потенциально могли бы разместить у себя модели LLaMA в будущем.
Для наших пользователей модель, которую мы используем, на самом деле не важна, пока мы предоставляем высококачественную, действенную обратную связь без хранения их данных. Итак, наша работа — постоянно оценивать, какая модель предлагает наилучший баланс качества, скорости и стоимости, и интегрировать её в продукт.
Вопрос:
Как вы оцениваете, является ли подсказка или ответ «хорошими» объективно?
Ответ:
Сейчас наша оценка в основном основана на качественных отзывах, таких как оценки «большой палец вверх/большой палец вниз». Однако мы работаем над созданием набора данных для проверки, который позволит нам объективно тестировать, насколько хорошо модель работает с разными типами документов и контекстами. Пока мы полагаемся на отзывы пользователей и данные опросов для внесения улучшений, но мы планируем разработать более структурированную систему оценки по мере продвижения вперёд.
Вопрос:
Как вы калибровали стоимость использования LLM для этих функций?
Ответ:
Мы находимся в выгодном положении, поскольку мы всё ещё растём, поэтому стоимость пока не была для нас большой проблемой. Мы оптимизировали, используя такие модели, как GPT-4 Mini, которая предлагает правильный баланс стоимости
