Каковы последние тенденции в области анализа данных в 2025 году?

Автор: Дмитрий Иванов [Команда P9X]

~8 минут чтения

Автор: Стив Лок

Подготовьтесь к экспресс-обзору тенденций и терминов в области данных за 2025 год

Без лишних слов начнём!

Генеративный искусственный интеллект и агенты

Список тенденций был бы неполным без упоминания искусственного интеллекта, но эта тема настолько популярна, что мы постараемся не заострять на ней внимание.

Генеративный искусственный интеллект (GenAI) стремительно развивается в последние годы. При ошеломляющем уровне инвестиций в 2025 году мы увидим одержимость доведением технологии и вариантов её использования до нового уровня. Агенты позволяют GenAI действовать и автоматизировать рабочие процессы, помогая определить более конкретные варианты использования в бизнесе. Ожидается, что слово «агенты» будет обсуждаться, вероятно, чаще всего в этом списке.

Одной из самых интересных компаний, за которой стоит следить, будет Salesforce/SFDC, которая имеет все шансы извлечь выгоду, поскольку уже владеет ключевыми данными и бизнес-процессами для многих крупнейших организаций мира. Также ни для кого не секрет, что компания сделала ставку на AgentForce и утверждает, что использует его внутренне, причём примерно треть их запросов о поддержке уже обрабатывается с его помощью.

Искусственный интеллект стимулирует необходимость в проектах по разработке данных

Побочным эффектом, который признают организации, пытающиеся внедрить искусственный интеллект, является то, что он ставит доступ к данным и качество данных под микроскоп, часто подчёркивая, что модернизация является предпосылкой для значительных проектов по разработке данных.

В течение 2025 года мы ожидаем увидеть, как внедрение искусственного интеллекта стимулирует увеличение инвестиций в более широкие проекты по работе с данными, такие как централизация данных с помощью современных платформ данных.

Синтетические данные

Эксперты предсказывают, что мы, возможно, уже наблюдаем, как обучение искусственного интеллекта сталкивается с трудностями из-за ограниченного доступа к новым данным, необходимым для улучшения и создания новых базовых моделей. Это связано с тем, что большая часть данных в мире уже была обработана.

Существуют также опасения по поводу синтетических данных, созданных для обучения, поскольку они потенциально могут «отравлять» или даже «разрушать» большие языковые модели. Однако мы начинаем видеть всё больше примеров, когда исследовательские лаборатории успешно выпускают модели, основанные на синтетических данных. Мы ожидаем, что в этом году мы услышим гораздо больше о синтетических данных, включая неизбежные успехи и громкие неудачи.

Расширенная аналитика и автоматизация

Автоматическое выявление данных — это не новость, и оно существует уже некоторое время на таких платформах, как Google Analytics и основные инструменты бизнес-аналитики. Обычно они основаны на более традиционном машинном обучении.

С распространением внедрения GenAI во всё, мы теперь видим тесты, такие как интерфейсы на основе Google Gemini и идеи, добавленные в Google Ads. Мы ожидаем, что GenAI будет продолжать добавляться во все продукты SaaS, включая большее количество случаев использования данных и реализаций для автоматического создания идей и оптимизации рабочих процессов.

Современные платформы данных

Ещё одной ключевой тенденцией является создание современной платформы данных для оптимизации и улучшения управления данными в организациях. Обычно в основе таких платформ лежат решения, такие как Snowflake и Databricks. Они также дополняются современными инструментами для работы с данными, такими как DBT, DLT, AirByte, Airflow, DuckDB, Great Expectations и Jupyter Notebooks.

Основная концепция заключается в создании централизованной платформы, которая была бы максимально последовательной и простой в обслуживании, при этом устраняя устаревшие способы работы и техническую задолженность за счёт использования более современных и часто открытых инструментов для работы с данными.

Data Mesh

В 2024 году вокруг архитектур Data Mesh было много ажиотажа, и мы ожидаем, что в 2025 году мы услышим о них больше. Основная идея Data Mesh заключается в том, что командные/отделы берут на себя больше ответственности за управление данными и их включение в общий продукт данных. Архитектура также делает упор на модели самообслуживания.

Концептуально это имеет смысл, однако мы ожидаем, что успех в реальном мире будет сильно зависеть от технических возможностей команд в каждом конкретном случае. Если у вас есть команда, разбирающаяся в данных, это, скорее всего, будет работать очень хорошо. Однако большинству организаций, вероятно, потребуется либо повысить квалификацию, либо нанять технических специалистов для поддержки, таких как инженеры данных, специализирующиеся в каждой области.

Data-as-a-Service (DaaS)

Поскольку данные для обучения искусственного интеллекта становятся всё более ценными, в сочетании с растущей озабоченностью по поводу интеллектуальной собственности контента, мы ожидаем увидеть увеличение количества сделок с данными, как мы уже видели в OpenAI, X/Twitter, Reddit и волне крупных издателей.

В ближайшие годы мы также ожидаем, что потоки доходов издателей диверсифицируются от более традиционного потребления и будут включать лицензирование контента через API в качестве продуктов данных.

Возвращение данных в облако

Хорошо известно, что крупные поставщики облачных вычислений могут стоить в 2–3 раза дороже по сравнению с прогнозируемыми оценками затрат при миграции с физических серверов и инфраструктуры.

Как тенденция, я понимаю, что всё больше предприятий возвращаются от облачных решений к локальным, которые могут иметь преимущество в виде большей соответствия требованиям для конфиденциальных данных, а также более экономичны.

Интересно, что обычно заключаются контракты, поэтому информация не является общедоступной (например, получение скидок для облачных поставщиков, имеющих возможность использовать логотипы клиентов), но были громкие примеры, включая Geiko, и мы ожидаем увидеть больше таких случаев.

Регулирование, конфиденциальность данных и суверенитет данных

По мере того как гонка вооружений в области искусственного интеллекта набирает обороты, и с учётом некоторых из самых горячих недавних технологических историй, включая влияние DeepSeek на индустрию больших технологий на триллионы долларов, неизбежно, что в 2025 году мы увидим больше шума вокруг регулирования, конфиденциальности данных и законов, определяющих, где хранятся ваши данные и как они могут быть использованы.

В заключение, ожидается, что сфера технологий и данных в 2025 году будет непростым периодом, и мы только коснулись поверхности. Если вы считаете, что мы упустили какие-либо основные тенденции в области данных, пожалуйста, сообщите нам!

Не уверены, что ваша существующая команда лучше всего подготовлена для использования этих тенденций 2025 года? Обратитесь к нашим экспертам по оптимизации маркетинговых показателей.