Интересное
  • Алексей
  • Без рубрики
  • 2 мин. чтения

Нет данных – нет ИИ: как кризис датасетов меняет правила игры для бизнеса

ИИ ежедневно совершенствуется на огромных массивах данных. GPT-3 обучали на 300 миллиардах токенов текста, для GPT-4 расшифровали миллион часов видео с YouTube. Но специалисты все чаще отмечают нехватку доступных данных – наступает кризис датасетов, когда качество информации падает, а большие объемы уже не гарантируют лучшей обученности. О том, как российский рынок обходит это ограничение, рассказал IT Speaker тимлид Umbrella IT Артем Серяк. 

Данные не бесконечны 

Когда говорят, что данные кончились – это не так. Физически их по-прежнему много, но подавляющее количество информации, пригодной для обучения моделей, уже использовано, а повторное обучение на ней снижает качество. 

Однако есть и другие проблемы: 

  • интернет быстро наполняется ИИ-контентом, что повышает вероятность накопления ошибок и снижает разнообразие;

  • ужесточается регулирование – использование персональных и финансовых данных требует сложной анонимизации и согласий, что ведет к дополнительным затратам бизнеса; 

  • компании все чаще закрывают API и ограничивают веб-скрапинг, вводя платный доступ и технические барьеры. Бесплатный интернет перестает быть универсальным источником масштабируемых данных. 

В итоге общий объем информации растет, а количество доступных и качественных данных – нет. По исследованию Массачусетского технологического института, 25% высококачественных источников среди всех данных ограничены для использования в обучении ИИ. 

Цена отказа от персональных данных 

В корпоративных решениях проблема чистоты данных менее актуальна, поскольку они «растут» из закрытого характера информации. Там важнее найти актуальный для задачи контекст, чем избежать загрязнения датасета обучения. Более ощутима проблема чистоты при работе с открытыми источниками, поэтому компании уже упираются в лимиты чистого, качественного и юридически доступного контента. 

Развивать корпоративные ИИ-решения без персональных данных возможно, однако это будут решения с ограниченной сферой применения. Подобные модели хуже подходят для персонализации, скоринга или поведенческого анализа. 

Вас может заинтересовать: 

VK Tech: бизнес вкладывается в ИИ-агентов и инфраструктуру данных

В итоге бизнес оказывается перед выбором: строить архитектуру вокруг обезличивания, синтетических данных и RAG-подходов или инвестировать в сложные механизмы легального использования персональных данных. 

Масштабирование больше не спасает 

Вариант «просто увеличить модель» эффективно работал, пока был открыт доступ к новым качественным данным. Сейчас эффект стал менее линейным, и вот почему: 

  • добавление новых данных не дает пропорционального роста качества, а требования к ним только растут; 

  • нехватка качественных данных ведет к попаданию в обучение ИИ-контента и росту галлюцинаций; 

  • каждый шаг масштабирования требует кратного увеличения мощностей, а стоимость обучения растет быстрее бизнес-ценности улучшений. Дополнительный процент точности обходится непропорционально дорого. 

Итак, масштабирование больше не может быть универсальным ответом на проблему качества. Но тогда что может и есть ли вообще такой ответ? 

Бизнес ищет новые пути 

Когда стало понятно, что просто увеличивать объем обучающих данных неэффективно, бизнес начал искать обходные пути. Компании все чаще делают ставку на доменные модели – специализированные решения под конкретную отрасль. В финтехе это модели, обученные на финансовых текстах, транзакционных паттернах, регламентной документации, а в ритейле – на данных о товарах, поведении клиентов, логистике. Преимущество такого подхода – меньше данных, но выше релевантность. Например, «Сбер» активно развивает GigaChat и адаптирует его под бизнес-сценарии финтеха. Так появился Sber API – технология прямой интеграции с банком для автоматизации процессов и увеличения продаж. 

Вас может заинтересовать: 

Разработки в сфере ИИ будут проводиться только внутри РФ

Вместо обучения «с нуля» компании дообучают существующие модели на собственных данных: обезличенных транзакциях, логах обращений, внутренних регламентах, переписках с клиентами. Fine-tuning позволяет адаптировать стиль ответов, терминологию, структуру выводов. «Авито» дообучило свою базовую языковую модель под конкретные задачи – вышло эффективно и недорого. Команда «Яндекса» также использовала для настройки Yandex GPT 5 Pro данные о товарах «Яндекс Маркета», создав ассистента для покупок. RAG – еще один практичный ответ на кризис датасетов. Компании не «зашивают» знания в параметры модели, а выносят во внешние источники: базы знаний, регламенты, хранилища документов. В момент запроса модель обращается к базе и извлекает релевантный фрагмент. Этот подход выбрала команда «Банки.ру», интегрировав чат-бот для работы с внутренней документацией в корпоративный мессенджер. Это избавило от необходимости бесконечно искать документы в Confluence. 

Если реальных данных недостаточно, бизнес обращается к синтетике. Здесь можно выбрать один из двух подходов: 

  • self-play – модель генерирует сценарии и обучается на них; 

  • self-distillation – крупная модель создает обучающие примеры для компактной.

Синтетические данные помогают смоделировать аварийные ситуации и аномалии, которые редко встречаются в реальности. Однако их использование – это риск закрепления ошибок и когнитивных искажений. Сейчас этот способ активно применяется там, где обращение к реальным данным означало бы работу с конфиденциальной информацией. Решение «Сбера» SyntData полностью воспроизводит смысл и структуру реальных данных, сохраняя зависимости исходных датасетов, а личная информация при этом остается под надежной защитой. В прошлом году оно было отмечено на премии Data Award. 

Победа за лучшими данными 

Недостаточно просто обладать данными. Важно знать, откуда они получены, на каких основаниях используются, как обновляются, кто за них отвечает. Для компаний это означает необходимость строить процессы контроля качества, аудита и хранения данных. 

Кроме того, растет ценность собственных структурированных данных. Если у организации чистые данные, размеченные и связанные между собой, их легко получится использовать для внедрения ИИ. 

Поэтому инвестиции в очистку и разметку должны стать приоритетом – это напрямую влияет на точность моделей. Без этой работы ИИ просто масштабирует ошибки.

В итоге побеждает не тот, у кого больше параметров в модели, а тот, у кого лучше данные. Более компактная модель на чистом, релевантном наборе работает стабильнее, чем гигантская сеть, обученная на шумной выборке. Преимущество переходит от вычислительных мощностей к качеству корпоративной информации. 

Кризис датасетов – не катастрофа, а признак зрелости рынка. Ранний этап ИИ строился на масштабировании: больше параметров, токенов и вычислений. Теперь данных меньше, а их качество неоднородно. Для бизнеса это означает смену фокуса – от гонки моделей к управлению данными как активом. Тот, кто выстроит процессы работы с данными раньше конкурентов, получит устойчивое преимущество.

Вас может заинтересовать: 

Исследование: бизнес активнее внедряет ИИ в работе с клиентами