Искусственный интеллект
Симулятор ИИ: синтетические данные для быстрого и безопасного обучения моделей
Рынок синтетических данных — искусственно созданных датасетов для ИИ — опережает большинство других сегментов индустрии искусственного интеллекта. Аналитики Precedence Research оценили его объём в 584,5 млн долларов в 2025 году с потенциалом увеличения до 10,8 млрд долларов к 2035-му при темпах роста почти на 34% ежегодно. При этом рынок ИИ в целом прибавляет 19–26% в год в зависимости от направлений. В России, по прогнозам Б1, доля «синтетики» общем объёме данных, используемых для обучения ИИ, может составить 60% к 2028 году.
Разбираемся, почему синтетические данные становятся основным источником обучения генеративных нейросетевых моделей, компьютерного зрения и автономных систем.
Объём мирового рынка генерации синтетических данных, млрд долларов
* CAGR (Compound Annual Growth Rate) — совокупный среднегодовой темп роста.
Источник: Precedence Research
Содержание:
На 34% в год
растёт рынок синтетических данных для обучения ИИ
Для чего нужны синтетические данные
Синтетические данные — это искусственно созданные наборы информации: они смоделированы на реальных закономерностях, но не содержат фактических сведений о людях, событиях или объектах. «Для ряда задач это отличный инструмент, например, для обучения автоматически пилотируемых транспортных средств, — говорит руководитель лаборатории инноваций „Норбит“ Дмитрий Демидов. — Виртуальная среда позволяет без натурных испытаний отработать ситуации, очень приближенные к реальным за счёт создания синтетических данных и целой синтетической среды. Можно симулировать такие обстоятельства и условия, которые практически невозможны в жизни».
Эксперты отмечают большой интерес к синтетическим данным в обучении генеративного ИИ, а также в системах на базе компьютерного зрения. Речь идёт обо всех видах детектирования аномалий, распознавания лиц и объектов. Искусственно созданные данные могут использоваться и в более узких областях, например в распознавании голоса или удалении шумов, поясняет Дмитрий Демидов.
Согласно статистике, львиная доля времени (60–80%) в проектах машинного обучения уходит на подготовку, очистку и разметку данных. Это существенно замедляет внедрение ИИ-решений и увеличивает их стоимость. Проблему создаёт и доступность данных: многие наборы (медицинские записи, финансовые транзакции) содержат персональную информацию и подпадают под строгие регуляторные ограничения, поэтому компании не всегда могут использовать их для обучения моделей.
Синтетические данные позволяют обойти эти ограничения: такие датасеты создаются алгоритмами и лишь воспроизводят статистические закономерности исходных данных. Это даёт возможность обучать модели и тестировать решения во внешних средах без риска утечек. Например, банк может генерировать синтетические транзакции для тестирования моделей обнаружения мошенничества без использования реальных клиентских счетов.
Алексей Нейман
исполнительный директор Ассоциации больших данных (АБД)
Клиентские данные — один из самых ценных активов бизнеса, работа с которым ограничена строгими нормами закона. Традиционное обезличивание не решает всех проблем, часто снижая точность и аналитическую ценность информации. Синтетические данные предлагают принципиально иной подход. У искусственно созданных событий нет реального прообраза, но полностью сохранены статистические свойства настоящих данных. Это освобождает бизнес от большинства регуляторных барьеров и позволяет соблюсти идеальный баланс: внедрять инновации, не нарушая приватности.
Ещё одна причина востребованности синтетических данных — дефицит редких событий и состояний, необходимых для обучения моделей. Это особенно заметно в медицине, где для обучения нейросетей уже используются сгенерированные изображения с различными патологиями. Реальные данные по редким заболеваниям ограничены и не всегда доступны в нужном объёме. В России эта проблема выделена на уровне всей системы здравоохранения: Минздрав ведёт официальный перечень орфанных заболеваний, а российские ИИ-сервисы обучают на тысячах подтверждённых кейсов для их выявления. В таких задачах синтетические данные позволяют расширять обучающие выборки там, где реальных примеров по определению мало.
При этом качество искусственных данных может быть близким к реальными. Эксперименты показали, что прогнозные модели, построенные на синтетических данных, уступают моделям на реальных данных всего 2–3% точности.
Обеспечение качества синтетических данных — сложная и ресурсоёмкая задача, объясняет Алексей Нейман. В России уже разрабатывается стандарт, который обеспечит безопасность и качество синтетических данных для ИИ. «В проекте национального стандарта синтеза данных выделены три ключевых и независимых критерия качества: соответствие статистическим свойствам реальных данных, утилитарность (пригодность для обучения моделей), а также приватность — невозможность восстановления или идентификации реальных наблюдений. Ключевая задача при синтезе данных — найти баланс между этими критериями».
Александр Диденко
руководитель Лаборатории искусственного интеллекта МШУ Сколково
Синтетические данные не являются полноценной альтернативой реальным датасетам. Но стали очень важным инструментом в дата-центричном ИИ (англ. data-centric AI) — модном направлении в области искусственного интеллекта, которое концентрируется на улучшении моделей путём улучшения данных для их обучения (по сравнению с более традиционным модель-центричным ИИ (англ. model-centric AI), который ищет новые, более удачные архитектуры). Потенциал модель-центричного ИИ почти исчерпан, а вот дата-центричному пророчат большое будущее, так как добавление данных нужной формы в обучающий датасет может в разы увеличивать производительность моделей, в то время как жонглирование архитектурами зачастую на доли процента улучшает метрики.
Сценарии использования альтернативных датасетов
Улучшение качества промышленных датасетов
Синтетические данные позволяют дополнять реальные датасеты в задачах компьютерного зрения. Для обучения таких моделей требуется большое количество размеченных изображений, включая редкие дефекты и нестандартные состояния продукции. В реальности такие случаи встречаются нечасто, поэтому сгенерированные изображения могут использоваться для расширения наборов данных и повышения точности распознавания. В российских проектах такие подходы чаще всего используются для контроля качества продукции.
Работа с чувствительными данными
Синтетические данные становятся ключевым инструментом в отраслях, где работа с персональной информацией строго регулируется, в первую очередь в здравоохранении. В России уже десятки ИИ-систем анализируют медицинские изображения и электронные медицинские карты: в качестве примера можно привести платформы для обработки снимков компьютерной томографии (КТ) и магнитно-резонансной терапии (МРТ), а также сервисы поддержки врачебных решений. Такие решения требуют больших массивов клинических данных, однако доступ к ним ограничен из-за врачебной тайны. В этих условиях синтетические датасеты позволяют воспроизводить структуру медицинских данных (от изображений до записей пациентов) и использовать их для обучения моделей, тестирования алгоритмов и обмена данными между организациями без риска раскрытия персональной информации. Это делает возможным масштабирование ИИ-решений в медицине без нарушения регуляторных требований.
Тестирование и отладка ИИ-систем
Синтетические данные позволяют создавать тестовые сценарии для проверки алгоритмов без использования реальных пользовательских данных. Это особенно важно на этапах разработки, когда модели и цифровые сервисы тестируются во внешних или изолированных контурах. В российской практике такой подход применяется, например, при разработке банковских и ИТ-систем. Сгенерированные датасеты воспроизводят структуру и поведение «боевых» данных, что позволяет выявлять ошибки до вывода решений в промышленную эксплуатацию и снижать риски сбоев.
«Для всего, что касается симуляции объектов реального мира, синтетические данные отлично подходят и могут использоваться для валидации моделей и определения метрик качества. Это отличный тест перед выпуском модели в реальный мир», — считает Дмитрий Демидов.
Моделирование будущих или гипотетических сценариев
С помощью искусственно сгенерированных данных можно моделировать ситуации, которые ещё не произошли, — от поведения рынков до климатических изменений. Это особенно важно в задачах, где реальные наблюдения ограничены или не покрывают все возможные сценарии.
Один из наиболее показательных примеров — метеорология. Например, модель GraphCast с высокой точностью прогнозирует погоду на срок до 10 дней быстрее традиционных численных моделей. Такие системы фактически генерируют множество возможных сценариев развития атмосферы (изменение температуры, давления, осадков) и выбирают наиболее вероятные. А значит, можно предсказывать редкие и экстремальные явления, которые слабо представлены в исторических данных. В России аналогичные подходы используются в научных и прикладных задачах для прогнозирования паводков или оценки климатических рисков (пишет «Росгидромет»).
Другой пример — автономные системы. «Разработчики автопилотов или embodied AI (искусственного интеллекта, встроенного в физические объекты) не могут заранее собрать достаточное количество данных, покрывающих все возможные „худшие“ аварийные сценарии (разные вариации освещённости, ракурсов, окружения), и синтетика тут здорово помогает. Какие-то вещи происходят крайне редко, а тут можно сконструировать аномалию с заданными свойствами», — рассказывает Александр Диденко.
Перспективное направление — разработка и тестирование цифровых двойников городов и инфраструктуры. Синтетические данные используются для моделирования транспортных потоков, поведения людей в городской среде и сценариев чрезвычайных ситуаций, что помогает планировать развитие городской инфраструктуры и систем безопасности.
Дмитрий Демидов
руководитель лаборатории инноваций «Норбит»
Наиболее перспективны синтетические данные, которые можно получить из симуляторов реального мира. При этом они должны воспроизводить подлинное освещение, физику процессов, быть достоверными с точки зрения трёхмерного пространства. Для этого можно применять и генеративные модели, поскольку внутри себя они тоже начинают использовать процессы симуляции реального мира, и в какой-то момент границу будет провести уже сложно.
Риски обучения ИИ на искусственных наборах данных
Несмотря на все преимущества синтетических данных, их использование имеет ряд ограничений. Один из ключевых рисков — искажение статистических закономерностей. Если алгоритмы генерации данных неправильно воспроизводят структуру исходных наборов, то модель может обучаться на упрощённой или неполной картине мира, что снижает точность и надёжность результатов.
Другая проблема — накопление ошибок и предвзятостей. Синтетические данные часто создаются на основе реальных датасетов, поэтому существующие в них перекосы могут воспроизводиться и даже усиливаться при генерации новых данных. Это может привести к явлению, которое исследователи называют «вырождение», или «коллапс» модели (model collapse). «Если ИИ-система обучается на синтетике, созданной другой ИИ-системой без якорения на реальность, она начинает „забывать“ детали реальности и сваливаться в статистический шум. Исследования показывают, что уже к 20–30-му поколению такой рекурсии данные становятся бессмысленными», — объясняет Александр Диденко.
Дмитрий Демидов
руководитель лаборатории инноваций «Норбит»
В реальном мире может оказаться гораздо больше вариантов поведения объектов и среды, чем будет протестировано в симуляциях. Создать качественные синтетические данные в большинстве случаев дешевле, но для высокого уровня точности моделям нужны как раз реальные данные. Минимизировать риски поможет грамотно спроектированная среда сбора датасетов и тестирования модели, а также непрерывный процесс контроля метрик.
Заключение. Синтетические данные постепенно превращаются из вспомогательного инструмента в один из ключевых элементов развития ИИ. Их применение в разработке ИИ-систем помогает решать несколько ключевых задач: снижать стоимость подготовки датасетов, обходить ограничения на использование чувствительной информации и восполнять нехватку редких сценариев, необходимых для обучения моделей. Их роль будет расти по мере усложнения моделей и расширения сфер применения ИИ. В ближайшие годы синтетические датасеты, вероятно, станут стандартом для разработки и тестирования ИИ-систем, а конкуренция на рынке будет всё больше зависеть не от объёма данных, а от умения эффективно их генерировать и использовать.
Кроме того, появится всё больше инструментов для генерации синтетических данных, в перспективе их стоимость будет падать, говорит Дмитрий Демидов. Это облегчит создание синтетических данных и процессы обучения моделей. «Синтетические данные не заменят реальные, но будут отличным помощником в процессах обучения и валидации моделей», — отмечает эксперт.
Главное по тексту
Синтетические данные становятся ключевым элементом развития ИИ: мировой рынок растёт на 34% в год и к 2035 году может достичь 10,8 млрд долларов. Искусственно созданные датасеты позволяют экономить ресурсы, повышать уровень безопасности и обеспечивать качественное обучение моделей.
Что это значит для бизнеса
Редакция СберПро
Автор