Национальный стандарт синтеза данных откроет новые возможности для развития искусственного интеллекта в России

Чтобы повысить доступность, безопасность и качество данных для развития искусственного интеллекта в России на площадке Ассоциации больших данных (АБД), Сбер и другие участники АБД разработали предварительный проект национального стандарта синтеза данных.

Одна из главных задач стандарта — описать технологию создания конфиденциальных синтетических данных для развития технологий искусственного интеллекта (AI). Соблюдать приватность необходимо на всех этапах процесса синтезирования, который основан на методе дифференциальной приватности. В документе приведены математические доказательства того, что при выполнении рекомендаций стандарта можно синтезировать данные без риска нарушения конфиденциальности. Фактически безопасность обеспечивается через поиск оптимального соотношения между защитой конфиденциальности и качеством получаемых датасетов.

Кирилл Меньшов, старший вице-президент, руководитель блока «Технологии» Сбербанка:

«Национальный стандарт синтеза данных призван создать условия для прогресса в сфере искусственного интеллекта в нашей стране. Нехватка доступных исследователям данных часто представляет собой значительное препятствие для внедрения AI-технологий в различные отрасли экономики. В дополнение к этому, ужесточение требований к защите личной и иной конфиденциальной информации создает дополнительные вызовы. Я уверен, что синтетические данные окажут важное влияние на развитие искусственного интеллекта».

Анна Серебряникова, президент Ассоциации больших данных:

«С вводом в действие национального стандарта синтеза данных будет обеспечена прозрачность процесса синтезирования, надежность архитектуры и определены критерии качества данных. Синтетические данные становятся реальной альтернативой обезличенным данным, которые сегодня, зачастую, скованы излишними регуляторными ограничениями. При соблюдении требований приватности, синтетические данные не несут в себе рисков и открывают прорывной путь к достижению целей по доступности данных, необходимых для обучения искусственного интеллекта. Надеемся, что с внедрением национального стандарта синтеза данных мы сможем обеспечить такие требования и ввести синтетические данные в широкий оборот в нашей стране».

В этом году планируется утвердить проект предварительного национального стандарта в Техническом комитете по стандартизации «Искусственный интеллект» (ТК 164). С проектом национального стандарта можно ознакомиться в Ассоциации по запросу.