• 6 октября, 2023
  • 24

Бизнесу теперь доступен сервис Сбера для проверки и корректуры текстов с помощью технологий искусственного интеллекта

Новый ИИ-сервис представляет собой инструмент для проверки орфографии в текстах на русском языке, работающий на основе нейросетевой генеративной модели. Решение может быть использовано бизнесом для корректуры текста любой длины и формата — в копирайтинге и редактуре, при создании маркетинговых и рекламных материалов, в работе редакций СМИ. Сервис разработан партнёром Сбера компанией SberDevices и доступен в каталоге AI Services на платформе ML Space для зарегистрированных пользователей.

Денис Филиппов, вице-президент по цифровым поверхностям «Салют» Сбербанка:

«Современные модели на основе искусственного интеллекта предоставляют всё больше возможностей для текстовой редактуры. С помощью представленного решения можно обработать любой текст, переписав его без ошибок, использовать генеративные возможности моделей для коррекции правописания в текстах различных доменов. Инструмент может стать ИИ-помощником в различных информационных проектах и поможет быстро и качественно исключить орфографические ошибки в текстах, сэкономив время и ресурсы».

Перед командой разработчиков стояла задача изучить и решить проблемы корректуры правописания с помощью генеративных моделей. Результатом стала разработанная методология генеративной коррекции орфографии для русского языка, которая показывает качество уровня SOTA на задаче проверки орфографии. По итогам работы выпущены: библиотека SAGE с открытым исходным кодом (лицензия MIT), семейство предобученных генеративных моделей (ruM2M100-1.2B, ruM2M100-418M, FredT5-large-spell, T5-large-spell) для корректуры правописания на русском и английском языках и хаб с размеченными данными для задачи коррекции орфографии в текстах разных доменов.

На данный момент представленный инструмент опережает по качеству открытые решения для русского языка и проприетарные модели конкурентов. Существенный прирост в метриках относительно других решений является следствием разработанной методологии. Было предложено два метода аугментации ошибок для воспроизведения естественных человеческих опечаток и орфографических ошибок в текстах. С помощью этих модулей был создан корпус текстов с ошибками (около 7 Гб), на котором обучались генеративные модели M2M100 и FredT5-large. Второй этап заключался в дообучении моделей на комбинации собранных параллельных датасетов для исправления орфографии. Лучшая конфигурация полученного решения представлена в виде AI-сервиса на платформе ML Space.

Похожие статьи

Татьяна Завьялова: города являются локомотивами экономического и устойчивого развития

Старший вице-президент по ESG Сбербанка Татьяна Завьялова приняла участие в панельной дискуссии «ESG-трансформация.

Сбер поможет молодым людям начать своё дело

Сбер выступит генеральным партнёром Всемирного фестиваля молодёжи, который пройдёт на федеральной территории «Сириус» 1–7 марта 2024 года.

Домклик от Сбера признан лучшей юридической командой

Сервис недвижимости «Домклик» победил в номинации «Лучшая юридическая команда» по версии Legal to Business Awards.