• 26 августа, 2025

Учёные Сбера предложили новый способ борьбы с галлюцинациями моделей искусственного интеллекта

Исследователи Центра практического искусственного интеллекта Сбербанка разработали метод, который значительно снижает риски галлюцинаций больших языковых моделей (LLM). Результаты исследования опубликованы в статье «Эффективные мета-модели для оценки вопросов и ответов Больших Языковых Моделей на основании контекста» (Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs) на престижной конференции SIGIR 2025. Работа посвящена оценке ответов моделей искусственного интеллекта (AI) в RAG-системах — ключевом элементе современных мультиагентных решений.

Проблема галлюцинаций больших языковых моделей — одна из самых распространенных в индустрии. LLM могут генерировать правдоподобные, но ложные ответы. Наиболее эффективные современные методы обнаружения галлюцинаций — обучаемые, они требуют большого количества качественных размеченных данных для обучения.

Учёные Сбера предложили решение. Они исследовали актуальные методы детекции галлюцинаций искусственного интеллекта и разработали метамодели, которые повышают точность обнаружения ложных ответов почти на 30%, используя всего 250 примеров для обучения. Это в разы меньше, чем нужно другим решениям.

Такой подход позволяет компаниям заметно экономить ресурсы на разметку данных и улучшать качество RAG-систем. Учёные и разработчики получают новый инструмент для анализа больших языковых моделей, а пользователи — более точные ответы от AI-моделей.

Глеб Гусев, директор Центра практического искусственного интеллекта Сбербанка:

«Наше исследование меняет подход к оценке ответов искусственного интеллекта. Мы показали, что даже при небольшом объёме данных можно добиться высокой точности AI-систем. Это особенно важно для индустриальных решений, где разметка требует дополнительных ресурсов. Предложенный нами способ использует метамодели и умное понижение размерности — это прорыв в детекции галлюцинаций искусственного интеллекта. Мы не просто улучшаем технологии, но и снижаем риски дезинформации, что критично для доверия к современным моделям».

Похожие статьи

Цифровизация в ДМС: «тепловая карта» брокера Remind показала, где ИИ уже снижает убытки, а где страховщики отказываются от алгоритмов

Цифровизация в ДМС: «тепловая карта» брокера Remind показала, где…

Эксперты страхового брокера Remind проанализировали данные 11 ведущих страховщиков (92% сборов рынка ДМС) и сформировали «тепловую карту цифровой зрелости» ДМС.
Пациенты с муковисцидозом в России по-прежнему сталкиваются с неравным доступом к лечению — данные мониторинга

Пациенты с муковисцидозом в России по-прежнему сталкиваются с неравным…

Всероссийский союз пациентов представил первые результаты общественного мониторинга доступности медицинской помощи людям с муковисцидозом.

Как пройти собеседование, если его оценивает ИИ

В России ИИ все чаще используют для первичного отбора кандидатов, а 14% работодателей даже проводят видеоинтервью с ИИ-ассистентами.