ValueAI подключил Yandex SpeechKit и Whisper для работы с аудиоданными

ИИ-инструмент ValueAI расширил возможности анализа данных, добавив поддержку сервисов Yandex SpeechKit и Whisper от OpenAI для преобразования аудиофайлов в текстовый формат. Новая функциональность ускоряет извлечение полезной информации из неструктурированных аудиоданных и открывает для бизнеса новые сценарии применения искусственного интеллекта для автоматизации процессов и принятия решений.

Интеграция ValueAI с сервисами автоматического распознавания речи (ASR, Automatic Speech Recognition) Yandex SpeechKit и Whisper от OpenAI позволяет транскрибировать аудиоконтент в текст.

Благодаря этому ИИ-модули ValueAI получают доступ к аудиоданным как к новому источнику информации, который можно использовать в бизнес-сценариях, например, для:

Оценки качества работы колл-центров и голосовых чат-ботов, анализа эффективности скриптов
Протоколирования встреч и совещаний
Подготовки текстов интервью, собеседований и обучающих материалов
Обработки звука с видеозаписей

Yandex SpeechKit и Whisper относятся к классу генеративных speech-to-text решений: на вход подается аудиофайл, на выходе — текст. Обе ASR-модели обеспечивают высокое качество транскрибации и устойчивую работу с длинными и сложными аудиофрагментами. Whisper используется локально — на серверах ValueAI или в инфраструктуре заказчика, без подключения к внешним облачным сервисам. Yandex SpeechKit доступен только в облаке — через API Yandex Cloud с использованием клиентской учетной записи. Выбор модели зависит от инфраструктурных ограничений, требований к масштабируемости и приватности.

ValueAI интегрируется с CRM, системами колл-трекинга, корпоративными архивами и другими источниками. После транскрибации текст можно передать в любую из доступных LLM (локальные DeepSeek, Gemma 3 или LlaMA, облачные YandexGPT и ChatGPT) для семантического анализа, оценки тональности, фильтрации ненормативной лексики, статистической сводки или визуализации и других задач.

«ValueAI помогает системно работать с аудиоконтентом: извлекать структуру, смыслы и паттерны из аудиоданных и превращать их в конкретные действия. Такой автоматизированный процесс — от расшифровки речи до аналитики в рамках одного решения — позволяет эффективно использовать аудиоданные для повышения качества процессов, связанных прежде всего с клиентским сервисом, управлением персоналом, аналитикой, безопасностью», — комментирует Александр Азаров, генеральный директор компании-разработчика «ВейвАксесс».

Система поддерживает асинхронную обработку аудиофайлов форматов wav, mp3 и opus на русском и английском языках.

ValueAI — это набор готовых ИИ-модулей, которые помогают компаниям быстро внедрять корпоративный искусственный интеллект в задачи продаж и маркетинга, аналитики, управления персоналом, клиентского сервиса и др. Решение поддерживает работу как в облаке, так и on-premise, обеспечивая полный контроль над ИИ-инфраструктурой.