Тульская пресса
Ваш вопрос
Отправить

Исследователи Сбера разработали метод повышения точности автоматического распознавания русского языка AI-моделями

Фото: Сбербанк
Новый метод превосходит другие open-source модели по точности распознавания русского языка, не требуя при этом качественных размеченных данных

Исследователи Сбера нашли способ повысить качество распознавания русского языка искусственным интеллектом (AI). Новый метод предобученияAI-моделей, получивший название HuBERT-CTC, использует целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification). Это позволяет формировать более семантические представления данных, в то время как существующие модели (wav2vec2.0, HuBERT и BEST-RQ) опираются на низкоуровневые акустические переменные.

Исследованиеподробноописановнаучнойстатье «GigaAM: EfficientSelf-SupervisedLearnerforSpeechRecognition»(«GigaAM: эффективный метод предобучения для распознавания речи») и представлено на международной конференции Interspeech 2025 — ключевом событии в области речевых технологий. Метод уже показал отличные результаты для русского языка. Он снижает количество ошибок распознавания (WordErrorRate) на 50% по сравнению с моделью Whisper-large-v3от OpenAI.

Метод также решает ключевую проблему индустрии — зависимость от дефицитных размеченных аудиоданных. Self-supervised обучение позволяет моделям учиться на огромных массивах неразмеченных данных. Это открывает путь к созданию качественных систем для любых языков и специализированных доменов. Технология масштабируется по размеру модели и объёму данных. Динамическое маскирование self-attention наделяет модель уникальной гибкостью: одна архитектура работает в онлайн- и офлайн-режиме без необходимости инвестирования в переобучение.

Решение, предложенное исследователями Сбера, имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод может быть очень востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком. Исследователи получают новый мощный инструмент предобучения моделей. Открытый код позволяет AI-сообществу дообучатьмодели искусственного интеллекта и применять его под свои языки и задачи.

Фёдор Минькин, технический директор GigaChat Сбербанка:

«Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов».

Реклама. ПАО «Сбербанк России»
ИНН 7707083893

erid: F7NfYUJCUneTSTkUK5dR
Хотите поделиться интересной новостью или проблемой? Связаться с нами можно по телефону редакции 52-55-33 в будни с 9:00 до 17:00. Также написать нам в любое время можно в WhatsApp и Telegram по номеру 8 (930) 074-52-17.
Правила публикации комментариев: Все комментарии предварительно проверяются модератором, это может занять некоторое время. При этом ночью срок публикации может увеличиваться. Будьте внимательны - по закону мы не можем размещать комментарии, содержащие нецензурную лексику и оскорбления.
Комментарии для сайта Cackle
Подписывайтесь на канал «Тульская пресса» в Дзен, чтобы узнавать о новостях и взгляде экспертов на важные события.
Новости компаний