10.09.2025

Alibaba выпустила Qwen3-ASR-Flash для распознавания речи на 11 языках — есть поддержка русского

Она понимает даже акценты и лирику в песнях.

Alibaba выпустила Qwen3-ASR-Flash для распознавания речи на 11 языках — есть поддержка русского

Китайская корпорация Alibaba, разработавшая нейросеть Qwen, представила модель для распознавания речи Qwen3-ASR-Flash. Система обучена на десятках миллионов часов аудиоматериалов и уже поддерживает работу с русским языком.

В ходе тестирования нейросеть продемонстрировала минимальный уровень ошибок при распознавании китайской речи — всего 3,97%. Этот показатель значительно превосходит показатели конкурентов: Gemini‑2.5‑Pro (8,98%) и GPT4o-Transcribe (15,72%).

При анализе лирики в песнях уровень ошибок чуть выше — 4,51%, а при расшифровке полного трека — 9,96%. Но и эти показатели существенно лучше, чем у Gemini (32,79%) и GPT4o (58,59%). Нейросеть также способна автоматически распознавать язык, устранять шум и удалять неречевые звуки. Акценты и диалекты для неё тоже не проблема.

Для работы с узкоспециализированной терминологией, именами или нестандартными выражениями предусмотрена возможность добавления ключевых слов или контекста в запрос на транскрипцию, что помогает минимизировать количество ошибок.

Qwen3-ASR-Flash поддерживает 11 языков, включая русский, китайский, английский, французский, немецкий, испанский, итальянский, португальский, японский, корейский и арабский. Пока модель доступна только как демо на Hugging Face и API в Alibaba Cloud Model Studio. Бесплатная квота — 10 часов аудио на 180 дней.

Обложка: Qwen