| MiMo-V2.5-ASR は、Xiaomi MiMo チームによって開発された最先端のエンドツーエンド自動音声認識(ASR)モデルです。これは、中国語(北京語)および英語に加えて、複数の中国語方言、コードスイッチ(言語の切り替わり)発話、歌詞、知識集約的な内容、騒音の多い音響環境、多人数による会話にわたって、正確で頑健な書き起こしを提供することを目的に構築されています。MiMo-V2.5-ASR は、多種多様な公開ベンチマークにおいて最先端の結果を達成しています。 概要自動音声認識システムには、多様な言語、方言、話者のアクセント、領域から生じ、さまざまな音響条件のもとで収録された音声信号を、忠実に書き起こすことが期待されています。従来のエンドツーエンドモデルは同一領域のデータでは良好に機能しますが、方言混在、コードスイッチ、知識集約的な内容、騒音環境、多人数の会話といった難しいシナリオでは、現実の要求を満たすには依然として不十分です。私たちは MiMo-V2.5-ASR を提案します。これは、Xiaomi MiMo チームによって開発された大規模なエンドツーエンド音声認識モデルです。大規模なミッドトレーニング、高品質な教師あり微調整、および新しい強化学習アルゴリズムを通じて、MiMo-V2.5-ASR は以下の次元において体系的な改善を達成しています:
[リンク] [コメント] |
Xiaomi MiMo/MiMo-V2.5-ASR(Hugging Face)
Reddit r/LocalLLaMA / 2026/4/24
📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research
要点
- MiMo-V2.5-ASRは、中国語(複数方言)と英語を対象に高精度な文字起こしを目指す、Xiaomi MiMoチームによる最先端のエンドツーエンド音声認識(ASR)モデルです。
- 方言混在やコードスイッチ(中国語–英語の切替)に対応し、言語タグなしで自然に書き起こせる設計になっています。
- 雑音下(遠距離集音など)や多話者の重なり会話、知識量の多い内容(固有名詞、地名、専門用語、古典詩など)、さらに歌詞認識にも強い性能を示しています。
- 学習面では、大規模な中間学習、高品質な教師あり微調整、そして独自の強化学習アルゴリズムにより、複数の評価軸で体系的な改善を達成したとしています。
- 幅広い公開ベンチマークで最先端(SOTA)結果を報告し、英語の難しめベンチマークではOpen ASR Leaderboardでも高い性能を示しています。
