Xiaomi MiMo/MiMo-V2.5-ASR(Hugging Face)

Reddit r/LocalLLaMA / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • MiMo-V2.5-ASRは、中国語(複数方言)と英語を対象に高精度な文字起こしを目指す、Xiaomi MiMoチームによる最先端のエンドツーエンド音声認識(ASR)モデルです。
  • 方言混在やコードスイッチ(中国語–英語の切替)に対応し、言語タグなしで自然に書き起こせる設計になっています。
  • 雑音下(遠距離集音など)や多話者の重なり会話、知識量の多い内容(固有名詞、地名、専門用語、古典詩など)、さらに歌詞認識にも強い性能を示しています。
  • 学習面では、大規模な中間学習、高品質な教師あり微調整、そして独自の強化学習アルゴリズムにより、複数の評価軸で体系的な改善を達成したとしています。
  • 幅広い公開ベンチマークで最先端(SOTA)結果を報告し、英語の難しめベンチマークではOpen ASR Leaderboardでも高い性能を示しています。
XiaomiMiMo/MiMo-V2.5-ASR · Hugging Face

MiMo-V2.5-ASR は、Xiaomi MiMo チームによって開発された最先端のエンドツーエンド自動音声認識(ASR)モデルです。これは、中国語(北京語)および英語に加えて、複数の中国語方言、コードスイッチ(言語の切り替わり)発話、歌詞、知識集約的な内容、騒音の多い音響環境、多人数による会話にわたって、正確で頑健な書き起こしを提供することを目的に構築されています。MiMo-V2.5-ASR は、多種多様な公開ベンチマークにおいて最先端の結果を達成しています。

概要

自動音声認識システムには、多様な言語、方言、話者のアクセント、領域から生じ、さまざまな音響条件のもとで収録された音声信号を、忠実に書き起こすことが期待されています。従来のエンドツーエンドモデルは同一領域のデータでは良好に機能しますが、方言混在、コードスイッチ、知識集約的な内容、騒音環境、多人数の会話といった難しいシナリオでは、現実の要求を満たすには依然として不十分です。私たちは MiMo-V2.5-ASR を提案します。これは、Xiaomi MiMo チームによって開発された大規模なエンドツーエンド音声認識モデルです。大規模なミッドトレーニング、高品質な教師あり微調整、および新しい強化学習アルゴリズムを通じて、MiMo-V2.5-ASR は以下の次元において体系的な改善を達成しています:

  • 中国語の方言:呉語、広東語、福建語、四川語などにネイティブ対応。
  • コードスイッチ:言語タグ不要で、中国語–英語のコードスイッチ書き起こしをシームレスに実現。
  • 歌の認識:伴奏とボーカルが混ざっていても、中国語および英語の歌の歌詞を高精度に書き起こし。
  • 騒音環境:大きなノイズ、遠距離(遠方)での収録など、その他の不利な音響条件下でも頑健に認識。
  • 多人数:会議のような、重なり合う複数者の会話を正確に書き起こし。
  • 複雑な英語シナリオ:AMI のような難しい英語ベンチマークに対する Open ASR Leaderboard でトップレベルの性能。
  • 知識集約的な認識:古典詩、技術用語、人名、地名など、知識を多く含む素材を正確に認識。
  • ネイティブな句読点:韻律と意味論からネイティブに生成され、後処理不要でそのまま利用できる書き起こしを提供。
投稿者 /u/jacek2023
[リンク] [コメント]