Xiaomi MiMo/MiMo-V2.5-ASR（Hugging Face）

Reddit r/LocalLLaMA / 2026/4/24

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

MiMo-V2.5-ASRは、中国語（複数方言）と英語を対象に高精度な文字起こしを目指す、Xiaomi MiMoチームによる最先端のエンドツーエンド音声認識（ASR）モデルです。
方言混在やコードスイッチ（中国語–英語の切替）に対応し、言語タグなしで自然に書き起こせる設計になっています。
雑音下（遠距離集音など）や多話者の重なり会話、知識量の多い内容（固有名詞、地名、専門用語、古典詩など）、さらに歌詞認識にも強い性能を示しています。
学習面では、大規模な中間学習、高品質な教師あり微調整、そして独自の強化学習アルゴリズムにより、複数の評価軸で体系的な改善を達成したとしています。
幅広い公開ベンチマークで最先端（SOTA）結果を報告し、英語の難しめベンチマークではOpen ASR Leaderboardでも高い性能を示しています。

MiMo-V2.5-ASR は、Xiaomi MiMo チームによって開発された最先端のエンドツーエンド自動音声認識（ASR）モデルです。これは、中国語（北京語）および英語に加えて、複数の中国語方言、コードスイッチ（言語の切り替わり）発話、歌詞、知識集約的な内容、騒音の多い音響環境、多人数による会話にわたって、正確で頑健な書き起こしを提供することを目的に構築されています。MiMo-V2.5-ASR は、多種多様な公開ベンチマークにおいて最先端の結果を達成しています。

概要

自動音声認識システムには、多様な言語、方言、話者のアクセント、領域から生じ、さまざまな音響条件のもとで収録された音声信号を、忠実に書き起こすことが期待されています。従来のエンドツーエンドモデルは同一領域のデータでは良好に機能しますが、方言混在、コードスイッチ、知識集約的な内容、騒音環境、多人数の会話といった難しいシナリオでは、現実の要求を満たすには依然として不十分です。私たちは MiMo-V2.5-ASR を提案します。これは、Xiaomi MiMo チームによって開発された大規模なエンドツーエンド音声認識モデルです。大規模なミッドトレーニング、高品質な教師あり微調整、および新しい強化学習アルゴリズムを通じて、MiMo-V2.5-ASR は以下の次元において体系的な改善を達成しています：

️ 中国語の方言：呉語、広東語、福建語、四川語などにネイティブ対応。
コードスイッチ：言語タグ不要で、中国語–英語のコードスイッチ書き起こしをシームレスに実現。
歌の認識：伴奏とボーカルが混ざっていても、中国語および英語の歌の歌詞を高精度に書き起こし。
騒音環境：大きなノイズ、遠距離（遠方）での収録など、その他の不利な音響条件下でも頑健に認識。
多人数：会議のような、重なり合う複数者の会話を正確に書き起こし。
複雑な英語シナリオ：AMI のような難しい英語ベンチマークに対する Open ASR Leaderboard でトップレベルの性能。
知識集約的な認識：古典詩、技術用語、人名、地名など、知識を多く含む素材を正確に認識。
ネイティブな句読点：韻律と意味論からネイティブに生成され、後処理不要でそのまま利用できる書き起こしを提供。

投稿者 /u/jacek2023
[リンク] [コメント]

Black Hat USA

AI Business

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ

日経XTECH

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

IT部門改革・人材育成・3M削減、SUBARU辻CIOが手掛けた6年半のDX戦略

日経XTECH

「公開値ではMythos優勢」と自ら負け認めるGPT-5.4、Cyber版提供の意味

日経XTECH

Xiaomi MiMo/MiMo-V2.5-ASR（Hugging Face）

要点

概要

関連記事

Black Hat USA

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

IT部門改革・人材育成・3M削減、SUBARU辻CIOが手掛けた6年半のDX戦略

「公開値ではMythos優勢」と自ら負け認めるGPT-5.4、Cyber版提供の意味

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

概要

関連記事

Black Hat USA

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入 北京ショー開幕へ

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

IT部門改革・人材育成・3M削減、SUBARU辻CIOが手掛けた6年半のDX戦略

「公開値ではMythos優勢」と自ら負け認めるGPT-5.4、Cyber版提供の意味

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日産やVWがE2E自動運転で攻勢、吉利・長安がHEV参入北京ショー開幕へ