MiniCPM-o 4.5:リアルタイム対応のフルデュプレックスなオムニモーダル対話へ

arXiv cs.CL / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • MiniCPM-o 4.5は、人間に近いマルチモーダル対話を目指し、従来のターンベースの切り替えではなくリアルタイムのフルデュプレックスなオムニモーダル通信を可能にする新しいモデルとして提案されています。
  • この記事では、現行のマルチモーダルでは(1)生成中に新しい入力を即時に取り込めないこと、(2)主に依頼に反応する“リアクティブ”な振る舞いにとどまることが主なボトルネックだと指摘し、同モデルでこれらを補うとしています。
  • 中核技術はOmni-Flowで、マルチモーダル入力と出力を共通の時間軸に揃えるストリーミング枠組みにより、同時の知覚と応答を実現すると説明されています。
  • パラメータ9Bのモデルは、視覚-言語分野で大規模システムに匹敵し、オムニモーダル理解や音声生成の面で一部のモデルを上回りつつ、計算効率も向上すると報告されています。
  • 効率的なアーキテクチャ設計と推論最適化により、12GB未満のRAMコストでエッジ端末上でもリアルタイムのフルデュプレックス対話が可能だと主張されています。

Abstract

マルチモーダル大規模言語モデル(MLLM)の近年の進展により、AIの能力は静的なオフラインデータ処理から、リアルタイムのストリーミングによるインタラクションへと到達しました。しかし、それでも人間レベルのマルチモーダル・インタラクションにはまだ程遠い状況です。主要なボトルネックは、もはやモダリティのカバー範囲やレイテンシだけではありません。問題はインタラクションのパラダイムそのものにあります。第一に、知覚と応答が交互に行われる段階として分離されたままであり、生成の途中でモデルが新しい入力を取り込み、タイムリーに調整することが妨げられています。第二に、現在の多くのモデルは依然として反応型であり、進行するマルチモーダル環境の変化に対して先回りして行動するのではなく、明示的なユーザーの要求にだけ応答します。私たちは、人間のようなマルチモーダル・インタラクションに向けた最新の取り組みであるMiniCPM-o 4.5を提示します。これは、リアルタイムのフルデュープレックスなオムニモーダル・インタラクションにより、これらのギャップを緩和します。MiniCPM-o 4.5は、リアルタイムで同時に「見る」「聞く」「話す」ことができ、さらに、ライブシーンを継続的に理解することに基づいて、リマインドやコメントを発行するなどの先回り行動も示します。MiniCPM-o 4.5の中核となる技術は、オムニモーダル入力と出力を共通の時間軸に沿って整列させる統一ストリーミングフレームワークであるOmni-Flowです。この定式化により、従来のターン制のインタラクションを、フルデュープレックスで時間的に整列したプロセスへと変換し、同時の知覚と応答を可能にするとともに、同一の枠組みの中で先回り行動が生じるようにします。合計9Bパラメータを持つMiniCPM-o 4.5は、視覚言語能力においてGemini 2.5 Flashに迫り、その規模において最先端のオープンソース性能を提供します。また、オムニモーダル理解においてQwen3-Omni-30B-A3Bを上回り、さらに音声生成もより良好であり、計算効率も大幅に高いです。効率的なアーキテクチャ設計と推論最適化により、このモデルは、12GB未満のRAMコストでエッジデバイス上でリアルタイムのフルデュープレックスなオムニモーダル・インタラクションを実行できます。