MiniCPM-o 4.5:リアルタイム対応のフルデュプレックスなオムニモーダル対話へ
arXiv cs.CL / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- MiniCPM-o 4.5は、人間に近いマルチモーダル対話を目指し、従来のターンベースの切り替えではなくリアルタイムのフルデュプレックスなオムニモーダル通信を可能にする新しいモデルとして提案されています。
- この記事では、現行のマルチモーダルでは(1)生成中に新しい入力を即時に取り込めないこと、(2)主に依頼に反応する“リアクティブ”な振る舞いにとどまることが主なボトルネックだと指摘し、同モデルでこれらを補うとしています。
- 中核技術はOmni-Flowで、マルチモーダル入力と出力を共通の時間軸に揃えるストリーミング枠組みにより、同時の知覚と応答を実現すると説明されています。
- パラメータ9Bのモデルは、視覚-言語分野で大規模システムに匹敵し、オムニモーダル理解や音声生成の面で一部のモデルを上回りつつ、計算効率も向上すると報告されています。
- 効率的なアーキテクチャ設計と推論最適化により、12GB未満のRAMコストでエッジ端末上でもリアルタイムのフルデュプレックス対話が可能だと主張されています。




