R-C2：サイクル整合性を備えた強化学習がマルチモーダル推論を改善する

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル・モデルがしばしばモダリティ間で矛盾した出力（例：テキストと視覚）を生成し、その不整合は、投票で隠すのではなく学習信号として活用できると主張する。
RC2（RC2）は、逆向きの推論を行い、モダリティを切り替え、そして順向きに回答を再構成することで、クロスモーダルのサイクル整合性を強制する強化学習フレームワークを導入する。
RC2は、環状（サイクリック）再構成の目的関数を用いて、ラベル不要の密な報酬信号を生成し、内部表現の整合を促す。
実験結果として、マルチモーダル推論の精度が最大7.6ポイント向上したと報告されており、著者らはその改善が、スケーリングに加えて、構造的に整合した世界理解によってもたらされると示唆している。

Abstract

堅牢な知覚と推論には、感覚モダリティ間での一貫性が必要です。しかし、現在の多くのマルチモーダルモデルはこの原則をしばしば破っており、同一の概念に対する視覚表現とテキスト表現で矛盾した予測を生み出します。系統的なバイアスを増幅し得る標準的な投票メカニズムでこうした失敗を隠すのではなく、我々は、モダリティ間の不一致が学習のための豊かで自然な信号になることを示します。我々は、内部の対立を、モダリティ間のサイクル整合性を強制することで解消する強化学習フレームワーク RC2 を提案します。モデルに対して、逆向きの推論を行い、モダリティを切り替え、順向きの推論によって回答を確実に再構成することを要求することで、密な、ラベル不要の報酬を得ます。この循環的な制約は、モデルが内部表現を自律的に整合させることを促します。この構造を最適化することで、モダリティ固有の誤りが緩和され、推論精度が最大 7.6 ポイント向上します。我々の結果は、高度な推論がデータのスケーリングだけでなく、世界に対する構造的に一貫した理解を強制することによっても生まれることを示唆しています。