R-C2:サイクル整合性を備えた強化学習がマルチモーダル推論を改善する
arXiv cs.AI / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル・モデルがしばしばモダリティ間で矛盾した出力(例:テキストと視覚)を生成し、その不整合は、投票で隠すのではなく学習信号として活用できると主張する。
- RC2(RC2)は、逆向きの推論を行い、モダリティを切り替え、そして順向きに回答を再構成することで、クロスモーダルのサイクル整合性を強制する強化学習フレームワークを導入する。
- RC2は、環状(サイクリック)再構成の目的関数を用いて、ラベル不要の密な報酬信号を生成し、内部表現の整合を促す。
- 実験結果として、マルチモーダル推論の精度が最大7.6ポイント向上したと報告されており、著者らはその改善が、スケーリングに加えて、構造的に整合した世界理解によってもたらされると示唆している。
広告




