画像による意味的演算に基づくLLMのマルチモーダル推論

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、LLMの推論力向上には事後学習としての強化学習(RL)が重要だとしつつ、「画像から関係性を推論する」視覚的な意味的演算は十分に研究されていない点を指摘しています。
  • 2項の減算と3項の演算という新しいベンチマーク課題を定義し、画像ベースの関係推論を体系的に評価するためのImage-Relation-Pair Dataset(IRPD)を提案しています。
  • 著者らは、検証可能な学習信号とGroup Relative Policy Optimization(GRPO)を用いて、大規模な視覚言語モデルを事後学習するSemantic Arithmetic Reinforcement Fine-Tuning(SAri-RFT)を提案しています。
  • この手法はIRPDで最先端の結果を達成し、さらに実世界データセットのVisual7W-Tellingでも良好な性能を示しています。
  • 知覚に基づいて記号的な関係推論を根付かせることで、様々な環境で動作する家庭用・サービスロボットの意思決定やツール適応、人ロボット協調に資することを目指しています。

要旨: 後処理(post-training)としての強化学習(RL)は、コーディングや数学における大規模言語モデル(LLM)の推論能力を高めるうえで重要である。しかし、視覚的な意味の算術(visual semantic arithmetic)、すなわち画像から関係を推論する能力は、十分に調べられていない。古典的なテキストの類推「king」-「man」+「woman」=「queen」は関係推論を示しているが、「king」や「man」の画像でこれを置き換えると、パフォーマンスが大きく低下する。これは、常識知識が必要であり、無関係な視覚的ディテールから簡潔な概念を抽出する必要があるためである。この能力は、物体・エージェント・行動の間の意味関係を推論しなければならない、非構造化環境におけるサービス/家庭内ロボティクスにとって重要である。キッチンでは、「powder」と「cake」が「is made of」によって関連していることを画像から認識することで、知覚における象徴的関係が成り立ち、ツールの置換、タスクの汎化、そして意味推論の改善が可能になる。先行研究では、ベクトル演算の後に画像特徴をデコードして意味の算術に取り組んでいるが、モダリティ間のギャップがあり、体系的な評価が欠けている。本論文では、2項減算と3項演算という2つの新しいタスクを定式化し、ベンチマークのための画像-関係-ペア・データセット(Image-Relation-Pair Dataset; IRPD)を構築する。さらに、検証可能な関数とGroup Relative Policy Optimization(GRPO)を用いて大規模な視覚言語モデル(LVLM)を後学習する、Semantic Arithmetic Reinforcement Fine-Tuning(SAri-RFT)を提案する。本手法はIRPDおよび現実世界のVisual7W-Tellingデータセットで最先端の結果を達成する。LVLMに頑健なクロスモーダルな関係推論を備えることで、本研究は、知覚において象徴的推論を根付かせる(ground)家庭内ロボットの能力を前進させ、意思決定、ツールの適応性、複雑な環境における人間-ロボット相互作用を強化する。データセットとソースコードは補足資料に提供される。