構築を用いた思考: 視覚とテキストの混在幾何推論のベンチマークとポリシー最適化

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は GeoAux-Bench を提案する。GeoAux-Bench は 4,334 問題から成る幾何ベンチマークで、テキストによる構築手順と対応する視覚的更新を整合させている。
視覚情報とテキスト情報を交互に用いた補助は、単一モダリティの手法を上回り、幾何学的シナジーを保ちつつ推論の困難さを低減することを示している。
Action Applicability Policy Optimization (A2PO) を提案する。視覚補助をいつ・どのように使うかを制御するための Adaptive Reward Shaping（適応報酬整形）と反事実サンプリングを組み合わせた強化学習フレームワークである。
実験では強力なベースラインに対して 3.51% の性能向上を報告しており、コードとデータは GitHub で公開されている。

要約: 幾何推論は本質的に「構成を用いた思考」が必要であり、問題条件と解法の間のギャップを埋める視覚的補助の動的操作を行います。しかし、既存のマルチモーダル大規模言語モデル（MLLMs）は静的な図とともに受動的推論に大部分が制限されており、効果的な視覚補助をいつ、どのように構築すべきかという戦略的知識を欠いています。これに対処するため、視覚とテキストを交互に組み合わせた思考の枠組みを提示します。まず、4,334問の幾何学問題を含み、テキストの構築手順と実測の視覚更新を整合させる最初のベンチマークGeoAux-Benchを導入します。予備的な研究は2つの重要な洞察を示します。(1) 視覚とテキストを交互に用いた補助は、単一モダリティの対になるものよりも優れており、幾何学的シナジーを情報を失うことなく捉えることができます。 (2) 有効な構築はエントロピーを低減する働きを持ち、推論の困惑度の低下と強く相関します。これらの知見を基に、戦略的構築を習得するための強化学習パラダイムとして、Action Applicability Policy Optimization (A2PO) を提案します。A2POは適応報酬整形を用いて視覚補助のタイミングと品質を調整し、反事実サンプリングによって必要な構築と冗長な構築を見分けます。実験は、我々のアプローチがMLLMに選択的な補助構築を活用させ、強力なベースラインに比べて3.51%の向上をもたらすことを示しています。コードとデータはGitHubで公開されています。