要旨: マルチモーダル推論は、推論モデルの推論能力を強化するための強力な枠組みとして登場してきた。マルチターンの表推論手法は、ツール利用や報酬モデリングによって推論精度を向上させているが、表状態の読み出しには固定されたテキストのシリアライズに依存している。これにより、表のエンコーディングにおける表現誤差が生じ、それが複数ターンにわたって大きく累積する。この累積は、推論計算量やコストを犠牲にして表形式のグラウンディング手法で軽減できるが、現実世界での導入は実用的ではない。そこで本研究では、表の行動を表現と推定の両面から共同最適化する表推論フレームワーク TABQAWORLD を導入する。表現に関して、TABQAWORLD は行動条件付きマルチモーダル選択ポリシーを用い、視覚表現とテキスト表現を動的に切り替えて、表状態の読み出し信頼性を最大化する。推定に関して、TABQAWORLD は、次元、データ型、主要な値を含む表メタデータに基づいて段階的な推論軌跡を最適化し、安全に軌跡を計画するとともに、低複雑度の行動を圧縮することで、会話ターン数とレイテンシを削減する。学習不要のフレームワークとして設計された TABQAWORLD の実験評価では、ベースラインに対して精度が 4.87% 改善されるなど、最先端の性能を達成している。さらに静的な設定と比べて、精度が 5.42% 向上し、推論レイテンシが 33.35% 削減されることを示し、信頼性と効率性に優れた表推論の新たな基準を確立する。
TABQAWORLD:マルチターン表質問応答のためのマルチモーダル推論の最適化
arXiv cs.AI / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のマルチターン表質問応答手法が、ターン間で固定されたテキストのシリアライズにより表現エラーが蓄積してしまう問題を指摘している。
- それに対し、TABQAWORLDは、視覚表現とテキスト表現を状況に応じて動的に切り替える、学習不要(training-free)のマルチモーダル表推論フレームワークを提案し、表状態の読み取り信頼性を向上させる。
- TABQAWORLDはさらに、表のメタデータ(例:次元、データ型、キー値)を用いて、段階的な推論の軌道を安全に最適化し、低複雑度のアクションを圧縮することで、計画(planning)も改善する。
- 実験では、ベースラインに対して精度が+4.87%、推論レイテンシが+33.35%削減されるなどの最先端(state-of-the-art)の結果が報告されており、固定的な表現設定よりも優れている。
- 本研究は、エラー蓄積と会話ターン/レイテンシのコストの両方を削減することで、より実運用に近いマルチターン表推論の実現を目指している。




