要旨: 既存の表理解手法は、複雑な表構造と緻密な論理推論のために課題に直面している。教師あり微調整(SFT)が既存研究で主流である一方、Group Relative Policy Optimization(GRPO)のような強化学習(RL)は有望であることが示されてきたが、表形式の文脈では初期ポリシー精度が低いことや報酬が粗いことが原因で苦戦してきた。本論文では、3段階のRLフレームワークであるTable-R1を導入し、次の取り組みによりマルチモーダルな表理解を強化する:(1)ウォームアップにより、初期の知覚および推論能力を促す、(2)Perception Alignment GRPO(PA-GRPO)。連続的なTree-Edit-Distance Similarity(TEDS)報酬を用いて、表構造と内容の認識に対する報酬を与える、(3)Hint-Completion GRPO(HC-GRPO)。ヒントに導かれた質問に基づいて、残差ステップに対するきめ細かな報酬を利用する。大規模な実験の結果、Table-R1は、保持データセットおよび新規(非保持)データセットの両方において、モデルの表推論性能を明確に向上させ、SFTおよびGRPOを大きく上回ることが示された。特に、Table-R1を用いたQwen2-VL-7Bは、より大きい特定の表理解モデル(例: Table-LLaVA 13B)を上回り、保持データセットではクローズドソースモデルのGPT-4oと同等の性能さえ達成している。これは、Table-R1の各段階が、初期化のボトルネックと報酬のスパース性を克服する上で有効であり、堅牢なマルチモーダル表理解を前進させることを示している。
GRPOは複雑なマルチモーダル表理解を強化できるか?
arXiv cs.CL / 2026/3/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルな表理解が、複雑な表レイアウトや難しい論理推論によって妨げられていると主張する。一般に教師あり微調整(SFT)が用いられるが、強化学習(RL)では初期ポリシー精度が低いことや、粗い報酬(リワード)といった問題に直面してきた。
- 提案手法はTable-R1であり、3段階の強化学習フレームワークを用いる。ウォームアップ段階、連続Tree-Edit-Distance Similarity(TEDS)報酬によるPerception Alignment GRPO(PA-GRPO)、そして微細でヒントに導かれた残差ステップ報酬を用いるHint-Completion GRPO(HC-GRPO)を組み合わせる。
- 保持内データセットおよび保持外データセットの両方での実験により、Table-R1はSFTおよび標準的なGRPOを超えて表推論性能を向上させることが示される。これは、段階設計が初期化のボトルネックと報酬の疎さ(リワードスパースネス)を効果的に解消していることを示唆する。
- 重要な結果として、Table-R1を用いたQwen2-VL-7Bは、Table-LLaVA 13Bのようなより大きい表特化モデルを上回り、保持内データセットではクローズドソースのGPT-4oと同等レベルの性能に到達する。
- 全体として、本研究は、マルチモーダル表理解に対して、報酬設計の調整とマルチフェーズ学習により、GRPO型のRLを大幅に有効化できることを示している。




