要旨: スプレッドシートは、企業のレポーティング、監査、科学データ管理などの現実世界のアプリケーションにおいて中核となる存在です。広く普及しているにもかかわらず、既存の大規模言語モデルに基づくアプローチでは、表を単なるテキストとして扱うことが一般的であり、重要なレイアウト上の手がかりや視覚的な意味論が見落とされがちです。さらに、現実世界のスプレッドシートは規模が非常に大きいことが多く、LLMが効率的に処理できる入力長を超えることがあります。これらの課題に対処するため、我々はステップごとの読み取りと推論のパラダイムを採用した、スプレッドシート理解のための2段階マルチエージェントフレームワークであるSpreadsheetAgentを提案します。スプレッドシート全体を一度に読み込むのではなく、SpreadsheetAgentは、コード実行結果、画像、LaTeXテーブルなど複数のモダリティを用いて、局所的な領域を段階的に解釈します。この手法はまず、構造の概略スケッチと行/列の要約を構築し、その後、Solving Stage(解決段階)において、この中間表現に対してタスク駆動型の推論を実行します。信頼性をさらに高めるために、抽出された構造を対象を絞った検査によって検証する検証モジュールを設計し、誤りの伝播を抑制して、下流の推論に対する信頼できる入力を確実にします。2つのスプレッドシートデータセットに対する大規模な実験により、本手法の有効性が示されました。GPT-OSS-120Bでは、SpreadsheetAgentはSpreadsheet Benchで38.16%を達成し、ChatGPT Agentのベースライン(35.27%)を2.89絶対ポイント上回ります。これらの結果は、SpreadsheetAgentが現実世界のアプリケーションにおいて、堅牢でスケーラブルなスプレッドシート理解を前進させる可能性を示しています。コードは https://github.com/renhouxing/SpreadsheetAgent.git で利用可能です。
マルチエージェントによるマルチフォーマット推論で実世界のスプレッドシート理解を頑健にする
arXiv cs.CL / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のLLMベースのスプレッドシート理解がしばしば表を単なるテキストとして扱うため、実世界の監査やレポーティングに必要な重要なレイアウトおよび視覚的セマンティクスを見落とし、失敗してしまうと主張する。
- 論文では、巨大なスプレッドシート全体を一度に取り込むのではなく、複数のモダリティ(例:コード実行結果、画像、LaTeX形式の表コンテンツ)を用いて、段階的かつ局所的な読み取りを行う2段階のマルチエージェント枠組み「SpreadsheetAgent」を提案する。
- 第1段階では、SpreadsheetAgentが行/列の要約から構造的な「スケッチ」を構築し、第2段階では、この中間表現に対してタスク駆動の推論を実行する。
- 信頼性を高めるために、抽出した構造を検証するための的を絞った検査を行い、下流での誤りの伝播を減らす検証モジュールをシステムに組み込んでいる。
- 2つのデータセットでの実験により、ベンチマーク性能の向上が示されており、SpreadsheetAgentはSpreadsheet Benchで38.16%を達成した(ChatGPT Agentのベースラインは35.27%)。また、著者らはコードを公開している。




