FollowTable:指示に従うテーブル検索のためのベンチマーク

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来のテーブル検索が主にトピックの意味的類似度に依存している点を指摘し、LLMベースのエージェントシステム向けの指示駆動型タスク「Instruction-Following Table Retrieval(IFTR)」を提案している。
  • IFTRは、トピックとしての関連性に加えて、コンテンツの範囲に関する細かな指示(含める/除外する等)や、スキーマに基づく要件(列の意味や表現粒度)を同時に満たすことを求める。
  • 著者らはIFTRを体系的に評価するため、分類(タクソノミ)に基づく注釈パイプラインで構築した大規模ベンチマーク「FollowTable」を導入している。
  • また、ユーザー指示に応じて検索ランキングがトピックのみのベースラインと比べて一貫して適応するかを測る新しい指標「Instruction Responsiveness Score」を提案している。
  • 実験では、既存の検索モデルが表データに対する細かな指示に追従するのが難しく、表層的な意味手がかりへのバイアスやスキーマを踏まえた制約への対応の弱さが見られ、今後の改善余地が大きいことが示された。

Abstract

テーブル検索(TR)は従来、関連性が主としてトピックの意味的類似性によって決まる、場当たり的な検索問題として定式化されてきました。しかし、LLMベースのエージェント型システムの採用が進むにつれ、構造化データへのアクセスは、トピック類似性だけでなく、明示的な内容やスキーマ制約に応じて関連性が決まる「指示主導」になりつつあります。そこで本研究では、トピックの関連性ときめ細かな指示制約を同時に満たすことを求める、新しいタスクである Instruction-Following Table Retrieval(IFTR)を定式化します。IFTRにおける2つの主要な課題を特定します:(i)包含・除外といったコンテンツ範囲に対する感度、(ii)列の意味や表現の粒度といった、スキーマに基づく要求への理解です。これらの能力は、既存の検索器にはほとんど欠けています。体系的な評価を支援するために、タクソノミー駆動のアノテーションパイプラインにより構築された、IFTRのための最初の大規模ベンチマークである FollowTable を導入します。さらに、トピックのみのベースラインに対して、ユーザの指示に応じて検索ランキングが一貫して適応しているかどうかを評価する新しい指標として、Instruction Responsiveness Score(指示応答スコア)を提案します。結果は、既存の検索モデルが表形式データに対するきめ細かな指示に従うのが難しいことを示しています。具体的には、表層レベルの意味的手がかりに対して系統的なバイアスを示し、スキーマに基づく制約の扱いが限定的であるため、今後の大きな改善の余地があることが明らかになりました。