概要: 長くてノイズの多い文脈に有用な情報が埋め込まれている環境で、巨大言語モデルがますます展開されています。それにもかかわらず、成長する文脈長に対する頑健性は、さまざまな質問応答タスクにおいてなお十分に理解されていません。本研究では、広く用いられている二つのベンチマーク、SQuADとHotpotQAを用いて、巨大言語モデルの文脈長に対する頑健性の制御された実証研究を提示します。総文脈長の関数としてモデルの精度を評価するため、答えを含む信号を保持しつつ、無関係な文脈の量を系統的に増やします。これにより、文脈長の影響をタスクの難易度の変化から分離することができます。私たちの結果は、文脈長が増加するにつれて性能が一貫して低下することを示しており、マルチホップ推論タスクは単一スパン抽出タスクと比べてはるかに大きな低下を示します。特に、同等の文脈拡張の下でHotpotQAはSQuADの約2倍の精度低下を示します。これらの知見は、頑健性のタスク依存的な差を浮き彫りにし、特にマルチホップ推論は文脈の希薄化に対して脆弱であることを示唆します。長文ドキュメントを含むアプリケーションや、検索を組み込んだ生成を含むアプリケーションにおいて、モデルの信頼性を評価する際には、文脈長の頑健性を明示的に評価すべきだと主張します。
質問応答モデルにおける文脈長の頑健性: 比較実証研究
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らは、SQuADとHotpotQAを用いて、質問応答モデルにおける文脈長の頑健性を制御された実証的研究として実施し、答えの信号を保ったまま無関係な文脈を追加することで精度を測定した。
- 結果は、文脈長が増加するにつれてモデルの性能が低下することを示し、多段推論タスクでの低下は、単一スパン抽出タスクよりも著しく大きい。
- HotpotQAは、等価な文脈拡張条件下でSQuADよりほぼ2倍近く精度の低下を示す。
- 本論文は、長文文書や検索を活用した生成などのアプリケーションを含む場合に、文脈長の頑健性を明示的に評価することがモデルの信頼性を評価するうえで重要であると主張している。