質問応答モデルにおける文脈長の頑健性: 比較実証研究

arXiv cs.AI / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、SQuADとHotpotQAを用いて、質問応答モデルにおける文脈長の頑健性を制御された実証的研究として実施し、答えの信号を保ったまま無関係な文脈を追加することで精度を測定した。
結果は、文脈長が増加するにつれてモデルの性能が低下することを示し、多段推論タスクでの低下は、単一スパン抽出タスクよりも著しく大きい。
HotpotQAは、等価な文脈拡張条件下でSQuADよりほぼ2倍近く精度の低下を示す。
本論文は、長文文書や検索を活用した生成などのアプリケーションを含む場合に、文脈長の頑健性を明示的に評価することがモデルの信頼性を評価するうえで重要であると主張している。

概要: 長くてノイズの多い文脈に有用な情報が埋め込まれている環境で、巨大言語モデルがますます展開されています。それにもかかわらず、成長する文脈長に対する頑健性は、さまざまな質問応答タスクにおいてなお十分に理解されていません。本研究では、広く用いられている二つのベンチマーク、SQuADとHotpotQAを用いて、巨大言語モデルの文脈長に対する頑健性の制御された実証研究を提示します。総文脈長の関数としてモデルの精度を評価するため、答えを含む信号を保持しつつ、無関係な文脈の量を系統的に増やします。これにより、文脈長の影響をタスクの難易度の変化から分離することができます。私たちの結果は、文脈長が増加するにつれて性能が一貫して低下することを示しており、マルチホップ推論タスクは単一スパン抽出タスクと比べてはるかに大きな低下を示します。特に、同等の文脈拡張の下でHotpotQAはSQuADの約2倍の精度低下を示します。これらの知見は、頑健性のタスク依存的な差を浮き彫りにし、特にマルチホップ推論は文脈の希薄化に対して脆弱であることを示唆します。長文ドキュメントを含むアプリケーションや、検索を組み込んだ生成を含むアプリケーションにおいて、モデルの信頼性を評価する際には、文脈長の頑健性を明示的に評価すべきだと主張します。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

質問応答モデルにおける文脈長の頑健性: 比較実証研究

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも