概要: 大型言語モデル(LLMs)は、時機を得た質問に回答する際にしばしば時代遅れの知識に依存し、確信に満ちたが不正確な回答を招く。
最新情報が必要かどうかを示す明示的な信号がない場合、モデルは外部の証拠をいつ取得すべきか、陳腐化した事実についてどう推論すべきか、回答を妥当性でどのようにランク付けするべきかを判断するのに苦労します。
既存のベンチマークは回答を定期的に更新するか、固定テンプレートに依存するいずれかですが、それらは回答がどのくらい頻繁に変わるか、あるいは質問自体が本質的に最新情報を必要とするかどうかを反映していません。
このギャップを埋めるために、回答がどのくらいの頻度で変化するか、そしてこの変化の頻度が時間的不変か文脈依存かを分類する新近性-定常性タクソノミーを導入します。
この分類に基づき、RecencyQAという新近性と定常性のラベルが付与された4,031件のオープンドメイン質問データセットを提示します。
ヒューマン評価と実証分析を通じて、非定常的な質問、すなわち文脈が新近性の要件を変える質問は、LLMsにとって著しく難しく、更新頻度が上がるにつれて難易度が高まることを示しています。
新近性と文脈依存性を明示的にモデル化することで、RecencyQAは新鮮さの二値的概念を超えた時系列推論の細かなベンチマークと分析を可能にし、新近性を意識した文脈依存型の質問応答システムの開発基盤を提供します。
回答はどれくらい頻繁に変わるのか?質問応答における最新性要件の推定
arXiv cs.CL / 2026/3/18
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 大規模言語モデルは、時間に敏感な質問に対してしばしば時代遅れの知識に依存する。その結果、外部の証拠が取得されない場合には自信に満ちたが誤った回答を示すことがある。
- 本論文は、回答がどれくらい頻繁に変化するかと、この変化の頻度が文脈依存かどうかを分類する『最新性-定常性の分類法』を提案する。
- また、最新性と定常性のラベルが付与された4,031件のオープンドメイン質問データセットRecencyQAを提示しており、時間的推論の細粒度ベンチマークを可能にする。
- その結果、文脈が最新性の要件を変える非定常な質問はLLMsにとって難しく、更新頻度が上がるにつれて難易度が増すことが示されており、最新性を意識した検索とランキングの必要性を浮き彫りにしている。

