多ターン言語モデルにおける時間的整合性の評価

arXiv cs.CL / 2026/4/28

📰 ニュースModels & Research

共有:

要点

本研究は、単発の質問に答える能力だけでなく、多ターン対話の各ターンで暗黙の時間に関する前提をモデルが保持・更新・引き継げるかを扱います。
ChronoScopeとして、Wikidataに基づく100万件超の決定論的に生成された質問連鎖からなる大規模な診断ベンチマークを提案し、時間スコープの安定性を検証します。
最先端の言語モデルを評価した結果、時間スコープの安定性がしばしば破られ、根本的な知識は正しいのに現在時点の前提へと「ドリフト」するケースが多いことが分かります。
こうした破綻は会話が長くなるほど深刻化し、オラクル的なコンテキスト条件でも持続することがあり、単発の事実正確性と連続した時間推論の一貫性の間にギャップがあることを示しています。
著者は、データセットと評価スイートをGitHubで公開し、研究のために利用可能にしています。

要旨: 言語モデルは、ユーザが事実について時間をまたいで推論する、対話的な環境でますます導入されつつあります。このような状況では、正しい振る舞いのためには、会話の中で以前に確立された暗黙の時間的前提を、モデルが保持し更新し続ける必要があります。本研究では、この課題を「時間スコープ安定性」の観点から取り上げます。すなわち、対話のターンをまたいで、時間スコープ付きの事実的文脈を保持し、上書きし、または転送できる能力です。私たちは、Wikidataに基づく決定論的に生成された100万件超の質問連鎖から成る、大規模な診断ベンチマーク「ChronoScope」を提案します。これは、制御されたマルチターン対話において時間スコープの振る舞いを切り分けることを目的としています。ChronoScopeは、フォローアップ質問で明示的な時間参照が省略されているときに、モデルが推論された時間スコープを正しく保持できるかを評価します。評価には、暗黙の持ち越し、明示的なスコープ切り替え、エンティティをまたいだ転送、より長い時間的軌跡が含まれます。最先端の言語モデルを広範に評価した結果、制御されたマルチターン設定において時間スコープ安定性がしばしば破られることが分かりました。多くの場合、基盤となる知識が正しいにもかかわらず、モデルは現在時点の前提へと漂ってしまいます。これらの失敗は、対話の長さとともにいっそう深刻化し、オラクル・コンテキスト条件下でも持続します。これは、単一ターンにおける事実の正確さと、逐次的な対話のもとでの首尾一貫した時間推論との間にギャップがあることを示しています。私たちは、データセットと評価スイートを https://github.com/yashkumaratri/ChronoScope で公開します

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

note

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

GIGAZINE

ADAMオプティマイザーの収束証明の改良

Dev.to

デモではなく実際に稼働する――自律的にビジネスを回すAIを作った（YC出資、学びと限界）

Reddit r/artificial

langchain-tests==1.1.7 の変更点

LangChain Releases

多ターン言語モデルにおける時間的整合性の評価

要点

関連記事

Claude検索機能の使い方は？ChatGPTとの違いや精度を徹底解説

OpenAIがAIのコーディング能力を測る代表的ベンチマークは「もはや無意味」と説明、初期の解けなかった問題を調べると逆に問題が悪いことが発覚

ADAMオプティマイザーの収束証明の改良

デモではなく実際に稼働する――自律的にビジネスを回すAIを作った（YC出資、学びと限界）

langchain-tests==1.1.7 の変更点

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer