BeliefShift：LLMエージェントにおける時間的信念整合性と意見ドリフトのベンチマーク

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、現在のLLMエージェントのメモリベンチマークがユーザ情報を静的な事実として扱う一方で、実際のユーザは長期のやり取りの中で考えを変えるため、意見ドリフトや確証バイアスといった信念ダイナミクスを評価することが重要だと主張する。
BeliefShiftは、縦断的かつ人手アノテーションによるベンチマークとして導入されており（2,400件のマルチセッション軌跡）、Temporal Belief Consistency、Contradiction Detection、Evidence-Driven Revisionの3つのトラックに焦点を当てている。対象ドメインは健康、政治、個人の価値観、製品嗜好などである。
著者らは、GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、LLaMA-3、Mistral-Largeを含む7つのLLMを、ゼロショットとRAGの両設定で評価し、「ドリフトに抵抗する過度に積極的なパーソナライズ」と「根拠に基づくモデルが正当な信念更新を行えない」というトレードオフを見出す。
新たに4つの指標—Belief Revision Accuracy（BRA）、Drift Coherence Score（DCS）、Contradiction Resolution Rate（CRR）、Evidence Sensitivity Index（ESI）—が、信念変化行動の異なる側面を測るために提案される。
ベンチマークと指標は、単に格納された事実を想起できるかどうかではなく、LLMエージェントが時間とともにどのように信念を修正するかをより適切に定量化することを目的としている。

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

BeliefShift：LLMエージェントにおける時間的信念整合性と意見ドリフトのベンチマーク

要点

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer