大規模言語モデルにおける複数の文脈内知識更新に伴う取得バイアスの診断

arXiv cs.AI / 2026/3/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文はDynamic Knowledge Instance（DKI）評価フレームワークを提案し、同じ事実の複数回の更新を、手掛かりと更新値の連続としてモデル化する。
多様なLLMにおいて、更新の回数が増えるほど取得バイアスが強まる一方、初期状態の精度は高水準を維持するが、最新状態の精度は大幅に低下する。
注意機構、隠れ状態の類似性、および出力ロジットの分析は、バイアス信号が平坦で識別性が低下しており、最新の更新を特定するための安定な根拠をほとんど提供しなくなる。
認知的に着想を得たヒューリスティック介入はわずかな改善しかもたらさず、バイアスを排除するには至らない。
総じて、本研究は長文脈推論における知識更新の追跡と追従には持続的な課題があることを示している。

概要: LLMは、文脈内で同じ事実が複数回改訂される可能性のある知識集約的なタスクで広く用いられています。これまでの研究が1回の更新や単一の衝突に焦点を当てていたのとは異なり、複数の更新が生じるシナリオには、取得時に競合する複数の歴史的に有効なバージョンが含まれますが、依然として十分には探究されていません。この課題は認知心理学のAB-AC干渉パラダイムに似ています：同じ手掛かりAが順次BとCと関連付けられると、古い結びつきと新しい結びつきが取得時に競合し、バイアスが生じます。この着想に触発され、Dynamic Knowledge Instance (DKI) 評価フレームワークを導入し、同じ事実の複数の更新を、手掛かりと更新された値の列を対にした形式としてモデルを評価し、エンドポイント・プロービングを用いて最も早い（初期）状態と最新（現在）状態を評価します。多様なLLMにわたって、更新が増えるにつれて取得バイアスが強まることを観察し、初期状態の精度は高いままである一方、最新状態の精度は大幅に低下します。アテンション、隠れ状態の類似性、出力ロジットの診断分析は、これらの信号がより平坦になり、エラー時の識別力が弱くなることをさらに示し、最新の更新を特定する安定な根拠をほとんど提供しません。最後に、認知に触発されたヒューリスティック介入戦略はわずかな改善にとどまり、バイアスを排除するには至りません。我々の結果は、長い文脈における知識更新を追跡・追従する際の継続的な課題を明らかにしています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

世界半導体売上高、単月で初めて800億ドル突破 26年1月

日経XTECH

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

日経XTECH

大規模言語モデルにおける複数の文脈内知識更新に伴う取得バイアスの診断

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

世界半導体売上高、単月で初めて800億ドル突破 26年1月

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

世界半導体売上高、単月で初めて800億ドル突破 26年1月

TSMC、光電融合でライバル突き放しへ 半導体の設計情報「PDK」を広く提供

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

TSMC、光電融合でライバル突き放しへ半導体の設計情報「PDK」を広く提供