大規模言語モデルにおける非逐語的（non-verbatim）記憶の再検討：エンティティの表層表記（surface form）の役割

arXiv cs.CL / 2026/4/24

📰 ニュースModels & Research

共有:

要点

本論文は、大規模言語モデル（LLM）が事実知識をどのように記憶・参照しているかを調べ、エンティティを表す表層表記（surface form）に依存するのかを焦点にします。
RedirectQAという新しいエンティティベースのQAデータセットを提案し、Wikipediaのリダイレクト情報を用いて、Wikidataの事実トリプルを複数の表層表現（別名、略語、表記ゆれ、よくある誤り）に結び付けます。
13のLLMに対する実験では、エンティティの表層表記だけを変更すると予測結果が変わり得ることが示され、命名に対して完全に不変ではないことを示唆します。
影響はカテゴリ依存で、スペルの軽微な揺れには比較的頑健ですが、エイリアスや略語のようなより大きな語彙的変化には弱いことが分かります。
周波数分析では、エンティティレベルと表層レベルの双方の頻度が精度と相関し、表層頻度を超えてエンティティ頻度が寄与する場合があることが示されます。

Abstract

大規模言語モデル（LLM）がどのような種類の事実知識を記憶しているのかを理解することは、その信頼性と限界を評価するうえで不可欠です。エンティティベースのQAは、非逐語的な記憶を分析するための一般的な枠組みですが、典型的な評価では各エンティティを単一の正準的な表層形式で照会するため、特定の名前によるアクセスとは切り離して事実の記憶を切り分けることが難しくなっています。私たちはRedirectQAを提案します。これは、Wikipediaのリダイレクト情報を用いて、Wikidataの事実的トリプルを各エンティティに対するカテゴリ分けされた表層形式（別名、略語、綴りの異なる表記、そして一般的な誤りの形式を含む）と関連付ける、エンティティベースのQAデータセットです。13のLLMにわたって、表層形式に条件付けられた事実記憶を調べたところ、エンティティの表層形式だけを変えると予測結果がしばしば変化することが分かりました。この不整合はカテゴリに依存します。モデルは、エイリアスや略語といったより大きな語彙の変化よりも、小さな表記上の変化に対して頑健です。頻度分析はさらに、エンティティ側と表層側の両方の頻度が正確さと関連しており、エンティティの頻度が表層の頻度を超えて寄与することが多いことを示唆しています。全体として、事実の記憶は、純粋に表層に特化しているわけでも、完全に表層不変でもないようです。非逐語的な記憶を評価するうえで、表層形式の多様性が重要であることが強調されます。

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

Dev.to

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Dev.to

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

Reddit r/LocalLLaMA

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

Dev.to

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

Dev.to

大規模言語モデルにおける非逐語的（non-verbatim）記憶の再検討：エンティティの表層表記（surface form）の役割

要点

Abstract

関連記事

GPT-5.5が登場、DeepSeek V4も。正直、バージョン番号にもううんざりだ

GPT Image 2.0でAI画像ワークフローを構築（最大の欠点も修正）

Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAPのGGUFファイルを公開

視覚インフラ層の構築：Eコマースの「ビジュアル・トラスト・ギャップ」を解決する方法

DeepSeek-V4、HuaweiのAscendチップで稼働率85%——AIインフラと価格にとって意味すること

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer