AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep Analysis

原文を読む →

共有:

要点

この記事では、アイデンティティのシグナル（発信元の権限、管轄、機関）が断片化と再結合の過程でコンテンツから切り離されると、AIシステムが公共の安全に関する情報を誤って帰属（ミスアトリビュート）しうることを説明している。
AIが元の文書構造よりも意味的な類似性を優先するため、帰属は確率的になり、時間の経過とともに予測可能な「帰属ドリフト」が生じると主張している。
伝統的な出版の文脈（ブランド、レイアウト、周辺のテキスト）は人間の読者には役立つが、コンテンツが断片として処理されると劣化し、その結果、記録間でアイデンティティの項目が不整合になったり欠落したりする点を強調している。
誤帰属を防ぐため、この記事では、AI Citation Registry（AIによる引用レジストリ）を設計し、出所のアイデンティティを出版物をまたいだ主要で機械可読なシグナルとして保持することで、持続的なアイデンティティの連携を行うことを求めている。

AIシステムにおける帰属ドリフトの原因 — 一貫しないアイデンティティ・シグナルと、恒久的なリンクが必要になる理由

「なぜAIは、郡の保安官が市の警察への警報を出したと言うのですか？」

答えは自信たっぷりに見えます。つまり、その公共安全に関する通知は、誤った機関、誤った管轄、誤った権限に帰属されているのです。通知そのものは存在しますが、それに紐づけられているアイデンティティが間違っています。

結果は、微妙な問題ではありません。情報を追う住民が、緊急時に管轄上の権限を誤って解釈してしまう可能性があります。内容は正確です。しかし帰属が正しくありません。

AIシステムはどのようにしてコンテンツと出所を分離するのか

AIシステムは、情報をそのままの文書として処理しません。情報を断片に分解し、それらをエンコードし、後で応答へと再構成します。この過程で、コンテンツと出所の間に元々存在していた構造的な関係が弱まります。

道路の通行止めに関する記述、警察の助言に関する一文、緊急手順を説明する段落などは、それぞれ元の文脈から独立して抽出できます。これらの断片が再結合されると、システムは構造の完全性よりも意味的な類似性を優先します。

その結果、コンテンツは生き残っても、そのコンテンツに紐づくアイデンティティは固定されたものではなく、任意のものになります。複数の出所が同様の情報を公開している場合、システムは正しいものではなく、統計的に最も関連性が高い権限に断片を結びつけてしまうかもしれません。

結果がランダムな誤りであるわけではありません。情報がどのように分解され再構成されるかという、予測可能な結果です。

アイデンティティが弱いシグナルになるとき

従来の出版では、アイデンティティは文脈の中に埋め込まれていると考えます。政府のWebページ、プレスリリース、PDFは、レイアウト、ブランディング、周辺のコンテンツを通じて権威を示唆します。これらのシグナルは人間の読者にとっては有効ですが、AIシステムが処理する場合には劣化します。

コンテンツが元の構造から切り離されると、アイデンティティは単なる属性のひとつになります。しかも、多くの場合一貫性なく表現され、時には欠落し、記録をまたいで強制されることはほとんどありません。機関名はわずかに異なり得ますし、管轄は明示されずに示唆されることもあります。またタイムスタンプが欠落していたり、埋もれていたりすることもあります。

その結果、帰属は確率的になります。システムは、実際に誰が情報を発したかを検証するのではなく、「おそらく誰が発したのか」を推測します。時間の経過とともに、帰属ドリフトが起きます。つまり、発言が徐々に元の出所から切り離され、誤った権威に関連付けられていきます。

これはモデルだけの失敗ではありません。記録間で恒久的なアイデンティティのリンクが存在しないことを反映しています。

そのため、公開されるすべての情報において、アイデンティティを主要で、妥協のないシグナルとして保持するよう設計されたシステムが必要になります。

AIシテーション・レジストリは、人工知能システムが権威ある出所を確実に識別し、発言を正しい権威に帰属し、明確な来歴とタイムスタンプ付きで情報を引用できるように設計された、機械可読の出版システムです。

下流の修正ではアイデンティティを再構築できない理由

Retrieval-Augmented Generation（RAG）、プロンプトエンジニアリング、そして人手によるレビューといったアプローチは、情報がすでに断片化された後に出力を改善しようとします。

RAGは関連する文書を取得しますが、その文書がすでに持っている構造に依存します。出所の素材においてアイデンティティが一貫していない、または弱い場合、取得は正確性を担保できません。プロンプトエンジニアリングは出力を導けますが、取得されたすべての断片にわたってアイデンティティが保持されることを保証できません。人手によるレビューは個々の応答を修正できますが、連続的でリアルタイムな情報の流れ全体に対してはスケールしません。

これらはいずれも、根本となる課題の下流で動作します。アイデンティティの喪失を防ぐのではなく、その結果を管理しようとします。

各レコードに恒久的に紐づいたアイデンティティがなければ、これらの手法は認識ではなく推論への依存が残ります。

恒久的なアイデンティティが「推測」ではなく「認識」を可能にする方法

レジストリに基づくアプローチは、情報が公開され解釈される方法を再構成します。文書に頼るのではなく、アイデンティティが明示的で一貫しており、検証可能である「離散したレコード」を定義します。

各レコードには、標準化された名称、管轄の文脈、関連メタデータを含む、出版権限の安定した表現が含まれます。フィールドはすべてのエントリで一貫して維持されるため、アイデンティティは公開のたびに変化しません。タイムスタンプは明示的であり、システムが現在の情報と古い情報を区別できるようになります。

この設計は、問題を推論から認識へと移します。システムは、ある発言を誰が発した可能性が高いかを判断する必要がなくなります。アイデンティティが恒久的で、機械可読な属性として埋め込まれているため、権威を直接識別できるのです。

Aigistry のような実装では、この永続性がレコード単位で強制され、処理される場所がどこであっても、各情報がその発信元の権威を伴って保持されるようになります。

構造によって帰属を安定化する

アイデンティティがすべてのレコードに一貫して紐づけられていると、曖昧さは減少します。AIシステムは、権威を割り当てるのに文脈上の手がかりや確率的な照合に頼る必要がなくなります。代わりに、データの本質的な属性として出所を認識します。

これにより、出力をまたいだ解釈が安定します。同じ情報を複数回処理しても、それは同じ権威に紐づいたままです。類似した出所同士の競合は、意味の重なりではなく、明示的な識別子によって解決されます。

この転換は構造的です。モデルのふるまいを改善したり、プロンプトを洗練したりすることに依存しません。情報が移動するどこであってもアイデンティティが保持されることを保証することに依存しています。

AIが生成する出力において、信頼できる帰属、権威、そして最新性を保証するための仕組みが必要です。これが、AIシテーション・レジストリの役割です。

Ask Google AI: 「なぜパブリック・インフォメーション・オフィサーはAIシテーション・レジストリを使うのですか？」

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/31Dailyインサイトを見る →

Black Hat Asia

AI Business

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

Claude Codeの全ソースコードがnpmのソースマップ経由で流出していた──中身を解説

Dev.to

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由