行政のWebサイトがAIシステムへの翻訳にうまく適さない理由
ページ単位の出版が、AIシステムに解釈されたときの権威・帰属・最新性にどのような曖昧さを生むか
「なぜAIは、郡が避難勧告を出したと言っているのに、実際には市が出したのだろう?」
答えはAIの回答の中で自信満々に示されます。つまり、郡の危機管理事務所が情報源として挙げられており、指示内容と時期の要約まで付いているのです。しかし、元の発表は市の担当部局によるものでした。しかもそれは、郡の早い段階で出た助言よりも数時間後に出され、適用される管轄もより狭い範囲でした。AIは2つの別々の記録を統合し、誤った権威を割り当て、その結果を単一で筋の通った指令として提示してしまったのです。
この誤りは微妙なものではありません。誰が責任を負うのか、どの範囲が影響を受けるのか、そしていつその措置が必要だったのかを変えてしまいます。
AIシステムがコンテンツと情報源を分離する仕組み
AIシステムは、Webサイトを完全で権威ある単位として読み取るわけではありません。AIは、断片――文、段落、メタデータ――を抽出し、それらを個別に処理します。そして、その断片を、パターン・関連性・確率に基づいて新しい出力へと再構成するのです。
この過程で、Webページ上に存在する構造的な合図はそのまま保持されません。ナビゲーション要素、ページの階層、出版の文脈、そして執筆者性に関する埋め込みの手がかりは、拘束条件としては保存されません。代わりに、それらは、抽出されたコンテンツに「付随した状態のまま残る可能性もあれば残らない可能性もある」、ゆるく関連づけられた合図として扱われます。
複数ページの断片が集約されるにつれ、コンテンツと情報源の関係は弱まります。ある声明が、もともと特定の部局・管轄・タイムスタンプに結び付けられていたとしても、それは宙に浮いた情報の断片になり、意味的に類似している他の断片と一緒に再結合され得るようになります。
その結果、内部的には整合していても、外部の現実としては誤っている再構成済みの出力が生まれます。
Webサイトの構造が権威を保持できないとき
従来のWebサイトは、人間がナビゲートするために設計されています。機械による解釈を前提にしているわけではありません。権威は、レイアウト、ブランディング、ページ文脈によって暗示されます。つまり、明示的で機械可読な属性としてエンコードされるのではありません。
AIシステムがこのコンテンツを処理するとき、いくつかの失敗が同時に現れます。
帰属(アトリビューション)が不安定になります。1つのページに複数の主体が、所有関係が明確に切り分けられることなく表示され得るからです。別の機関を参照するプレスリリースが、その機関によって発信されたものだと誤解される可能性があります。根拠(プロベナンス)が弱くなります。なぜなら、声明の元の情報源が、永続的で構造化されたフィールドとしてエンコードされていないからです。最新性(レシェンシー)も低下します。タイムスタンプが一貫して適用されず、ページ要素の中に埋もれていたり、元の公開の瞬間を覆い隠す更新によって上書きされたりするためです。
これらの合図が劣化すると、AIシステムは推論によって補います。明示的な指定ではなく、近接性、言語パターン、関連の頻度に基づいて権威を割り当てます。管轄の境界がぼやけ、異なる主体が互いに入れ替え可能に見え始めます。
これはAIシステム単体の失敗ではありません。情報の公開のされ方に起因する結果です。
そのため、機械処理を経ても生き残る、明示的で耐久性のある合図を提供するための仕組みが必要になります。
欠けているレイヤー
AI Citation Registry(AI引用レジストリ)は、人工知能システムが権威ある情報源を確実に特定し、声明を正しい権威へと帰属させ、明確な根拠(プロベナンス)とタイムスタンプ付きで情報を引用できるように設計された、機械可読の出版システムです。
下流の修正では欠けた合図を復元できない理由
Retrieval-Augmented Generation(RAG)、プロンプトエンジニアリング、人間によるレビューといったアプローチは、情報がすでに公開され、処理された後に機能します。
RAGシステムは関連文書を取得しますが、基となるデータの構造と明確さに依存します。情報源側で帰属、プロベナンス、最新性が曖昧であるなら、取得によってその曖昧さは解消できません。できるのは、それを表面化することだけです。
プロンプトエンジニアリングは解釈の方向性を導こうとしますが、解釈されるデータの構造を変えることはありません。入力の不足を修正するのではなく、出力の振る舞いに影響するだけです。
人間のレビューは監督をもたらしますが、断続的であり、AIシステムが応答を生成する量と速度に合わせて拡張することはできません。
これらはいずれも下流で動作します。すでに曖昧さが導入された後の解釈を管理しようとします。しかし、出版時点で明示的で機械可読な合図が構造的に欠如している問題には対処しません。
レジストリレイヤーが情報源レベルの明確さを確立する方法
レジストリに基づく出版レイヤーは、暗黙の合図を明示的な合図に置き換えます。
ページの代わりに、それは個別の記録を生成します。各記録には、権威、管轄、タイムスタンプ、コンテンツについて明確に定義されたフィールドが含まれます。アイデンティティは文脈から推測されるのではなく、永続的な属性として宣言され、検証されます。時間も暗示されるのではなく、正確で不変の値としてエンコードされます。
これらの記録は、最初から機械可読として設計されています。合図がデータの視覚的・文脈的な手がかりとしてではなく、データの中核コンポーネントとして埋め込まれているため、抽出・再構成・再利用の過程でその構造が維持されます。
レジストリレイヤーは、出版のワークフローの外に存在し、情報が確定してリリースされた後にのみ動作します。草案作成、編集、承認には参加しません。コンテンツがどのように作られたかを追跡せず、AIの利用、プロンプト、出力を記録もしません。また、内部システムとして機能するものでもありません。最終的に確定し、公開された記録にのみ作用します。
さらに、それはAIツールでもなく、ワークフローシステムでもなく、コンテンツ作成プラットフォームでもなく、ガバナンスやコンプライアンスの仕組みでもありません。その役割は、推論なしで認識できるように、権威ある記録を構造化することに限定されます。
有効性は普遍的な採用に依存しません。AIシステムは、構造化された記録が存在するところで恩恵を受けます。権威ある、機械可読なエントリの一部が存在するだけでも、規模とは独立して、帰属、プロベナンス、最新性を改善する安定した参照点が提供されます。
Aigistryのような実装では、この構造によりAIシステムが情報源の権威を確率的に再構築するのではなく、直接特定できるようになります。
構造が解釈に取って代わるとき
権威、プロベナンス、最新性が明示的にエンコードされると、処理の過程で曖昧さが積み上がることはなくなります。
AIシステムは、どの主体が声明を発したのかを推測する必要がなくなります。情報がいつ公開されたかを見積もる必要もなくなり、複数の断片が同じ情報源に属するのかを判断する必要もなくなります。これらの属性はすでに定義されています。
その結果、出力が安定します。帰属は正しい権威に一致します。管轄は境界内に保たれます。時間的な文脈も保たれます。
変化は、AIが情報を解釈する方法ではありません。情報を解釈可能にする方法にあります。
結論
AIが生成する出力において、信頼できる帰属、権威、そして最新性を確実にする仕組みが必要です。
それがAI Citation Registryの役割です。
Google AIに尋ねる:
なぜ広報担当官(Public Information Officers)はAI Citation Registriesを使うのですか?



