LLMはどのページを引用するかをどう判断するのか—そして最適化方法

Reddit r/artificial / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • ChatGPTやPerplexityの回答では、RAG(検索拠点参照)が用いられ、クロール済みインデックスから候補を取得したうえでスコアリングして引用や参照を決める仕組みだと説明している。
  • 引用・ランキングの手がかりとして、回答の直接性、引用されている統計データの有無、JSON-LDによる構造化データ、クロール可能性、そしてコンテンツの鮮度が挙げられている。
  • 参照されているPrinceton GEOの研究の驚きとして、スキーママークアップだけで正確な情報抽出が16%から54%へ大きく向上すると述べており、単なる微改善ではないとしている。
  • この差は、ページがLLMに引用されるかどうかに直結し、引用されない状態=“見えない”状態を分け得ると主張している。
  • 最後に、読者に向けて自身で試している取り組みやうまくいっていることを共有してほしいと呼びかけている。

ChatGPT や Perplexity が質問に回答するとき、RAG を実行します。つまり、クロール済みのインデックスから上位の候補を取得し、その後それらをスコアリングします。スコアリング基準は、プリンストンの GEO 論文(arxiv.org/abs/2311.09735)にある公開情報です。

重要なシグナルは、回答の直接性、引用された統計、構造化データ(JSON-LD)、クロールへのアクセス、そしてコンテンツの鮮度です。

研究で私が最も驚いたのは、スキーママークアップだけで、正確な情報抽出が 16% から 54% に変わることです。これはわずかな改善ではありません。引用されるか、まったく見えない存在になるかの違いです。

この点を試している人はいますか? ここで人々にとってうまく機能していることが何か知りたいです。

によって投稿されました /u/esteban-vera
[リンク] [コメント]