より細かな引用は常により良いのか? 帰属生成における粒度の再考

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、引用の粒度(文 vs 段落 vs 文書)が帰属生成の重要な設計レバーである一方、人間が検証しやすいからといって単により細かな引用を選べばよいわけではなく、モデル性能にとって必ずしも最適ではないと主張する。
  • 4つのモデル規模(8B〜120B)にわたって、微細な粒度(文単位)の引用を強制すると、最も良い粒度設定と比べて帰属品質が有意に低下し、その低下幅は16%〜276%に及ぶ。
  • 本研究では、粒度を中程度にした場合に一貫した最適点が見つかり、段落単位の引用が最高の帰属品質をもたらす一方、あまりに粗い引用は注意をそらすノイズを追加してしまう。
  • 微細粒度の制約による性能低下は、モデル規模に対して単調に増減せず、規模の大きいモデルほど不釣り合いに強い打撃を受けることが分かる。これは、文単位の「原子的」な引用が、これらのモデルが依拠する複数文にまたがる意味的統合を妨げる可能性を示唆している。
  • 結論として、帰属を改善するには、引用の粒度をモデルの自然な意味的スコープに合わせる必要があること、また引用に最適な粒度は、答えの正確さを維持しつつ、場合によってはさらに向上させながら、帰属を大きく改善し得ることを述べている。

要旨: 引用の粒度――個々の文、段落、または文書のどれを引用するか――は、帰属生成(attributed generation)における重要な設計選択である。細粒度の引用はしばしば、人間による正確な検証に好まれるが、そのモデル性能への影響は十分に検討されていない。私たちは4つのモデル規模(8B-120B)を分析し、最良の粒度と比べて細粒度の引用を強制すると、帰属品質が16-276%低下することを示す。帰属品質は中間的な粒度(段落レベル)でピークになる、という一貫した性能パターンが観察された。私たちの分析は、細粒度(文レベル)の引用が、根拠を根拠に基づいて回答の主張へ帰属させるために必要な意味的依存関係を破壊する一方で、過度に粗い引用(複数段落)は注意をそらすノイズを導入することを示唆している。重要な点として、この性能差の大きさはモデル規模に対して単調ではない形で変化する。すなわち、細粒度の制約はより大きなモデルに対して不釣り合いに大きなペナルティを課しており、原子的な引用単位が、これらのモデルが得意とする複数文にまたがる情報合成を阻害していることが示唆される。驚くべきことに、引用に最適な粒度を選ぶことで、帰属品質が大幅に向上し、しかも回答の正しさは維持されるか、あるいは改善さえする。総じて、私たちの結果は、細粒度の引用によって人間による検証だけを最適化しようとすると、モデルの制約を無視することになり、帰属の忠実性と生成の信頼性の両方を損なうことを示している。その代わりに、効果的な帰属には、引用粒度をモデルの自然な意味的スコープに合わせることが必要である。

より細かな引用は常により良いのか? 帰属生成における粒度の再考 | AI Navigate