自己回帰モデルにおける反実仮想的クレジット帰属の障壁

arXiv cs.LG / 2026/5/5

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成モデルの出力がどの事前の作業に大きく依存しているかを特定するための技術的枠組みとして、反実仮想的クレジット帰属（CCA）を再検討する。
出力時（デプロイ時）のデータセット（例：RAGデータベース）に対してクレジットを帰属させる必要がある、自己回帰型の生成モデルにおけるCCAを検討する。
著者らは重要な限界を示し、基盤となる次トークン予測器にCCAを課しても、自己回帰モデル全体がCCAを満たすことは保証されないことを明らかにする（CCAは自己回帰的には合成されず、DPとは異なる）。
別のアプローチとして「retrofitting（後付け）」を提案し、クレジット帰属しないモデルに後からクレジットを付与するが、弱い最適性要件の下で、ブラックボックスアクセスしかない場合に必要なクエリ数は出力長に対して指数的に増えることを下界として証明する。
総じて、この研究は自己回帰システムでCCA型の帰属を実用化するうえでの根本的な障壁を特定している。

要旨: 生成AIは、先行する仕事に対してクレジット（謝辞）を与えるという実践を妨げる。理想的には、生成モデルは、その出力が重要な形で依存しているあらゆる仕事にクレジットを与えるべきである。\emph{反実仮想的なクレジット付与}（Counterfactual credit attribution; CCA）は、この目標を形式化する技術的条件であり、差分プライバシー（differential privacy）の緩和として最近導入されたもので、Livni、Moran、Nissim、Pabbaraju [2024] によりPAC学習の設定で研究された。

我々は、CCA生成モデルの研究を開始する。具体的には、（たとえばRAGデータベースのような）デプロイ時のデータセットに対してクレジットを与える、自己回帰型モデルを考察する。我々は、CCA自己回帰モデルに対する2つの自然なアプローチに対する障壁を明らかにする。まず、基礎となる次トークン予測器にCCAを課しても、それによってモデルがCCAになることは保証されないことを示す。CCAは自己回帰的に（DPとは異なり）合成されない。次に、我々は\emph{レトロフィッティング（retrofitting）}と呼ぶ別のアプローチ、すなわちCCAモデルを構築する方法を考察する。レトロフィッティングは、クレジットを付与しないモデルを取り、そのモデルにクレジットを追加するものである。我々は、弱い最適性要件のもとでのCCAレトロフィッティングに対する下界を証明する。出発モデルへのブラックボックスアクセスがある場合、レトロフィッティングには、モデルの出力長に対して指数関数的なクエリ複雑性が必要となる。