原則はそれ自体としては適用されない――AIアライメントに関する解釈学的観点

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、AIアライメントは、述べられた原則や選好を単に適用することに還元できないと主張する。というのも、原則は多くの場合、現実の事例においてどのように具体化して適用されるかを自らは決定しないからである。
アライメントを、原則が対立するとき、広すぎるとき、あるいは関連する事実が不明確なときに、原則をどのように読み取り・適用し・優先順位づけるかについての、解釈的で文脈依存的な判断を必要とするものとして位置づける。
さらにこの解釈要素は、嗜好（選好）ラベリング用データの相当部分が、原則の対立や無関心（無差別）の状態を含む状況であるため、原則セットが結果を一意に決定しない、という経験的観察とも結びつけられる。
著者らは運用上の含意として、アライメントに関連する振る舞いは、解釈判断が出力に現れるため、デプロイ時のモデル応答の分布においてのみ可視化されうると提案する。
そしてこのリスクを形式化し、デプロイ誘発型評価とコーパス誘発型評価を区別することで、オフポリシー監査が、応答分布が乖離した場合には失敗を見落としうることを示す。

要旨: AIアライメントはしばしば、AIシステムが明示された一連の原則や人間の嗜好に従うことを確実にするという課題として捉えられる。しかし、一般的な原則がそれ自体として具体的なケースでの適用方法を決めてくれることはほとんどない。原則が対立するとき、原則が広すぎて状況を決着できないとき、あるいは関連する事実が不明確なときには、追加の判断行為が必要になる。本論文は、そのステップを解釈学（ヘルメネウティクス）のレンズを通して分析し、したがってアライメントには解釈的な要素が含まれると主張する。すなわち、実務において原則をどのように読み、適用し、優先順位づけるべきかについての、文脈に応じた判断を含むのである。私たちはこの主張を、最近の実証的発見とも結びつける。そこでは、嗜好ラベリングデータのかなりの部分が、原則の対立または無関心（indifference）のケースに該当し、原則集合が意思決定を一意に定められないことが示されている。さらに、操作上の帰結として、こうした判断は行動として表現されるため、アライメントに関連する多くの選択は、モデルをデプロイした時点で生成される応答の分布の中にのみ現れる、と論じる。この点を形式化するために、私たちはデプロイ誘発（deployment-induced）とコーパス誘発（corpus-induced）の評価を区別し、2つの応答分布が異なると、オフポリシー監査（off-policy audits）がアライメントに関連する失敗を捉えられないことを示す。私たちはまた、原則が指定するアライメントには、文脈に依存した解釈的な要素が含まれると主張する。