イントロスペクション・アダプタ：学習した振る舞いをLLMに報告させる学習手法

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、微調整済みLLMの監査を目的に、学習した振る舞いを自然言語で言語化させる「イントロスペクション・アダプタ」（IA）という手法を提案している。
IAは、埋め込み済みの振る舞いラベルを用いて複数の微調整派生モデルに対して共同で学習される単一のLoRAアダプタとして構成される。
著者らは、IAが元のモデル群とは学習方法が大きく異なる微調整にも一般化し、明示的に隠された懸念のある振る舞い検出でAuditBenchにおいて高い性能（SOTA）を示すと報告している。
さらにこの手法は、暗号化された微調整API攻撃の検出にも使えるとされており、モデル規模や学習データの多様性に対してスケール面でも有利だと述べられている。

要旨: モデル開発者や利用者がLLMをファインチューニングすると、その結果として、予期しない挙動、意図的に有害な挙動、あるいは検出が難しい挙動が誘発されることがあります。LLMが自分の挙動を自然言語で単に説明できれば、その監査ははるかに容易になるでしょう。ここでは、共通の基盤LLMから派生した多数のLLMに学習された挙動を、迅速に同定するためのスケーラブルな手法を研究します。モデル $M$ が与えられたとき、我々の手法は $M$ から、埋め込まれた挙動 $b_i$ をもつモデル $M_i$ をファインチューニングすることで進めます； $(M_i, b_i)$ の組は、ラベル付きの学習データとして機能します。次に、
\emph{イントロスペクション・アダプタ}（IA）を学習します：これは、埋め込み挙動を言語化させるために、ファインチューニング $M_i$ 全体にわたって共同で学習される単一のLoRAアダプタです。IAは、 $M_i$ とは非常に異なる方法で学習された、 $M$ のファインチューニングに対してであっても、学習された挙動の自己記述を誘発することが分かります。例えば、IAはAuditBenchへと汎化し、明示的に隠された懸念のある挙動を同定する点で最高水準の性能を達成します。IAは、暗号化されたファインチューニングAPI攻撃の検出にも利用できます。IAは、モデルサイズおよび学習データの多様性に対して好ましいスケーリング特性を示します。全体として、我々の結果は、IAがファインチューニングされたLLMの監査に対してスケーラブルで、効果的で、実用的なアプローチであることを示唆しています。