モデル生物は“漏れる”：Perplexity差分が微調整の目的を明らかにすることが多い

arXiv cs.CL / 2026/5/5

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、「モデル生物」に対して微調整の目的を復元するための、シンプルなperplexity（パープレキシティ）ベース手法を提案しており、モデル内部や事前知識を必要としません。
手法は、一般コーパスから短いランダムなプリフィルを使って多様な完了（completion）を生成し、その後に参照モデルと微調整モデルのperplexityギャップで出力を順位付けして、目的に関係する出力を浮かび上がらせます。
0.5B〜70Bパラメータの76個のモデル生物（バックドア付き、合成ドキュメントによる誤情報の内在化、隠れた危険挙動を伴う敵対的学習など）で検証したところ、上位結果に微調整で狙われた（あるいは有害な）挙動が現れることが多いと示されています。
正確な微調整前チェックポイントが手元にない場合でも、異なるモデルファミリーの信頼できる参照モデルを代替として用いることで有効に機能します。
この手法は次トークン確率（トークンのlogprobなど）のみを必要とするため、logprob情報を返すAPIで提供されるモデルにも適用できます。

要旨: ファインチューニングは、大規模言語モデルの挙動を大きく変え、有害または安全でない挙動の導入を含むことがあります。これらのリスクを調べるために、研究者はモデル・オーガニズム（モデル生物）を開発しています。これは、制御された実験のために、特定の既知の挙動を示すようファインチューニングされたモデルです。これらの挙動を特定することは依然として困難です。本研究では、シンプルなパープレキシティ（当惑度）ベースの手法が、モデル生物が意図した文脈を超えてファインチューニングされた挙動を過剰に一般化しがちな性質を活用することで、そこからファインチューニングの目的（オブジェクティブ）を表面化できることを示します。まず、一般コーパスから引いた短いランダムなプレフィルにより、ファインチューニング済みモデルから多様な完了（completion）を生成します。次に、参照モデルとファインチューニング済みモデルの間のパープレキシティギャップが減少する順に完了をランク付けします。上位にランクされた完了は、モデル内部や、その挙動についての事前の仮定を必要とせずに、しばしばファインチューニングの目的を明らかにします。本手法を、多様なモデル・オーガニズムの集合で評価します（N=76、0.5〜70Bパラメータ）。ここには、バックドア付きモデル、合成ドキュメント・ファインチューニングにより内部化された誤った事実を持つようファインチューニングされたモデル、隠れた懸念される挙動を伴う敵対的に訓練されたモデル、そして創発的なミスアラインメントを示すモデルが含まれます。試験したモデル・オーガニズムの大多数において、この手法は上位結果の中でファインチューニングの目的を明らかにする完了を表面化し、特に合成ドキュメント・ファインチューニングで訓練されたモデル、あるいは正確なフレーズを生成するよう訓練されたモデルが影響を受けやすいことが分かります。さらに、本手法は、ファインチューニング前の厳密なチェックポイントにアクセスできない場合でも有効であり得ることを示します。異なるファミリに属する信頼できる参照モデルは、有効な代替として機能し得ます。本手法はファインチューニング済みモデルから次トークン確率のみを必要とするため、トークンの対数確率（logprobs）を公開するAPIゲートされたモデルとも互換性があります。