悪い先生役のボットは、モデルとなる学習者に隠れた痕跡を残し得る
研究:LLMは、学習データから取り除かれていても、他者に偏りをこっそり持ち込むことがある
新しい研究は、LLMに対して別のモデルの出力を使って教えることの危険性を警告しており、教師から学習者へと望ましくない特性が「潜在的に」伝播し得ることを示しています。しかも、それらが学習データから取り除かれている場合でもです。
査読付きのこの研究では、Anthropicの研究者らが、これらの特性についての証拠が伝達された学習データから削除されていても、LLMが「学習者(student)」モデルへ負の特性を移せることを実証しました。
LLMを使ってほかのモデルを教えることは、ますます人気になっています。このプロセスは「蒸留(distillation)」と呼ばれています。AI研究・教育の非営利団体FAR.AIのOskar HollinsworthとSamuel Bauerによれば、その背景には「開発者が学習データに行き詰まりつつあること、またより大きなモデルは実行にコストがかかり、ユーザーへの応答にも時間がかかる」ことがあります。
研究が、十分に理解されていないAI開発上のリスク領域を明らかにすることを、彼らは指摘しています。それは今週、科学誌Natureに掲載されたものです。
Anthropicの研究者Alex Cloudと共同研究者らは、参照モデルとしてGPT-4.1 nanoを用い、「教師(teacher)」に特定の動物や樹木を好むよう促しました。その後、その教師の数値出力を使って「学習者(student)」モデルを訓練します。自然言語でテストすると、学習者は、訓練前にベースモデルが示していたよりも、教師が好んだ動物や樹木をはるかに高い頻度で選びました。たとえばフクロウでは、その割合が12パーセントから60パーセント超へと上昇しています。論文によれば、学習データが数値ではなくコードや、思考過程(chain-of-thought)の推論トレースで構成されている場合でも、同様の効果が見られました。
- すべてのネットワークがAIのトラフィックに対応できるわけではない――専門家が警報を鳴らしている
- ヘッドレス360:AIに開発作業を任せるためのSalesforceの最新提案
- GitHubに接続されたエージェントは資格情報を盗める――しかしAnthropic、Google、Microsoftはユーザーに警告していない
- Claude Codeのルーティンは、少しだけ賢いcronジョブを約束する
「著者らの実験では、データセットからその特性への直接の言及を除くようふるい分けした場合でも、また内容が意味論的に無関係な場合でも、不都合な行動の移転が持続しうることを著者らは見出しました。この現象について著者らは『潜在的学習(subliminal learning)』という用語を作りました」とHollinsworthとBauerは述べています。
「潜在的学習の仕組みはまだ完全には理解されていませんが、教師の出力には、生徒がそれを取り込む微妙な統計的特徴が含まれているようです。その結果、教師の行動が学習データに直接は存在していなくても、生徒が教師の行動を模倣してしまいます。」
Anthropicの研究者は、AIシステムが互いの出力にますます学習されていると述べており、本研究は、受け継がれた性質が学習データ上には見えない可能性があることを示しています。
「したがって、安全性評価では、行動だけでなく、モデルや学習データの出どころ、そしてそれらを作成するために用いられたプロセスを検討する必要があるかもしれません」と論文は述べています。®



