AI Navigate

グローバル進化的ステアリング: 層間の一貫性を通じたアクティベーション・ステアリング制御の洗練

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は GER-steer を提案します。訓練を要しないアクティベーション・ステアリングのフレームワークで、表現進化の幾何を活用して大規模言語モデルのアラインメントを改善します。
  • 既存のアクティベーションベース手法におけるノイズと意味的ドリフトの問題に対処するため、ステアリングを静的な活性差ではなくグローバル信号に基づいて行います。
  • GER-steer は生のステアリングベクトルを修正し、頑健な意味的意図を直交するアーティファクトからデカップリングすることで、層特有の調整なしに一般化を改善します。
  • ベンチマーク全体での評価は GER-steer がベースラインを上回ることを示し、信頼性の高いモデルアラインメントのための普遍的かつスケーラブルな解決策を示唆します。

概要: アクティベーション・エンジニアリングは、ファインチューニングの計算コストを要せずに、大規模言語モデル(LLMs)を正確に制御することを可能にします。しかし、静的な活性化差分からベクトルを導出する既存の手法は、高次元ノイズや層ごとの意味的ドリフトに影響を受けやすく、しばしば標的な意図ではなく偽の相関を捉えてしまいます。これに対処するため、Global Evolutionary Refined Steering(GER-steer)を提案します。訓練不要のフレームワークで、ネットワークの表現進化の幾何学的安定性に基づいています。GER-steer はこのグローバル信号を活用して未処理のステアリングベクトルを修正し、堅牢な意味的意図を直交するアーティファクトから効果的に分離します。広範な評価により、GER-steer は一貫してベースラインを上回り、層特有のチューニングなしに卓越した有効性と汎化性を提供することを確認しました。信頼性のあるモデルアラインメントの普遍的な解決策を確立します。