FineSteer:大規模言語モデルにおけるきめ細かな推論時ステアリングのための統一フレームワーク

arXiv cs.AI / 2026/4/20

💬 オピニオンTools & Practical UsageModels & Research

要点

  • FineSteerは、大規模言語モデルの推論時ステアリングを調整して、安全性違反やハルシネーションなどの問題を低減することを目的とした新しい枠組みであり、パラメータ更新なしでの改善を狙っています。
  • この手法は、Subspace-guided Conditional Steering(SCS)で有用性を損なわないように不要なステアリングを避け、Mixture-of-Steering-Experts(MoSE)でクエリごとのきめ細かなステアリングベクトルを生成する、という2段階に分かれています。
  • SCSは、一般的なユーティリティを保つために、必要なときだけステアリングを行い、硬直的なワンサイズ・フィット・オールの調整を避けます。
  • MoSEは、望ましい振る舞いの多峰性(multimodal)を捉え、入力ごとに適応的にステアリングベクトルを合成することで、効果を高めます。
  • 安全性と真実性に関するベンチマークでの実験では、FineSteerが既存の最先端手法より優れ、ユーティリティの損失を最小限にしつつより強いステアリング性能を達成したことが示されています。また、コードも公開されています。

要旨: 大規模言語モデル(LLM)は、安全性違反や幻覚などの望ましくない挙動を示すことがしばしばあります。推論時のステアリングは、パラメータを更新せずにモデル挙動を調整する費用対効果の高い方法を提供しますが、既存手法は、多くの場合、硬直した「万能」設計や適応力の制限により、同時に有効で、有用性を維持し、かつ学習効率の高い性能を達成できません。本研究では、推論時ステアリングを2つの補完的な段階に分解する新しいステアリング枠組みであるFineSteerを提案します。具体的には、条件付きステアリングときめ細かなベクトル合成により、内部表現をいつ、どのようにステアリングするかをきめ細かく制御できるようにします。第1段階では、不必要なステアリングを避けることでモデルの有用性を保持する、Subspace-guided Conditional Steering(SCS)機構を導入します。第2段階では、望ましいステアリング挙動の多峰性(マルチモーダル)な性質を捉え、効果を高めるためにクエリ固有のステアリングベクトルを生成する、Mixture-of-Steering-Experts(MoSE)機構を提案します。SCSとMoSEの両方に対する適した設計を通じて、FineSteerは一般的なクエリに対して頑健な性能を維持しつつ、学習効率の高い方法で、特定の入力に対するステアリングベクトルを適応的に最適化します。安全性と真実性のベンチマークに関する大規模な実験により、FineSteerは全体的な性能において最先端手法を上回り、有用性の損失を最小限に抑えながら、より強いステアリング性能を達成することが示されます。コードは https://github.com/YukinoAsuna/FineSteer で利用可能です。