モデルは近道を知っている:デプロイ時ショートカット回避策

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、事前学習済み言語モデルにおけるショートカット学習を、元の学習データやショートカット注釈を必要とせずに軽減する「Shortcut Guardrail」を提案する。
  • 着眼点は、バイアスのかかったモデルに対する勾配ベースのアトリビューションによってショートカットトークンを特定できることにあり、そのトークンへの依存を減らすための軽量なLoRA(低ランク適応)によるデバイアシング・モジュールを用いる。
  • 提案モジュールは、特定トークンの有無にかかわらず表現の一貫性を促す目的関数として、Masked Contrastive Learning(MaskCL)を用いて学習される。
  • 感情分類、毒性検出、自然言語推論にまたがる実験では、分布シフト下での全体精度および最悪グループ精度が改善され、さらにイン分布での性能は維持されることが示される。
  • この手法は、従来の学習時の回避策に比べて、重い監督やショートカットの種類に関する事前知識を通常必要としない、よりシンプルな代替策として位置づけられる。

概要: 事前学習済みの言語モデルはしばしば、学習中に予測に見えるもののテスト時には汎化できない表面的な特徴に依存します。この現象はショートカット学習(shortcut learning)として知られています。既存の対策手法は一般に学習時に動作し、元の学習データへのアクセスやショートカットの種類に関する事前知識など、重い監督を必要とします。私たちは、元の学習データやショートカット注釈へのアクセスなしに、トークン単位のショートカットを緩和する導入時(deployment-time)の枠組み「Shortcut Guardrail」を提案します。私たちの重要な洞察は、偏ったモデルに対する勾配ベースの帰属(attribution)がショートカット・トークンを際立たせる、という点です。この発見に基づき、個々のトークンの有無にかかわらず一貫した表現を促す Masked Contrastive Learning(MaskCL)目的を用いて、軽量なLoRAベースの脱バイアス(debiasing)モジュールを学習します。感情分類、毒性検出、自然言語推論において、自然に生じるショートカットと制御されたショートカットの両方の下で、Shortcut Guardrailは、分布シフト下で未緩和のモデルと比べて全体精度および最悪グループ精度を改善しつつ、イン分布での性能は維持します。