LangFIR:単一言語データから疎な言語固有特徴を発見し、言語スティアリングを可能にする

arXiv cs.CL / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、少量の単一言語データのみからランダムトークンのフィルタリングを用いて言語非依存の方向を除去し、疎な言語固有のSAE特徴を特定する手法であるLangFIRを提案する。
  • LangFIRにより得られる特徴は、非常に疎であり、対象言語に対して高い選択性を示し、方向性のアブレーションが対応する言語に対してのみ交差エントロピー損失を増加させることから、因果的に重要であることが示される。
  • 著者らは発見された言語固有特徴を用いて、複数言語テキスト生成の制御のためのスティアリングベクトルを構築し、12言語をカバーする3つのデータセットと3つのモデルサイズにおいて平均BLEUを改善する。
  • 結果は最強の単一言語ベースラインを上回り、並列データを必要とするアプローチを超える。これは、高価な多言語の教師信号なしに、言語アイデンティティを疎な特徴方向に局所化できることを示唆している。
  • コードは公開されており、研究者が言語スティアリングの特徴発見手法を再現し、発展させられるようになっている。

Abstract

大規模言語モデル(LLM)は強力な多言語能力を示す一方で、その出力の言語を確実に制御することは依然として難しい。表現レベルのステアリングでは、推論時にモデルの活性に言語特化のベクトルを追加することでこの課題に対処するが、残差ストリーム内で言語特化の方向性を特定するには、多言語データや並列データに頼ることが多く、取得が高コストになり得る。スパースオートエンコーダ(SAE)は、残差活性を解釈可能で疎な特徴方向に分解し、この探索の自然な基盤を提供するが、既存のSAEベースの手法も同様のデータ制約に直面している。われわれは、少量の単言語データとランダムトークン列のみを用いて言語特化のSAE特徴を発見する手法であるLangFIR(Language Feature Identification via Random-token Filtering)を提案する。ターゲット言語の入力によって一貫して活性化される多くのSAE特徴は、言語の同一性を符号化していない。ランダムトークン列は言語非依存のこうした特徴を露出させ、LangFIRはそれらをフィルタアウトすることで、疎な言語特化特徴の集合を分離できることを示す。これらの特徴は、極めて疎で、ターゲット言語に対して非常に選択的であり、因果的に重要であることを示す。方向性のアブレーションを行うと、対応する言語に対してのみ交差エントロピー損失が増加する。さらに、これらの特徴を用いて多言語生成制御のためのステアリングベクトルを構築すると、LangFIRは3つのモデル(Gemma 3 1B、Gemma 3 4B、Llama 3.1 8B)、3つのデータセット、12のターゲット言語にわたって平均精度BLEUが最良となり、強力な単言語ベースラインを最大で上回り、並列データに依存する手法をも上回る。これらの結果は、多言語LLMにおける言語同一性が、単言語データで発見可能な疎な特徴方向の集合の中に局在していることを示唆している。コードは https://anonymous.4open.science/r/LangFIR-C0F5/ で公開されている。