LangFIR:単一言語データから疎な言語固有特徴を発見し、言語スティアリングを可能にする
arXiv cs.CL / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、少量の単一言語データのみからランダムトークンのフィルタリングを用いて言語非依存の方向を除去し、疎な言語固有のSAE特徴を特定する手法であるLangFIRを提案する。
- LangFIRにより得られる特徴は、非常に疎であり、対象言語に対して高い選択性を示し、方向性のアブレーションが対応する言語に対してのみ交差エントロピー損失を増加させることから、因果的に重要であることが示される。
- 著者らは発見された言語固有特徴を用いて、複数言語テキスト生成の制御のためのスティアリングベクトルを構築し、12言語をカバーする3つのデータセットと3つのモデルサイズにおいて平均BLEUを改善する。
- 結果は最強の単一言語ベースラインを上回り、並列データを必要とするアプローチを超える。これは、高価な多言語の教師信号なしに、言語アイデンティティを疎な特徴方向に局所化できることを示唆している。
- コードは公開されており、研究者が言語スティアリングの特徴発見手法を再現し、発展させられるようになっている。




