文化的にローカライズされた生成のためのLLMのステアリング
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、グローバルに展開されたLLMは、学習データの偏りにより文化的バイアスを示しうること、また既存のローカライズ手法(プロンプト、事後のアライメント)では制御や診断が難しいと主張する。
- 解釈可能性のための機構論的アプローチとして、疎なオートエンコーダを用いて文化的に重要な情報を表す解釈可能な特徴を見つけ、それらを文化埋め込み(Cultural Embeddings: CuE)として集約する。
- 著者らはCuEを、分析—不足した(アンダースペックの)プロンプト下でのバイアスを診断する—と、ホワイトボックスの「ステアリング」介入—生成を特定の文化的内容へ導く—の両方に用いる。
- 複数のモデルに対する実験により、CuEベースのステアリングは、プロンプトのみと比べて文化的忠実性を改善し、より稀なロングテールの文化概念の喚起を増やすことが示され、ブラックボックスのローカライズ手法とも補完し得る。
- 結果は、失敗はしばしば「ロングテール知識の欠落」ではなく「喚起の失敗」に起因する場合が多いことを示唆し、文化ごとに差異がある。さらに、この方法は、文化的にローカライズされた生成に対して診断能力と制御可能な能力の両方を提供する。




