位置に基づく認知的専門化：LLMはどこであなたの言語を理解し、話すことを学ぶのか？

arXiv cs.CL / 2026/4/3

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、デコーダのみのLLMが低リソース言語において理解および生成能力をどのように獲得するかを調査し、事後的な解釈可能性ではなく、学習中に生じる内部の「認知的専門化」に焦点を当てる。
著者らは、入力側（知覚）と出力側（生成）の双方からレイヤーを段階的に無効化するアブレーション実験を用いて、モデルの異なる領域が、対象言語の「理解」と「発話」に対して異なる役割を発達させることを見出す。
これらの専門化パターンに基づき、著者らはCogSymという、レイヤー単位で行う微調整のためのヒューリスティックを提案する。これは、比較的少数の初期レイヤーと後期レイヤーのみを選択的に更新する。
提案手法では、全レイヤーの外側25%のみをチューニングすることで、下流タスクの性能がフルの微調整に対して2〜3%以内に到達できることが示され、またLoRAのようなアダプタ型アプローチとも一貫して良好に機能する。
全体として本研究は、より安価で不透明性の低い多言語適応に向けた実行可能な洞察を提供し、言語モデリングを多様な言語によりアクセスしやすくすることを目指している。

要旨: 大規模言語モデル（LLM）を新しい言語に適応させることは、高コストで不透明なプロセスです。言語モデルがどのように新しい言語と多言語能力を獲得するのかを理解することは、効率的な適応を実現するための鍵となります。多言語の解釈可能性に関する先行研究は主として、学習済みモデルが多言語の指示をどのように処理するかに焦点を当てており、学習（トレーニング）の間にそれらが新しい言語を獲得するためのメカニズムは未検討のまま残されています。本研究では、デコーダのみのトランスフォーマーにおけるこれらの学習ダイナミクスを、2つの機能的な認知的特殊化という観点から調べます。すなわち、言語の知覚（入力理解）と産出（出力生成）です。低リソース言語に関する実験を通じて、モデルの入力方向および出力方向から層アブレーション（層の除去）を走査することで、知覚的・生産的な特殊化が言語モデルの異なる領域にどのようにして現れるのかを示します。観測された特殊化パターンに基づき、CogSym（層ごとのヒューリスティック）を提案します。これにより、いくつかの初期層と後期層だけを排他的に微調整することで、効果的な適応が可能になります。外側の層の25%のみを調整すると、全微調整のベースラインに対して下流タスクの性能が2〜3%の範囲で逸脱するにとどまることを示します。CogSymは、LoRAのようなアダプタ手法と一貫した性能を示し、全微調整を超えた汎化を実証します。これらの結果は、LLMが新しい言語を学習する仕組みをより適切に理解し、アクセス可能で包摂的な言語モデリングへと前進するための洞察を提供します。