概要: 多言語エンコーダーベースの言語モデルは、コード混合分析タスクで広く採用されていますが、内部でコード混合入力をどのように表現しているのか、あるいはそれらの表現が混合されている成分言語と意味のある結びつきを有するかどうかについては、驚くほど十分には分かっていません。ヒンディー語-英語をケーススタディとして用い、英語(並行)、ヒンディー語(デーヴァナーガリー)、およびローマ字表記のコード混合文を統一的な三言語コーパスとして構築し、CKA、トークンレベルの顕著性、およびエントロピーに基づく不確実性分析を通じて、標準的な多言語エンコーダとそれらのコード混合適応バリアント間の表現の整合性を検証します。標準的なモデルは英語とヒンディー語をうまく整合させる一方で、コード混合入力はどちらの言語にも緩やに結びついたままであり、コード混合データ上での継続的な事前学習は英語-コード混合の整合性を高める一方で英語-ヒンディー語の整合性を犠牲にします。解釈性分析はさらに明確な非対称性を示します:モデルはコード混合テキストを英語優勢の意味的サブスペースを通じて処理しますが、ネイティブスクリプトのヒンディー語は補完的な信号を提供し、表現的不確実性を低減します。これらの発見を踏まえ、コード混合表現を両成分言語に同時に近づける三言語のポストトレーニング整合性目的を導入し、よりバランスのとれたクロスリンガル整合性と、感情分析およびヘイトスピーチ検出などの下流タスクでの利得をもたらします。これにより、コード混合表現を成分言語に基づかせることがクロスリンガル理解を意味のある形で支援することが示されています。
ここにもあそこにもではない:多言語エンコーダにおけるコード混合テキストのクロスリンガル表現ダイナミクス
arXiv cs.CL / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、ヒンディー語と英語のコード混合入力に対する多言語エンコーダのクロスリンガル表現を調査し、コード混合表現は構成言語のいずれかに緩やかに結びついており、英語中心の意味的サブスペースへと傾く傾向があることを発見した。
- 著者らは、英語、デーヴァナーガリー表記のヒンディー語、およびローマ字表記のコード混合文を含む統一された三言語コーパスを構築し、CKAを用いた整合性分析、トークンレベルのサリエンシー、エントロピーに基づく不確実性分析を用いて整合性を分析した。
- コード混合データでの継続的な事前学習は、英語-コード混合の整合性を改善する一方で、英語-ヒンディー語の整合性を低下させ、多言語事前学習目的のトレードオフを明らかにした。
- 彼らは、コード混合表現を両言語の近くへと引き寄せる三言語のポストトレーニング整合化目的を提案し、感情分析とヘイトスピーチ検出で下流タスクの性能を向上させた。




