要旨: 言語イデオロギーを検出することは、言説を通じていかにアイデンティティが構築されるかを理解するうえで価値があるが、同時に複雑な課題である。ルクセンブルクの多文化・多言語社会において、言語イデオロギーは単なる好み以上のものを反映している。それは、アイデンティティや社会的な帰属を形作る、深い文化的・社会的意味を担っている。自然言語処理ツールを言語学や社会科学に適用する取り組みの最近の進展を踏まえ、本論文では、言語イデオロギーの検出を支援するための大規模言語モデルの可能性を探る。我々は、事前に定義したイデオロギーのカテゴリに基づいて、ルクセンブルク語によるユーザーコメントのコーパスを手作業で注釈付けし、その後、プロンプト条件を変化させながら大規模言語モデルの性能を評価することで、これらが人間による注釈をどの程度再現できるかを検証する。ルクセンブルク語は小言語であり、LLMの学習データにおいて十分に代表されていないため、さらに、データを高資源言語へ機械翻訳することで、イデオロギー検出タスクにおける性能が向上するかどうかも検討する。我々の結果は、LLMがまだ多クラスのイデオロギー注釈タスクのために十分に最適化されているわけではない一方で、言語イデオロギーに関する内容を特定するための実用的なツールであることを示唆している。
多言語社会における言語イデオロギー:ルクセンブルク語ニュースコメントのLLMベース分析
arXiv cs.CL / 2026/5/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は「言語イデオロギー」を検出することが、多言語社会において言説を通じてアイデンティティや社会的帰属がどのように構築されるかを理解する上で重要だと主張している。
- ルクセンブルク語のニュースコメントに含まれるイデオロギー的カテゴリを、人手で付与したラベルをLLMでどれだけ再現できるかを、プロンプト条件を変えて検証する枠組みを提案している。
- ルクセンブルク語のユーザーコメント・コーパスを事前に定義したイデオロギーカテゴリで人手アノテーションし、LLM出力が人間の注釈とどの程度一致するかを評価した。
- ルクセンブルク語は低リソース言語でLLMの学習データでの表現が乏しいため、高リソース言語へ機械翻訳した場合にイデオロギー検出の性能が向上するかも検証している。
- 結果として、LLMは多クラスのイデオロギー注釈に対してまだ十分に最適化されていない一方で、テキスト中のイデオロギー的内容を見つける実用的な手段になり得ることが示された。




