要旨: 高品質な辞書の自動的な誘導は語彙リソース構築に不可欠である一方、低資源言語や方言にはいくつかの課題があります。すなわち、注釈者へのアクセスが限られていること、表記ゆれの度合いが高いこと、そして大規模言語モデル(LLM)の性能が低いことです。私たちは、文字列類似度の特徴量で学習した統計モデル(ランダムフォレスト)が、ドイツ語の方言レキシコンの誘導に驚くほど有効であることを経験的に示します。これらはLLMを上回り、方言間での転移を可能にし、軽量なデータ駆動型の代替手法を提供します。私たちは、モデルをBLI(バイリンガル・レキシコン誘導)に対して内在的に評価し、方言情報検索(IR)に対して外在的に評価します。BLIでは、ランダムフォレストはより資源効率的であるにもかかわらず、Mistral-123bを上回ります。BM25を用いた方言IRでは、クエリ拡張のために私たちの方言辞書を利用することで、nDCG@10で最大28.9%、Recall@100で最大50.7%の相対的な改善が得られます。方言における資源の希少性に動機づけられ、さらに、モデルが異なるドイツ語方言間でどの程度転移できるのか、また学習データ量を変化させた場合の性能をどのように評価するかを調査します。
資源を抑えたドイツ語方言のためのレキシコン・インダクション
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、注釈者が限られ、綴りの揺れが大きいという制約のもとで、ドイツ語の方言に対して高品質な語彙辞書を自動的に誘導する課題を扱っている。
- 文字列類似度の特徴量を用いたランダムフォレストの統計モデルがドイツ語方言のレキシコン誘導で有効であり、Mistral-123b のようなLLMのベースラインよりも優れることを示している。
- 誘導された辞書は方言間での転移を支え、学習データ量を変えた条件下での性能も調べている。
- BLI(バイリンガル・レキシコン・インダクション)では、ランダムフォレストがLLMより資源効率よく優れた内的評価を達成する。
- BM25を用いた方言情報検索(IR)では、方言辞書によるクエリ拡張により nDCG@10 で最大28.9%、Recall@100 で最大50.7%の相対改善が報告されている。

