LLM Probe：低資源言語に対するLLMの評価

arXiv cs.CL / 2026/4/1

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

本論文は、標準化された言語学的プローブを用いて、形態的に豊かな低資源言語におけるLLMの能力を評価するための、語彙ベースの枠組み「LLM Probe」を提案する。
4つのタスク領域（語彙アラインメント、品詞認識、形態統語プロービング、翻訳精度）にわたってモデルを評価する。
著者らは、低資源のセム語系言語を対象に、POS、文法性（性）、形態統語的特徴の注釈を含む、人手による注釈付きのバイリンガル・ベンチマークデータセットを作成し公開する。注釈間一致は高い。
因果モデルとシーケンス・ツー・シーケンスモデルを対象にした実験結果から、トレードオフが示される。すなわち、シーケンス・ツー・シーケンスモデルは形態統語と翻訳でより良い傾向がある一方、因果モデルは語彙アラインメントでは強いが、翻訳では弱い。
本研究は、低資源環境におけるLLMの限界を理解するには、言語学に基づく評価が必要であると論じ、再現可能なベンチマークのために枠組みとデータセットをオープンソースとして公開している。

要旨: 大規模言語モデル（LLM）の急速な進歩にもかかわらず、低リソースで形態的に豊かな言語におけるそれらの言語能力は、注釈付き資源の制約および標準化された評価枠組みの不在により、いまだ十分に理解されていません。本論文は、低リソース言語環境においてLLMの言語的技能を体系的に評価するための、語彙ベースの評価枠組みであるLLM Probeを提示します。この枠組みは、言語理解の4つの領域にわたってモデルを分析します。すなわち、語彙アラインメント、品詞認識、形態統語的プロービング、および翻訳精度です。枠組みを示すために、低リソースのセム系言語を事例研究として手作業で注釈したベンチマークデータセットを作成します。このデータセットは、品詞タグ、文法性（性）および形態統語的特徴を含む、言語学的注釈付きのバイリンガル語彙集から構成されており、高い注釈者間一致を示して信頼性のある注釈を保証します。我々は、因果言語モデルやシーケンス・ツー・シーケンスのアーキテクチャを含むさまざまなモデルをテストします。その結果、各種の言語タスクにおける性能には顕著な差が見られます。シーケンス・ツー・シーケンスモデルは一般に、形態統語解析と翻訳の質で優れる一方で、因果モデルは語彙アラインメントでは強い性能を示しながら、翻訳精度では弱いことが分かります。これらの結果は、低リソース環境におけるLLMの限界をよりよく理解するためには、言語学に基づく評価が必要であることを強調しています。我々は、再現可能なベンチマーキングを促進し、より包括的な多言語言語技術の開発を支援するために、LLM Probeおよび付随するベンチマークデータセットをオープンソースのツールとして公開します。