AI Navigate

SemBench:LLM評価の普遍的セマンティックフレームワーク

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • SemBench は、辞書の語義定義と文エンコーダのみを用いて、LLMのセマンティック理解を評価する合成ベンチマークを自動生成するフレームワークを導入します。これにより、厳選された例文を用意する必要がなくなります。
  • このアプローチはスケーラブルで言語に依存せず、英語・スペイン語・バスク語を横断して異なる言語資源レベルをカバーすることを示しています。
  • 多くのLLMを対象とした評価において、SemBenchのランキングは従来のWord-in-Context(WiC)データセットと高い相関を示します。
  • このフレームワークは、安定して意味のあるランキングを得るにはごく少数の例で十分であることを示し、データ効率を向上させます。
  • SemBenchはクロスリンガルな意味理解評価を可能にし、マルチ言語LLM評価のための軽量で適応性の高いベンチマークツールを提供します。
近年の自然言語処理(NLP)の進展は、大規模言語モデル(LLM)の出現によって推進され、驚くべき生成能力と推論能力を示します。しかし、これらのモデルの真の意味理解を評価することは依然として難題です。従来のベンチマークであるWord-in-Context(WiC)はこの能力を効果的に評価しますが、その作成には資源が大量に必要であり、しばしば高資源言語に限定されます。本論文では、辞書の語義定義と文エンコーダのみを使用してLLMの意味的能力を評価する合成ベンチマークを自動生成するフレームワークであるSemBenchを導入します。このアプローチは、厳選された例文を必要とせず、スケーラブルで言語に依存しないものです。我々は、英語・スペイン語・バスク語の3言語で、異なる言語資源レベルを網羅し、幅広いLLMに対してSemBenchを評価します。我々の結果は、SemBenchから得られるランキングが従来のWiCデータセットから得られるランキングと強く相関することを示しています。さらに、分析は、安定して意味のあるランキングを達成するにはごく少数の例で十分であることを示しています。総じて、SemBenchは、LLMsの意味理解をクロスリンガルに評価するための、軽量で適応的かつデータ効率の高いフレームワークを提供します。