要旨:本論文はアイスランド語の現在の大規模言語モデル(LLM)ベンチマークを評価し、問題点を特定するとともに、特に低資源・中資源言語の評価手法の改善を求めています。検証されていない合成データや機械翻訳データを含むベンチマークは、しばしば重大な欠陥を含むテスト例を含んでおり、それが結果を歪め、テストの妥当性を損なう可能性が高いことを示しています。低資源・中資源の設定でそのような方法を検証なしに使用することは避けるべきです。翻訳品質は、現時点で特定の言語に対する機械翻訳品質と同程度でしかないことがあり得ます。実際、アイスランド語の既存ベンチマークに対する定量的な誤差分析の結果は、人間が作成/翻訳したベンチマークと、合成データまたは機械翻訳ベンチマークとの間に明確な差があることを示しています。
ベンチマークを誰がベンチマークするのか?アイスランド語における大規模言語モデル評価のケーススタディ
arXiv cs.CL / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文はアイスランド語の大規模言語モデルのベンチマークを評価し、低資源言語および中資源言語の評価方法の改善を提案している。
- 検証されていない合成データや機械翻訳データを用いたベンチマークは、しばしば極めて欠陥のあるテスト例を含み、結果を歪めることがあると指摘している。
- 著者らは、検証が欠如すると翻訳品質の制約が低資源環境におけるこのようなベンチマークを信頼性のないものにする、と警告している。
- 定量的な誤り分析は、人間が作成または人間が翻訳したデータに基づくベンチマークと、合成データ/機械翻訳ベンチマークとの間に明確な差異が存在することを明らかにしている。
- 本研究は、アイスランド語のLLMおよび同様の言語を評価する際の妥当性と公正性を確保するため、ベンチマークの運用方法を見直すことを求めている。