要旨: 大規模言語モデル(LLM)が生成テキストを評価するための自動判定者としてますます採用される一方で、その出力はしばしばコストが高く、プロンプト設計、言語、そして集約戦略に対して極めて高い感度を示します。これにより、再現性が大きく制限されています。これらの課題に対処するために、私たちは小規模(パラメータが <1B)のモデルを用いて開発された、相補的な決定論的学習指標のファミリーである\textbf{\textit{OmniScore}}を提案します。OmniScoreは、従来のモデルベース評価における低遅延性と一貫性を維持しつつ、LLM判定者の振る舞いを近似します。私たちは大規模に合成された教師データ(約 \sim564k インスタンス、\textbf{107言語})でモデルを学習し、8,617件の手動アノテーション付きインスタンスを用いて評価しました。OmniScoreファミリーは、参照ベース、ソースに根ざした評価、そしてハイブリッド評価など、さまざまな設定において信頼できる多次元のスコアを提供します。私たちは、これらのモデルを\textbf{6言語}で、質問応答(QA)、翻訳、要約の各タスクにわたって評価します。結果は、軽量で決定論的な学習指標が、最先端のLLMの代替として非常に実用的でスケーラブルな手段であることを示しています。私たちのモデルとデータセットは https://huggingface.co/collections/QCRI/omniscore にあります
LLM-as-a-Judgeを超えて:多言語生成テキスト評価のための決定論的指標
arXiv cs.LG / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多言語テキスト評価にLLMを自動判定者(ジャッジ)として用いることは費用がかかり、プロンプト、言語、集約の選択に敏感なため再現が難しいと主張している。
- 小規模(<1Bパラメータ)のモデルを用いてLLMジャッジの挙動を近似する、決定論的で学習済みの評価指標群「OmniScore」を提案する。これにより、より高速で一貫した採点を実現する。
- このアプローチは、大規模な合成による教師データ(107言語にわたって約564k件)で学習され、複数の評価パラダイムをカバーする8,617件の手動アノテーション例で検証された。
- OmniScoreは、参照ベース、ソースに根ざした(source-grounded)、およびハイブリッドの各設定において、多次元のスコアリングをサポートし、6言語でQA、翻訳、要約のタスクで評価されている。
- 著者らは、軽量な決定論的指標が、最先端のLLMジャッジに対するスケーラブルな代替となり得ると報告しており、モデルとデータセットをHugging Face経由で公開している。


