Litmus（Re）Agent：多言語モデルの予測的評価のためのベンチマークとエージェント型システム

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、予測的な多言語評価に取り組み、ベンチマーク結果が特定の言語やタスクについて欠けている場合に、目標言語の性能を推定することを目的とする。
アクセス可能なエビデンスと真値ラベルを分離し、不完全な文献に対する推論を検証するため、6つのタスクと5つのエビデンス状況を含む1,500問からなる制御されたベンチマークを導入する。
Litmus（Re）Agentは、DAGでオーケストレーションされたエージェント型システムとして提案される。クエリを仮説に分解し、エビデンスを取得し、特徴を考慮した集約によって予測を合成する。
6つのシステムに対する実験の結果、Litmus（Re）Agentは全体として最良の性能を達成し、直接的なエビデンスが弱い、あるいは欠けている転移（transfer）重視の設定で最大の改善が見られる。
著者らは、構造化されたエージェント型推論が、不足または不均一な評価エビデンスのもとで多言語モデルの性能を効果的に予測できると結論づける。