要旨: 多様な分野における大規模言語モデル(LLM)への依存の高まりは、頑健なドメイン固有および言語固有の評価データセットの必要性を浮き彫りにしています。しかし、プライバシー上の懸念、規制上の制約、手作業での作成にかかる時間コストにより、そうしたデータセットの収集は困難です。既存の自動ベンチマーキング手法は、既存データへの依存、スケーラビリティの不足、単一ドメインへの焦点、ならびに多言語対応の欠如といった制約によってしばしば限界があります。私たちは、既存データセットに依存せず、最小限の人手入力で、所望のサイズの高品質な合成データセットを生成する完全自動システムSTELLAR-Eを提案します。システムは2つの段階で構成されています: (1)TGRT Self-Instructフレームワークを修正し、制御可能でカスタムな合成データセット生成を可能にする合成データ・エンジンを作成し、(2)統計的およびLLMベースの指標を組み込んだ評価パイプラインにより、合成データセットがLLMベースのアプリケーション評価に適用可能かどうかを評価します。合成データセットは、LLM-as-a-judgeスコアにおいて既存の言語固有ベンチマークに対して平均+5.7%の差を達成しており、大規模かつ小規模なLLMの包括的評価に対して同等の品質を示します。実データセットは特に小規模モデルに対してはLLMにとって依然としてわずかに難しいものの、本研究は、LLMアプリケーションの公正な評価を支える、スケーラブルでドメイン適応可能なベンチマーキングの枠組みを確立します。これは、手作業によるアプローチに比べてより速い代替手段であり、高効率な自動品質保証サイクルを可能にします。
STELLAR-E:合成・テーラード・エンドツーエンド型LLMアプリケーションの厳密な評価器
arXiv cs.AI / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文では、STELLAR-Eという完全自動のシステムを提案し、既存データに依存せずに特定のドメインや言語向けの高品質な合成評価データセットを生成できるようにします。
- STELLAR-Eは2段階で動作し、(1) TGRT Self-Instructを改変して制御可能な合成データセット生成を行い、(2) 統計指標とLLMベースの指標の両方を用いる評価パイプラインで適用可能性を測定します。
- 合成データセットは、既存の言語別ベンチマークに対してLLM-as-a-judgeスコアで平均+5.7%の改善を達成し、大規模から小規模までのLLM評価において同等の品質が示されます。
- 著者らは、特に小規模モデルでは実データセットの方がなお難しい場合があることを指摘しつつ、拡張性とドメイン適応性のあるベンチマーク枠組みを提供すると述べています。
- プライバシーや規制上の制約、手作業の時間コストを減らすことで、LLMアプリケーション評価における高効率な自動品質保証サイクルの実現を目指します。




