FUSE:ゼロのラベルデータで検証器をアンサンブルする

arXiv stat.ML / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、正解ラベル(地上真値)を一切使わずに、複数の検証器(verifier)をアンサンブルしてLLM出力の検証品質を高める手法FUSE(Fully Unsupervised Score Ensembling)を提案します。
  • FUSEは、検証器間の条件付き依存関係を制御することで、検証・アンサンブル分野のスペクトル系アプローチの教師なし性能の向上を狙います。
  • 実験では、生成モデル、検証器、ベンチマークを幅広く変えたテスト時スケーリングの設定で、FUSEがセミ教師ありの代替手法と同等以上の性能を示すことが報告されています。
  • 検証はGPQA Diamondなどの定番の学術ベンチマークに加え、Humanity’s Last ExamやIMO Shortlistのようなフロンティア寄りのラベル要件が厳しくない評価セットでも行われています。