FUSE:ゼロのラベルデータで検証器をアンサンブルする
arXiv stat.ML / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文では、正解ラベル(地上真値)を一切使わずに、複数の検証器(verifier)をアンサンブルしてLLM出力の検証品質を高める手法FUSE(Fully Unsupervised Score Ensembling)を提案します。
- FUSEは、検証器間の条件付き依存関係を制御することで、検証・アンサンブル分野のスペクトル系アプローチの教師なし性能の向上を狙います。
- 実験では、生成モデル、検証器、ベンチマークを幅広く変えたテスト時スケーリングの設定で、FUSEがセミ教師ありの代替手法と同等以上の性能を示すことが報告されています。
- 検証はGPQA Diamondなどの定番の学術ベンチマークに加え、Humanity’s Last ExamやIMO Shortlistのようなフロンティア寄りのラベル要件が厳しくない評価セットでも行われています。
関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる
Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ
Dev.to

進捗を失わない:VS Codeでプロ仕様のJupyterワークフローをセットアップする(Colabのタイムアウトともおさらば!)
Dev.to

AgentOSを作る:保険請求の「AWS Lambda」を目指している理由
Dev.to

状況はここまで来た——1年で何もかも変わった:Kimi、Minimax、Qwen、Gemma、GLM
Reddit r/LocalLLaMA