AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

FUSE：ゼロのラベルデータで検証器をアンサンブルする

arXiv stat.ML / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

この論文では、正解ラベル（地上真値）を一切使わずに、複数の検証器（verifier）をアンサンブルしてLLM出力の検証品質を高める手法FUSE（Fully Unsupervised Score Ensembling）を提案します。
FUSEは、検証器間の条件付き依存関係を制御することで、検証・アンサンブル分野のスペクトル系アプローチの教師なし性能の向上を狙います。
実験では、生成モデル、検証器、ベンチマークを幅広く変えたテスト時スケーリングの設定で、FUSEがセミ教師ありの代替手法と同等以上の性能を示すことが報告されています。
検証はGPQA Diamondなどの定番の学術ベンチマークに加え、Humanity’s Last ExamやIMO Shortlistのようなフロンティア寄りのラベル要件が厳しくない評価セットでも行われています。

関連記事

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる

新しいモデルが出るたびに、当然ながら古いモデルは時代遅れになる

Reddit r/LocalLLaMA

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ

NVIDIA DGX SparkフルスタックAIハッカソンで作ったものが総合1位に—『Starfire』から『Molecules AI』へ

Dev.to

進捗を失わない：VS Codeでプロ仕様のJupyterワークフローをセットアップする（Colabのタイムアウトともおさらば！）

進捗を失わない：VS Codeでプロ仕様のJupyterワークフローをセットアップする（Colabのタイムアウトともおさらば！）

Dev.to

AgentOSを作る：保険請求の「AWS Lambda」を目指している理由

AgentOSを作る：保険請求の「AWS Lambda」を目指している理由

Dev.to

状況はここまで来た——1年で何もかも変わった：Kimi、Minimax、Qwen、Gemma、GLM

状況はここまで来た——1年で何もかも変わった：Kimi、Minimax、Qwen、Gemma、GLM

Reddit r/LocalLLaMA

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告