「少ないほうが十分」共同推論による効率的推論

arXiv cs.LG / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、能力の高いモデルと軽量モデルを組み合わせて推論効率を高める枠組み「DUET（Dual-model Efficient Two-stage inference）」を提案します。
DUETは推論を2段階に分け、能力の高いモデルが推論シグナルを生成し、軽量モデルがそのシグナルを使って最終回答を作る方式です。
主要な貢献として、軽量モデルがタスクを解くのに十分な情報だけを能力の高いモデルが送るよう促す「長さペナルティ付きの共同学習目的」を提示しています。
実験では、DUETがAIMEやGPQAといったベンチマークで、大規模モデル単体のエンドツーエンド推論よりも推論コストを大幅に削減しつつ、推論性能を維持できることが示されます（難しい推論課題で大規模モデルの出力トークンを最大60%削減）。
全体として、この手法は推論に関わる計算を大きいモデルに任せ、推論以外の要素は小さいモデルに委譲することで、低コストな推論を実現することを狙っています。

日経XTECH

GIGAZINE

Dev.to

Reddit r/LocalLLaMA

Last Week in AI