Tandem：大規模・小規模言語モデルを併用して効率的に推論する

arXiv cs.AI / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、大規模言語モデルと小規模言語モデルを協調させて、推論集約型の推論推定をより効率的に行う「Tandem」という枠組みを提案している。
Tandemでは、まずLLMが重要な推論インサイトをコンパクトに生成し、そのインサイトでSLMが本来の推論プロセスを実行して最終回答を出すよう誘導する。
効率と信頼性のバランスを取るため、Tandemは「コストを考慮した終了（termination）」メカニズムを導入し、十分なガイダンスが蓄積された時点でLLMの生成を適応的に早期停止できる。
数学推論およびコード生成ベンチマークでの実験では、スタンドアロンのLLM推論と比べて計算コストを約40%削減しつつ、優れているか同等の性能を示した。
さらに、ある領域で学習した「十分性（sufficiency）分類器」が他領域へも再学習なしで効果的に転移するという結果が報告され、実装コードもGitHubで公開されている。

日経XTECH

Reddit r/artificial

Reddit r/LocalLLaMA

Dev.to

Tech.eu