アンサンブルをいつ行うか: 安定で高速なLLMアンサンブルのためのトークンレベルのポイントの特定

arXiv cs.CL / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

長文生成の際、各トークンごとにLLMsをアンサンブルすると性能が低下することが多く、選択的なアンサンブル位置の必要性が明らかになる。
SAFEフレームワークは、モデル間のトークン化の不一致と、それぞれの次のトークン確率分布のコンセンサスを同時に考慮することで、アンサンブルすべき位置を特定する。
過度に平滑なアンサンブル分布を防ぎ、アンサンブル中のトークン選択をより自信をもって行えるようにする確率鋭化戦略を導入する。
MATH500やBBHといったベンチマークでの実証結果は、SAFEが既存の手法よりも精度と効率の両方で優れており、たとえアンサンブルするトークン数が全トークンの1%未満であっても効果を発揮することを示している。

概要：アンサンブル大規模言語モデル（LLMs）は、それぞれの補完的な強みを活用することで個々のモデルの性能を上回る有望なアプローチとして注目を集めています。特に、モデルの次トークンの確率分布を統合して次のトークンを選択する方法は、さまざまなタスクで効果的であることが示されています。しかし、短い形式の回答には成功している一方で、長文生成への適用はまだ十分に探究されていません。本論文では、長文生成において既存のアンサンブル手法を用いるには、アンサンブルを行う位置の慎重な選択が必要であることを示します。標準的な「すべてのトークンでアンサンブルを行う」慣行は、しばしば性能を低下させるためです。我々は、アンサンブルの位置を決定する二つの重要な要因を特定します。モデル間のトークン化の不一致と、それぞれの次トークン確率分布のコンセンサスです。これを踏まえ、SAFE（Stable And Fast LLM Ensembling、安定で高速なLLMアンサンブル）を提案します。これは、これらの要因を共同で考慮して選択的にアンサンブルを行うフレームワークです。さらなる安定性を高めるため、アンサンブル分布が過度に滑らかになる場合には確率鋭化戦略を適用し、アンサンブル中により自信のあるトークンを選択できるようにします。多様なベンチマーク（MATH500およびBBHを含む）での実験は、SAFEが精度と効率の両方で既存の手法を上回ることを示しています。1%未満のトークンしかアンサンブルしない場合でも、改善効果が得られています。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

アンサンブルをいつ行うか: 安定で高速なLLMアンサンブルのためのトークンレベルのポイントの特定

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer