TurnWise: 単発とマルチターン言語モデルの能力のギャップ

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、単発対話の能力とマルチターンの言語モデル能力の間にギャップがあることを特定し、単発対話のチャットベンチマークと直接比較できる形でマルチターンの性能を測定する TurnWiseEval を提案している。
TurnWiseData という合成データパイプラインを導入し、マルチターンの訓練データをスケーラブルに生成できるようにする。
Olmo 3 を用いた実験は、ポスト訓練中にマルチターンデータを組み込むことが、強力なマルチターンチャット性能にとって不可欠であることを示しており、わずか1万件のマルチターン対話でも TurnWiseEval で約 12% の改善をもたらす。
本研究は、ギャップを埋め、長く、よりインタラクティブな対話でモデルの挙動を改善するためには、マルチターンに焦点を当てたデータと評価が重要であることを強調している。

要約: マルチターンの対話は、言語モデルの対話における一般的で重要なモードです。しかし、現在の公開トレーニングおよび評価データは単回の設定に焦点を当てており、これらの長い対話の追加の次元を捉えられていません。このマルチ／シングルターンのギャップを理解するため、まず新しいベンチマーク TurnWiseEval を導入します。これは、シングルターンのチャット評価と直接比較可能なマルチターン能力のためのものです。私たちの評価は、等価なシングルターン設定とのペアワイズ比較を通じて、マルチターン特有の対話能力を分離します。また、マルチターン学習データの拡張生成を可能にする合成データパイプライン TurnWiseData を導入します。 Olmo 3 を用いた実験は、マルチターンデータでの学習が、強力なマルチターンチャット性能を達成するために不可欠であることを示しており、事後学習中にわずか1万件のマルチターン対話を含めるだけで TurnWiseEval の 12% の改善につながる可能性があることを示しています。