マルチターン対話の指示チューニングにおけるデータ選択

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

著者らは、補足資料を通じてコードやリソースを提供し、選択戦略の再現と実際の導入を可能にしている。

要旨: 教示（instruction）調整された言語モデルは、ますます大規模なマルチターン対話コーパスに依存するようになっていますが、これらのデータセットはしばしばノイズが多く、構造的にも一貫性に欠け、話題のドリフト、繰り返しが多い雑談、ターン間での回答形式の不一致といった問題があります。そこで本研究では、データ選択の観点からこれに取り組み、
\textbf{MDS}（Multi-turn Dialogue Selection、マルチターン対話選択）を提案します。MDSは、孤立したターンではなく、対話全体をスコア付けする「対話レベル」の枠組みです。MDSは、ユーザークエリ軌跡空間においてビン（区間）単位で選択を行い、代表性は保ちつつ冗長性のない対話を保持するグローバルなカバレッジ段階と、エンティティに基づく話題のグラウンディングおよび情報の進展により、対話内の信頼性を評価するローカルな構造段階を組み合わせます。さらに、機能的な整合のためにクエリと回答の形式の一貫性も加えます。MDSは、3つのマルチターンベンチマークと、同一分野のバンキング（Banking）テストセットにおいて、強力なシングルターンのセレクタ、対話レベルのLLMスコアラ、ならびにヒューリスティックなベースラインを上回ります。また、参照なしおよび参照ありの指標の両方で総合順位が最良となり、同じ学習予算の下で長い対話に対してより頑健です。コードとリソースは補足資料に含まれます。