小規模言語モデルは文脈要約された多ターンのコールセンターQAを扱えるか?合成データに基づく比較評価

arXiv cs.CL / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、対話の継続性と文脈理解が重要となる文脈要約型の多ターン・カスタマーサポートQAにおいて、小規模言語モデル(SLM)がどの程度対応できるかを検証します。
  • 会話履歴を要約して重要な会話状態を保持する履歴要約戦略を用い、指示チューニングされた低パラメータSLMを評価しています。
  • 9つのSLMを3つの商用LLMと比較し、語彙・意味の類似度指標に加えて、人手評価やLLM-as-a-judgeによる質的評価も行います。
  • 結果はSLM間で大きなばらつきを示し、一部はLLMに近い性能を示す一方で、文脈の整合や継続性を維持できず課題も明らかになりました。

要旨: カスタマーサービスの質問応答(QA)システムは、会話型の言語理解にますます依存するようになっています。大規模言語モデル(LLM)は強力な性能を達成していますが、その高い計算コストと導入上の制約により、資源が限られた環境での実用的な利用が難しいのが現状です。小規模言語モデル(SLM)はより効率的な代替手段を提供しますが、複数ターンにわたるカスタマーサービスQAに対する有効性は十分に調べられておらず、とりわけ対話の継続性や文脈理解が必要となる場面では未解明な点が多く残っています。本研究では、履歴要約戦略を用いて重要な会話状態を保持しつつ、文脈を要約した複数ターンのカスタマーサービスQAに対する指示チューニング済みSLMを調査します。さらに、カスタマーサービスの相互作用の異なるフェーズにわたってモデルの振る舞いを評価するために、会話ステージに基づく質的分析も提案します。9つの指示チューニング済みの低パラメータ化SLMを、3つの商用LLMと比較し、語彙的および意味的類似度の指標に加えて、人手評価やLLMをジャッジとして用いる方法といった質的評価を行います。結果は、SLM間で顕著なばらつきがあることを示しており、一部のモデルはLLMに近い性能を示す一方で、別のモデルは対話の継続性や文脈との整合を維持するのに苦労しました。これらの知見は、実世界のカスタマーサービスQAシステムにおける低パラメータ化言語モデルの可能性と、現時点での限界の両方を浮き彫りにします。