多次元評価のためのオープンエンド会話に対するニューラルモデルと言語モデルによるプロンプト

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、DSTC-12（Track 1）において、対話レベルおよび次元別のスコアを予測することで、生成型AI対話システムを評価する方法を扱う。
パラメータ数が13B未満の小規模モデルという制約のもとで、評価手法として、(1) 言語モデルによるプロンプトを評価者として用いる方法、(2) エンコーダ型の分類／回帰モデルを学習する方法の2つを検証する。
結果から、LMプロンプトは人間の判断との相関が高くはないものの、それでもテストセットでは基準（baseline）に次いで2番目の順位を示すことが分かる。
小規模な回帰および分類モデルは、いくつかの次元において検証セットでは強い相関を達成するが、テストセットでは性能が低下する。
著者らは、このテストセットでの劣化の一部を、訓練／検証データに比べて次元ごとに注釈スコア範囲の分布が変化（distribution shift）していることに起因すると説明している。

Abstract

生成AIベースの対話システムが増加するにつれて、それらの評価が重要な課題となっています。本論文では、Dialogue System Technology Challenge（DSTC-12、Track 1）を通じて、この重要な問題に対する我々の貢献を提示します。そこでは、対話レベルの次元別スコアを予測するモデルを開発しました。比較的小規模なモデル（すなわち130億パラメータ未満）を用いるという制約のもと、本研究は主に2つの戦略に従います。1つは、プロンプトによって言語モデル（LM）を評価者として用いること、もう1つは、エンコーダベースの分類および回帰モデルを学習することです。結果として、LMのプロンプトは人間の判断との相関がわずかである一方で、それでもテストセットでは2位となり、基準モデルのみを上回りました。回帰および分類モデルは、パラメータ数が大幅に少ないにもかかわらず、検証セットにおいていくつかの次元で高い相関を示します。テストセットでは性能が低下しますが、テストセットには、学習および検証セットに対して、いくつかの次元でスコア範囲が大きく異なる注釈が含まれている点に留意することが重要です。