多次元評価のためのオープンエンド会話に対するニューラルモデルと言語モデルによるプロンプト
arXiv cs.CL / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、DSTC-12(Track 1)において、対話レベルおよび次元別のスコアを予測することで、生成型AI対話システムを評価する方法を扱う。
- パラメータ数が13B未満の小規模モデルという制約のもとで、評価手法として、(1) 言語モデルによるプロンプトを評価者として用いる方法、(2) エンコーダ型の分類/回帰モデルを学習する方法の2つを検証する。
- 結果から、LMプロンプトは人間の判断との相関が高くはないものの、それでもテストセットでは基準(baseline)に次いで2番目の順位を示すことが分かる。
- 小規模な回帰および分類モデルは、いくつかの次元において検証セットでは強い相関を達成するが、テストセットでは性能が低下する。
- 著者らは、このテストセットでの劣化の一部を、訓練/検証データに比べて次元ごとに注釈スコア範囲の分布が変化(distribution shift)していることに起因すると説明している。



