重なり指標を超えて：推論と好みを報いる、忠実な多役対話要約のための報酬最適化

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、多役対話要約ではROUGE/BERTScoreのような表面的な一致指標が過度に最適化され、忠実性や人間の好みとの整合といった本質的な改善が起きにくいと指摘している。
提案手法は、大規模教師モデルからステップごとの「認知スタイル」推論トレースを蒸留し、それを補助教師として推論を意識した要約器を段階的な教師あり微調整で初期化する。
さらにGRPOを適用し、情報網羅性・暗黙的推論・事実に基づく忠実性・簡潔性といった人間に整合する基準を、指標ベースの信号と組み合わせた二重原理の報酬で最適化する。
多言語の多役対話ベンチマークで、ROUGE/BERTScoreは強力なベースラインと同等の水準を保ちつつ、SAMSumでは事実忠実性と好みの整合で明確な改善が示され、CSDSでは意味的一貫性の安定性が確認された。
チェックポイントとデータセットはHugging Faceのコレクションで公開されており、再現や発展研究が可能になっている。

要旨: 多役割対話の要約では、複数の話者間の複雑な相互作用をモデル化しつつ、役割固有の情報と事実整合性を保持する必要がある。しかし、既存のほとんどの手法は、ROUGEやBERTScoreのような自動指標の最適化に偏っており、その指標は、人間の嗜好に対する真の一致や信頼性の向上よりも、参照文への表面的な模倣を促しがちである。そこで本研究では、多役割対話要約のために、明示的な認知スタイルに基づく推論と、報酬ベースの最適化を結び付けた新しい枠組みを提案する。提案手法ではまず、大規模な教師モデルから構造化された推論トレース（例：段階的な推論や中間的な省察）を蒸留し、それらを補助的な教師信号として用いることで、段階的な教師あり微調整を通じて、推論を意識した要約器を初期化する。次に、主要情報の網羅性、暗黙的な推論、事実に対する忠実性、簡潔さを狙い、人間に整合した基準と、指標ベースの信号を調和させる二重原則の報酬を用いたGRPOを適用する。多言語の多役割対話ベンチマークにおける実験の結果、提案手法はROUGEとBERTScoreにおいて強力なベースラインと同等の性能を示した。具体的には、CSDSにおける結果は、意味整合性に関して枠組みの安定性を確認しており、一方でSAMSumに対する詳細な分析では、事実に対する忠実性およびモデルベースの嗜好整合で明確な向上が見られた。これらの発見は、信頼できる対話要約のために、推論を意識した訓練と嗜好を意識した訓練の価値を裏付けるものである。チェックポイントとデータセットは https://huggingface.co/collections/NebulaPixel/summorchestra-multirole-summary で利用可能である。