要旨: 対話エージェントは、ユーザーに対して高品質な(すなわち常識に基づく)応答を提供するだけでなく、複数のもっともあり得る代替シナリオを考慮し、回答の多様性を反映させる必要があります。多様な常識推論生成モデルを訓練するニーズが高まる一方で、この分野の進展は、大規模で高品質かつ多様な常識訓練データセットの不足によって著しく阻害されています。高いアノテーションコストのため、既存の Generative Commonsense Reasoning (GCR) データセットは、少数の人間アノテータを用いて作成され、カバーする常識シナリオの範囲は狭いものにとどまっています。この訓練リソースのギャップに対処するため、初の多様化(GCR)向け合成データセット CommonSyn を作成する二段階法を提案します。私たちの合成データでファインチューニングしたモデルは、従来のモデル(バニラモデル)および人手で作成されたデータセットでファインチューニングされたモデルと比較して、生成の多様性と品質の両方を同時に向上させ、さまざまなサイズの大規模言語モデル(LLMs)にわたって改善します。返却形式: {"translated": "翻訳されたHTML"}
多様な生成型常識推論モデルの訓練のための合成データ生成
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多様な生成型常識推論(GCR)のための初の大規模合成データセットである CommonSyn を生成するための、二段階の手法を提案する。
- 拡張可能な合成データを提供することにより、既存の GCR データセットにおけるアノテーションコストと多様性の狭さを克服することを目的としている。
- 実験では、CommonSyn でファインチューニングしたモデルは、従来のデータセットや人手作成データセットと比較して、生成の多様性と品質の両方を向上させ、さまざまなサイズのLLMに対しても効果を示した。
- 本研究は、対話エージェントが複数の妥当なシナリオを推論できるようにし、より多様な応答を生成できるようにすることで、対話エージェントの発展につながる可能性がある。