NormGenesis: 例示に導かれた社会規範モデリングと違反後の修復による多文化対話生成
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- NormGenesisは、英語・中国語・韓国語にまたがる社会的根拠に基づく対話を生成・注釈付けする多文化フレームワークを導入し、新たな Violation-to-Resolution (V2R) 対話タイプを含め、違反後の修復をモデル化します。
- アプローチは、対話合成の初期段階で例示ベースの反復的精練を用い、完全な生成に入る前に、言語的・感情的・社会文化的期待と整合させます。
- 著者らは、ノルム遵守・話者意図・感情応答をターンレベルで注釈付けした10,800件の多ターン対話データセットを構築し、既存データセットと比較して精練品質・自然さ・一般化性能の改善を示しました。
- V2R強化データで訓練したモデルは、倫理的に敏感な文脈での語用論的能力が向上し、言語横断の文化適応対話モデリングの新たなベンチマークを確立します。
社会規範は、コミュニケーションにおける文化的に適切な振る舞いを規定し、対話システムが一貫性のあるだけでなく社会的に受け入れられる応答を生成できるようにします。私たちは、英語・中国語・韓国語にまたがる社会的根拠に基づく対話を生成・注釈付けする多文化フレームワークNormGenesisを提示します。静的な規範分類を超えた社会的相互作用のダイナミクスをモデル化するために、新しい対話タイプViolation-to-Resolution(V2R)を提案します。これは、規範違反の後の会話の推移を、認識と社会的に適切な修復を通じてモデル化します。語用論的な一貫性を、資源が乏しい言語で向上させるために、対話合成プロセスの初期段階で例示ベースの反復的精練を導入します。この設計は、完全な対話生成が開始される前に、言語的・感情的・社会文化的期待との整合性を取り入れます。 このフレームワークを用いて、ノルム遵守・話者の意図・感情応答をターンレベルで注釈付けした10,800の多-turn対話データセットを構築しました。人間とLLMベースの評価は、NormGenesisが既存データセットに対して、精練品質・対話の自然さ・一般化性能の点で顕著に優れていることを示しています。私たちは、V2R拡張データで訓練されたモデルが倫理的に敏感な文脈での語用論的能力を向上させることを示します。私たちの研究は、文化的適応型対話モデリングの新しいベンチマークを確立し、言語的・文化的に多様な言語横断のノーム認識生成のスケーラブルな方法を提供します。




