構造化推論と内省的な洗練を備えたマルチエージェントによるマルチモーダルな共感的応答生成のためのフレームワーク

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、マルチモーダルな共感的応答生成（MERG）を扱い、一般的なワンパス手法が人間の感情知覚の「構造化された性質」を捉えられず、感情バイアスを生み得る点を指摘しています。
提案するマルチエージェント型フレームワークでは、感情予測、実践的戦略の計画、戦略に導かれた応答生成などを含むモジュール分解により、マルチモーダル入力からの構造化推論を行います。
さらに、内省エージェントが中間状態と応答案を段階的に監査し、共感の誤りやバイアスを取り除いたうえで、必要に応じて対象を絞って再生成を促す「グローバルな内省・洗練」ループを導入します。
IEMOCAPやMELDといったベンチマークでの実験では、既存の最先端手法よりも共感的応答生成が優れていることが示されています。
全体として、生成の反復過程で感情知覚の正確性を高め、感情バイアスを減らすクローズドループな手法が貢献として提示されます。

Abstract

マルチモーダル感情的応答生成（MERG）は、ユーザーのマルチモーダルな状況に基づいて、感情的に魅力的で共感的な応答を生成することを目指します。既存の手法は通常、マルチモーダル状況から最終応答への暗黙的なワンパス生成パラダイムに依存していますが、MERGの本質的な2つの特性を見落としています。（1）感情の手がかりに対する人間の知覚は、そもそも直接的な写像ではなく、構造化されたものです。従来のパラダイムでは、感情知覚の階層的な進行が無視されるため、歪んだ感情判断につながります。（2）人間の感情は本来的に複雑で曖昧であるため、従来のパラダイムは大きな感情バイアスに陥りやすく、結果として最適でない共感になってしまいます。本論文では、MERGのためのマルチエージェント・フレームワークを提案し、構造化された推論と内省的な洗練によって共感を高めます。具体的には、まず、構造化された感情的推論から生成へのモジュールを導入し、マルチモーダル知覚による応答生成を、整合性を意識した感情予測、実用的戦略の計画、戦略に導かれた応答生成へと明示的に分解します。これにより、マルチモーダル証拠から応答の実現までのより明確な中間的な道筋を提供します。さらに、グローバルな内省と洗練モジュールを開発します。ここでは、グローバル内省エージェントが、中間状態と生成された応答に対して段階的な監査を行うことで、既存の感情バイアスや共感エラーを除去し、対象を絞った再生成を引き起こします。全体として、このクローズドループのフレームワークにより、反復プロセス中に感情知覚の精度を段階的に改善し、感情バイアスを除去できるようになります。IEMOCAPやMELDといった複数のベンチマークに関する実験では、提案モデルが最先端手法と比べて優れた感情的応答生成能力を示すことが確認されています。