要旨: 時間の経過に応じてユーザと対話するAIアシスタントは、適切かつ個人的に応答するために、ユーザの現在の感情状態を解釈する必要がある。しかし、この能力は十分に評価されていない。既存の感情データセットは主に局所的または瞬間的な情動を評価し、一方で長期記憶ベンチマークは主として事実の想起、時間的整合性、または知識更新に焦点を当てている。その結果、現在のリソースでは、モデルが記憶された対話履歴を用いてユーザの現在の情動状態を解釈できるかを検証するための支援が限られている。
本論文では、感情認識のためのAffective Memory BenchmarkであるA-MBERを導入し、この能力を評価する。A-MBERは、記憶された複数セッションにわたる対話履歴に基づく、現在の情動解釈に焦点を当てる。対話の軌跡と指定されたアンカーターム(基準となるターン)が与えられると、モデルはユーザの現在の情動状態を推定し、歴史的に関連する証拠を特定し、その解釈を根拠づけられた形で正当化する必要がある。このベンチマークは、長期的な計画、会話生成、注釈付け、質問構築、および最終パッケージングを含む、明示的な中間表現を備えた段階的パイプラインによって構築される。これは、モダリティ劣化や十分でない証拠条件といった頑健性設定とともに、判断、検索、および説明タスクをサポートする。
実験では、統一された枠組みのもとで、ローカル文脈、ロング文脈、検索された記憶、構造化された記憶、ゴールド証拠条件を比較する。結果は、A-MBERが、とくにストレスを与えるよう設計されたサブセット、すなわち、長距離の暗黙的な情動、高依存度の記憶レベル、軌跡に基づく推論、そして敵対的設定に対して優れた識別性を示すことを明らかにした。これらの知見は、記憶が過去の対話履歴を単により多く提供することで情動解釈を支えるのではなく、過去の対話をより選択的で、根拠に基づき、かつ文脈に敏感に用いることを可能にすることで、その支援が実現されることを示唆している
A-MBER:感情認識のための情動記憶ベンチマーク
arXiv cs.AI / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- A-MBERは、AIアシスタントが、瞬間的な手がかりのみではなく、記憶された複数セッションにわたる対話履歴を用いてユーザーの現在の感情状態を推定できるかを評価する「情動記憶ベンチマーク」として提案されます。
- このベンチマークでは、モデルが歴史的に関連のある証拠を特定し、情動解釈を根拠づけ、対話の軌跡およびアンカーとなるターンに基づいてそれを正当化することが求められます。
- 分割されたパイプラインにより構築され、長期的な計画や構造化された質問構築などの中間表現を含みます。また、判断・検索・説明のタスクをサポートします。
- 破損(劣化)したモダリティや十分な証拠がない条件などを用いて、欠落した、あるいは劣化した信号に対してモデルがどれだけ適切に対処できるかを明示的に頑健性評価します。
- 実験では複数の記憶統合条件を比較し、A-MBERが、長距離にわたる暗黙の情動、対話軌跡に基づく、依存関係が多い、そして敵対的(adversarial)なシナリオにおいて特に識別力が高いことがわかります。


