ユーザーのフィードバック付き対話型・エピソード記憶

arXiv cs.CV / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長い自撮り(egocentric)動画に対するエピソード記憶をワンショットではなく、現実の利用に近い対話的な形で機能させるEM-QnF(Episodic Memory with Questions and Feedback)を提案する。
  • ユーザーはモデルの最初の回答に対して訂正や追加情報を与えられる(例:「白いものではなく大きい青いマグで」「この前」など)ため、不明瞭・不完全な自然言語クエリの曖昧さを解消するのに役立つ。
  • フィードバックに基づくインタラクションを扱うデータセットを新たに収集し、高コストな逐次最適化を避ける軽量な学習手法を提案している。
  • さらに、既存のEM-NLQモデルに後付けできるプラグ&プレイ型のFeedback Alignment Module(FALM)を導入し、ユーザーフィードバックを効率よく取り込めるようにする。
  • 3つの難しいベンチマークで従来の最先端を大きく上回り、人が生成したフィードバックでの評価でも現実シーンへの汎化が良好であることが示されている。

概要: 自然言語クエリによるエピソード記憶(EM-NLQ)では、ユーザーは質問(例:「マグをどこに置いた?」)を投げることがあり、ユーザー視点で撮影された長いエゴセントリック動画を検索して、その質問に答える瞬間を見つける必要があります。しかし、クエリは曖昧または不完全であり、誤った応答につながることがあります。現在の手法はこの重要な側面を無視し、EM-NLQをワンショット設定として扱っているため、現実のシナリオでの適用可能性が制限されています。本研究ではこのギャップに取り組み、エピソード記憶と質問・フィードバック課題(EM-QnF)を提案します。ここでは、ユーザーはモデルの初期予測に対してフィードバックを提供するか、追加情報(例:「これより前です。白い方じゃなくて、大きい青いマグを探しています」)を加えることで、モデルが相互的に予測を改善できるようにします。そこで本研究では、フィードバックに基づくインタラクション用のデータセットを収集し、高価な逐次最適化を回避する軽量な学習手法を提案します。さらに、既存のEM-NLQモデルがユーザーフィードバックを効果的に取り入れられるようにする、プラグアンドプレイ型のフィードバック・アラインメント・モジュール(FALM)も導入します。本手法は、3つの困難なベンチマークにおいて、最先端手法を大幅に上回り、効率性を維持したまま、商用の大規模ビジョン・言語モデルよりも良好、または同等の性能を示します。人手によるフィードバックを用いた評価により、本手法が現実世界のシナリオに対してよく一般化することが示されます。