要旨: Valence-arousal (VA) 推定は、自然環境における人間の感情の微妙な性質を捉えるうえで極めて重要です。CLIP のような事前学習済みの Vision-Language モデルは卓越した意味的整合性能力を示してきましたが、連続回帰タスクへの適用は、テキストプロンプトの離散性によってしばしば制約を受けます。本論文では、意味空間と連続的な次元間のギャップを埋めるために距離認識型ソフトプロンプト学習を導入した、VA推定の新しいマルチモーダルフレームワークを提案します。具体的には、VA空間を3×3のグリッドに分割し、9つの感情領域を定義し、それぞれに異なるテキスト表現を対応づけます。ハードな分類ではなく、真の座標と領域中心とのユークリッド距離に基づくソフトラベルをガウスカーネルを用いて計算し、モデルが細かな感情の遷移を学習できるようにします。マルチモーダル統合のため、我々のアーキテクチャは CLIP 画像エンコーダと Audio Spectrogram Transformer (AST) を用いて、頑健な空間的および音響的特徴を抽出します。これらの特徴は、Gated Recurrent Units (GRUs) によって時系列的にモデル化され、階層的フュージョン方式を通じて統合されます。これにより、整列のためのクロスモーダルアテンションを順次組み合わせ、適応的な洗練のためのゲート付きフュージョンを実現します。Aff-Wild2 データセットでの実験結果は、提案する意味論ガイド付きアプローチが VA 推定の精度を顕著に向上させ、自然環境下の制約なしの「in-the-wild」シナリオで競争力のある性能を達成することを示しています。
距離認識型ソフトプロンプト学習による多モーダル Valence–Arousal 推定
arXiv cs.CV / 2026/3/17
📰 ニュースModels & Research
要点
- VA空間を3×3の9つの感情領域に分割し、領域中心までの距離に基づいてガウスカーネルを用いてソフトラベルを割り当てることで、ハードなカテゴリではなく、細かな感情遷移を可能にする。
- アーキテクチャは、CLIP画像エンコーダと Audio Spectrogram Transformer(AST)を組み合わせてマルチモーダル特徴を抽出し、時系列モデリングにはGRUを用い、クロスモーダルアテンションとゲート付きリファインメントを備えた階層型フュージョンを採用する。
- Aff-Wild2データセット上で、未制約の野外シナリオにおいて競争力のある精度を達成し、意味導向型手法の有効性を示している。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning