AI Navigate

AH検出のためにQwen3-Omniを活用したセグメントベースのMLLMフレームワークに基づく微妙な感情認識

arXiv cs.CV / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、動画の時間的セグメンテーション(クリップあたり最大5秒)とマルチモーダル大規模言語モデルを組み合わせたセグメントベースのフレームワークを提案し、両義性と躊躇といった微妙な感情の検出を改善する。
  • 本手法は、Qwen3-Omni-30B-A3Bを活用し、LoRAを用いてBAHデータセットでファインチューニングを施し、MS-Swiftによる全パラメータ更新を経て、視覚・音声・テキストの手掛かりを統合的に分析できるようにしている。
  • 実験ではテストセットで85.1%の精度を報告し、既存のベンチマークを上回る顕著な改善を示しており、マルチモーダル大規模言語モデルがクロスモーダルな感情の葛藤を捉える能力を浮き彫りにしている。
  • 本研究はGitHubでオープンソースとして公開されており、アフェクティブ・コンピューティングおよびデジタルヘルスへの応用を示唆している。

要旨:動画における感情認識は、感情計算(アフェクティブ・コンピューティング)の中で極めて重要な課題であり、Ambivalence(両義性)および Hesitancy(躊躇)といった微妙な心理状態を識別することは、行動介入とデジタルヘルスにとって重要な価値を持つ。Ambivalence(両義性)および Hesitancy(躊躇)状態は、表情、声のトーン、テキストの意味論といったモダリティ間の不一致として現れやすく、自動認識に対して重大な課題をもたらす。本論文は、時間的セグメントモデリングをマルチモーダル大規模言語モデルと統合した認識フレームワークを提案する。長時間の動画処理における計算効率とトークン制約に対処するため、最大5秒の短いクリップに動画を分割するセグメントベースの戦略を採用する。私たちは、MS-Swiftフレームワークを介してLoRAと全パラメータ戦略を用いてBAHデータセット上でファインチューニングしたQwen3-Omni-30B-A3Bモデルを活用し、視覚信号と聴覚信号を相乗的に分析できるようにしている。実験結果は、提案手法がテストセットで85.1%の精度を達成し、既存のベンチマークを大幅に上回り、複雑でニュアンスのある感情的対立を捉える能力を備えるマルチモーダル大規模言語モデルの優れた能力を検証している。コードはhttps://github.com/dlnn123/A-H-Detection-with-Qwen-Omni.gitで公開されている。