MSA-Thinker：マルチモーダル感情分析のためのヒント誘導強化学習による識別—校正（Discrimination-Calibration）推論

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル大規模言語モデルの解釈可能性と頑健性を向上させることで、マルチモーダル感情分析に取り組む。これらはしばしばエンドツーエンドの「ブラックボックス」として扱われている。
構造化された識別—校正（Discrimination-Calibration: DC）推論を導入し、RLにおける探索効率の低さや難しいサンプルでの報酬の疎さ（スパース性）に対処するために、ヒント誘導強化学習と組み合わせる。
手法はまず、教師モデル（Qwen3Omni-30B）によって合成された高品質なチェーン・オブ・ソートデータを用いた冷スタートの教師あり微調整段階から始める。ここで最初からDC推論の構造を埋め込む。
次に、「Hint-GRPO」を提案し、識別段階を検証可能なアンカーとして用いてRL中に方向性のあるヒントを与える。これにより学習効率が向上し、報酬の疎さが低減される。
実験（Qwen2.5Omni-7B）では、きめ細かな感情回帰の精度、質の高い構造化推論チェーン、ならびにドメイン横断での汎化性能の向上が示された。

Abstract

マルチモーダル感情分析は、テキスト、音声、視覚のモダリティを統合することで人間の感情を理解することを目的とする。マルチモーダル大規模言語モデル（MLLMs）は、教師あり微調整（SFT）によって最先端の性能を達成しているが、そのエンドツーエンドの「ブラックボックス」的な性質は解釈可能性を制限する。Chain-of-Thought（CoT）の推論を取り入れた既存手法は、高い注釈コストによって妨げられている。一方で強化学習（RL）では、特に難しいサンプルにおいて、探索効率が低いことや報酬が疎であることといった課題がある。これらの問題に対処するため、我々は構造化されたDiscrimination-Calibration（DC）推論と、ヒントに基づく強化学習を統合した新しい学習枠組みを提案する。まず、教師モデル（Qwen3Omni-30B）によって合成された高品質なCoTデータを用いてコールドスタートSFTを実施する。このデータは本質的にDC構造を含んでいる。これにより、最初の段階から、大まかな識別（macro discrimination）を行い、その後にきめ細かな校正（fine-grained calibration）を行う推論パラダイムをモデルに与える。これを基に、我々はHint-GRPOを提案する。これは、RL中にDC構造内の識別フェーズを検証可能なアンカーとして活用し、難しいサンプルに対する方向性のあるヒントを提供することで、方策最適化を導き、報酬疎性の問題を効果的に緩和する。Qwen2.5Omni-7Bモデルでの実験により、本手法は、きめ細かな感情回帰タスクにおいてより高い精度を達成するだけでなく、高品質な構造化推論チェーンを生成できることが示される。さらに重要な点として、クロスドメイン評価において優れた汎化能力を示す。これにより、モデルの解釈可能性が向上し、明示的な推論ステップがモデルの頑健性に積極的に寄与することを検証できる。信頼でき効率的な感情分析システムを構築するための新しいパラダイムを提供する。