MSA-Thinker:マルチモーダル感情分析のためのヒント誘導強化学習による識別—校正(Discrimination-Calibration)推論
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダル大規模言語モデルの解釈可能性と頑健性を向上させることで、マルチモーダル感情分析に取り組む。これらはしばしばエンドツーエンドの「ブラックボックス」として扱われている。
- 構造化された識別—校正(Discrimination-Calibration: DC)推論を導入し、RLにおける探索効率の低さや難しいサンプルでの報酬の疎さ(スパース性)に対処するために、ヒント誘導強化学習と組み合わせる。
- 手法はまず、教師モデル(Qwen3Omni-30B)によって合成された高品質なチェーン・オブ・ソートデータを用いた冷スタートの教師あり微調整段階から始める。ここで最初からDC推論の構造を埋め込む。
- 次に、「Hint-GRPO」を提案し、識別段階を検証可能なアンカーとして用いてRL中に方向性のあるヒントを与える。これにより学習効率が向上し、報酬の疎さが低減される。
- 実験(Qwen2.5Omni-7B)では、きめ細かな感情回帰の精度、質の高い構造化推論チェーン、ならびにドメイン横断での汎化性能の向上が示された。




