GRASP：マルチモーダル風刺の標的同定のための、二段階最適化によるGrounded CoT推論

arXiv cs.CL / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、二値の風刺検出を超えてMultimodal Sarcasm Target Identification（MSTI）を改善するために、視覚的グラウンディングと明示的なChain-of-Thought（CoT）推論を組み合わせたマルチモーダル・フレームワークであるGRASPを提案する。
クラス不均衡を緩和し、微細なローカライゼーションのためのマルチモーダルな風刺手がかりを強化することを目的として、MSTI-MAXデータセットを提示する。これにより、テキスト中のフレーズと視覚領域のきめ細かな特定を可能にする。
GRASPは「Grounded CoT」を用いて、推論過程の中で風刺に関連する視覚領域を根拠付け（アンカー）し、最終ラベルおよび標的予測の前にモデルが根拠（rationale）を言語化することを要求する。
本手法は、座標に対応した教師あり微調整から始め、その後に微細なターゲット・ポリシー最適化を行う、二段階のアウトカム（結果）監督付きの共同最適化戦略を適用する。
実験では、モダリティ横断で微細な標的同定が改善したことを報告する。さらに、LLM-as-a-Judgeによる評価で内部の推論チェーンの品質を測定し、データセットとソースコードはGitHubでの公開予定である。

Abstract

多モーダル風刺検出における従来の二値分類パラダイムを超えて、マルチモーダル風刺ターゲット同定（MSTI）は、テキストフレーズや視覚領域といった微細なターゲットを正確にローカライズすることを必要とする、より困難な課題を提示する。既存の手法は主として暗黙的なクロスモーダル整合に依存しており、解釈可能性が限定的で、微細なローカライズ性能も不十分である。これらの制約に対処するために、GRASP（Grounded Chain-of-Thought ReAsoning with Dual-Stage Optimization for Multimodal Sarcasm Prediction and Target Identification）を提案する。これは、視覚グラウンディングと明示的なChain-of-Thought（CoT）推論を統合することで、ブラックボックス的なMSTIを超える枠組みである。具体的には、クラス不均衡を緩和し、多モーダルな風刺の手がかりを豊富化した洗練データセットMSTI-MAXを構築する。さらに、Grounded CoT推論を導入する。これは、推論の軌跡の中で風刺に関連する視覚領域を明示的にアンカーし、最終的な分類ラベルと風刺ターゲットを予測する前に、モデルに根拠を言語化させる。加えて、デュアルステージのアウトカム（結果）に基づく教師あり共同最適化戦略を用いる。すなわち、座標を考慮した加重損失によるSupervised Fine-Tuningの後に、微細なターゲットポリシー最適化を行う。大規模な実験により、GRASPが、モダリティをまたいだ微細な風刺ターゲット同定において既存のベースラインを上回ること、そしてLLM-as-a-Judgeによる評価が、内部推論チェーンの品質を定量的に測定できることを示す。データセットとソースコードはGitHubで公開する。