GRASP:マルチモーダル風刺の標的同定のための、二段階最適化によるGrounded CoT推論
arXiv cs.CL / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、二値の風刺検出を超えてMultimodal Sarcasm Target Identification(MSTI)を改善するために、視覚的グラウンディングと明示的なChain-of-Thought(CoT)推論を組み合わせたマルチモーダル・フレームワークであるGRASPを提案する。
- クラス不均衡を緩和し、微細なローカライゼーションのためのマルチモーダルな風刺手がかりを強化することを目的として、MSTI-MAXデータセットを提示する。これにより、テキスト中のフレーズと視覚領域のきめ細かな特定を可能にする。
- GRASPは「Grounded CoT」を用いて、推論過程の中で風刺に関連する視覚領域を根拠付け(アンカー)し、最終ラベルおよび標的予測の前にモデルが根拠(rationale)を言語化することを要求する。
- 本手法は、座標に対応した教師あり微調整から始め、その後に微細なターゲット・ポリシー最適化を行う、二段階のアウトカム(結果)監督付きの共同最適化戦略を適用する。
- 実験では、モダリティ横断で微細な標的同定が改善したことを報告する。さらに、LLM-as-a-Judgeによる評価で内部の推論チェーンの品質を測定し、データセットとソースコードはGitHubでの公開予定である。




