概要: マルチモーダルな皮肉(サーカズム)の検出は、近年大きな注目を集めています。しかし、既存のベンチマークは粒度の粗い注釈と文化的カバー範囲の限界に悩まされており、細かな意味理解に関する研究を妨げています。これに対処するために、私たちは中国のソーシャルメディア向けに設計された、初の細粒度マルチモーダル皮肉データセットであるCFMSを構築します。CFMSは2,796件の高品質な画像-テキストペアで構成され、皮肉の識別、対象の認識、説明生成という3段階の注釈フレームワークを提供します。細粒度の説明注釈は、明確な皮肉の意図を伴う画像生成においてAIを効果的に導くことが分かります。さらに、高い一貫性を備えた中国語-英語の比喩(メタファー)サブセット(それぞれ200件ずつ)を厳選し、比喩的推論において現行モデルが抱える重大な限界を明らかにします。従来のリトリーバル手法の制約を克服するために、例示(エクザンプル)の選択を動的に最適化する、強化学習を組み込んだインコンテキスト学習戦略(PGDS)を提案します。大規模な実験の結果、CFMSは信頼できるマルチモーダル皮肉理解システムを構築するための確固たる基盤を提供し、またPGDS手法は主要タスクにおいて既存のベースラインを大幅に上回ることを示します。データとコードは https://anonymous.4open.science/r/CFMS-E8F9 で公開しています。
CFMS:説明可能かつきめ細かな中国語マルチモーダル風刺検出ベンチマークに向けて
arXiv cs.CL / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、従来のベンチマークが持つ粗いラベル付けと文化的カバー範囲の限界を克服するために設計された、中国語向けの初のきめ細かなマルチモーダル風刺検出ベンチマークCFMSを提案しています。
- CFMSは、2,796件の高品質な画像—テキストペアを収録し、風刺の識別、対象の認識、説明文生成の3段階の注釈スキームを提供します。
- きめ細かな説明注釈が、モデルの「風刺の意図」をより明示的に反映した画像生成を助けることを著者らは示しています。
- さらに、整合性の高い中国語—英語の比喩(メタファー)対応サブセット(各200件)も作成し、現行モデルが比喩推論で大きな制約を持つことを明らかにしています。
- 伝統的なリトリーバル手法の制約を超えるために、強化学習を組み込んだインコンテキスト学習(PGDS)で例示(エグゼンプレア)の選択を動的に最適化し、主要タスクでベースラインを大きく上回る成果を得ています。




