DARC-CLIP:クロスアテンションによる動的適応的リファインメントでミーム理解を行う
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- DARC-CLIPは、視覚とテキストの信号間のきめ細かな、双方向の依存関係を捉えることでミームをより適切に理解するためのCLIPベースのマルチモーダル・フレームワークです。
- 静的なマルチモーダル融合を、階層的なリファインメント・スタックと置き換え、双方向のアラインメントを行うAdaptive Cross-Attention Refinersと、タスクに応じて信号を適応させるDynamic Feature Adaptersを導入しています。
- PrideMMベンチマーク(ヘイト、ターゲット、スタンス、ユーモア分類)で評価され、さらにCrisisHateMMデータセットで汎化性能も検証されています。
- DARC-CLIPは、ヘイト検出において最強のベースラインより大きな改善(+4.18 AUROC、+6.84 F1)を含む高い性能を示しています。
- アブレーション実験により、ACAR(Adaptive Cross-Attention Refiners)とDFA(Dynamic Feature Adapters)が主な性能向上要因であることが確認されています。




