DARC-CLIP：クロスアテンションによる動的適応的リファインメントでミーム理解を行う

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

DARC-CLIPは、視覚とテキストの信号間のきめ細かな、双方向の依存関係を捉えることでミームをより適切に理解するためのCLIPベースのマルチモーダル・フレームワークです。
静的なマルチモーダル融合を、階層的なリファインメント・スタックと置き換え、双方向のアラインメントを行うAdaptive Cross-Attention Refinersと、タスクに応じて信号を適応させるDynamic Feature Adaptersを導入しています。
PrideMMベンチマーク（ヘイト、ターゲット、スタンス、ユーモア分類）で評価され、さらにCrisisHateMMデータセットで汎化性能も検証されています。
DARC-CLIPは、ヘイト検出において最強のベースラインより大きな改善（+4.18 AUROC、+6.84 F1）を含む高い性能を示しています。
アブレーション実験により、ACAR（Adaptive Cross-Attention Refiners）とDFA（Dynamic Feature Adapters）が主な性能向上要因であることが確認されています。