DARC-CLIP:クロスアテンションによる動的適応的リファインメントでミーム理解を行う

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • DARC-CLIPは、視覚とテキストの信号間のきめ細かな、双方向の依存関係を捉えることでミームをより適切に理解するためのCLIPベースのマルチモーダル・フレームワークです。
  • 静的なマルチモーダル融合を、階層的なリファインメント・スタックと置き換え、双方向のアラインメントを行うAdaptive Cross-Attention Refinersと、タスクに応じて信号を適応させるDynamic Feature Adaptersを導入しています。
  • PrideMMベンチマーク(ヘイト、ターゲット、スタンス、ユーモア分類)で評価され、さらにCrisisHateMMデータセットで汎化性能も検証されています。
  • DARC-CLIPは、ヘイト検出において最強のベースラインより大きな改善(+4.18 AUROC、+6.84 F1)を含む高い性能を示しています。
  • アブレーション実験により、ACAR(Adaptive Cross-Attention Refiners)とDFA(Dynamic Feature Adapters)が主な性能向上要因であることが確認されています。