MEME-Fusion@CHiPSAL 2026:ネパールのミームに対するヘイト検出とセンチメント分析のマルチモーダル・アブレーション研究

arXiv cs.CL / 2026/4/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • 本論文は、デーヴァナーガリー文字で書かれたネパールのミームに対して、ヘイトスピーチ検出とセンチメント分類を行うCHiPSAL 2026の共催タスク向けシステムを提案している。
  • CLIP(画像)とBGE-M3(多言語テキスト)を4ヘッド自己注意と学習可能なゲーティング・ネットワークで接続し、サンプルごとにモダリティの寄与度を動的に重み付けするハイブリッドなクロスモーダル・アテンション融合を用いる。
  • 8つのモデル構成での評価の結果、サブタスクA(2値ヘイト検出)ではテキストのみのベースラインに対して、クロスモーダル推論がF1-macroを5.9%向上させることを示した。
  • 低リソースかつ文字体系依存の状況において、デーヴァナーガリーでは英語中心のビジョンモデルがほぼランダムに近い性能になること、また一般的なアンサンブル手法が相関する過学習によりデータ不足下で壊滅的に悪化し得ることの2点を明らかにしている。
  • 提案手法のコードはGitHubで公開されており、再現性と今後の研究のために利用できる。

Abstract

デーヴァナーガリー文字で書かれたソーシャルメディア・ミームにおけるヘイトスピーチ検出は、複合的な困難を伴います。すなわち、マルチモーダルなコンテンツ構造、文字体系に固有な言語的複雑性、そして低リソース環境における極端なデータ不足です。本論文では、CHiPSAL 2026の共有タスクに向けた我々のシステムを提示し、サブタスクA(2値のヘイトスピーチ検出)とサブタスクB(3クラスの感情分類:ポジティブ、ニュートラル、ネガティブ)の双方に取り組みます。我々は、視覚エンコーディングにCLIP(ViT-B/32)を用い、多言語テキスト表現にBGE-M3を用いるハイブリッド・クロスモーダル注意融合アーキテクチャを提案します。これらを、4ヘッドの自己注意と、サンプルごとにモダリティ寄与を動的に重み付けする学習可能なゲーティング・ネットワークによって接続します。8つのモデル構成にわたる体系的な評価により、明示的なクロスモーダル推論が、サブタスクAにおいてテキストのみのベースラインに対してF1-macroで5.9%の改善をもたらすことを示します。一方で、想定外ではあるものの重要な2つの発見も明らかになりました。すなわち、英語中心の視覚モデルはデーヴァナーガリー文字に対してほぼランダムな性能を示し、また標準的なアンサンブル手法は、データ不足(各フォールドでNがほぼ850)により、相関した過学習のために壊滅的に悪化するという点です。コードは https://github.com/Tri-Yantra-Technologies/MEME-Fusion/ でアクセス可能です。