要旨: ミームにおけるヘイトスピーチの検出は、それらがマルチモーダルであることに加え、皮肉や文脈のような微妙で文化的に根ざした手掛かりがあるため困難です。近年の視覚言語モデル(VLM)はテキストと画像をまたいだ共同推論を可能にしますが、エンドツーエンドのプロンプトは脆くなり得ます。なぜなら、単一の予測によって、対象、立場、暗黙性、そしてアイロニーを同時に解決する必要があるからです。これらの課題は多言語環境ではさらに増幅します。そこで本研究では、LT-EDI 2026の共有タスクにおける同性愛嫌悪(ホモフォビア)とトランスフォビアの検出のために、ミーム理解を、対象を絞った質問に基づくラベリング関数へと分解し、回答オプションを制約する、プロンプト付き弱教師あり学習(PWS)アプローチを提案します。対象を絞った質問に答えて特徴を抽出するために、量子化したQwen3-VLMを用いることで、本手法は直接的なVLM分類よりも性能が高くなります。中国語とヒンディー語で特に大きな改善が見られ、英語で1位、中国語で2位、ヒンディー語で3位を達成しました。誤りに基づくLF拡張と特徴の剪定(プルーニング)による反復的な改良により、冗長性が低減され、汎化性能が向上します。本結果は、多言語のマルチモーダルなヘイトスピーチ検出において、プロンプト付き弱教師あり学習が有効であることを示しています。
MemeScouts@LT-EDI 2026:適切な問いを立てる——プロンプトによる弱い教師あり学習でミームのヘイトスピーチを検出する
arXiv cs.CL / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ミームのヘイトスピーチ検出は、ミームがマルチモーダルであり、皮肉・文脈・アイロニーといった文化的に根ざした微妙な手がかりに依存するため難しく、さらに多言語環境では難度が増します。
- 本論文は prompted weak supervision(PWS)を提案し、ミーム理解を、同性愛嫌悪およびトランスフォビア検出向けに、選択肢を制約した「質問ベースのラベリング関数」に分解します。
- 縮小化(quantized)したQwen3-VLMに対象質問へ答えさせることで特徴を抽出し、直接のエンドツーエンドVLM分類よりも優れていることを示します。
- 提案手法はLT-EDI 2026の共有タスクで、英語1位・中国語2位・ヒンディー語3位を達成し、とりわけ中国語とヒンディー語で大きな改善が得られます。
- 誤りに基づいてラベリング関数を反復的に拡張し、特徴をプルーニングすることで冗長性を減らし一般化性能を高められることが示され、多言語マルチモーダルなヘイトスピーチ検出におけるPWSの有効性が裏付けられます。

