Web規模データとアンサンブルLLM注釈による一般化されたクロスリンガル差別・憎悪表現検出への道筋

arXiv cs.CL / 2026/4/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、Web規模のラベルなし多言語テキストに加えてLLMが生成した合成ラベルを用いることで、4言語（英語、ドイツ語、スペイン語、ベトナム語）にまたがる差別・憎悪表現検出が改善されるかどうかを評価する。
ラベルなしWebデータ上でBERTを継続事前学習し、その後に教師あり微調整を行うことで、16のベンチマークにおいてマクロF1が約3%向上し、特に低リソース設定でより大きな効果が得られる。
3種類のLLMアンサンブル注釈手法（平均化、多数決、LightGBMによるメタ学習器）を比較し、LightGBMアンサンブルが一貫して最も良いことを見いだす。
合成ラベルで小型モデルを学習すると大きな改善が得られる（例：Llama3.2-1BはプールF1で約+11%）。一方で、大型モデルの改善はわずかである（例：Qwen2.5-14Bは約+0.6%）。
著者らは総合的に、Web規模のラベルなしデータとLLMアンサンブル注釈を組み合わせることが、とりわけ小型モデルや低リソース言語に対して有益であると結論づけている。

Abstract

本研究では、大規模なラベルなしWebデータとLLMベースの合成注釈が、多言語のヘイトスピーチ検出を改善できるかどうかを検討する。4つの言語（英語、ドイツ語、スペイン語、ベトナム語）でOpenWebSearch.eu~(OWS)経由でクロールしたテキストから出発し、2つの補完的な戦略を追究する。第一に、BERTモデルに対して、ラベルなしのOWSテキスト上でマスク言語モデリングを継続して行い、その後に教師あり微調整を行うという形で、継続事前学習を適用し、16のベンチマークにわたって標準的なベースラインに比べて平均マクロF1が約3%向上し、特に低リソース環境でより大きな改善が得られることを示す。第二に、4つのオープンソースLLM（Mistral-7B、Llama3.1-8B、Gemma2-9B、Qwen2.5-14B）を用い、3つのアンサンブル戦略（平均化、多数決、LightGBMのメタ学習器）によって合成注釈を生成する。LightGBMアンサンブルは一貫して他の戦略よりも優れている。これらの合成ラベルによる微調整は、小型モデル（Llama3.2-1B: +11% のプールドF1）に対して大きく有益である一方、より大きなQwen2.5-14Bではわずかな改善にとどまる（+0.6%）。本結果は、Web規模のラベルなしデータとLLMアンサンブルによる注釈の組み合わせが、小型モデルと低リソース言語にとって最も価値が高いことを示している。

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

日経XTECH

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

日経XTECH

Web規模データとアンサンブルLLM注釈による一般化されたクロスリンガル差別・憎悪表現検出への道筋

要点

Abstract

関連記事

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

SBGの特許が2年連続1万件超公開、AIが変えた「発明」のつくり方

新卒ビジネス職を1カ月で技術者へ転換、TOKIUM AI時代は皆「越境人材」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵