要約: ソーシャルメディア上のサイバーいじめは本質的に多言語で多面的であり、虐待的な行為はしばしば複数のカテゴリにまたがって重なります。既存の方法は一般的に単言語の仮定や単一タスクの定式化に制約され、それが現実的な多言語かつマルチラベルのシナリオでの有効性を制限します。本稿では、多言語・マルチラベルのサイバーいじめ検出のためのハイブリッド式マルチタスク自己学習フレームワーク HMS-BERT を提案します。事前学習済みの多言語 BERT バックボーンを基盤に、HMS-BERT は文脈表現と手作業で設計された言語特徴を統合し、細粒度のマルチラベル虐待分類タスクと三クラスの主分類タスクを共同で最適化します。低資源言語におけるラベル付きデータの不足に対処するため、信頼度ベースの疑似ラベル付けを用いた反復的自己学習戦略を導入し、クロスリンガル知識移転を促進します。4つの公開データセットでの実験は、HMS-BERT が高い性能を発揮することを示し、マルチラベルタスクで最大マクロ F1 スコア 0.9847、主分類タスクでの精度 0.6775 を達成します。アブレーション研究は、提案されたコンポーネントの有効性をさらに検証します。
HMS-BERT: 多言語・多ラベルのサイバーいじめ検出のためのハイブリッド多タスク自己学習
arXiv cs.CL / 2026/3/16
📰 ニュースModels & Research
要点
- HMS-BERTは、多言語BERTをベースとしたハイブリッドな多タスク自己学習フレームワークを提案し、多言語・多ラベルのサイバーいじめ検出を実現します。
- 本モデルは、文脈表現と手作りの言語特徴を組み合わせ、細粒度の多ラベル虐待分類タスクと三クラスの主分類タスクを共同で最適化します。
- 信頼度に基づく擬似ラベル付けを用いた反復的な自己学習戦略は、低資源言語におけるラベル付きデータの不足を解消し、クロスリンガルな知識移転を促進します。
- 4つの公開データセットでの実験により高い性能を示し、多ラベルタスクのマクロF1スコアは最大0.9847、主分類タスクの正確度は0.6775であり、アブレーション研究により構成要素の有効性が確認されました。
- この研究は、多言語・多ラベルのサイバーいじめ検出を対象とし、現実的なソーシャルメディアのモデレーション場面におけるデータ不足と言語の多様性に対処します。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning