要旨: 本研究は、インドネシア語のInstagramコメントにおけるサイバーバッリング検出について、機械学習と深層学習のアプローチを比較する。いじめ/非いじめとしてラベル付けされた650件のコメントからなるバランスのとれたデータセットを用い、TF-IDF特徴量によるナイーブベイズ、ロジスティック回帰、サポートベクターマシン、ならびにBiLSTMおよびBahdanau Attention付きBiLSTMを評価する。非公式なインドネシア語テキストに合わせた前処理パイプラインを適用し、スラング正規化、ストップワード除去、ステミングを含める。結果として、機械学習モデルの中ではロジスティック回帰が最も良好な性能を示し、一方で深層学習ではAttention付きBiLSTMが全体として最も強い性能を達成する。これらの知見は、ドメイン固有の前処理の価値を示すとともに、深層学習のほうが文脈パターンをより効果的に捉える一方で、機械学習も資源が限られた導入において競争力のある選択肢であり得ることを明らかにする。
インドネシア語のInstagramコメントにおけるサイバーいじめ検知のためのAutoMLとBiLSTMモデルの比較分析
arXiv cs.CL / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、ラベル付き・バランス型データセット(650件のコメント)を用いて、インドネシア語のInstagramコメントにおけるサイバーいじめを検知するための機械学習と深層学習の手法を比較します。
- 従来型モデルとしては、TF-IDF特徴量を用いたナイーブベイズ、ロジスティック回帰、SVMを評価し、ロジスティック回帰が古典的手法の中で最も良い性能を示します。
- 深層学習ではBiLSTMをベースに、Bahdanau Attentionを組み合わせたBiLSTMも検証し、注意機構付きBiLSTMが全体で最も高い性能を達成します。
- 非公式なインドネシア語テキスト向けに、スラングの正規化、ストップワード除去、ステミングといったドメイン特化の前処理パイプラインを適用し、この調整が有効性の向上に寄与すると述べています。
- 著者らは、深層学習が文脈的な手がかりをより捉えやすい一方で、計算資源が限られる運用では機械学習も十分に競争力のある選択肢だと結論づけています。