インドネシアのECレビューに対する感情分析でのLightGBMとBiLSTMのベンチマーク

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

要点

  • 本研究は、PyCaret AutoMLによる従来の機械学習と、深層学習を比較し、Hugging Faceから取得した15,000サンプルのインドネシアECレビューの感情分析を評価しています。
  • 機械学習ではLightGBM、ロジスティック回帰、SVMを検証し、深層学習では双方向LSTM(BiLSTM)で逐次的な文脈を捉えます。
  • 結果としてBiLSTMが最も良い性能を示し、精度98.87%およびF1スコア98.87%を達成しました。
  • 機械学習の中ではLightGBMが最良で、精度98.23%を示しつつ学習時間も非常に効率的でした。
  • 著者らは、この感情分類タスクにおいてインドネシア語レビューの逐次的な意味を捉える点でBiLSTMが特に有効だと結論づけています。

要旨: 本研究は、自然言語処理(NLP)における2つの主要なアプローチの比較分析を提示する。すなわち、PyCaret AutoMLフレームワークを用いた機械学習(ML)と、深層学習(DL)である。評価は、Hugging Face から取得したインドネシアのECレビューのデータセットを用いた感情分析タスクで実施する。データセットは15,000サンプルで構成され、学習用、検証用、テスト用の各データセットに分割されている。MLの実験では LightGBM、ロジスティック回帰、サポートベクターマシン(SVM)アルゴリズムを比較し、一方でDLの実験では双方向長短期記憶(BiLSTM)アーキテクチャを実装する。実験結果は、BiLSTMモデルがすべてのMLモデルを上回り、精度98.87 extbackslash%およびF1スコア98.87 extbackslash%を達成することを示している。その一方で、LightGBMは非常に効率的な学習時間で精度98.23 extbackslash%を示し、最も良い性能を発揮するMLモデルとして位置づけられる。本研究は、BiLSTMアーキテクチャがインドネシア語のレビュー文の逐次的な文脈を高い精度で捉える能力を持ち、この特定の分類タスクにおいて優れたモデルであることを証明する。