インドネシアのECレビューに対する感情分析でのLightGBMとBiLSTMのベンチマーク

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

共有:

要点

本研究は、PyCaret AutoMLによる従来の機械学習と、深層学習を比較し、Hugging Faceから取得した15,000サンプルのインドネシアECレビューの感情分析を評価しています。
機械学習ではLightGBM、ロジスティック回帰、SVMを検証し、深層学習では双方向LSTM（BiLSTM）で逐次的な文脈を捉えます。
結果としてBiLSTMが最も良い性能を示し、精度98.87%およびF1スコア98.87%を達成しました。
機械学習の中ではLightGBMが最良で、精度98.23%を示しつつ学習時間も非常に効率的でした。
著者らは、この感情分類タスクにおいてインドネシア語レビューの逐次的な意味を捉える点でBiLSTMが特に有効だと結論づけています。

要旨: 本研究は、自然言語処理（NLP）における2つの主要なアプローチの比較分析を提示する。すなわち、PyCaret AutoMLフレームワークを用いた機械学習（ML）と、深層学習（DL）である。評価は、Hugging Face から取得したインドネシアのECレビューのデータセットを用いた感情分析タスクで実施する。データセットは15,000サンプルで構成され、学習用、検証用、テスト用の各データセットに分割されている。MLの実験では LightGBM、ロジスティック回帰、サポートベクターマシン（SVM）アルゴリズムを比較し、一方でDLの実験では双方向長短期記憶（BiLSTM）アーキテクチャを実装する。実験結果は、BiLSTMモデルがすべてのMLモデルを上回り、精度98.87 extbackslash%およびF1スコア98.87 extbackslash%を達成することを示している。その一方で、LightGBMは非常に効率的な学習時間で精度98.23 extbackslash%を示し、最も良い性能を発揮するMLモデルとして位置づけられる。本研究は、BiLSTMアーキテクチャがインドネシア語のレビュー文の逐次的な文脈を高い精度で捉える能力を持ち、この特定の分類タスクにおいて優れたモデルであることを証明する。

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

Dev.to

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

Dev.to

Nano Banana Pro vs DALL-E 3 vs Midjourney：3つを実際に使っている人による実用的な比較

Dev.to

LLMが86本の人間のエッセイを“どの人間著者の領域にもない意味クラスタ”へ編集した

Reddit r/MachineLearning

機械学習とNLPによるフェイクニュース検出

Dev.to

インドネシアのECレビューに対する感情分析でのLightGBMとBiLSTMのベンチマーク

要点

関連記事

シンガポールの詐欺対策フロンティア：AIによる詐欺検知には規制の精密さが不可欠

OOMから262Kへ：8GB VRAMでローカルにQwen3-Coder 30Bを動かす

Nano Banana Pro vs DALL-E 3 vs Midjourney：3つを実際に使っている人による実用的な比較

LLMが86本の人間のエッセイを“どの人間著者の領域にもない意味クラスタ”へ編集した

機械学習とNLPによるフェイクニュース検出

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer