IKNインドネシアTwitterデータに対する感情分析でPyCaret AutoMLをIndoBERT微調整と比較ベンチマーク

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、PyCaret AutoMLによる古典的手法と、IndoBERTの微調整による深層学習手法を比較し、IKNに関するインドネシア語Twitterコメントの二値感情分析をベンチマークしています。
データセットは1,472件の手動ラベル付きサンプル（ネガティブ780、ポジティブ692）で構成され、古典的モデルは10-fold交差検証で評価されました。
古典的ベースラインの中ではロジスティック回帰が最良で、精度77.57%、F1-score 77.17%を達成しました。
IndoBERT（indobenchmark/indobert-base-p1）を5エポック微調整した場合、精度89.59%、F1-score 89.37%と大幅に高い性能が得られました。
これらの結果から、Transformer型の文脈表現が非公式なインドネシアのSNSテキストの感情分類に有効であり、AutoML系のベースラインを上回ることが示されています。

要旨: 本論文は、インドネシア語のTwitterコメントに対する二値感情分析を対象として、Ibu Kota Nusantara（IKN）に関連するデータを用い、PyCaret AutoML に基づく古典的機械学習アプローチと、IndoBERT の微調整に基づく深層学習アプローチをベンチマークする。本データセットには手動でラベル付けされた 1,472 サンプルが含まれ、その内訳は負例 780 件、正例 692 件である。機械学習の設定では、ロジスティック回帰、ナイーブベイズ、サポートベクターマシンを 10 分割交差検証で評価し、古典モデルの中でロジスティック回帰が最良の性能を達成した（77.57% の精度および 77.17% の F1-score）。深層学習の設定では、indobenchmark/indobert-base-p1 モデルを 5 エポック微調整し、89.59% のテスト精度および 89.37% の F1-score を達成した。結果は、IndoBERT が機械学習のベースラインを大幅に上回ることを示しており、非公式なインドネシア語のソーシャルメディア文に対するトランスフォーマー系の文脈表現が有効であることを明らかにする。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Reddit r/LocalLLaMA

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

Tech.eu

IKNインドネシアTwitterデータに対する感情分析でPyCaret AutoMLをIndoBERT微調整と比較ベンチマーク

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

ローカルでQwen 3.6やGemma 4を動かすときの感覚

Dex、AIによる人材マッチング事業の成長に向けて530万ドル調達

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力