要旨: 本研究では、(最先端の)MARBERTモデルを用いて、アラビア語のツイートにおける絵文字の予測に対する機械学習(ML)を調査する。複数のアラビア語の口語方言を表すCAツイート11379件からなるコーパスを、Pythonを用いてX.comから収集した。ネットデータセットには8695件のツイートが含まれており、分析に利用された。これらのツイートは14カテゴリに分類され、数値化してラベルとして用いた。語彙的特徴と絵文字カテゴリの関係を検討できるように、解釈可能なベースラインとして前処理パイプラインを設計した。MARBERTを微調整し、テキスト入力から絵文字の使用を予測できるようにした。モデルの性能は、適合率、再現率、F1スコアの観点で評価した。結果は、モデルが全体の正確度0.75でかなり良好に機能したことを示している。本研究は、知見が有望である一方で、MARBERTを含む機械学習モデルを改善する必要が依然としてあると結論づける。特に、アラビア語のような低リソースかつ多方言の言語を対象とする場合である。
機械学習とデジタル・プラグマティクス:どの語彙カテゴリが絵文字の使用に最も影響するのか?
arXiv cs.LG / 2026/4/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、複数のアラビア口語方言に着目し、微調整したMARBERTモデルでアラビア語ツイートから絵文字の使用を予測する。
- 8,695件のアラビア口語ツイートを収集し、14の絵文字関連カテゴリに分類して数値エンコードしたラベル付けを行った。
- 解釈可能な前処理ベースラインを設計し、語彙(単語)特徴と絵文字カテゴリの関係を分析できるようにした。
- 精度・再現率・F1スコアで評価した結果、モデルは全体で0.75の精度を達成した。
- 著者らは、結果は有望だが、アラビア語のような低リソースかつ多方言の言語ではMLモデルの改善がなお必要だと結論づけている。



