シンディ語の比喩表現データセットの作成と評価

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、シンディ語の比喩表現分類に特化した新しいベンチマークデータセット「SiNFluD」を導入します。
データセットは、ブログ、ソーシャルメディア、文学ソースからシンディ語の生テキストを収集し、その後に人手アノテーションのためのコーパスを整備することで構築されます。
2名のネイティブ話者がDoccanoを用いてデータにラベル付けし、アノテータ間一致度（IAA）0.81を達成しています。
ベースラインとして、5-foldおよび10-foldの交差検証による実験結果が示され、mBERT、XLM-RoBERTa、XLM-RoBERTa-XL、ならびに文埋め込みモデルのfew-shot微調整にSetFitが評価されています。
その中で、事前学習済みのXLM-RoBERTa-XLがベンチマーク上で最も高い性能を示したと報告されています。

要旨: 本記事では、シンド語の比喩的言語分類のための新しいベンチマークデータセットであるSiNFluDを紹介します。まず、さまざまなブログ、ソーシャルメディアのプラットフォーム、文学的ソースから生のテキストを収集し、その後、注釈付けのためにコーパスを準備します。ネイティブの2名の注釈者が、Doccanoテキスト注釈ツールを用いてデータにラベル付けし、注釈者間一致率は0.81を達成しました。次に、5-foldおよび10-foldの交差検証によりベースライン結果を設定します。最後に、mBERT、XLM-RoBERTa、XLM-RoBERTa-XLモデルに加え、文埋め込み（sentence transformers）の少数ショット微調整のためのSetFitを評価します。これらの中で、事前学習済みのXLM-RoBERTa-XLが最良の性能を示します。