Naamah：DBpediaのシーディングとLLM生成による大規模合成サンスクリットNERコーパス

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、古典文学のデジタル化を妨げる要因として、Named Entity Recognition（NER）向けのサンスクリット注釈リソースが不足している点を扱っています。
DBpediaからのエンティティ抽出とLLMによるデータ生成を組み合わせて作成された「silver standard」のサンスクリットNERコーパス、Naamahを提案し、文数は102,942文です。
生成には24Bパラメータのハイブリッド推論モデルを用い、文法的に自然で合成的に多様な学習データを作ることで、誤りが起きやすい汎用LLMによるデータ拡張を改善することを狙っています。
新しいデータセットを用いて、トランスフォーマー2モデル（多言語XLM RoBERTaと、パラメータ効率の高いIndicBERTv2）をベンチマークしています。
全体として、知識ベースのシーディングと構造化されたLLM生成を組み合わせ、古典文法に配慮が必要なNLPタスクの学習データ品質を高める取り組みです。

要旨: 古典サンスクリット文学のデジタル化は、注釈付きリソースの不足、特に固有表現認識（Named Entity Recognition）向けの不足によって妨げられている。近年の手法では汎用の大規模言語モデル（LLM）をデータ拡張に利用するものの、これらのアプローチは依然として誤りを起こしやすく、しばしば古典文法に必要とされる推論の深さを欠いている。本研究では、高品質なしきい値（シルバースタンダード）のサンスクリットNERデータセットであるNaamahを導入する。これは102,942文から成る。DBpediaからのエンティティ抽出と、24Bパラメータのハイブリッド推論モデルの生成能力を組み合わせることで、文法的に自然でかつ合成的に多様な学習データを作成する手法を提案する。本データセットを用いて、2つのトランスフォーマーアーキテクチャをベンチマークする。すなわち、巨大な多言語XLM RoBERTaと、パラメータ効率に優れたIndicBERTv2である。