要旨: 古典サンスクリット文学のデジタル化は、注釈付きリソースの不足、特に固有表現認識(Named Entity Recognition)向けの不足によって妨げられている。近年の手法では汎用の大規模言語モデル(LLM)をデータ拡張に利用するものの、これらのアプローチは依然として誤りを起こしやすく、しばしば古典文法に必要とされる推論の深さを欠いている。本研究では、高品質なしきい値(シルバースタンダード)のサンスクリットNERデータセットであるNaamahを導入する。これは102,942文から成る。DBpediaからのエンティティ抽出と、24Bパラメータのハイブリッド推論モデルの生成能力を組み合わせることで、文法的に自然でかつ合成的に多様な学習データを作成する手法を提案する。本データセットを用いて、2つのトランスフォーマーアーキテクチャをベンチマークする。すなわち、巨大な多言語XLM RoBERTaと、パラメータ効率に優れたIndicBERTv2である。
Naamah:DBpediaのシーディングとLLM生成による大規模合成サンスクリットNERコーパス
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、古典文学のデジタル化を妨げる要因として、Named Entity Recognition(NER)向けのサンスクリット注釈リソースが不足している点を扱っています。
- DBpediaからのエンティティ抽出とLLMによるデータ生成を組み合わせて作成された「silver standard」のサンスクリットNERコーパス、Naamahを提案し、文数は102,942文です。
- 生成には24Bパラメータのハイブリッド推論モデルを用い、文法的に自然で合成的に多様な学習データを作ることで、誤りが起きやすい汎用LLMによるデータ拡張を改善することを狙っています。
- 新しいデータセットを用いて、トランスフォーマー2モデル(多言語XLM RoBERTaと、パラメータ効率の高いIndicBERTv2)をベンチマークしています。
- 全体として、知識ベースのシーディングと構造化されたLLM生成を組み合わせ、古典文法に配慮が必要なNLPタスクの学習データ品質を高める取り組みです。




