AI Navigate

大規模言語モデルを用いたアラビア語の形態統語タグ付けと依存構文解析

arXiv cs.CL / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、インストラクションチューニング済みの大規模言語モデルを標準アラビア語の形態統語タグ付けとラベル付き依存構文解析に適用して評価し、LLMがどれだけ明示的な言語構造を生成できるかを検証している。
  • アラビア語のツリーバンクを用いたゼロショット・プロンプトと検索ベースのインコンテキスト学習(ICL)を比較し、プロンプト設計とデモンストレーションの選択が結果に強く影響することを見出した。
  • 商用(プロプライエタリ)モデルは特徴レベルのタグ付けで教師付きベースラインに近づき、適切なプロンプトとICL設定の下で、専門の依存解析器と競合できるようになる。
  • 生テキスト環境ではトークン化は依然として難しいが、検索ベースのICLは解析とトークン化の両方の性能を向上させる。
  • 本研究は、アラビア語の形態統語と統語のどの側面をLLMが安定して捉えられるか、そしてどの側面が依然として難しいかを浮き彫りにし、今後の研究の方向性を示唆する。

概要: 大規模言語モデル(LLMs)は多くのNLPタスクで高い性能を発揮するものの、明示的な言語構造を生成する能力には依然として不明確である。標準アラビア語を対象とした2つの構造化予測タスクで、指示調整済みLLMsを評価する。タスクは形態統語的タグ付けとラベル付き依存構文解析である。アラビア語は豊かな形態学と正字法上の曖昧さのため、強い形態-統語相互作用を生み出す挑戦的なテストベッドを提供する。ゼロショットプロンプト設計と、アラビア語ツリーバンクの例を用いた検索ベースのインコンテキスト学習(ICL)を比較する。結果は、プロンプト設計とデモンストレーションの選択が性能に強く影響することを示す。独自モデルは特徴レベルのタグ付けで監視付き基準に近づき、専門的な依存パーサと競争力を持つ。生のテキスト環境では、トークン化は依然として難しいが、検索ベースのICLは解析とトークン化の両方を改善する。我々の分析は、アラビア語の形態統語と統語のどの側面をLLMsが信頼性高く捉え、どの側面が依然として困難かを浮き彫りにする。