要旨: 私たちは、EvaLatin 2026 構文解析(Dependency Parsing)タスクのための二段階システムである THIVLVC を記述する。ラテン語の文が与えられると、文長と POS n-gram の類似度を用いて CIRCSE treebank から構造的に類似したエントリを検索し、その後、大規模言語モデルに対して、取得した例と UD の注釈ガイドラインを用い、UDPipe によるベースラインの構文解析を洗練(refine)するよう指示する。私たちは 2 つの構成を提出する。1 つは検索なし、もう 1 つは検索あり(RAG)である。詩(セネカ)では、THIVLVC は UDPipe のベースラインに対して CLAS を +17 ポイント改善し、散文(トマス・アクィナス)では、その改善幅は +1.5 CLAS である。私たちのシステムと正解標準の間で生じた 300 件の相違についてのダブルブラインド誤り分析により、注釈者が全員一致した判断のうち 53.3% が THIVLVC を支持していることが明らかになり、注釈の不整合が treebank 内だけでなく treebank 間でも見られる。
THIVLVC: ラテン語のための検索拡張依存構文解析
arXiv cs.CL / 2026/4/8
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- THIVLVCは、長さとPOS n-gramの類似度を用いてCIRCSEツリーバンクから構造的に類似した文を検索する、ラテン語向けの二段階・検索拡張(Retrieval Augmented)依存構文解析システムである。
- 次に、検索で得た例とUD注釈ガイドラインをプロンプトにしたLLMを用いて、UDPipeが生成したベースラインの依存構文解析を洗練(改善)する。
- 著者らは、検索ステップの効果を切り分けるために、「検索なし」と「検索あり(RAG)」の2つのバリアントを提出している。
- セネカの詩においてTHIVLVCはUDPipeのベースラインに対してCLASを+17ポイント改善する一方、トマス・アクィナスの散文ではCLASの向上はより小さく+1.5ポイントにとどまる。
- 300件の分岐(divergences)に対する二重盲検の誤り分析からは、分析対象の分岐において注釈者がゴールドに対して全員一致で反対している場合でも、その53.3%のケースでTHIVLVCが有利であり、ツリーバンク間およびツリーバンク内における注釈の不整合が顕著であることが示唆される。




