THIVLVC: ラテン語のための検索拡張依存構文解析

arXiv cs.CL / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

THIVLVCは、長さとPOS n-gramの類似度を用いてCIRCSEツリーバンクから構造的に類似した文を検索する、ラテン語向けの二段階・検索拡張（Retrieval Augmented）依存構文解析システムである。
次に、検索で得た例とUD注釈ガイドラインをプロンプトにしたLLMを用いて、UDPipeが生成したベースラインの依存構文解析を洗練（改善）する。
著者らは、検索ステップの効果を切り分けるために、「検索なし」と「検索あり（RAG）」の2つのバリアントを提出している。
セネカの詩においてTHIVLVCはUDPipeのベースラインに対してCLASを+17ポイント改善する一方、トマス・アクィナスの散文ではCLASの向上はより小さく+1.5ポイントにとどまる。
300件の分岐（divergences）に対する二重盲検の誤り分析からは、分析対象の分岐において注釈者がゴールドに対して全員一致で反対している場合でも、その53.3%のケースでTHIVLVCが有利であり、ツリーバンク間およびツリーバンク内における注釈の不整合が顕著であることが示唆される。

要旨: 私たちは、EvaLatin 2026 構文解析（Dependency Parsing）タスクのための二段階システムである THIVLVC を記述する。ラテン語の文が与えられると、文長と POS n-gram の類似度を用いて CIRCSE treebank から構造的に類似したエントリを検索し、その後、大規模言語モデルに対して、取得した例と UD の注釈ガイドラインを用い、UDPipe によるベースラインの構文解析を洗練（refine）するよう指示する。私たちは 2 つの構成を提出する。1 つは検索なし、もう 1 つは検索あり（RAG）である。詩（セネカ）では、THIVLVC は UDPipe のベースラインに対して CLAS を +17 ポイント改善し、散文（トマス・アクィナス）では、その改善幅は +1.5 CLAS である。私たちのシステムと正解標準の間で生じた 300 件の相違についてのダブルブラインド誤り分析により、注釈者が全員一致した判断のうち 53.3% が THIVLVC を支持していることが明らかになり、注釈の不整合が treebank 内だけでなく treebank 間でも見られる。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

日経XTECH

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

日経XTECH

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

日経XTECH

THIVLVC: ラテン語のための検索拡張依存構文解析

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

10年かかるDXを1年で実現したSUBARU、生成AIは「とにかく使う」が大事

AIが数学の未解決問題を相次いで解決、証明の鍵は「形式化」

『暗黙知の次元』を再読、AIブームの最中に人間の強さを確認した

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」