ChunQiuTR: 中国古典の編年史における時間キー付き時間的検索

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • ChunQiuTRは、歴史研究における生成拡張(Retrieval-Augmented Generation)の新しいベンチマークとして導入され、「時間キー付き」アクセスを重視する。ここでは、主題の関連性と同様に、正しい紀年の月が重要となる。
  • 本論文は、中国古典の編年史(古代中国の史書)が抱える難しさを強調する。すなわち、時間表現は暗黙的であり、またグレゴリオ暦ではないため、検索システムが意味的にはそれらしくても、年代的には誤った証拠を返してしまいやすい。
  • ChunQiuTRは『春秋』およびその訓詁(解釈)伝統から構築され、月単位の在位キーで整理され、年代的に近い「紛らわしい例(confounders)」と組み合わせることで、現実的な時間的検索失敗を再現する。
  • 時間的整合性を改善する新しいモデルとして、CTD(Calendrical Temporal Dual-encoder:暦的時間のデュアルエンコーダ)を提案する。これは、フーリエ基盤の絶対的な暦コンテキストと、相対オフセットのバイアス付けを組み合わせることで実現する。
  • 実験では、時間キー付き評価において、意味的デュアルエンコーダのベースラインよりも一貫して改善が報告されており、時間的整合性が、忠実な歴史RAGの前提条件であると主張している。

要旨: 検索は、言語モデルが検索拡張生成(RAG)において知識へアクセスし、それを根拠づける方法を形作る。歴史研究では、しばしば対象は恣意的な関連箇所ではなく、特定の在位月に対応する正確な記録であり、そこではトピック上の関連性と同じくらい時間的な一貫性が重要になる。とりわけ難しいのは、時間が簡潔で暗黙的な、グレゴリオ暦ではない在位期間の表現として書かれ、周辺の文脈から解釈されなければならない、古代中国の編年史(史書)である。そのため、意味的にもっともらしい証拠であっても時間的には不適切になりうる。私たちは extbf{ChunQiuTR} を提案する。これは extit{春秋』} とその訓詁(解釈)伝統から構築された、時間(時点)に基づく検索ベンチマークである。ChunQiuTR は、月単位の在位キーによって記録を整理し、現実の検索失敗を模倣する chrono-near(時系列的に近い)な紛らわしい例を含む。さらに私たちは extbf{CTD}(Calendrical Temporal Dual-encoder:暦に基づく時間対応デュアルエンコーダ)も提案する。これは、フーリエベースの絶対的な暦の文脈と、相対オフセットによるバイアス付けを組み合わせた時間認識型デュアルエンコーダである。実験の結果、時間キーに基づく評価において、強力な意味ベースのデュアルエンコーダの基準モデルよりも一貫した改善が示され、時間キーに基づく検索時の時間的な一貫性が、忠実な下流の歴史RAGにとって重要な前提条件であることを支持している。コードとデータセットは href{https://github.com/xbdxwyh/ChunQiuTR}{ exttt{github.com/xbdxwyh/ChunQiuTR}} で公開している。