千夜一夜物語における自動モチーフ索引付け

arXiv cs.CL / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、千夜一夜物語を活用し、エル＝シャミーの詳しいモチーフ索引を用いて自動モチーフ検出を可能にする、モチーフ索引付けへの初の計算的アプローチを提示する。
訓練と評価のため、58,450文にわたる2,670のモチーフ表現を手動で注釈付けしたコーパスを作成した。
著者らは、モチーフ表現を検出する5つの手法を評価し、キーワードベースの検索、埋め込みモデル、LLMsを用いた生成型プロンプティングを含む。微調整済みのLlama3がF1値0.85を達成した。
本研究は民俗学的分析への潜在的応用を示し、ニュースや文学などの現代文献におけるモチーフの使用の理解を深める。

要約: モチーフは一般的ではなく、繰り返し現れる語りの要素であり、しばしば民話に元々見られる。民俗学者にとって関心があるだけでなく、モチーフは現代のニュース、文学、宣伝、その他の文化的テキストにおいて比喩的手法として現れる。元の民俗学的テキストにおけるモチーフの表現を見つけることは、民俗学的分析（モチーフのインデックス付け）にも、モチーフの現代的な使用法（モチーフ検出と解釈）を理解することにも有用である。先行研究は、これらの問題を自動的な技術で対処することの難しさを主に示してきた。我々はモチーフ索引付けへの初の計算的アプローチを提示する。データの選択は重要な推進力である：広く利用可能な大規模なテキスト（『千夜一夜物語』）を、詳細なモチーフ索引（2006年のEl-Shamyによるもの）と組み合わせ、索引が指すテキストへのアクセス不能という共通の問題を克服する。我々は訓練と評価のために、58,450文にわたって2,670のモチーフ表現、200種類の異なるモチーフを手動で注釈付けしたコーパスを作成した。モチーフ表現をモチーフ索引項目から検出するための5種類のアプローチを試した：(1) キーワードを用いたクラシックな検索と再ランク付け、微調整済みのクロスエンコーダを用いる；(2) 市販の埋め込みモデル；(3) 微調整済みの埋め込みモデル；(4) Nショット設定での市販LLMの生成的プロンプト；(5) LoRAで微調整されたLLMでの同じ生成的アプローチ。我々の最も高い性能を示すシステムは、微調整済みのLlama3モデルで、全体のF1スコア0.85を達成する。