物語の類似性予測のための資源としての多視点性(マルチパースペクティヴィティ)

arXiv cs.CL / 2026/3/24

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、物語の類似性予測は本質的に解釈的であると主張する。同一テキストに対して複数の等しく妥当な読みがあり得るため、それに伴って類似度判断も変わりうる。これにより、単一の正解(単一のグラウンドトゥルース)に基づく意味ベンチマークが複雑化する。
  • そこで、予測システムにこの「多視点性」を明示的に取り入れることを提案する。解釈の枠組みに精通した実務者タイプから一般向けのキャラクターまでを含む、31体のLLMパーソナ(人格)のアンサンブルを構築する。
  • SemEval-2026 タスク4のデータセットでの実験により、この手法は精度0.705を達成し、アンサンブルのサイズを大きくするほど性能が向上することが示される。
  • 本研究では、実務者パーソナは個別の精度が低い一方で、誤りの相関が小さいことが分かる。これが多数決によって大きな改善を生み、Condorcetの陪審員定理に類似した挙動と整合する。
  • 誤り分析では、性別に焦点を当てた解釈語彙と精度の間に、パーソナのカテゴリ横断で負の関係があることが特定される。これは、ベンチマークの不整合、またはグラウンドトゥルース内に欠けている解釈の可能性を示唆する。

Abstract

ナラティブ(物語)同一性の予測は、本質的に解釈を伴うタスクとして理解できる。すなわち、同じテキストに対して異なる、どれも等しく妥当な読みが存在しうるため、それにより解釈が分岐し、その結果として類似度の判断も異なってしまう。これは、単一の真値を符号化する意味評価ベンチマークにとって根本的な課題である。多視点性(multiperspectivity)を克服すべき課題として扱うのではなく、予測システムの意思決定プロセスにそれを組み込むことを提案する。この方針を検討するために、31のLLMパーソナ(人格)からなるアンサンブルを作成した。これらは、解釈フレームワークに従う実務家タイプから、より直感的で一般向けのキャラクターまで幅広い。実験はSemEval-2026 Task 4データセットで行い、システムは精度スコア0.705を達成した。精度はアンサンブルのサイズにともなって向上し、独立性が弱まった状況でのCondorcet Jury Theoremに似たダイナミクスと整合する。実務家パーソナは個別には性能が劣るが、誤りの相関が小さくなるため、多数決(majority voting)ではより大きなアンサンブル改善が得られる。誤り分析の結果、男女に焦点を当てた解釈語彙と精度の間には、すべてのパーソナカテゴリにわたって一貫した負の関連があることがわかった。これは、ベンチマークに関係しない次元への注意が向いているのか、あるいは真値(ground truth)に含まれていない妥当な解釈が存在しているのかのいずれかを示唆している。この発見は、解釈の多元性(interpretive plurality)を考慮できる評価フレームワークの必要性を強調する。