非類似スパン検出による説明可能な意味的テキスト類似度

arXiv cs.CL / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、意味的テキスト類似度(STS)をより解釈可能にするために、単一の総合スコアを出すだけでなく、類似度を低下させる特定のスパン(部分列)を特定する「非類似スパン検出(Dissimilar Span Detection: DSD)」を提案する。
  • 新しいデータセット「スパン類似度データセット(Span Similarity Dataset: SSD)」を公開する。これは、LLMが生成した注釈と人手による検証を組み合わせた半自動パイプラインにより作成された。
  • 著者らは、DSDに対して複数のベースライン手法を評価している。LIME/SHAPを用いた教師なし手法、LLMベースの手法に加え、テストしたベースラインの中で最も良い性能を示す教師ありモデルも含まれる。
  • LLMや教師ありモデルによって性能は改善されるものの、全体としての精度は低いままである。これは、タスク自体が本質的に難しく、信頼できる「負のスパン」の帰属(どのスパンが類似度低下に寄与したかの特定)が難しいことを示している。
  • 追加実験として、DSDのシグナルを関連する下流タスク(例:言い換え検出)に用いることで、パフォーマンスが向上し得ることが示されている。

Abstract

セマンティックテキスト類似度(STS)は、多くの自然言語処理(NLP)アプリケーションにおける重要な構成要素です。しかし、既存の手法は通常、意味上のニュアンスを単一のスコアに還元してしまい、解釈可能性が制限されます。これに対処するために、2つのテキストの組の間に存在する意味的に異なるスパンを特定することを目的とする「非類似スパン検出(Dissimilar Span Detection: DSD)」の課題を提案します。これにより、どの特定の単語やトークンが類似度スコアを低下させているのかをユーザが理解するのに役立つほか、STSに依存する下流タスクの性能向上に利用できます。さらに、LLM(大規模言語モデル)と人間による検証を組み合わせたセミオートメーションのパイプラインによって開発された、当該課題に適した新しいデータセット「スパン類似度データセット(Span Similarity Dataset: SSD)」を公開します。私たちはDSDのための異なるベースライン手法を提案・評価します。これらは、LIME、SHAP、LLMに基づく教師なし、および私たち独自の手法、さらに追加の教師ありアプローチの両方を含みます。LLMや教師ありモデルが最高の性能を達成する一方で、全体としての結果は依然として低く、課題の難しさが際立ちます。最後に、DSDが言い換え検出(paraphrase detection)という特定のタスクにおいて性能向上につながり得ることを示す追加実験を設定します。