SCHK-HTC:階層的テキスト分類のための、階層知識を考慮したプロンプト・チューニングと兄弟コントラスト学習

arXiv cs.CL / 2026/4/20

📰 ニュースModels & Research

要点

  • 本論文は、データが乏しい状況でツリー構造のラベル階層に従ってテキストを割り当てる必要がある、few-shot 階層的テキスト分類(few-shot HTC)を扱います。
  • 既存手法は親子の予測整合性などの階層的制約を利用している一方、ドメイン知識が不足する場合に、意味的に似た兄弟クラスを区別するのが難しいというボトルネックがあると指摘しています。
  • 提案手法の SCHK-HTC は、階層知識抽出モジュールと、階層知識を考慮したプロンプト・チューニングに導かれる兄弟コントラスト学習を組み合わせます。
  • ラベル階層の各レベルで識別的な表現を学習することで、紛らわしいクラスの分離性を高めます。
  • 3つのベンチマークデータセットで実験した結果、既存の最先端手法を多くのケースで上回る性能が示され、コードも GitHub で公開されています。

要旨: Few-shot 階層型テキスト分類(few-shot HTC)は、データが乏しい状況のもとで、テキストを事前に定義された木構造のラベル階層へ対応付けることを伴う、難しいタスクである。現在の手法では、ラベル階層から得られる構造的制約を用いて、親子の予測整合性を維持することが多いが、重大なボトルネックがある。それは、ドメイン知識が不十分であるために、意味的に類似した兄弟クラスを識別することが難しい点である。本論文では、few-shot HTC タスクのための階層知識を考慮したプロンプトチューニングによる兄弟コントラスト学習(SCHK-HTC)と名付けた革新的手法を提案する。我々の研究は、階層ルールを単に強制するだけでなく、より深い階層レベルにおいて兄弟クラス間の微妙な差異をモデルが認識できるように強化する。具体的には、2つの中核となる構成要素を備えた新しい枠組みを提案する。すなわち、階層知識抽出モジュールと、兄弟コントラスト学習メカニズムである。この設計により、モデルは各階層レベルで識別的特徴を符号化するよう導かれ、紛らわしいクラスの識別可能性が向上する。我々のアプローチは、3つのベンチマークデータセットすべてにおいて優れた性能を達成し、多くのケースで既存の最先端手法を上回る。コードは https://github.com/happywinder/SCHK-HTC で公開している。