教育的対話行為(ペダゴジカル・ダイアログ・アクト)のインコンテキスト注釈のためのドメイン適応型リトリーバル

arXiv cs.CL / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、生成モデル自体を微調整せずにLLMの性能を向上させる、チュータリング・ムーブ(教育的対話行為)注釈のためのドメイン適応型RAGパイプラインを提案する。
  • LLMを更新する代わりに、軽量な埋め込みモデルをチュータリング・コーパスで微調整し、発話単位のインデクシングによってラベル付きのfew-shotデモンストレーションを検索する。
  • TalkMovesおよびEediにおける実験で、複数のLLMバックボーン(GPT-5.2、Claude Sonnet 4.6、Qwen3-32b)を用いると、検索なしのベースラインよりも大幅に高い一致度(Cohen’s κ)が示される。
  • アブレーション研究から、発話単位のインデクシングが獲得の主な要因であり、ドメイン適応型リトリーバル下でtop-1のラベル一致率が顕著に上昇することが明らかになる。
  • さらに、リトリーバルはゼロショット・プロンプトに起因する体系的なラベルバイアスを低減し、まれで文脈依存のラベルに対して最大の改善をもたらすことが示される。これは、注釈の質を高めるための実用的な手段として、リトリーバルの適応が有効であることを示唆する。