既知の意図、新しい組み合わせ：節因子分解による合成マルチインテント検出のデコーディング

arXiv cs.CL / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、より難しいマルチインテント検出の設定を扱う。すなわち、学習データに見られる馴染みのある共起パターンの繰り返しだけでなく、既知の意図の新しい組み合わせを認識することを目標とする。
合成的な汎化（compositional generalization）を測定するために、CoMIX-Shiftベンチマークを提案する。そこでは、保持（held-out）された意図ペア、ディスコース／パターンの変化、より長くノイズの多いラッパ、保持された節（クローズ）テンプレート、そしてゼロショットの意図トリプルを用いる。
singleton（単一）意図のみで学習する軽量なデコーディング手法であるClauseComposeを提案し、複数の合成的なストレステストにおいて強い完全一致性能を示す。
競合比較では、ClauseComposeは（全体発話ベースラインであるWholeMultiLabelおよび微調整した小型BERTに比べて）特に保持された意図ペアやテンプレート／コネクタの変化シナリオで大きく上回る。
著者らは、マルチインテント検出の研究と評価には、より合成的なテストを含めるべきだと結論づける。そこでは、単純な因子分解（factorized）デコーディングが意外にも効果的になり得る。

Abstract

マルチ意図検出の論文は通常、1つの発話からモデルが複数の意図を復元できるかどうかを問います。私たちは、より難しく、導入（デプロイ）においてより有用な質問を提起します。すなわち、馴染みのある意図の新しい組み合わせを復元できるか、という問いです。既存のベンチマークは、この点を十分に強く検証していません。というのも、学習とテストがしばしば同じような広い共起パターンを共有してしまうからです。私たちは、保持した意図ペア、談話パターンのシフト、より長くノイズの多いラッパー、保持した句（クローズ）テンプレート、そしてゼロショットのトリプルを通じて、マルチ意図検出における合成（コンポーショナル）汎化を強く要求する制御されたベンチマーク CoMIX-Shift を導入します。さらに、単一（シングルトン）意図だけで学習された軽量なデコーダ ClauseCompose も提示し、微調整した小型 BERT モデルを含む、発話全体ベースラインと比較します。3つのランダムシードにわたって、ClauseCompose は、未見の意図ペアで 95.7 の exact match、談話シフトされたペアで 93.9、より長くノイズの多いペアで 62.5、保持したテンプレートで 49.8、そして未見のトリプルで 91.1 を達成します。WholeMultiLabel は 81.4、55.7、18.8、15.5、0.0；BERT ベースラインは 91.5、77.6、48.9、11.0、0.0 です。加えて、5つの保持したペアを含む 240 例の手作り（手で著述された）SNIPS 風の合成セットも追加します。ここでは ClauseCompose は、未見ペアで 97.5 の exact match、コネクタ（接続詞）シフト下で 86.7 を達成します。一方、WholeMultiLabel は 41.3 と 10.4 です。これらの結果は、マルチ意図検出にはより合成的な評価が必要であり、評価がその要求をするなら、単純な因数分解（ファクタリング）は驚くほどうまく機能し得ることを示唆しています。