要旨: 多言語の意図分類は、グローバルな物流プラットフォームにおける顧客サービス・システムの中核であり、モデルは言語をまたいだノイズのあるユーザー問い合わせや階層的なラベル空間を処理する必要があります。しかし、既存の多くの多言語ベンチマークは機械翻訳されたテキストに依存しており、これは通常、ネイティブの顧客要望よりもクリーンで標準化されているため、実環境における頑健性を過大評価してしまう可能性があります。私たちは、実際の物流の顧客サービスログから構築した階層的多言語意図分類の公開ベンチマークを提示します。本データセットには、約30K件の匿名化済みの単独ユーザー問い合わせが含まれており、600K件の過去記録から、フィルタリング、LLM支援による品質管理、人手による検証を通じて厳選されています。また、13の親意図と17のリーフ意図から成る2階層タクソノミーとして整理されています。対応言語として、英語・スペイン語・アラビア語が「見かけ上の言語」として含まれ、一方でインドネシア語・中国語・追加のテスト専用言語がゼロショット評価を支えるように用意されています。合成評価と実データ評価のギャップを直接測定するために、ネイティブ版と機械翻訳版のペアとなるテストセットを提供し、フラットおよび階層プロトコルのもとで、多言語エンコーダ、埋め込みモデル、ならびに小規模言語モデルをベンチマークします。その結果、翻訳されたテストセットは、ノイズのあるネイティブな問い合わせに対して、特にロングテール意図やクロスリンガル転移の領域で大幅に性能を過大評価することが示されました。これは、より現実的な多言語意図ベンチマークの必要性を強調しています。
合成からネイティブへ:物流のカスタマーサービスにおける多言語意図分類のベンチマーク
arXiv cs.CL / 2026/3/25
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文では、多くの多言語・意図分類ベンチマークが機械翻訳された文章を用いており、実際の顧客からの問い合わせよりもノイズが少なくクリーンであるため、物流のカスタマーサービスにおける頑健性(ロバスト性)の推定が過大になると主張している。
- 実データに基づく、匿名化された物流カスタマーサービスログから構築した新しい公開階層型の多言語意図分類ベンチマークを導入しており、過去データからキュレーションした約30K件の問い合わせを含む。
- データセットは2階層のタクソノミー(親意図13種、葉意図17種)を採用し、英語・スペイン語・アラビア語をカバーする。さらに、インドネシア語や中国語などの追加言語によりゼロショット評価が可能になっている。
- 合成データと実データのギャップを定量化するために、著者らはネイティブ版と機械翻訳版を対応させたテストセットを提供し、フラットおよび階層の両設定で、多言語エンコーダ、埋め込みモデル、ならびに小型言語モデルを評価している。
- 実験結果では、翻訳されたテストセットが、ノイズの多いネイティブな問い合わせに対する性能を大幅に過大評価することが示される。特に、ロングテールの意図やクロスリンガル転移の領域でその傾向が強く、より現実的なベンチマークの必要性が浮き彫りになっている。
