多言語パーソナリティ認識のための、パーソナリティに基づく生成的データ拡張を用いたクロスリンガル・アテンション蒸留

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、多言語データが限られている状況下でも言語横断でパーソナリティ特性を学習するために、クロスリンガル・アテンション蒸留（CLAD）を用いる多言語パーソナリティ認識手法ADAMを提案する。
データセット不足への対処として、英語のパーソナリティ・データセットから出発し、LLMによる翻訳ベースの生成的データ拡張を行う。さらに、Personality-Informed Generative Augmentation（PIGA）によって拡張を改善する。
日本語、中国語、マレー語、フランス語の複数言語に対して拡張学習データを生成し、拡張コンポーネントの寄与を検証するための分析とアブレーション研究を含む。
実験結果では、PIGAによる拡張を用いてCLADを学習した場合が、言語と言語特性のいずれにおいても標準的なBCEベースラインを上回る。平均BAスコアの向上は、Essaysデータセットで+0.0573、Kaggleデータセットで+0.0968である。
著者らは、再現性とベンチマークを支援するために、モデル重み、データセット、コードを含むリポジトリを提供している。

note

note

note

note

note