多言語パーソナリティ認識のための、パーソナリティに基づく生成的データ拡張を用いたクロスリンガル・アテンション蒸留

arXiv cs.CL / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語データが限られている状況下でも言語横断でパーソナリティ特性を学習するために、クロスリンガル・アテンション蒸留(CLAD)を用いる多言語パーソナリティ認識手法ADAMを提案する。
  • データセット不足への対処として、英語のパーソナリティ・データセットから出発し、LLMによる翻訳ベースの生成的データ拡張を行う。さらに、Personality-Informed Generative Augmentation(PIGA)によって拡張を改善する。
  • 日本語、中国語、マレー語、フランス語の複数言語に対して拡張学習データを生成し、拡張コンポーネントの寄与を検証するための分析とアブレーション研究を含む。
  • 実験結果では、PIGAによる拡張を用いてCLADを学習した場合が、言語と言語特性のいずれにおいても標準的なBCEベースラインを上回る。平均BAスコアの向上は、Essaysデータセットで+0.0573、Kaggleデータセットで+0.0968である。
  • 著者らは、再現性とベンチマークを支援するために、モデル重み、データセット、コードを含むリポジトリを提供している。