MORPHOGEN:性別に配慮した形態素生成を評価するための多言語ベンチマーク

arXiv cs.AI / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、多言語LLMの文法上の性(ジェンダー)や形態素的な一致の扱いが、翻訳や質問応答のような高レベル課題に比べて十分に研究されていないと指摘しています。
  • 性別に配慮した形態素生成を対象とする多言語ベンチマーク「MORPHOGEN」を、フランス語・アラビア語・ヒンディー語の3言語で提案しています。
  • ベンチマークの主要タスク(GENFORM)では、意味と構造を保ったまま一人称文を反対の性別へ書き換えるようモデルに求めます。
  • 高品質な合成データセットを用いて、15種類の多言語LLM(2B〜70B)を評価し、形態素的な性の扱いに関するモデルの現状を示す明確なギャップを見つけています。
  • 著者らは、MORPHOGENを包括的で形態素に配慮したNLP研究を前進させるための診断的な枠組みとして位置づけています。

要旨: 多言語の大規模言語モデル(LLM)は翻訳や質問応答のような高レベルのタスクで良好な性能を示す一方で、文法上の性(ジェンダー)や形態的な一致(モルフォロジカル・アグリーメント)を扱う能力は、十分に調査されていません。形態的に豊かな言語では、性は動詞の活用、代名詞、さらには性別の明示的・暗黙的な言及を伴う一人称の構文にも影響します。私たちは、3つの類型的に多様な、文法上の性を持つ言語(フランス語、アラビア語、ヒンディー語)における性を意識した生成を評価するための、形態に基づく大規模ベンチマークデータセット「MORPHOGEN」を導入します。本研究の中核タスクであるGENFORMは、意味と構造を保持したまま、一人称の文を反対の性に書き換えることをモデルに求めます。私たちは、これら3言語にまたがる高品質な合成データセットを構築し、15の人気の多言語LLM(2B〜70B)について、この変換を行う能力をベンチマークしました。その結果、現在のモデルが形態上の性をどのように扱っているかについて、大きなギャップと興味深い知見が明らかになりました。MORPHOGENは、性を意識した言語モデリングのための焦点の定まった診断的な視点を提供し、包括的で形態に配慮したNLPに関する今後の研究の基盤を築きます。