IDIOLEX:個人語(イドレクト)とスタイルの変動に対する統一的かつ連続的な表現

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既存の文埋め込みがしばしば意味に焦点を当て、「どのように表現されたか」を捉えることは重視されていないと主張し、意味内容とは別にスタイルや方言を表現する表現の必要性を動機づけている。
  • 本論文では、文の出自(provenance)に対する教師あり情報に加え、言語学的特徴を用いる学習フレームワークIDIOLEXを提案し、連続的な個人語(個人/コミュニティ)のスタイルと方言表現を学習する。
  • アラビア語およびスペイン語の方言データでの実験により、学習された表現が意味のある変動を捉え、分析や分類といったタスクにおいて領域をまたいで転移可能であることが示される。
  • 著者らはさらに、これらの表現を言語モデルにおけるスタイル整合(stylistic alignment)の目的関数として用いることも検証しており、よりスタイルに敏感でアクセスしやすいLLM挙動を支援することを狙っている。
  • 全体として本研究は、個人レベルとコミュニティレベルの変動を共同でモデル化することにより、下流タスクでスタイルの違いへの感度を高めることを強調している。

要旨: 既存の文の表現は、文が何を述べているか(意味内容)を主に符号化する一方で、それがどのように表現されているか(スタイルや方言)を符号化することは多くない。しかし後者は、多くの応用において重要である。これに対して本研究では、意味内容から切り離された形で、スタイルや方言を捉える文の表現を開発する。我々はこれを、イドィオレクト表現学習(idiolectal representation learning)の課題と呼ぶ。ここで我々は、各文のスタイルと方言を連続的に表す表現を学習するために、文の来歴(provenance)からの教師信号と、その内容の言語的特徴を組み合わせてモデルを訓練する枠組み IDIOLEX を提案する。提案手法を、アラビア語とスペイン語の双方の方言に対して評価する。学習された表現は、有意義な変動を捉え、分析や分類のためにドメイン間での転移も可能にする。さらに、これらの表現を、スタイルに基づいて言語モデルを整列(アライン)するための訓練目的として用いることも検討する。結果は、個人レベルとコミュニティレベルの変動を共同でモデル化することが、イドィオレクトを研究するための有用な観点を提供し、また多様でアクセスしやすい LLM を開発するなど、スタイルの違いに対する感度を必要とする下流アプリケーションを支えることを示唆している。