広告

聞き手の不整合性を踏まえた流暢性の整合:低リソース言語に向けた事後学習

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、整合(アライメント)が不整の報酬モデル(disfluent reward models)によって駆動される場合でも、モデルの流暢性(fluency)を維持する低リソース言語向けの事後学習手法を提案する。
  • 多くの低リソース言語ではネイティブ話者の指示データや、流暢な合成学習データを生成するために必要な指示チューニング済みモデルが不足しているというギャップに焦点を当てる。
  • この手法は、ターゲット言語の指示チューニングデータなしで、流暢性を保ちつつ嗜好(preference)に整合した言語モデルを構築するために、オンポリシー学習(on-policy training)を用いる。
  • ノルウェー・ブークモールを対象としたケーススタディでは、ネイティブ話者による評価により、オンポリシー手法が重要であり、機械翻訳データによる教師あり微調整や多言語微調整よりも優れていることが示される。
  • 本研究は、質の高い嗜好データや流暢なジェネレータを入手しづらい環境において、言語モデルの整合における重要要件として流暢性の維持を位置付ける。

要旨: 我々は、整合が不自然な報酬モデルによって行われている場合でも言語モデルの流暢性を維持する、低資源言語向けのポストトレーニング手法を提案する。選好最適化は現在よく研究されたトピックであるが、従来の研究は主に英語および中国語のモデルを扱ってきた。低資源言語では、母語話者によって書かれたデータセットと、流暢な合成データを生成できる指示チューニング済み言語モデルの双方が不足している。この問題に対処するため、我々は、対象言語におけるいかなる指示チューニングデータも用いずに、流暢な選好整合言語モデルの開発に焦点を当てる。我々の手法はオンポリシー(on-policy)による学習方法を用いており、これを2つの一般的な代替案、すなわち機械翻訳データに対する教師ありファインチューニングおよび多言語ファインチューニングと比較する。ノルウェー語ボークモール(Bokm{}l)を対象にケーススタディを行い、流暢性を母語話者による評価によって検証する。その結果、オンポリシーであることが重要であり、入手が困難なデータに依存せずに、代替案よりも優れていることが示された。

広告