反復的グループ・アラインメントによる自己改善型タブラー言語モデル

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、タブularデータ生成における主要な課題として、(1) 静的な微調整ではモデルが自己生成サンプルから学習して自己修正できないこと、(2) 自己回帰目的では局所的なトークン整合性は維持される一方でグローバルな統計特性が軽視され、タブラー品質が劣化しやすいことを挙げています。
  • 提案手法TabGRAA(Tabular Group-Relative Advantage Alignment)は、生成物の自動フィードバックを用いてタブラー生成を自己改善させるための枠組みであり、反復ごとに品質の良し悪しで生成サンプルをグループ分けします。
  • TabGRAAは、現実的なパターンを強化しつつアーティファクトを抑制する「グループ相対優位(advantage)目的」を最適化し、品質シグナルの具体は固定せずモジュールとして選べる設計にしています。
  • 各ラウンドでは、品質シグナルを新たに生成された合成サンプルに対して再計算し、その自己生成シグナルに基づいてのみ言語モデルを微調整することで、最初の教師あり微調整以外のデータ漏えいリスクを抑えることを狙います。
  • 実験では、TabGRAAが忠実性・有用性・プライバシーの面で既存手法を上回り、拡散ベースのタブラー合成器とも同等以上の性能を示し、静的な統計複製から動的な自己改善生成へと前進すると報告しています。

要旨: 言語モデルは表形式データの生成に適応されてきましたが、2つの根本的な制約がなお残っています: (1) 静的な微調整では、自身が生成したサンプルから学習して自己修正に適応できないモデルが生まれること、そして (2) 自己回帰的目的関数は局所的なトークンの整合性は保持する一方で、グローバルな統計的性質を軽視するため、表の品質が劣化することです。強化学習は潜在的な解決策を提供しますが、競合する目的のバランスを取る報酬関数の設計が必要であり、表データでは実用的ではありません。そこでギャップを埋めるために、TabGRAA(Tabular Group-Relative Advantage Alignment)を提案します。これは、自動化されたフィードバックによる表形式データ生成のための初の自己改善フレームワークです。各反復において、TabGRAAは \\emph{自動化された品質シグナル}(例えば、2サンプル識別可能性分類器や距離ベースの報酬)を用いて、新たに生成されたサンプルを高品質群と低品質群に分割し、その後、現実的なパターンを強化しつつアーティファクトを罰する、群相対優位性目的を最適化します。この特定のシグナルは、フレームワークの固定された構成要素ではなくモジュールとして選択可能です。これにより、善循環的なフィードバックサイクルが確立されます。すなわち、各ラウンドでは品質シグナルを新たに \\emph{生成された合成}サンプルに対して再計算します。言語モデルは、これら自己生成したシグナルにのみ微調整されるため、アラインメント中に追加の実データ記録が公開されません。これは、最初の教師あり微調整を超えてデータ漏えいのリスクを軽減します。実験の結果、TabGRAAは忠実性、有用性、プライバシーの面で既存手法を上回り、拡散ベースのシンセサイザーと同等、あるいはそれ以上の性能を達成し、表形式合成を静的な統計複製から動的で自己改善する生成へと前進させます。