ベイズ校正によるベア関係データの自己強化型・制御可能な合成

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は、希少クラスを含む不均衡分類の下流性能を高めるために、関係(リレーショナル)/構造化タブularデータを合成する手法としてRDDG(Relational Data Generator with Dynamic Guidance)を提案する。
  • RDDGは2段階で動作し、まずコアセット選択で元データから代表サンプルを抽出し、その後インコンテキスト学習によりコアセット内の属性間のパターンや相関を推定する。
  • 生成時には、元データに含意されるリレーショナルな制約や、タスクで求められる特性を保ったままタブularデータを生成する。
  • 重要な貢献として、生成データ品質を自動評価し、生成プロセスの途中から継続的に質を最適化する「自己強化型フィードバック機構」を組み込んでいる。
  • 複数の実データおよび合成データでの実験により、RDDGはデータの忠実度と不均衡分類の両面で既存手法より優れることが示され、GitHubでコードも公開されている。

要旨: 不均衡データは現実のアプリケーションで一般的に見られます。データ合成によって、稀なクラスにおけるデータ不足問題を効果的に緩和できる一方で、LLMはテキスト生成を革新してきましたが、関係データ/構造化された表データの合成にLLMを適用することは、依然として十分に研究されていません。さらに、既存の手法には、合成プロセス全体を通じて生成データの品質を継続的に最適化する方向へLLMを導くための、有効なフィードバック機構が欠けています。本研究では、RDDG(Relational Data generator with Dynamic Guidance:動的ガイダンス付き関係データ生成器)を提案します。RDDGは、下流の不均衡分類性能を向上させるために表データを生成する、統一的なインコンテキスト学習フレームワークであり、進行的なチェーン・オブ・ソート(CoT)のステップを用います。RDDGはまず、コアセット選択により元データから代表サンプルを特定し、次にインコンテキスト学習を用いて、コアセット内の属性間に潜在するパターンと相関関係を見出し、その後、前述の制約を保持しながら表データを生成します。さらに重要なのは、生成されたデータの品質に対する自動評価を行う自己強化型のフィードバック機構を組み込み、生成プロセスを通して継続的な品質最適化を可能にする点です。複数の実データセットおよび合成データセットに関する実験結果は、RDDGがデータ忠実度と下流の不均衡分類性能の両面で、既存手法を上回ることを示しています。コードは https://github.com/cszhangLMU/RDDG で公開しています。