オープンワールド条件付きモデリングにおけるタスク拡張とクロスリファインメント

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • TEXRは、オープンワールド条件付きモデリングを拡張するため、多様で未具体化のデータセットスキーマを生成し、それらを大規模言語モデルに導かれた構造化確率的生成器を用いて弱く具体化する、Task Expansion and Cross Refinement(TEXR)を提案します。
  • 分離されたデータ分割で学習を行い、分割間で合成値を見直すことで、確認バイアスを低減し、疑似値の品質を向上させるクロスモデルリファインメントを実行します。
  • 改良された合成データセットは実データと統合され、統一された条件付きモデルを訓練します。これにより、ゼロショット、少数ショット、および多数ショットの性能が、異種の表形式ベンチマーク全体で向上します。
  • 複数のバックボーンにおいて、TEXRは一貫した改善を示し、オープンワールド条件付きモデリングにおける構造化タスク拡張とクロスリファインメントの価値を浮き彫りにします。

Abstract

オープンワールド条件付きモデリング (OCM) は、観測変数とターゲットがさまざまな異種データセット間で、広大なオープンエンドなタスク宇宙から発生する任意の条件付きクエリに答えるため、単一のモデルを必要とします。現実世界のデータセットの有限の集合はこの空間のごく一部しかカバーしないため、Task Expansion and Cross Refinement (TEXR) を提案します。これは、意味データ文脈の構造化された合成と洗練を通じて、実用的なタスクカバレッジを拡大する半教師付きフレームワークです。TEXR はまず、多様な未インスタンス化データセットスキーマを生成し、それらを大規模言語モデルに導かれた構造化確率的生成器によって弱く具体化します。その後、分離されたデータ分割で訓練を行い、分割間で合成値を改訂して確証バイアスを低減し、疑似値の品質を向上させることで、クロスモデルの洗練を行います。洗練された合成データセットは実データと統合され、統一された条件付きモデルを訓練します。異種の表形式ベンチマーク全体で、TEXR は複数の OCM バックボーンに対してゼロショット・少数ショット・多数ショットの性能を一貫して向上させることを示しており、構造化されたタスク拡張とクロスリファインメントがオープンワールド条件付きモデリングを高めることを実証しています。