推論駆動型の合成データ生成と評価

arXiv cs.AI / 2026/4/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、専門分野のマルチモーダルAIにおいて学習データが乏しい、または入手できないという課題に対し、コストの高い人手による注釈の代替として、合成データをスケーラブルな手段として提案する。
文章では、推論駆動型・シード不要・エージェント的な枠組みであるSimulaを導入し、説明可能で制御可能な手順によってユーザがデータセットの特性を指定できる一方で、大規模に合成データセットを生成する。
著者らは、手作業のプロンプト、進化的探索、または大規模なシード集合に依存する既存手法よりもSimulaが優れていると主張しており、より細かなリソース配分とより良い制御を可能にする点を挙げる。
本研究では、Simulaを、データセット固有の性質と、複数のデータセットにわたる下流モデル性能の両方について、厳密なテストにより評価する。
さらに、合成データ機構の設計ガイドラインと評価に関する知見を提供し、データが乏しい、またはプライバシー制約のある領域におけるAI開発の拡大を目指す。

概要：関心のある多くのAIアプリケーションは専門的なマルチモーダル・モデルを必要とするものの、そのようなモデルを訓練するための関連データは本質的に乏しい、あるいは入手できない。こうしたギャップを人手のアノテータで埋めることは、費用が極めて高く、誤りやすく、時間もかかるため、モデル構築者はますます合成データをスケーラブルな代替手段として検討するようになっている。しかし、既存の合成データ生成手法はしばしば、手作業によるプロンプト、進化的アルゴリズム、あるいは対象分布からの大規模なシードデータに依存しており、その結果、スケーラビリティ、説明可能性、制御性が制限される。本論文では、Simula：データ生成と評価のための、推論駆動型の新しい枠組みを提案する。我々の手法は、シードレスかつエージェント的なアプローチを用いて、大規模に合成データセットを生成する。これにより、ユーザは説明可能で制御可能なプロセスを通じて、望ましいデータセットの特性を定義でき、きめ細かな資源配分が可能になる。さまざまなデータセットに対して提案手法の有効性を示し、内在的な性質と下流での性質の両方を厳密に検証する。我々の研究は、（1）合成データのメカニズム設計に関する指針を提供し、（2）合成データを大規模に生成・評価するための洞察を提供し、そして（3）データの乏しさやプライバシー上の懸念が最優先となる領域においてAIを開発・展開するための新たな機会を切り拓く。