PrismaDV:タスクを意識した自動データユニットテスト生成

arXiv cs.LG / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • PrismaDVは、データ検証をタスク非依存として扱うのではなく、下流タスクのコードとデータセットのプロファイルを併せて解析しながらデータユニットテストを生成するAIシステムとして提案されます。
  • その手法はデータアクセスのパターンを特定し、消費側コードに潜む暗黙の前提を推定したうえで、データエラーがエンドツーエンドに与える影響をより反映した実行可能なユニットテストを作り出します。
  • PrismaDVはさらに、テスト実行と下流タスク実行から得られる“乏しいフィードバック”を用いて、タスクに適応するテストを時間とともに更新するためのプロンプト最適化フレームワークSIFTAを提案しています。
  • 5つのデータセットにまたがる60タスクを対象とした新しい2つのベンチマークで、PrismaDVはタスク非依存・タスク依存の両方のベースラインを一貫して上回り、より現実的なユニットテスト生成を実現しました。
  • 研究者らはベンチマークとプロトタイプ実装を公開し、SIFTAにより学習されたモジュール用プロンプトが、手書きや汎用のプロンプト最適化で生成したものより優れることも示しています。

Abstract

データは現代の企業にとって中核となる資源であり、下流のアプリケーションの信頼性を確保するためにデータ検証は不可欠です。しかし、既存の自動データユニットテストの枠組みは大部分がタスクに無関係です。すなわち、データを検証するものの、データを消費するコードが持つ意味論や要件を考慮しません。 私たちは、PrismaDVという複合AIシステムを提案します。このシステムは、下流タスクのコードとデータセットのプロファイルを併せて分析し、データアクセスパターンを特定し、暗黙のデータ前提を推定し、タスクを意識した実行可能なデータユニットテストを生成します。さらに、データユニットテストを時間の経過とともに特定のデータセットや下流タスクに適応させるために、「Task Adaptation(タスク適応)に対する選択的で情報量の多いフィードバック」(SIFTA)を提案します。これは、データユニットテストおよび下流タスクの実行から得られる乏しい結果を活用するプロンプト最適化の枠組みです。私たちは、5つのデータセットにまたがる60のタスクを扱う2つの新しいベンチマークでPrismaDVを評価し、データエラーがエンドツーエンドで与える影響を反映したユニットテストの生成において、タスクに無関係なベースラインおよびタスクを意識したベースラインの両方を一貫して上回ることを示します。さらに、SIFTAにより、PrismaDVのモジュールに対するプロンプトを自動的に学習でき、そのプロンプトは手作業で書かれたものや汎用のプロンプト最適化器から生成されたものよりも優れていることを示します。私たちは、ベンチマークとプロトタイプ実装を公開します。