AnyPoC: スケーラブルなLLMベースのバグ検出のためのユニバーサルな実行可能性(PoC)テスト生成
arXiv cs.AI / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- AnyPoCは、LLMベースのバグ報告を「実行可能なPoC(スクリプト/コマンド/入力)」へ変換し、手動検証のボトルネックをテスト生成で解消することを目的としたフレームワークです。
- 生成したPoCが成功に“偏る”ことや、報酬ハッキング/幻覚によって非機能なPoCや虚偽の実行痕跡を作り得る点を、多エージェントでの事実確認・反復実行・独立再実行と精査で抑制します。
- AnyPoCは異なるソースの候補バグ報告にも対応でき、PoC知識ベースを抽出・進化させて多様なタスクへ拡張可能としています。
- Firefox/Chromium/LLVM/OpenSSL/SQLite/FFmpeg/Redisなど12の大規模ソフトに適用し、既存のコーディングエージェントより真陽性で有効なPoCが1.3倍、偽陽性のPoC拒否が9.8倍改善したと報告されています。
- これまでに122件の新規バグを発見し、そのうち105件が確認され、45件のPoCが公式の回帰テストとして採用されたと述べています。




