アブストラクト: バグの自律的な発見は、現代のソフトウェア開発において依然として大きな課題である。コード生成と比べて、動的な実行環境の複雑さにより、バグ発見は大規模言語モデル(LLM)にとってかなり難しくなる。本論文では、代表的な領域としてゲーム開発を取り上げ、3つの難易度レベルにまたがって30本のゲームと124件の人手で検証済みのバグを含むベンチマークである、品質保証のためのゲーム・ベンチマーク(GBQA)を提案し、LLMがソフトウェアのバグを自律的に検出できるかどうかを評価する。このベンチマークは、ゲームを開発しスケーラブルにバグを注入するマルチエージェントシステムを用いて構築されており、その正確性を保証するために、人間の専門家がループに組み込まれている。さらに、複数ラウンドのReActループとメモリ機構を備えたベースラインの対話型エージェントを提供し、異なるLLMにわたってゲーム環境を長期的に探索してバグを検出できるようにしている。最先端のLLMに関する広範な実験から、自律的なバグ発見は依然として非常に困難であることが示される。最も性能の高いモデルである、思考モードのClaude-4.6-Opusは、検証済みバグのうち48.39%しか識別できない。GBQAは適切なテストベッドおよび評価基準を提供しており、これに関するさらなる進展が自律的ソフトウェア工学におけるギャップを埋める一助になると考えている。
GBQA:LLMを品質保証エンジニアとして評価するためのゲームベンチマーク
arXiv cs.AI / 2026/4/6
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが品質保証(QA)エンジニアとして自律的にソフトウェア不具合を発見できるかを評価するためのゲームベンチマークGBQAを提案する。
- GBQAは30本のゲームと、人手で検証された124件のバグ(難易度3段階)で構成され、マルチエージェントによってゲーム開発とバグ注入をスケール可能に行い、正確性は人間が介入して担保する。
- さらに、長期的な環境探索を目的としたReActのマルチラウンド手法とメモリ機構を備えるインタラクティブ・エージェントのベースラインを提示し、複数のLLMでバグ検出を比較する。
- 実験では最良モデル(Claude-4.6-Opusのthinking mode)でも検出率は48.39%にとどまり、自律的なバグ発見が依然として非常に難しいことが示される。
- 著者らは、GBQAが今後の自律ソフトウェアエンジニアリングの進展を測るための有用な評価基準になると主張している。



