GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

arXiv cs.AI / 4/6/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

Key Points

  • この論文は、LLMが品質保証(QA)エンジニアとして自律的にソフトウェア不具合を発見できるかを評価するためのゲームベンチマークGBQAを提案しています。
  • GBQAは30本のゲームと、人手で検証された124件のバグ(難易度3段階)で構成され、マルチエージェントでゲーム開発とバグ注入をスケール可能に行い、正確性は人間が介入して担保しています。
  • さらに、長期的な環境探索を目的としたReActのマルチラウンド手法とメモリ機構を備えるインタラクティブ・エージェントのベースラインを提供し、複数のLLMでバグ検出を比較しています。
  • 実験では最良モデル(Claude-4.6-Opusのthinking mode)でも検出率は48.39%にとどまり、自律的なバグ発見は依然として非常に難しいことが示されています。
  • 著者らは、GBQAが今後の自律ソフトウェアエンジニアリングの進展を測るのに有用な評価基準になると主張しています。

Abstract

The autonomous discovery of bugs remains a significant challenge in modern software development. Compared to code generation, the complexity of dynamic runtime environments makes bug discovery considerably harder for large language models (LLMs). In this paper, we take game development as a representative domain and introduce the Game Benchmark for Quality Assurance (GBQA), a benchmark containing 30 games and 124 human-verified bugs across three difficulty levels, to evaluate whether LLMs can autonomously detect software bugs. The benchmark is constructed using a multi-agent system that develops games and injects bugs in a scalable manner, with human experts in the loop to ensure correctness. Moreover, we provide a baseline interactive agent equipped with a multi-round ReAct loop and a memory mechanism, enabling long-horizon exploration of game environments for bug detection across different LLMs. Extensive experiments on frontier LLMs demonstrate that autonomous bug discovery remains highly challenging: the best-performing model, Claude-4.6-Opus in thinking mode, identifies only 48.39% of the verified bugs. We believe GBQA provides an adequate testbed and evaluation criterion, and that further progress on it will help close the gap in autonomous software engineering.