DeepTest Tool Competition 2026:LLMベースの自動車アシスタントのベンチマーク
arXiv cs.AI / 2026/4/15
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、ICSE 2026におけるDeepTestワークショップで開催された、最初の大規模言語モデル(LLM)テスティング競技の結果を報告する。
- 4つの競技用ツールを、車の取扱説明書情報を検索し、関連する警告を正しく言及することを任務とするLLMベースの自動車アシスタントに対してベンチマークした。
- 競技は、システムが警告を適切に提示できないユーザー入力を見つけることに焦点を当て、失敗発見の有効性とテスト多様性を中心とした指標を用いた。
- 本報告書では、実験手法、参加した競技者ツールの概要、ならびにそれらの性能の比較結果をまとめている。




