概要: 大規模言語モデル(LLM)によるコード生成と理解は、産業インテリジェンスや意思決定の最適化を牽引する中核的な原動力として登場し、金融、自動化、航空宇宙などの分野で広く活用されています。近年の進展により、LLMが汎用的なコード生成において目覚ましい可能性を示すことが明らかになってきた一方で、既存のベンチマークは主に単一の領域と単一の言語に限定されています。その結果、実世界の産業アプリケーションで求められる一般化能力を効果的に評価できないだけでなく、複雑な産業シナリオで要求されるコーディング力も反映できません。このギャップを埋めるために、私たちは、複数の産業ドメインとプログラミング言語にまたがることを目的に設計された最初の包括的ベンチマークであるIndustryCodeを提案します。IndustryCodeは、125の主要な産業課題から導出された579のサブ問題で構成され、厳密な問題記述とテストケースが付随します。これは、金融、自動化、航空宇宙、リモートセンシングなど幅広い領域をカバーし、MATLAB、Python、C++、Stataといった多様なプログラミング言語を取り入れています。評価において、最高性能のモデルであるClaude 4.5 Opusは、サブ問題での総合精度68.1%、主問題での精度42.5%を達成しました。ベンチマークデータセットおよび自動評価コードは、採択後に公開される予定です。
IndustryCode: 業界コード生成のためのベンチマーク
arXiv cs.CL / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- IndustryCodeは、複数の産業領域およびプログラミング言語にまたがってLLMのコード生成と理解を評価するための新しいベンチマークとして導入されており、既存の単一領域ベンチマークの限界に対処する。
- このベンチマークは、125の主要な産業課題から抽出した579のサブ問題で構成され、財務、オートメーション、航空宇宙、リモートセンシングにわたる詳細な問題文とテストケースを含む。
- MATLAB、Python、C++、Stataなどの多様な言語をサポートし、複雑な産業シナリオにおける実世界のコーディング要件をより適切に反映する。
- 報告された評価では、Claude 4.5 Opusがサブ問題で68.1%の精度、主要問題で42.5%の精度を達成しており、現在の伸びしろと、スイート全体で測定可能な性能が示されている。
- 著者らは、受理後にIndustryCodeデータセットと自動評価コードを公開する予定である。



