IndustryCode: 業界コード生成のためのベンチマーク

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

IndustryCodeは、複数の産業領域およびプログラミング言語にまたがってLLMのコード生成と理解を評価するための新しいベンチマークとして導入されており、既存の単一領域ベンチマークの限界に対処する。
このベンチマークは、125の主要な産業課題から抽出した579のサブ問題で構成され、財務、オートメーション、航空宇宙、リモートセンシングにわたる詳細な問題文とテストケースを含む。
MATLAB、Python、C++、Stataなどの多様な言語をサポートし、複雑な産業シナリオにおける実世界のコーディング要件をより適切に反映する。
報告された評価では、Claude 4.5 Opusがサブ問題で68.1%の精度、主要問題で42.5%の精度を達成しており、現在の伸びしろと、スイート全体で測定可能な性能が示されている。
著者らは、受理後にIndustryCodeデータセットと自動評価コードを公開する予定である。

概要: 大規模言語モデル（LLM）によるコード生成と理解は、産業インテリジェンスや意思決定の最適化を牽引する中核的な原動力として登場し、金融、自動化、航空宇宙などの分野で広く活用されています。近年の進展により、LLMが汎用的なコード生成において目覚ましい可能性を示すことが明らかになってきた一方で、既存のベンチマークは主に単一の領域と単一の言語に限定されています。その結果、実世界の産業アプリケーションで求められる一般化能力を効果的に評価できないだけでなく、複雑な産業シナリオで要求されるコーディング力も反映できません。このギャップを埋めるために、私たちは、複数の産業ドメインとプログラミング言語にまたがることを目的に設計された最初の包括的ベンチマークであるIndustryCodeを提案します。IndustryCodeは、125の主要な産業課題から導出された579のサブ問題で構成され、厳密な問題記述とテストケースが付随します。これは、金融、自動化、航空宇宙、リモートセンシングなど幅広い領域をカバーし、MATLAB、Python、C++、Stataといった多様なプログラミング言語を取り入れています。評価において、最高性能のモデルであるClaude 4.5 Opusは、サブ問題での総合精度68.1%、主問題での精度42.5%を達成しました。ベンチマークデータセットおよび自動評価コードは、採択後に公開される予定です。

Black Hat Asia

AI Business

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

日経XTECH

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

日経XTECH

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

日経XTECH

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

日経XTECH

IndustryCode: 業界コード生成のためのベンチマーク

要点

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

隠れた産業の心臓部ネオジム磁石、AIデータセンターやEV向けで需給逼迫

キオクシアHD次期社長に太田裕雄氏、「AI時代に応えるメモリー強化」

キオクシア、酸化物半導体で3次元DRAM サムスンと競う

キオクシアHD社長に技術畑の太田裕雄副社長 早坂社長はアドバイザーに

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

キオクシアHD社長に技術畑の太田裕雄副社長早坂社長はアドバイザーに