コーディング・エージェントは汎用エージェントになり得るか？

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この記事では、コーディング・エージェントがソフトウェア工学からエンドツーエンドの業務プロセス自動化タスクへと汎化できるかを検討する。
既存のコーディング・エージェントの評価には、実際の業務ワークフローのパフォーマンスを測るうえで大きなギャップがあると主張する。
オープンコアのERPシステムを用いたケーススタディでは、エージェントが単純なタスクを確実に完了できた。
より複雑な業務タスクでは、頑健な汎化ではなく、特徴的で一貫した失敗モードが見られた。
研究は、ドメイン固有の業務ロジックとコード実行をつなぐことが、コーディング・エージェントを広く汎用化するための中核的なボトルネックであると結論づける。

要旨: コーディング・エージェントは能力と採用が急速に伸びてきたため、利用者はそれらをソフトウェア工学以外の一般的なタスクにも適用し始めています。本記事では、コーディング・エージェントがエンドツーエンドの業務プロセス自動化へうまく一般化できるかどうかを調査します。現在の評価におけるギャップを特定し、オープンコアのエンタープライズ・リソース・プランニング（ERP）システムにおける実務的なビジネスタスクに対してコーディング・エージェントを評価するケーススタディを実施します。その結果、エージェントは単純なタスクは確実に完了できる一方で、複雑なタスクでは特徴的な失敗を示すことがわかりました。これは、ドメインのロジックとコード実行の間をつなぐことが、一般化のボトルネックの重要な要因であることを示唆しています。