ソフトウェア業界は、人工知能(AI)でコードを書くことを急いでいます。しかし、出荷後にそのコードがきちんと機能するかどうかを保証することに、ひどく苦戦しています。
米国、英国、欧州連合(EU)にまたがる大企業のシニアSRE(サイト信頼性エンジニアリング)およびDevOpsリーダー200人を対象にした調査は、AIによるコーディング・ブームに組み込まれた「見えないコスト」の実態を、鮮明に描き出しています。VentureBeatのパブリック公開前に独占的に共有されたLightrunの2026年版「State of AI-Powered Engineering Report」によれば、AIが生成したコード変更のうち43%は、品質保証(QA)およびステージングのテストを通過した後でも、本番環境では手作業によるデバッグが必要になります。回答者の中で、自社がAIが提案した修正を「1回の再デプロイだけで」検証できると述べた人は一人もいませんでした。88%が「2〜3回のサイクル」が必要だと報告し、11%は「4〜6回」を要すると答えました。
これらの結果は、AI生成コードが世界中の企業に対して、息をのむような速さで広がっているまさにそのタイミングで明らかになりました。マイクロソフトのCEOサティア・ナデラも、グーグルのCEOスンダル・ピチャイも、それぞれの企業のコードの約4分の1が現在AIによって生成されていると主張しています。AIOps市場――これらのAI駆動の運用を管理・監視するために設計されたプラットフォームおよびサービスのエコシステム――は2026年に189.5億ドルに達し、2031年には377.9億ドルにまで成長すると見込まれています。
しかし、このレポートは、AI生成によるミスを捕まえるためのインフラが、AIがそれらを生み出す能力に対して大幅に追いついていないことを示唆しています。
"0%という数字は、AI導入によりエンジニアリングが『信頼の壁』にぶつかっていることを示しています"と、Lightrunの最高事業責任者(CBO)であるオア・マイモンは述べました。これは、調査で「AI生成コードがデプロイ後に正しく動作すると非常に確信している」と自分たちを表現したエンジニアリングリーダーがゼロ%だった、という発見を指しています。 "業界が生産性向上を重視してきたことで、AIは必須になりましたが、私たちは明確な負の影響を目にしています。AI生成コードがシステムに入ってくると、単に量が増えるだけではありません。デプロイのパイプライン全体が遅くなるのです。"
Amazonの3月の障害が示したもの:ガードレールなしでAI生成コードが出荷されたときに何が起きるか
危険性はもはや机上の空論ではありません。2026年3月上旬、Amazonは注目を集める一連の障害を経験し、Lightrunの調査が述べるまさにその失敗パターンが裏付けられました。3月2日、Amazon.comでは約6時間に及ぶ中断が発生し、その結果、12万件の注文が失われ、ウェブサイトのエラーが160万件発生しました。3日後の3月5日には、より深刻な障害が店舗(ストアフロント)を襲いました――6時間続き、米国の注文量が99%減少し、約630万件の注文が失われました。いずれの事案も、適切な承認を経ずに本番環境へデプロイされたAI支援のコード変更に起因すると特定されました。
影響は迅速に広がりました。Amazonは、335の重要なシステム全体にわたる90日間のコード安全性リセットを開始し、AI支援のコード変更は、デプロイ前にシニアエンジニアによる承認が必要になりました。
マイモンは、Amazonの一連の出来事を直接指摘しました。"この不確実性は仮説に基づくものではありません"と彼は言います。"私たちは3月の初めに立ち返る必要があります。北米のAmazon.comが、確立されたガードレールなしに実装されたAI支援の変更によってダウンしたときのことです。"
これらのAmazonの事例は、Lightrunのレポートが調査データで定量化した、中心的な緊張関係を示しています。AIツールは前例のない速さでコードを生み出せますが、本番環境でそのコードを検証し、監視し、信頼するための仕組みは、そのペースに追いついていません。グーグル自身の2025年DORAレポートも、この状況と整合する結果を示しており、AI導入はコードの不安定性の増加と相関していること、そしてAI生成コードに対して30%の開発者がほとんど、またはまったく信頼していないと報告していることが分かりました。
マイモンは、その研究結果を次のように引用しました。"グーグルの2025年DORAレポートでは、AI導入はコードの不安定性の上昇(ほぼ10%増)と相関することが分かりました。私たちの検証プロセスは、人間のエンジニアリングの規模を前提に作られていました。しかし現在、エンジニアは膨大な量の馴染みのないコードに対する監査役になってしまっているのです。"
開発者は、自分たちが書いていないAI生成コードのデバッグに週2日を失っている
レポートで最も注目すべき発見の1つは、AI関連の検証作業に消費される人的資本の規模です。調査によると、開発者は現在、自分の仕事週の平均38%――およそ丸2日――を、デバッグ、検証、そして環境固有のトラブルシューティングに費やしています。また、回答した企業の88%では、この「信頼性のための税(reliability tax)」が、開発者の週次キャパシティの26%〜50%を占めているといいます。
これは、企業のリーダーがAIコーディング・アシスタントに投資した際に期待した生産性の配当ではありません。代わりに、エンジニアリングのボトルネックは単に移動しただけです。コードはより速く書かれるようになりましたが、それが実際に機能することを確認するのには、はるかに時間がかかるようになっています。
"ある意味で、AIはデバッグ問題をより悪化させています"とマイモンは言いました。"変更量が、人間による検証を圧倒しています。一方で生成されたコード自体は、本番(Production)環境にデプロイされたときに、期待どおりに振る舞わないことがしばしばあります。AIコーディング・エージェントは、自分のコードが実行環境でどう振る舞うかを見ることができません。"
再デプロイの問題は、時間の流出に拍車をかけます。調査対象のすべての組織で、AIが提案した単一の修正を検証するには複数回のデプロイ・サイクルが必要です。そして、さらにグーグルの2025年DORAレポートによれば、1回の再デプロイ・サイクルには平均で1日〜1週間かかるとされています。医療や金融といった規制産業では、デプロイのウィンドウが狭く設定されることが多く、コード凍結や厳格な変更管理プロトコルによって統制されています。AIの修正を検証するために3回、またはそれ以上のサイクルを要する場合、解決にかかる期間は数日から数週間へと押し広げられ得ます。
マイモンは、これらの複数サイクルが、慎重なエンジニアリング規律を反映しているという考えを退けました。"これは規律ではなく、高コストなボトルネックであり、AI生成の修正がしばしば信頼できないという事実の症状です"と彼は言います。"もし3回から1回へ移行できるなら、その38%を失っているエンジニアリング能力の大部分を取り戻せます。"
AI監視ツールは、実行中のアプリケーションの中で何が起きているかを見られない――それが本当の問題だ
生産性の低下が最も目に見えるコストだとしても、Lightrunのレポートは、より深い構造的な問題が同社の言う「実行時の可視性ギャップ(runtime visibility gap)」だと主張しています。これは、AIツールや既存の監視システムが、実際に実行中のアプリケーション内で何が起きているのかを観測できないことを指します。
調査回答者の60%が、本番インシデントを解決する上での主要なボトルネックとして、「稼働中のシステムの挙動に対する可視性が不足している」ことを挙げました。AIのSRE、またはアプリケーション性能監視ツールが本番の問題を調査しようとしたケースの44%において、必要だった実行レベルのデータ――変数の状態、メモリ使用量、リクエストの流れ――がそもそも記録されていなかったため、調査に失敗したのです。
このレポートは、AIツールが重要な環境において本質的に「見えていない」状態で稼働していることを描き出しています。エンジニアリングリーダーの97%が、AI SREエージェントは本番環境で実際に何が起きているのかについて、重大な可視性(見通し)を持たずに運用されていると回答しました。全企業の約半数(49%)が、AIエージェントはライブ実行状態に対する可視性が限定的だと報告しています。広範な可視性があると答えたのはわずか1%で、完全な可視性があると主張した回答者は1人もいませんでした。
このギャップが、小さなソフトウェアの不具合を高コストな障害へと変えてしまいます。AIが提案した修正が本番で失敗することがあるのは、実際にはそれらの43%がそうであるにもかかわらず、エンジニアはAIツールに問題の診断を任せられません。なぜなら、それらのツールはコードのリアルタイムな挙動を観測できないからです。代わりにチームは、レポートが「トライバル・ナレッジ(属人的な知見)」と呼ぶものに立ち返ります。これは、過去に同様の問題を見たことのあるシニアエンジニアの組織的な記憶で、データではなく経験から根本原因を直感的に推測できる人たちの知恵です。その調査では、重大度の高いインシデントの解決のうち54%が、AI SREやAPMによる診断エビデンスではなく、トライバル・ナレッジに依存していることが分かりました。
金融分野では、深刻なインシデント時に74%のエンジニアリングチームがAI診断より人間の直感を信頼
信頼の不足は、特に金融分野で強い影響として表れています。単一のアプリケーションエラーが1分あたり数百万ドルの損失へと連鎖し得る業界において、この調査では、金融サービスのエンジニアリングチームの74%が、深刻なインシデント時に自動化された診断データよりもトライバル・ナレッジを頼りにしていることが判明しました。これは技術分野の44%という数字よりもはるかに高い値です。
「金融は規制が非常に厳しく、リスクが高い高ストレークスな環境です。そこで単一のアプリケーションエラーは、1分あたり数百万ドルのコストになり得ます」とMaimon氏は述べました。「データは、こうしたチームが本番環境でAIが危険なミスをしないと信じていないことを示しています。これは、ツールの失敗に対する合理的な対応です。」
不信は金融の外にも広がっています。おそらくレポート全体で最も示唆的なデータポイントは、業界を問わず調査対象のどの組織も、AI SREツールを実際の本番ワークフローに移行したところが1つもない、という点です。90%は依然として実験段階、またはパイロット段階にとどまっています。残り10%はAI SREツールを評価したものの、まったく採用しないことを選びました。これは、市場の熱狂と運用現実の間に、驚くほど大きな隔たりがあることを意味します。企業はIT運用のためにAIへ積極的に投資していますが、購入したツールは、最も価値を発揮できるはずの環境から隔離されたままになっています。
Maimon氏は、これをレポートの最も重要な新事実の1つだと説明しました。「リーダーたちはこうした新しいAIツールを導入したがっています。しかし、AIがライブ環境に触れることを信頼していないのです」と同氏は言います。「信頼の欠如はデータに表れています。98%が、コーディング支援ツールでAIに対して抱くよりも、本番環境でAIが動くことへの信頼が低いのです。」
人間のスピードに合わせて作られた可観測性業界が、AIの時代に届いていない
この調査結果は、




