私たちのチームはAI生成コードを追跡しました。結果に驚きました。

Dev.to / 2026/4/12

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • この記事では、チームがオープンソースのGit履歴スキャナであるBuildermarkを使ってAI生成コードの割合を測定し、印象的な水準(全体で40%、一部のファイルでは約90%)を見つけた経緯を説明します。
  • 著者らは、AIによるコーディングが増えることに伴う運用上のリスクを3つ挙げています。すなわち、バグが出たときの責任所在が不明確になること、AIの変更が形式的に承認されてしまうレビュ―の抜け(差分の根拠が十分に検証されない状態)、そしてAI提供元の品質が変化した場合に「バス係数(bus factor)」リスクが高まることです。
  • 結果を見た後、チームはプリコミットフックを追加してAI生成行にタグ付けし、PRのAIコード比率が50%を超える場合は追加のレビューを必須にしました。
  • また、元のプロンプトの文脈がドキュメント化されていないことが多いために、結果として「1人だけが理解できる行」を追跡するための「AI負債(AI debt)」という考え方も導入しました。
  • 本稿は、AI生成行数の生データは虚栄指標(vanity metric)にすぎないと主張し、より意味のある指標として「人間が理解しないまま本番に到達するAIで書かれた行の割合」を提案します(同チームでは12%と報告されています)。

私たちのチームは、自社のコードベースのうちどれだけがAI生成かを追跡しています。その数字に私たちは驚きました。

先週、Buildermarkを導入しました。これは、Gitの履歴をスキャンして、AIが書いた行を検出・フラグ付けするオープンソースのツールです。

なぜ計測を始めたのか

どのスタートアップにも、その瞬間があります。

PRをレビューしていて、誰が書いたのか分からないことに気づく。人間なのかAIなのか。

量ベースでAI生成コードが40%に達していました。ファイルによっては90%でした。

CTOはレポートを求めました。続いて、それが何を意味するのかも尋ねました。

誰も答えを持っていませんでした。

誰も話さない3つの問題

問題1:所有権の曖昧化

AIが修正を書いたら、バグの責任は誰のもの?

私たちは、ジュニア開発者がClaudeの出力をまるで真実のように扱っているのを見つけました。理解せずにコピペしていました。

上級エンジニアは「見た目が問題なさそうだから」という理由で承認していました。

問題2:レビューのギャップ

人間が書いたコードは精査されます。AIが書いたコードは承認だけで済まされます。

AI生成の設定ファイルでセキュリティ上の問題を見つけました。人間なら決して書かないようなものです。

問題3:バス係数

AIプロバイダーが劣化したら(先月のClaudeのように)、自社の稼働速度は一晩で壊滅します。

いま私たちは、Codeiumのスタイルにベンダーロックされています。Claudeのパターン。GitHub Copilotのイディオム。

今週私たちが変えたこと

AI生成された行にタグを付ける、pre‑commitフックを追加しました。

すべてのPRで、説明文の中に割合が表示されます。

50%を超えている場合は、追加のレビューが必要です。近道はありません。

あわせて「AI債務」も追跡し始めました。これは、誰も書き留めていないプロンプトから来たせいで、ただ一人しか理解していない行のことです。

本当に重要な指標

AIコードの行数は自己満足です。

本当に重要な指標は、こうです:AI生成の行が、人間が理解することなく本番環境に生き残る割合はどれくらいか?

私たちは12%です。

つまり、コードベースの12%が壊れる可能性があり、しかもなぜか誰も分からない状態になり得ます。

あなたのチームはAIコードを計測していますか?

どれくらいの割合なら驚きますか?