私たちのチームは、自社のコードベースのうちどれだけがAI生成かを追跡しています。その数字に私たちは驚きました。
先週、Buildermarkを導入しました。これは、Gitの履歴をスキャンして、AIが書いた行を検出・フラグ付けするオープンソースのツールです。
なぜ計測を始めたのか
どのスタートアップにも、その瞬間があります。
PRをレビューしていて、誰が書いたのか分からないことに気づく。人間なのかAIなのか。
量ベースでAI生成コードが40%に達していました。ファイルによっては90%でした。
CTOはレポートを求めました。続いて、それが何を意味するのかも尋ねました。
誰も答えを持っていませんでした。
誰も話さない3つの問題
→ 問題1:所有権の曖昧化
AIが修正を書いたら、バグの責任は誰のもの?
私たちは、ジュニア開発者がClaudeの出力をまるで真実のように扱っているのを見つけました。理解せずにコピペしていました。
上級エンジニアは「見た目が問題なさそうだから」という理由で承認していました。
→ 問題2:レビューのギャップ
人間が書いたコードは精査されます。AIが書いたコードは承認だけで済まされます。
AI生成の設定ファイルでセキュリティ上の問題を見つけました。人間なら決して書かないようなものです。
→ 問題3:バス係数
AIプロバイダーが劣化したら(先月のClaudeのように)、自社の稼働速度は一晩で壊滅します。
いま私たちは、Codeiumのスタイルにベンダーロックされています。Claudeのパターン。GitHub Copilotのイディオム。
今週私たちが変えたこと
AI生成された行にタグを付ける、pre‑commitフックを追加しました。
すべてのPRで、説明文の中に割合が表示されます。
50%を超えている場合は、追加のレビューが必要です。近道はありません。
あわせて「AI債務」も追跡し始めました。これは、誰も書き留めていないプロンプトから来たせいで、ただ一人しか理解していない行のことです。
本当に重要な指標
AIコードの行数は自己満足です。
本当に重要な指標は、こうです:AI生成の行が、人間が理解することなく本番環境に生き残る割合はどれくらいか?
私たちは12%です。
つまり、コードベースの12%が壊れる可能性があり、しかもなぜか誰も分からない状態になり得ます。
あなたのチームはAIコードを計測していますか?
どれくらいの割合なら驚きますか?


