AI時代の「開発生産性」はどこで測るべきか?4keysの次に来るもの

アジャイル開発が浸透してからというもの、我々は「4keys(デプロイ頻度、変更のリードタイム、変更障害率、復旧時間)」を主要な指標として追いかけてきました。特に「変更障害率」は、AIが生成するコードの品質を担保する最後の砦として、今後も変わらず重要であり続けるでしょう。

しかし、それらの数字が健全でも、現場では少し違和感が出始めているのではないでしょうか。「数字上は生産性が上がっているはずなのに、なんとなく開発がうまくいっている気がしない」。そんな感覚です。

具体的には、AIのおかげで爆速になった実装スピードに対し、レビューが全く追いつかず、常にPRの山に圧倒されているような疲弊感があります。さらに、AIが書いたコードにいざ「Approve」を出そうとするとき、「本当にこれ、全パターン網羅できてる? 俺が責任取れるのか?」という得体の知れない不安に襲われることも増えました。こうなると、いくら数字上のデプロイ頻度が上がっても、チームとしての達成感や安心感はむしろ下がっているようにすら感じます。

理由は明確で、AIの登場によってゲームのルールが変わったからです。これまで重要だとされてきたが、なかなか現場では苦労してきている部分──特に「ドキュメント」や「レビュー」の質が、AI時代には決定的な差を生むようになっています。

今回は、AI駆動開発(AI-Driven Development)の時代において、本当の意味でチームの健全性を測るための新しい指標について考えてみます。

「速さ」はもう価値じゃない

まず前提として、開発速度(コーディング速度)はAIによって爆発的に上がりました。GitHub CopilotやClaude、Geminiを使えば、ボイラープレートはおろか、複雑なロジックも数秒で生成されます。

かつては「いかに速くコードを書くか」がエンジニアの腕の見せ所でしたが、今は「実現したいことをいかに明確に言語化し、構造化できるか」の勝負になりつつあります。つまり、純粋なコーディング時間を計測して「生産性が上がった!」と喜ぶのは、もはやナンセンスなんです。そこはもう、人間が頑張る領域ではなくなってきています。

新しいボトルネック:レビューと品質担保

じゃあどこで時間がかかっているのか。それは「レビュー」です。

AIは疲れを知らず、大量のコードを吐き出します。しかし、そのコードが本当に正しいのか、セキュリティホールはないか、既存の設計思想に合致しているか。これを判断するのは人間です。

「書く速度」が10倍になっても、「読む速度(理解する速度)」は変わっていません。結果として、PR(プルリクエスト)の山が積み上がり、レビュー待ちの時間がリードタイムを悪化させることになります。

新指標案:レビュー密度と手戻り率

ここで見るべきは、「生成されたコードに対して、どれだけレビューコストがかかっているか」です。

単にレビュー時間が短いのが良いわけではありません。AIが書いたコードを人間がスルーしてしまえば、後でバグとして爆発します。 「レビュー時間 ÷ 生成コード量」のバランスや、AI実装部分に対する「レビュー後の修正発生率」こそが、健全な開発ができているかの指標になります。

ドキュメントは「人間のため」だけにあらず

個人的に一番熱いのがドキュメントの扱いです。これまでは「ドキュメントを書く暇があったらコードを書け」という現場も少なくありませんでした。ドキュメントはメンテナンスされず、陳腐化し、ゴミになるのがオチだったからです。

しかし、AI時代ではこの価値観が大きく変わります。ドキュメントは人間が理解するために必要なのはもちろんですが、今やそれ以上に、AIを正しく機能させるための「燃料」として不可欠なものになりました。

「ブラックボックス化」を防ぐ唯一の砦

現場で今一番怖いのが、「AIに書かせたら動いた。でも中身はよくわからない」というブラックボックスコードの増殖です。 機能としてはリリース可能でも、チームの誰もロジックを説明できないコードは、将来的に莫大な負債(メンテナンスコスト)になります。

これを防ぐには、AIに正確なコンテキストを与えるしかありません。「このプロジェクトのアーキテクチャはどうなっているか」「データベースの命名規則は何か」。これらをAIに食わせる(RAGなどで参照させる)ことで、初めて「制御されたコード」が生成されます。

つまり、ドキュメントの品質が、そのまま成果物の品質に直結するようになりました。

新指標案:コンテキスト鮮度(Context Freshness)

測るべきはドキュメントのページ数ではなく、「ドキュメントと実装の乖離の少なさ」であり、「AIが参照可能なナレッジの網羅率」です。

ドキュメントが最新であればあるほど、AIの迷走(ハルシネーションやブラックボックス化)は減ります。「ドキュメント整備」は、もはや事務作業ではなく、AIという最強のジュニアエンジニアへの「教育コスト」として計上されるべきです。

どうやって測るのか?

「鮮度」と言われてもピンとこないかもしれませんが、最も現実的なのは「AIによる矛盾検知数」を計測することです。

定期的にAI(LLM)にドキュメントと現在のコードベースを比較させ、「実装と矛盾している記述」や「古くなった説明」を抽出させます。いわば「ドキュメントのLinter」です。この警告数がゼロに近づくほど、コンテキスト鮮度が高い状態と言えます。

構造化能力=人間の指示力

最後に、データの構造化について触れておきます。 「AIが出力するデータ構造が直感的にわかりにくかったり、これまでエンジニア界隈で積み上げられてきた設計思想が反映されていない」ということが多々あります。これはAIの性能不足というよりは、指示を出す人間側の問題であることが多いです。

AIは確率で言葉を紡ぐマシンなので、曖昧な指示には曖昧な構造で返します。「なんとなくいい感じに分類して」と頼めば、なんとなくの仕事しか返ってきません。

ここで問われているのは、人間側の「言語化能力」であり「構造化の設計能力」です。

新指標案:スキーマ適合率(Schema Fidelity)

AIとの対話回数よりも、出力されたデータ構造がシステムの設計思想(正規化、命名規則、ドメインモデル)にどれだけ適合していたかを重視すべきです。

「AIが生成した構造定義(DDLやJSONスキーマ)に対し、人間が修正を加えた割合」を計測します。これが低ければ低いほど、人間側がAIに対して、データの在り方を正しく定義・伝達できていることになります。

4keysの中で「変更障害率」だけは別格

ここまで新しい指標ばかり提案してきましたが、既存の4keysを全部捨てろと言っているわけではありません。特に冒頭でも触れた「変更障害率」だけは、AI時代においてその意味合いがより重くなっています。

人間が書くコードは「うっかりミス」がバグの原因でしたが、AIが書くコードは「自信満々の嘘」や「微妙なロジックの破綻」が原因になります。これらはレビューですり抜けやすいため、本番環境での障害率こそが、AIを正しく制御できているかの最終テストになります。

まとめ

これからの開発生産性は、以下の4点にシフトしていくと考えられます。

  1. レビュー効率: 大量の生成コードをいかに素早く、かつ正確に検証できているか。
  2. コンテキスト品質: AIのブラックボックス化を防ぐために、ドキュメントや仕様書が最新かつ高品質に保たれているか。
  3. スキーマ適合率: AIに対して曖昧さのない構造化された指示を出し、設計思想通りのデータ構造を作らせているか。
  4. 変更障害率: AIによる品質崩壊を食い止めるための、最後のガードレールとして機能しているか。

4keysが古くなったわけではありませんが、それだけで安心できる時代は終わりました。AIという「爆速のエンジン」を手に入れたからこそ、ハンドルを握る人間の「制御能力」や「ナビゲーション(ドキュメント)の質」を測るメーターが新たに必要になっています。

現場の肌感としても、コードを書く速さより、AIを御する巧みさの方が、チームの強さに直結しているのではないでしょうか。