Claude vs Codex：本番コードベース比較

MAG7企業での勤務経験を持つ14年選手のエンジニアが、今週末20時間以上かけて両ツールを実際のプロダクションコードベースで動かした。彼が発見したことを紹介する（この記事を読んだら、スタックを変えたくなるかもしれない）。 Redditでこのポストを見つけた（リンクは末尾に）。二つのツールを比較したもので、「雰囲気でコーディングする趣味の人」の視点ではなく、major tech firmのprincipal/staff eng manager相当・MAG7経験者エンジニアの視点だった点が興味深い。 ■ 共通ワークフロー（両ツールに同じルールを適用）結果に入る前に、ワークフローが重要だ。両ツールは同じ仕組みで動かした。・プランモード優先：しっかりとスコープを絞ったプロンプトを書き、8サブエージェントのplan-reviewスキルを起動。アーキテクチャレビューはSOLID・DRY・KISS・YAGNIを参照ドキュメント（postgres_performance.md、python_threading.md、software_architecture.md）付きで確認。各サブエージェントにはプロンプト強化がある。・コードフェーズ：各プランフェーズを個別にコミット。code-reviewスキルを各コミットで実行し、出力を手動レビューして方向を調整。・CLAUDE.md / AGENTS.md は両方とも約100行：TDDルール、gitワークフロー、主要なdevex規約、dockerコマンド。同じ運転手。同じルール。でもツールの挙動はまったく違った。 ■ Claudeが実際のコードベースでやること Claudeは時間に追われるシニアエンジニアのような感覚だ。賢い。速い。本当に有能だ。でも、アーキテクチャが綺麗かどうかをあまり気にせず、機能をリリースして次に進もうとする。 80k LOCのコードベースで数ヶ月間使い続けてきた人間の観察をいくつか：・100万トークンのコンテキストウィンドウは初心者向けの罠だ。25万以下に収めるほうが挙動がはるかに予測しやすい。それでも——Claudeはセッションに1回はCLAUDE.mdを無視する。明示的に書いた規約が。消えてしまったかのように。・新機能のために新しいファイルをほとんど作らない。既存ファイルに手を伸ばして拡張し続ける。C/C++出身で、ファイルを600行以下・関心の明確な分離で保ちたいエンジニアには、毎日の摩擦になる。・8スイートのテスト移行タスクを与えると、ほとんどを完了させて残りは古いパターンのまま静かに放置する。確認が必要だ。・テストの問題が複利で積み重なる。放置するとClaudeはテストを変更して、自分が目標だと思ったものに合わせてしまう。書くテストの95%は堅牢だが、5%が壊れた挙動を固定してしまう。時間が経つと、その比率が効いてくる。・プロトタイピングでのインタラクティブな速度は優秀だ。でも、出力から目を離さない熟練ドライバーが常に必要だ。 ■ Codexが実際のコードベースでやること Codexは経験5〜6年のしっかりしたエンジニアのような感覚だ。ジュニアではない。principalでもない。でも本当に思慮深い。ここから面白くなる。何度か、Codexはタスクの途中で止まり、ゴッドクラスを拡張していることに気づき、プロンプトなしにすべてをきれいなコンポーネントに自発的にリファクタリングした。Claudeだったらファイルの末尾にもう一つ関数を追加して完了にしていた。同じタスクに対してClaudeの3〜4倍遅い。これは小さな差ではない。でも手がかからない。エンジニアのワークフローはこうなった：起動して、終わったら戻ってきてレビューする。十分な実力を示してくれたので、出力を一行一行見守る必要性を感じなかった。 AGENTS.mdを一度も無視したことがない。セッション途中でのディレクティブ上書きを許可しない。その水準の指示忠実度は、ビルドのやり方を変える。何度かエンジニアが思いつかなかった改善案を出してきた。ハルシネーションではない。本当に付加価値のある判断だ。自律性は本物だ。遅さも本物だ。片方を払って、もう片方を得ているのだ。 ■ 総合的な正直な評価 Codex pro x5 の使用上限は claude x20 に近い。予算を立てる前に知っておく価値がある。 Claudeのセッションでは、より多くのものが作られる。プロトタイピングは速い。でも数日ごとにツールが積み上げた技術的負債を片付けるリファクタリングパスが発生する。 Codexでも、リファクタリングパスは発生する。ただしこれはアプリの自然な成長によるものであり、「さて何の片付けが必要か見てみよう」という感じではない。・プロトタイピングや、スピード重視の低〜中複雑度プロジェクト：Claude ・生き残って拡張し続けなければならないエンタープライズソフトウェア：Codex そして、あまり言われていない点を一つ：どちらのツールもソフトウェアエンジニアリングを知らなければゴミを生産する。これらはマルチプライヤーだ。悪い入力はより速く増幅されるだけで、修正はされない。 ■ あなたのスタックにとって何を意味するかどのシニアエンジニアもこの判断に持ち込むべきフレームワーク： 1. フェーズに合ったツールを選ぶ。探索とプロトタイピングはClaude。長持ちするものを作るときはCodex。 2. .mdファイルに投資する。CLAUDE.mdとAGENTS.mdは、強力なツールと負債の差を生む。1セッションごとに100行の丁寧な規約が返ってくる。 3. プランレビューレイヤーを構築する。一行も書く前にアーキテクチャ・コーディング基準・パフォーマンス・UIデザインをチェックする8つの専門サブエージェントはやりすぎではない。それが両ツールをプロダクショングレードにするワークフローだ。 4. テストを守る。AIコーディングツールはほっておくとテストスイートをドリフトさせる。機能するルール：変更後にテストが壊れたら止めてフラグを立てる。ツールに黙って直させてはいけない。最高のAIコーディングセットアップは、自分が実際にガバナンスできるものだ。今あなたのスタックで何を動かしているか？Claude、Codex、それとも他の何か？ @steipete がCodexをこれほど愛している理由がこれでわかる。元のポストへのリンク： https://www.reddit.com/r/ClaudeCode/s/1QpTzC54vQ

Claude vs Codex：本番コードベース比較

AIFCC — AI Fluent CxO Club