ハーネスこそがすべて：AIツールの本質

ハーネスがすべて：Cursor、Claude Code、Perplexity が実際に構築したものあなたが AI をうまく使えていないのは、適切なモデルを見つけていないからではありません。適切な環境を構築していないからです。一部のチームがエージェントの書いたコードで何百万行も出荷している一方、別のチームが3ステップの命令に従うチャットボットを作るのに苦労している理由があります。その差はモデルではありません。それを取り囲むものの差です。モデルはほぼ関係ありません。ハーネスがすべてです。ハーネスとは、言語モデルが動作する完全に設計された環境を指します。呼び出せるツール、受け取る情報のフォーマット、履歴の圧縮と管理方法、エラーが連鎖する前にキャッチするガードレール、そして将来の自分に作業を引き渡しながら一貫性を失わないためのスキャフォールドを含む、すべてです。 ## 研究から得られたエビデンスプリンストン大学の SWE-agent 論文は、同じモデルがインターフェース設計によって劇的に異なる結果を出すことを実証しました。GPT-4 を標準的な bash シェルで使用した場合は問題の 3.97% を解決しましたが、同じモデルを専用の Agent-Computer Interface（ACI）と組み合わせた場合は 12.47% を解決しました——環境の変更だけで相対的に 64% 向上しました。 ## 4つの ACI コンポーネント **検索とナビゲーション**：検索結果を50件に上限設定することで、コンテキストの氾濫を防ぎ、エージェントを広範なクエリより特定性の高いものへ誘導します。 **ファイルビューア**：明示的な行番号と状態に基づいた位置情報を持つ100行表示により、数えたり計算したりするタスクを省いて認知負荷を下げます。 **リンティング付きファイルエディタ**：即時の構文検証により、問題が発生した瞬間にキャッチしてエラーの連鎖を防ぎます。 **コンテキスト管理**：5ターン以上前のやり取りをサマリーに折りたたむことで、限られたコンテキストリソースを管理しながら関連情報を保持します。 ## Anthropic のマルチセッションアーキテクチャ Anthropic は、ほとんどの実際のプロジェクトが単一のコンテキストウィンドウの容量を超えるという課題に対処するために、2エージェントシステムを開発しました。初期化エージェントは3つの重要なアウトプットを作成します： 1. 開発環境を確立するスタートアップスクリプト 2. パス・フェイル状態ですべての要件を記録した包括的な機能リスト（JSONに格納） 3. 完了した作業とセッション状態を追跡する進捗ファイル続くコーディングエージェントは機能を1つずつ処理し、git コミットと進捗更新でクリーンな状態を維持します。機能リストは、エージェントがプロジェクトの完了状況を誤って推測するのを防ぎます。各機能には `passes` フィールドがあり、true か false のどちらかです。エージェントは機能が end-to-end で動作することを確認してからこのフィールドを更新するか、しないかです。曖昧さはありません。 ## OpenAI の Codex 実装 5ヶ月間で、OpenAI のチームはエージェントが生成したコントリビューションのみで約100万行のコードを構築しました。最初は3名のエンジニアが1日あたり平均3.5件のプルリクエストを出していました。主要なアーキテクチャ上の決定： - **リポジトリ中心のドキュメント**：外部ドキュメントではなくリポジトリを信頼の源泉として扱い、モノリシックな命令ファイルの代わりにプログレッシブな開示を採用 - **アプリケーションの可読性**：git worktree ごとにアプリを起動可能にし、ブラウザ自動化と完全な可観測性スタック（ログ、メトリクス、トレース）をエージェントワークフローに直接組み込む - **アーキテクチャの強制**：コードレビューではなくカスタムリンターと構造テストによってインバリアントを機械的に強制する - **高スループットプロセス**：最小限のブロッキングマージゲートで運用し、テストのフレーキーさはブロッカーではなく追加実行で解決する ## 繰り返されるデザインパターン **プログレッシブディスクロージャー**：エントリーポイントでは最小限の情報を提供し、深いコンテキストへのポインタを示す。認知の原則：プロンプトの冒頭で提示される情報は不均衡に大きな影響を持つ。 **分離の原則**：git worktree ごとに1エージェントを置くことで、並列エージェントの競合を防ぎながら、マージ前の分離した検証を可能にする。 **リポジトリエンコードされた知識**：すべての仕様、要件、制約は外部ドキュメントやチームの会話ではなく、機械可読なリポジトリファイルに存在しなければならない。 **機械的な制約強制**：アーキテクチャの整合性はコードレビューではなくリンターとテストに依存することで、高スループット開発を実現する。 **タイトなフィードバックループ**：編集時点でのエラーキャッチは、後のセッションで外部から発見されるエラーより劇的に優れている。 ## パフォーマンスが低いシステムの診断フレームワークより良いモデルや長いプロンプトを求める代わりに、ハーネスエンジニアリングでは環境監査を推奨します： - エージェントが何の情報にアクセスできていないか？ - どこで定期的にミスが起きているか、そして何のフィードバックがそれを防ぐか？ - 無関係なコンテキストはどこで推論を劣化させているか？ - どの制約が現在、機械的な強制ではなくエージェントの判断に依存しているか？各質問は具体的なハーネス改善を特定します：欠けているツール、不十分なフィードバックメカニズム、コンテキスト管理戦略、制約強制システム。 ## 最小限の有効ハーネス基本的な実装に必要なコンポーネント： 1. セッションごとに読み書きされる永続的な進捗ファイル 2. 列挙され検証可能な完了基準を持つ構造化タスクリスト 3. 記述的なコミットを標準とするバージョン管理 4. ウェブアプリケーション向けのブラウザ自動化（ランタイムのみのバグを表面化するため） ## 戦略的な示唆 AI 駆動開発における長期的な競争優位は、モデルの選択ではなくハーネスのアーキテクチャにあります。モデルは考えるものです。ハーネスは、何について考えるかを扱うものです。これはプラットフォームレイヤー（ウェブのための検索エンジン、モバイルのためのアプリストア）が根本的な能力の商品化にもかかわらず永続的な価値を獲得した歴史的なテクノロジーの転換と並行しています。

ハーネスこそがすべて：AIツールの本質

AIFCC — AI Fluent CxO Club