記事一覧へ
毎日、新しいフレームワーク、新しいベンチマーク、新しい「10倍」のローンチが登場します。問いはもはや「どうやって追いつくか」ではありません。それは:何が本当のシグナルで、何が緊急性のコスチュームを着たノイズなのか、という問いになります。
すべてのロードマップはローンチの1ヶ月後に時代遅れになります。先四半期にマスターしたフレームワークは今やレガシーです。最適化したベンチマークはゲームされて置き換えられました。私たちは従来のパスに従うよう条件付けられていました:トピックとレベルのあるスタック、仕事とテニュアの連続、ゆっくりとした登り。AIがそのキャンバスを書き直しました。適切なプロンプトと適切なセンスを持つ人なら、2年の経験を持つエンジニアが1スプリントかかっていた仕事を今や出荷できます。
専門知識はまだ重要です。システムが壊れるのを目撃してきたこと、午前2時にメモリリークをデバッグしてきたこと、巧妙な選択より退屈な選択を主張して正しかったこと——これらに代わるものはありません。そういうセンスは複利で積み上がります。以前のように積み上がらなくなったもの:今週のフレームワークのAPIサーフェスを知ること。6ヶ月後には変わっています。2年後に勝っている人たちは、早い段階で耐久性のあるプリミティブを選び、残りは流れ去るに任せました。
私はこのスペースで2年間構築し、年収25万ドルを超える複数のオファーを獲得し、現在はステルス企業でテクニカルを担当しています。これは「今実際に何に注目すべきか」と聞いてきた人に送る内容です。
これはロードマップではありません。エージェントフィールドにはまだ目的地がありません。大手ラボは公開でイテレーションし、何百万人ものユーザーにリグレッションを出荷し、ポストモーテムを書き、ライブでパッチを当てています。Claude Codeの背後にいるチームが47%のパフォーマンスリグレッションを出荷し、ユーザーコミュニティが発見するまで気づかなかったなら、これらすべての下に安定したマップがあるという考えはフィクションです。誰もが手探りで進んでいます。スタートアップが繁栄しているのは大企業も答えを知らないからです。ノンコーダーがエージェントと組んで、ML PhDが火曜日に不可能と言っていたものを金曜日に出荷しています。
この瞬間の興味深い点は、資格の問いに何をするかです。従来のパスは資格に最適化されていました:学位、ジュニアロール、シニアロール、スタッフロール、ランクのゆっくりとした蓄積。それはフィールドが動かなかった時には意味をなしていました。フィールドは今や全員の下で等しく動きます。エージェントデモを公開で出荷している22歳と35歳のシニアエンジニアの違いは、もはや10年分のスタックマスタリーの蓄積ではありません。22歳はシニアと同じ白紙のキャンバスを持っており、どちらにとっても複利で積み上がるのは出荷する意欲と、四半期で陳腐化しないプリミティブの小さなリストです。
それがこのピース全体が基づくリフレームです。以下は、どのプリミティブが注目に値し、どのローンチを見送るかを考える方法です。合うものを選んでください。合わないものは残してください。
実際に機能するフィルター
週次ローンチに追いつくことはできません。追いつこうとすべきでもありません。必要なのはフィードではなくフィルターです。
過去18ヶ月で5つのテストが有効でした。スタックに触れさせる前にローンチをこれらに通してみてください。
これは2年後に重要か?フロンティアモデルのラッパー、CLIフラグ、または「X向けのDevin」であれば、答えはほぼ常にNoです。プリミティブ(プロトコル、メモリパターン、サンドボックスアプローチ)であれば、答えはより多くの場合Yesです。ラッパーの半減期は短い。プリミティブの半減期は年単位です。
尊敬する人がその上で本当のものを構築し、正直に書いたか?マーケティング投稿はカウントされません。ポストモーテムはカウントされます。「本番でXを試してここで壊れたこと」というブログは10のローンチアナウンスに値します。このフィールドの良いシグナルは常に週末を失った人が書いています。
採用するためにトレース、リトライ、設定、認証を捨てる必要があるか?はいなら、プラットフォームになろうとしているフレームワークです。プラットフォームになろうとしているフレームワークの死亡率は90%です。良いプリミティブは移行を強制せずに既存システムに収まります。
これを6ヶ月スキップするコストは?ほとんどのローンチでは答えはゼロです。6ヶ月後にはより多くを知っているでしょう。勝利バージョンが明確になります。これはほとんどのローンチを不安なしにスキップできるテストであり、スキップすることが遅れを感じさせるから多くの人が実行を拒むテストです。そうではありません。
実際にエージェントを助けるかどうか測定できるか?できなければ、推測しています。評価なしのチームはバイブで動作し、リグレッションを出荷します。評価があるチームは、今週GPT-5.5またはOpus 4.7が特定のワークロードで勝つかどうかをデータに教えてもらえます。
このピース全体から1つの習慣だけを採用するなら、これにしてください:何か新しいものがローンチされたら、それが6ヶ月後に重要だと信じるために何を見る必要があるかを書き留める。そして戻って確認する。ほとんどの場合、問いは自答しており、複利で積み上がるものに注目を向けていることになります。
これらのテストの下にあるスキルは、どれよりも名付けることが難しいものです。それは、拾わないものに対してアンクールである意欲です。今週Hacker Newsでバイラルになるフレームワークには14日間の応援団がいて、全員が賢そうに聞こえます。6ヶ月後、それらのフレームワークの半分はメンテナンスされておらず、応援団は次へ移っています。関与しなかった人たちは、ローンチハイプが過ぎた後に退屈でいられるテストを生き延びたものに注目を向けました。そのポスチャー——待ち、観察し、「6ヶ月後にわかる」と言う——がこのフィールドの実際のプロフェッショナルスキルです。誰でもローンチを読めます。それに反応しないのが得意な人はほとんどいません。
学ぶべきこと
コンセプト。パターン。ものの形。これらは複利のリターンをもたらすアイデアです。モデルの入れ替え、フレームワークの入れ替え、パラダイムシフトを生き延びます。それらを深く理解すれば、週末に新しいツールを習得できます。スキップすれば、表面的なメカニクスを永続的に再学習し続けることになります。
コンテキストエンジニアリング
過去2年で最も重要な改名は「プロンプトエンジニアリング」が「コンテキストエンジニアリング」になったことでした。この変化は本物で、コスメティックではありません。
モデルはもはや巧妙な指示を作るものではありません。各ステップで動作するコンテキストを組み立てるものです。そのコンテキストは、システム指示、ツールスキーマ、取得されたドキュメント、前のツール出力、スクラッチパッド状態、圧縮された履歴をすべて一度に含みます。エージェントの動作はウィンドウに入れたものの創発的特性です。
これを内面化してください:コンテキストは状態です。関係のないノイズのすべてのトークンは推論品質のコストをかけます。コンテキスト劣化は実際の本番障害です。10ステップタスクの8ステップ目には、元の目標がツール出力の下に埋まっている可能性があります。信頼性の高いエージェントを出荷するチームは積極的に要約、圧縮、剪定します。ツールの説明をバージョン管理します。静的な部分をキャッシュし、変化する部分はキャッシュしません。コンテキストウィンドウを、経験豊富なエンジニアがRAMについて考えるように考えます。
具体的に感じるには:本番の任意のエージェントを取り、完全なトレースログを有効にしてください。ステップ1のコンテキストを見てください。ステップ7のコンテキストを見てください。それらのトークンがまだその価値を発揮しているものの数を数えてください。初めてこれをすると恥ずかしくなります。その後修正に行くと、モデルやプロンプトを変更せずに同じエージェントが目に見えて信頼性が高くなります。
これについて1つだけ読むなら、Anthropicの「AIエージェントのための効果的なコンテキストエンジニアリング」を読んでください。次に、スケールアップした際にコンテキスト分離がどれほど重要かを数字で示したマルチエージェントリサーチのポストモーテムを読んでください。
ツール設計
ツールはエージェントがビジネスと出会う場所です。モデルは名前と説明に基づいてツールを選択します。モデルはエラーメッセージに基づいてリトライします。モデルはツールのコントラクトがLLMが表現するのに得意なものと一致するかどうかで成功または失敗します。
5〜10個のよく命名されたツールは20個の並みのものより優れています。ツール名は英語の動詞句として読めるべきです。説明にはツールを使うべき時と使わないべき時を含めるべきです。エラーメッセージはモデルが行動できるフィードバックであるべきです。「最大トークン500超過、最初に要約を試みてください」は「エラー:400 Bad Request」より大幅に優れています。公開リサーチのあるチームは、エラーメッセージのみを書き直した後に再試行ループを40%削減したと報告しています。
Anthropicの「エージェントのためのツールの書き方」が正しい出発点です。その後、自分のツールをインスツルメントし、実際の呼び出しパターンを見てください。エージェントの信頼性における最大の成果はほぼ常にツール側にあります。人々はプロンプトを調整し続け、実際のレバレッジが存在する場所を無視しています。
オーケストレーター-サブエージェントパターン
2024年と2025年のマルチエージェント議論は誰もが今や出荷する合成で終わりました。素朴なマルチエージェントシステム——複数のエージェントが並行して共有状態に書き込む——はエラーが複合するため壊滅的に失敗します。単一エージェントループは想定以上にスケールします。本番で機能する1つのマルチエージェント形があります:狭くスコープされた読み取り専用タスクを分離されたサブエージェントに委任し、その結果を統合するオーケストレーターエージェント。
これはAnthropicのリサーチシステムがどのように機能するかです。Claude Codeのサブエージェントがどのように機能するかです。Spring AIとほとんどの本番フレームワークが今や標準化するパターンです。サブエージェントは小さく、フォーカスされたコンテキストを得ます。共有状態を変更できません。オーケストレーターが書き込みを所有します。
Cognitionの「マルチエージェントを構築するな」エッセイとAnthropicの「マルチエージェントリサーチシステムをどう構築したか」は対立しているように見えて、異なる語彙で同じことを言っています。両方読んでください。
デフォルトは単一エージェント。オーケストレーター-サブエージェントは単一エージェントが実際の壁にぶつかった時——コンテキストウィンドウの圧力、逐次ツール呼び出しのレイテンシ、またはフォーカスされたコンテキストから真に恩恵を受けるタスクの異種性——にのみ使います。必要な痛みを感じる前にこれを構築すると、不要な複雑さを出荷することになります。
評価とゴールデンデータセット
信頼性の高いエージェントを出荷するすべてのチームには評価があります。ないチームにはありません。これはフィールドで最も高レバレッジの習慣であり、見てきたすべての企業で最も投資が少ないものです。
機能するもの:本番トレースを収穫し、失敗にラベルを付け、それをリグレッションセットとして扱います。新しい失敗が出荷されるたびに追加します。主観的な部分にはLLM-as-judge、残りには完全一致またはプログラム的チェックを使用します。プロンプト、モデル、ツールの変更前にスイートを実行します。Spotifyのエンジニアリングブログは、ジャッジレイヤーが出荷前にエージェント出力の約25%を拒否していると報告しています。それなしでは、4つに1つの悪い結果がユーザーに届いていたことになります。
これを定着させるメンタルモデル:評価は、その下でほかのすべてが変わる間、エージェントを正直に保つユニットテストです。モデルは新バージョンを得ます。フレームワークは破壊的変更をリリースします。ベンダーはエンドポイントを非推奨にします。あなたの評価だけが、エージェントがまだその仕事をしているかどうかを教えてくれます。それなしでは、正確さが動くターゲットの善意に依存するシステムを書いていることになります。
評価フレームワーク(Braintrust、Langfuse evals、LangSmith)は優れています。どれもボトルネックではありません。ボトルネックはそもそもラベル付きセットを持つことです。何かをスケールする前の初日にそれを構築してください。最初の50の例は午後に手動でラベル付けできます。言い訳はありません。
ファイルシステム-as-stateとthink-act-observeループ
実際のマルチステップ作業を行う任意のエージェントのための耐久性のあるアーキテクチャは:思考、行動、観察、繰り返し。ファイルシステムまたは構造化ストアが真実の源として。すべてのアクションがログに記録されて再生可能。Claude Code、Cursor、Devin、Aider、OpenHands、goose。これらはすべて理由があってこれに収束しました。
モデルはステートレスです。ハーネスはステートフルでなければなりません。ファイルシステムはすべての開発者がすでに理解しているステートフルなプリミティブです。このフレーミングを受け入れると、ハーネスの規律全体(チェックポイント、再開可能性、サブエージェント検証、サンドボックス実行)はそのパターンを真剣に扱うことから生じます。
これが教えてくれるより深いこと:ハーネスは計算コストに見合う本番エージェントでモデルより多くの仕事をしています。モデルは次のアクションを選択します。ハーネスはそれを検証し、サンドボックスで実行し、出力をキャプチャし、何をフィードバックするかを決定し、いつ止めるかを決定し、いつチェックポイントするかを決定し、いつサブエージェントを生成するかを決定します。モデルを同等の品質の別のものに入れ替えても、良いハーネスは出荷し続けます。ハーネスを劣ったものに入れ替えると、世界最高のモデルでも、何をやっていたかをランダムに忘れるエージェントを生産します。
単一ショットのツール呼び出しより複雑なものを構築しているなら、ハーネスに時間を使うべきです。モデルはその中のコンポーネントです。
MCP、概念的に
MCPサーバーを呼び出す方法だけを学ぶのではありません。モデルを学んでください。エージェント機能、ツール、リソース間の明確な分離、その下に拡張可能な認証とトランスポートの仕組みがあります。これを理解すると、見る他のすべての「エージェント統合フレームワーク」はMCPの劣化バージョンに見え、各々を評価する時間を節約できます。
Linux Foundationが今やそれを管理しています。すべての主要なモデルプロバイダーが支持しています。「AIのUSB-C」という比較は今や皮肉以上に正確です。
プリミティブとしてのサンドボックス化
すべての本番コーディングエージェントはサンドボックスで動作します。すべてのブラウザエージェントは間接的なプロンプトインジェクションの影響を受けています。すべてのマルチテナントエージェントはある時点でパーミッションスコープのバグが出荷されています。サンドボックス化を顧客に聞かれた時に追加する機能としてではなく、プリミティブインフラとして扱います。
基本を学んでください。プロセス分離。ネットワーク出力制御。シークレットスコープ。エージェントとツール間の認証境界。顧客のセキュリティレビュー後にこれをボルトオンするチームがディールを失うチームです。初週から構築するチームはエンタープライズ調達を汗をかかずに通ります。
構築すべきもの
具体的な選択、2026年4月。これらは変わりますが、ゆっくりと。ここでは退屈に選んでください。
オーケストレーション
LangGraphが本番のデフォルトです。エージェントを実行している大企業の約3分の1が使用しています。抽象化はエージェントシステムの実際の形と一致しています:型付き状態、条件付きエッジ、耐久性のあるワークフロー、human-in-the-loopのチェックポイント。欠点は冗長性です。利点は、その冗長性が本番でエージェントを制御するために実際に必要なものと一致していることです。
TypeScriptで作業しているなら、Mastraが実質的な選択です。そのエコシステムで最もクリーンなメンタルモデル。
チームがPydanticを好み、型安全性を第一級市民として望むなら、Pydantic AIは合理的なグリーンフィールド選択です。2025年後半にv1.0に達し、モメンタムは本物です。
プロバイダーネイティブの作業(コンピュータ使用、音声、リアルタイム)には、LangGraphノード内でClaude Agent SDKまたはOpenAI Agents SDKを使用します。どちらも異種システムのトップレベルオーケストレーターにしようとしないでください。それぞれのレーンに最適化されています。
プロトコルレイヤー
MCP一択。ツール統合をMCPサーバーとして構築します。外部統合も同じ方法で消費します。レジストリは構築する前にほぼ常にサーバーを見つけられる地点を超えました。2026年にカスタムツール配管を配線することは無駄なコストを払うことです。
メモリ
ハイプではなく自律性レベルで選択してください。

agent-opsharness-designai-thinkingclaude-workflow
AIエージェント開発者が2026年に学ぶべきこと・構築すべきこと・スキップすべきこと
♥ 45↻ 4
原文を表示 / Show original
Every day brings a new framework, a new benchmark, a new "10x" launch. The question stops being "how do I keep up." It becomes: what's actually signal here, and what's noise wearing the costume of urgency.
Every roadmap goes obsolete a month after launch. The framework you mastered last quarter is now legacy. The benchmark you optimized for got gamed and replaced. We were conditioned to follow a conventional path: a stack with topics and levels, a sequence of jobs and tenures, a slow climb. AI rewrote that canvas. Anyone with the right prompts and the right taste can now ship work that used to take a 2-year-experience engineer a sprint.
Expertise still matters. Nothing replaces having watched systems break, having debugged a memory leak at 2am, having argued for a boring choice over a clever one and been right. That kind of taste compounds. What stopped compounding the way it used to: knowing this week's framework's API surface. Six months from now it will be different. The people winning in two years picked durable primitives early and let the rest pass them by.
I've spent two years building in this space, cracked multiple offers north of $ 250k, and now run technical at a company in stealth. This is what I'd send to someone asking "what should I actually be paying attention to right now."
It is not a roadmap. The agent field doesn't have a destination yet. The big labs are iterating in public, shipping regressions to millions of users, writing postmortems, patching live. If the team behind Claude Code can ship a 47% performance regression and only catch it after the user community does, the idea that there's a stable map underneath all this is fiction. Everyone is figuring it out. Startups are flourishing because the giants don't know either. Non-coders are pairing with agents and shipping things on Friday that ML PhDs were calling impossible on Tuesday.
The interesting thing about this moment is what it does to the question of credentials. The conventional path optimized you for credentials: degree, junior role, senior role, staff role, the slow accumulation of rank. That made sense when the field underneath you didn't move. The field now moves under everyone equally. The difference between a 22-year-old shipping agent demos in public and a 35-year-old senior engineer is no longer ten years of accumulated stack mastery. The 22-year-old has the same blank canvas the senior has, and what compounds for either of them is willingness to ship, plus the small list of primitives that don't go obsolete in a quarter.
That's the reframe this whole piece is built on. What follows is a way to think about which primitives are worth your attention and which launches to let pass. Pick what fits. Leave what doesn't.
The filter that actually works
You can't keep up with weekly launches. You shouldn't try. The thing you need is a filter, not a feed.
Five tests have held up across the last 18 months. Run a launch through them before you let it touch your stack.
Will this matter in two years? If it's a wrapper around a frontier model, a CLI flag, or "Devin but for X," the answer is almost always no. If it's a primitive (a protocol, a memory pattern, a sandboxing approach), the answer is more often yes. The half-life of wrappers is short. The half-life of primitives is years.
Has someone you respect built something real on top of it and written about it honestly? Marketing posts don't count. Postmortems do. A blog called "we tried X in production and here's what broke" is worth ten launch announcements. The good signal in this field is always written by someone who has lost a weekend to it.
Does adopting it require you to throw away your tracing, your retries, your config, your auth? If yes, it's a framework trying to be a platform. Frameworks-trying-to-be-platforms have a 90% mortality rate. The good primitives slot into your existing system without forcing a migration.
What does it cost you to skip this for six months? For most launches, the answer is nothing. You'll know more in six months. The winning version will be clearer. This is the test that lets you skip 90% of launches without anxiety, and the one most people refuse to run because skipping feels like falling behind. It isn't.
Can you measure whether it actually helps your agents? If you can't, you're guessing. Teams without evals run on vibes and ship regressions. Teams with evals can let the data tell them whether GPT-5.5 or Opus 4.7 wins on their specific workload this week.
If you adopt one habit from this whole piece, make it this: when something new launches, write down what you'd need to see in six months to believe it matters. Then come back and check. Most of the time the question will have answered itself, and you'll have spent your attention on things that compound.
The skill underneath these tests is harder to name than any of them. It's the willingness to be uncool about what you don't pick up. The framework that goes viral on Hacker News this week will have an army of cheerleaders for fourteen days, and they will all sound smart. Six months later, half of those frameworks are unmaintained and the cheerleaders have moved on. The people who didn't engage saved their attention for things that survived the test of being boring after the launch hype passed. That posture, holding back, watching, saying "I'll know in six months," is the actual professional skill of this field. Everyone can read launches. Almost nobody is good at not reacting to them.
What to learn
Concepts. Patterns. The shape of things. These are the ideas that pay compounding returns. They survive model swaps, framework swaps, paradigm shifts. Understand them deeply and you can pick up any new tool in a weekend. Skip them and you'll be perpetually re-learning surface mechanics.
Context engineering
The most important rename of the last two years was "prompt engineering" becoming "context engineering." The shift is real, not cosmetic.
The model is no longer something you craft a clever instruction for. It's something you assemble a working context for at every step. That context is system instructions, tool schemas, retrieved documents, prior tool outputs, scratchpad state, and compressed history all at once. The agent's behavior is an emergent property of what you put in the window.
Internalize this: context is state. Every token of irrelevant noise costs you reasoning quality. Context rot is a real production failure. By step eight of a ten-step task, the original goal can be buried under tool output. The teams that ship reliable agents actively summarize, compress, prune. They version their tool descriptions. They cache the static parts and refuse to cache the parts that change. They think about the context window the way an experienced engineer thinks about RAM.
A concrete way to feel this: take any agent in production and turn on full trace logging. Look at the context at step one. Look at the context at step seven. Count how many of those tokens are still earning their keep. The first time you do this, you'll be embarrassed. Then you'll go fix it, and the same agent will get noticeably more reliable without any change to the model or the prompt.
If you read one thing on this, read Anthropic's "Effective Context Engineering for AI Agents." Then read their multi-agent research postmortem, which puts numbers on how much context isolation matters once you scale up.
Tool design
Tools are where agents meet your business. The model picks tools based on names and descriptions. The model retries based on error messages. The model fails or succeeds based on whether the tool's contract matches what an LLM is good at expressing.
Five to ten well-named tools beat twenty mediocre ones. Tool names should read like English verb phrases. Descriptions should include when to use the tool and when not to. Error messages should be feedback the model can act on. "Max tokens 500 exceeded, try summarizing first" beats "Error: 400 Bad Request" by an enormous margin. One team in the public research reported a 40% reduction in retry loops after rewriting their error messages alone.
Anthropic's "Writing tools for agents" is the right starting point. After that, instrument your own tools and look at the actual call patterns. The biggest wins in agent reliability are almost always tool-side. People keep tuning prompts and ignoring the place where the actual leverage lives.
The orchestrator-subagent pattern
The multi-agent debate of 2024 and 2025 ended with a synthesis everyone now ships. Naïve multi-agent systems, where multiple agents write to shared state in parallel, fail catastrophically because errors compound. Single-agent loops scale further than you'd expect. There is one multi-agent shape that works in production: an orchestrator agent that delegates narrowly scoped read-only tasks to isolated subagents, then synthesizes their results.
This is how Anthropic's research system works. It's how Claude Code's subagents work. It's the pattern Spring AI and most production frameworks now standardize. Subagents get small, focused contexts. They cannot mutate shared state. The orchestrator owns the writes.
Cognition's "Don't Build Multi-Agents" essay and Anthropic's "How we built our multi-agent research system" look like opposites and are saying the same thing in different vocabularies. Read both.
Default to single-agent. Reach for orchestrator-subagent only when the single agent hits a real wall: context window pressure, latency from sequential tool calls, or task heterogeneity that genuinely benefits from focused contexts. Building this before you've felt the pain ships complexity you don't need.
Evals and golden datasets
Every team that ships reliable agents has evals. Every team that doesn't, doesn't. This is the single highest-leverage habit in the field, and it's the most under-invested thing I see at every company I've looked at.
What works: harvest your production traces, label the failures, treat that as a regression set. Add to it whenever a new failure ships. Use LLM-as-judge for the subjective parts, exact-match or programmatic checks for the rest. Run the suite before any prompt, model, or tool change. Spotify's engineering blog reported their judge layer vetoes about 25% of agent outputs before they ship. Without it, one in four bad results would have reached users.
The mental model that makes this stick: an eval is a unit test that holds the agent honest while everything else changes underneath it. The model gets a new version. The framework releases a breaking change. The vendor deprecates an endpoint. Your evals are the only thing that tells you whether your agent is still doing its job. Without them, you're writing a system whose correctness depends on the goodwill of a moving target.
The eval frameworks (Braintrust, Langfuse evals, LangSmith) are fine. None of them is the bottleneck. The bottleneck is having a labeled set in the first place. Build that on day one, before you scale anything. The first fifty examples can be hand-labeled in an afternoon. There is no excuse.
File-system-as-state and the think-act-observe loop
For any agent doing real multi-step work, the durable architecture is: think, act, observe, repeat. The file system or a structured store as the source of truth. Every action logged and replayable. Claude Code, Cursor, Devin, Aider, OpenHands, goose. They all converged on this for a reason.
The model is stateless. The harness has to be stateful. The file system is a stateful primitive every developer already understands. Once you accept this framing, the whole harness discipline (checkpointing, resumability, sub-agent verification, sandboxed execution) falls out of taking the pattern seriously.
The deeper thing this is teaching you: the harness is doing more work than the model in any production agent worth its compute bill. The model picks the next action. The harness validates it, runs it in a sandbox, captures the output, decides what to feed back, decides when to stop, decides when to checkpoint, decides when to spawn a subagent. Swap the model for a different one of similar quality and a good harness still ships. Swap the harness for a worse one and the best model in the world still produces an agent that randomly forgets what it was doing.
If you are building anything more elaborate than a single-shot tool call, the harness is where you should be spending your time. The model is a component inside it.
MCP, conceptually
Don't just learn how to call MCP servers. Learn the model. A clean separation between agent capabilities, tools, and resources, with an extensible auth and transport story underneath. Once you understand it, every other "agent integration framework" you see will look like a worse version of MCP, and you'll save the time of evaluating each one.
The Linux Foundation now stewards it. Every major model provider backs it. The "USB-C of AI" comparison is more accurate than ironic now.
Sandboxing as a primitive
Every production coding agent runs in a sandbox. Every browser agent has been hit by indirect prompt injection. Every multi-tenant agent has had a permission scoping bug shipped at some point. Treat sandboxing as primitive infrastructure, not a feature you add when a customer asks.
Learn the basics. Process isolation. Network egress controls. Secret scoping. Auth boundaries between agent and tool. The teams that bolt this on after a customer security review are the teams that lose the deal. The teams that build it in from week one pass enterprise procurement without sweating.
What to build with
Specific picks, April 2026. These will shift, but slowly. Pick boringly here.
Orchestration
LangGraph is the production default. Roughly a third of large companies running agents use it. The abstractions match the real shape of agent systems: typed state, conditional edges, durable workflows, human-in-the-loop checkpoints. The downside is verbosity. The upside is that the verbosity matches what you actually need to control once an agent is in production.
If you live in TypeScript, Mastra is the de facto pick. Cleanest mental model in that ecosystem.
If your team loves Pydantic and wants type safety as a first-class citizen, Pydantic AI is a reasonable greenfield choice. It hit v1.0 in late 2025 and the momentum is real.
For provider-native work (computer use, voice, real-time), use Claude Agent SDK or OpenAI Agents SDK inside your LangGraph nodes. Don't try to make either the top-level orchestrator for a heterogeneous system. They're optimized for their lane.
Protocol layer
MCP, full stop. Build your tool integrations as MCP servers. Consume external integrations the same way. The registry has crossed the point where you can almost always find a server before you need to build one. Wiring custom tool plumbing in 2026 pays a tax for nothing.
Memory
Pick by autonomy level, not by hype.