記事一覧へ
長期アプリ開発のためのハーネス設計 Anthropicが発表した長期アプリ開発のためのハーネス設計ガイドです。 主要コンポーネント: 1. セッション管理 長期プロジェクトでは、セッションをまたいだコンテキスト保持が重要です。会話履歴の要約と優先度付けを実装することで、コンテキストウィンドウを効率的に活用できます。 2. チェックポイントシステム 長時間の作業では定期的にチェックポイントを保存します。エラーが発生しても最後のチェックポイントから再開できます。 3. ツールの設計原則 ・単一責任:各ツールは一つのことだけを行う ・冪等性:同じ操作を繰り返しても結果が変わらない ・エラーハンドリング:失敗時に明確なエラーメッセージを返す 4. モニタリングとロギング ・全てのツール呼び出しをログに記録 ・エラーは構造化フォーマットで保存 ・コスト追跡(トークン使用量) 5. ヒューマンインザループ 重要な判断ポイントで人間の確認を求める仕組みを組み込む。 詳細ガイド:

claude-workflowagent-opsai-industry
長期アプリ開発のためのハーネス設計
原文を表示 / Show original
Harness design for long-running application development
By Prithvi Rajasekaran (Anthropic Labs team)
Two interconnected problems: getting Claude to produce high-quality frontend designs, and getting it to build complete applications without human intervention.
Key insights:
1. Multi-agent architecture inspired by GANs: generator + evaluator agents. The evaluator grades outputs reliably with concrete criteria turning subjective judgments into gradable terms.
2. Three-agent architecture for autonomous coding: planner → generator → evaluator. Produces rich full-stack applications over multi-hour autonomous sessions.
3. Why naive implementations fail:
- Models lose coherence on lengthy tasks as context fills
- "Context anxiety" — models wrap up prematurely near context limits
- Context resets (not compaction) are essential. Clear context + structured handoff > summarized history
- Self-evaluation problem: agents confidently praise their own work
4. Solution: Separate evaluator agent (like GAN discriminator) grades generator's output with concrete criteria, not the generator evaluating itself.
→ https://www.anthropic.com/engineering/harness-design-long-running-apps