AIエージェントに優れた仕事をさせるプロンプトの極意：3つのC（文脈・制約・構成）フレームワーク

## AIエージェントへのプロンプトの極意私はこの7年間、AIシステムへのプロンプトに費やしてきた。考えられるあらゆるアプローチを試してきた。今日は、AIエージェントから最大限の成果を引き出すための私のフレームワークを公開する。 AIエージェントへの指示は、チャットボットへの指示とはまったく異なる。チャットボットは「答える」。エージェントは「働く」。ファイルを読み、コードを書き、テストを走らせ、ブラウザを開き、スクリーンショットを撮り、完璧になるまで自分の出力を繰り返し改善する。1時間かけてタスクに取り組み、本物の成果物を持って戻ってくる。ただし、あなたが「本物」の意味を教えてやればの話だ。最もよく見かける失敗は、エージェントをかつてのチャットボットのように扱ってしまうこと——一文の指示を与えて、汎用的な回答が返ってくるのを待つパターンだ。しかしエージェントに必要なのは一文ではない。「ブリーフ（業務指示書）」が必要なのだ。この記事では、エージェントから実際に良い仕事を引き出すブリーフの書き方のフレームワークを説明する。私はそれを「3つのC」と呼んでいる：**Context（文脈）**、**Constraints（制約）**、**Composition（構成）** だ。 --- ## 1. Context（文脈） Contextとは、エージェントがその仕事をするために知っておくべきすべての情報と、アクセスが必要なすべての素材のことだ。状況・目標・対象読者・成功の定義が含まれる。さらには実際の素材も必要だ。デッキ（スライド）、データファイル、ブランドガイドライン、前バージョン、リポジトリ、関連ドキュメント——エージェントが触れるものはすべて、その存在と場所をエージェントが把握している必要がある。ほとんどの人は、エージェントに与えるContextが劇的に不足している。「Q3のデッキを作って」と頼んでおきながら、参照用の前四半期デッキを共有しない。「ユーザーフィードバックを分析して」と頼んでおきながら、どのファイルか、どのセグメントか、どんな意思決定のための分析かを指定しない。「認証モジュールをリファクタして」と頼んでおきながら、既存のテスト、チームのスタイルガイド、従うべき設計ドキュメントを指示しない。だからエージェントは推測する。そしてエージェントが推測するとき、1時間も間違った方向に進んでから気づくことが多い。以下の2つのプロンプトを比べてほしい： **悪い例：** 顧客フィードバックを分析して。 **良い例：** `/data/feedback_q3.csv` にある顧客フィードバックを分析してください。今四半期にSMB顧客が解約した主な理由をトップ3に絞り、代表的な引用文とともに示すのが目標です。オンボーディングの改善か料金体系の変更か、どちらに投資すべかを判断するための分析を求めています。`/docs/feedback_q2.md` に前四半期の分析があるので、構造のテンプレートとして参照してください。 2番目のプロンプトは2つのことをしている。仕事の内容を伝え、かつ仕事をするために必要なものの場所を伝えている。どちらも重要だ。 **インターンテスト：** 私はContextが十分かどうかを確認するためのシンプルなテストを使う。入社初日のインターンがこのプロンプトを課題として渡されたとして、何も聞き返さずに仕事を始められるだろうか？ Yesなら、ブリーフはほぼ完成している。Noなら、エージェントもインターンと同じ疑問を持っている——ただしエージェントは質問してこない。推測するだけだ。 --- ## 2. Constraints（制約）ここが、エージェントへのプロンプトとチャットボットへのプロンプトが最も大きく異なるところだ。Constraintsは「回答についてのルール」だけではない。**検証のアプローチ**そのものだ。エージェントが作業しながら自分の仕事をどうチェックすべきか、そして「本当に完了した」とはどういう状態かを記述する。エージェントはコードを実行できる。ファイルを開ける。スクリーンショットを撮れる。自分の出力を読み直してミスに気づける。だからConstraintsは、そういったことを実際にやらせる内容にすべきだ。弱い制約は「でたらめを言うな」。本物の制約はこうだ： - スライドを生成したら、ファイルを開いてすべてのスライドをスクリーンショットし、レイアウトが実際に整っているか確認する。何かがずれていたり、テンプレートから外れていたり、テキストがはみ出していたりしたら、修正して再確認する。 - レポートを作成したら、引用したURLをすべて開き、ソースが実際にその主張を述べているか確認する。直接裏付けられない主張は削除する。 - 本番コードを書く前に、公開APIを検証するテストハーネスを構築する。すべてのテストが通るまで完了を主張してはならない。 - リファクタリング後、フルテストスイートを実行する。それまで通っていたものが落ちたなら壊したということだ。スイートが再びグリーンになるまで止まるな。これらは提案ではない。**停止条件** だ。エージェントがこれらの条件を満たしたときにのみ、完了を宣言できる。なぜこれが重要かというと、エージェントの失敗パターンによる。エージェントが明らかに間違った仕事をすることはほとんどない。もっともらしく見える仕事を生成し、自信満々に「完了しました」と告げることができる（ただしモデルの改善とともに、これは月を追うごとに減っている）。スライドデッキを開けば9枚のテキストがはみ出したスライドがある。リサーチサマリには3つの引用があり、エージェントが主張した内容が書かれていない。リファクタリングはコンパイルは通るが3つのテストが壊れていて、エージェントは一度も再実行しなかった。いずれもエージェントは「完了した」と報告していた。ただ実際には何も確認していなかったのだ。これを防ぐには、検証を任意のオプションではなく仕事そのものの一部にすることだ。 **盗む価値のあるパターンをいくつか：** - ファイルを生成したら、それを開いて説明した通りに見えることを確認する。 - 完了を宣言する前に、確認していないことをすべてリストアップし、それらを確認する。 - 何かについて確信がない場合は、もっともらしい推測をするのではなく、明示的にそう述べる。 - 変更を加えたら、それ以前に通っていたチェックを再実行する。壊れたものはすべて、私に返す前に修正する。 - 実装に着手する前にテストハーネスを構築する。すべてのテストが通るまで完了としない。ここでの転換は、「書いている間はこのルールに従え」から「この仕事を——検証も含めて——完了させ、何を確認し何を確認しなかったかを教えろ」への移行だ。 --- ## 3. Composition（構成） Compositionとは、成果物をどんな形に整えるかだ。3つの中で最も過小評価されている。エージェントは素晴らしい仕事をできるが、形を伝えなければ、モデルがこれまで最も多く見てきたパターンにデフォルトする。それはほぼ確実にあなたが実際に欲しいものではない。形を指定する例： - 特定のセクションを持つ一枚のメモ - インサイトごとに1枚のスライド＋最後にまとめスライド - 比較表が上にあり短いナレーティブが下にあるMarkdownファイル - 特定のフィールドを持つJSONオブジェクト形式は重要だ。形式が思考を変えるからだ。「分析を書いて」と言われたエージェントは段落を書く。「推奨事項・支持する3つの理由・最も強い反論・考えを変えるもの、という一枚のメモを書いて」と言われたエージェントは、実際にそのように仕事を構造化しながら進める。「何をすべきか？」と聞く代わりに、特定の形で答えを求める： ``` 回答を以下の形式で： - 私の推奨事項 - これが最良の選択肢である理由 - 最も強い反論 - 私の考えを変えるもの ``` --- ## 再利用可能なテンプレートほぼすべてのエージェントタスクに応用できるテンプレート： ``` Context: [状況・対象読者・背景] [エージェントが使うファイル・リポジトリ・ドキュメント・データ] [基準を定義するその他の情報] Your task: [生成・実行してほしい具体的な内容] Constraints: [ルール1] [ルール2] Verification（完了前に実施すること）: [成果物を開いてXを確認する] [チェックYを実行し、パスすることを確認する] Output format: [成果物の形] [関連する場合は長さ・トーン・スタイル] ``` 実際に記入した例： ``` Context: ソースデータは /data/q3_metrics.csv にある。前四半期のデッキは /decks/q2_board.pptx にある。その構造とスタイルに合わせること。ブランドテンプレートは /templates/brand_deck.pptx にある。対象は6名の取締役（主に投資家）。成長、バーンレート、軌跡の変化を重視する。大きなストーリーは、売上は未達だが解約率が改善した点だ。デッキは両方に正直に向き合う必要がある。 Your task: Q3取締役会デッキをエンドツーエンドで作成する。 Constraints: 1スライドにつき1つのヘッドライン数字。 12スライドを超えない。文章では伝わらないものを伝えるときのみチャートを使う。 Verification（完了前に実施すること）: すべてのスライドを開き、テンプレートからはみ出していないことを確認する。すべてのスライドのすべての数字がソースデータと一致していることを確認する。ストーリーが曖昧で私がフレーミングを確認すべきスライドにフラグを立てる。 Output format: ブランドテンプレートを使用した完成 .pptx ファイル。ナレーティブの流れと判断が必要だった箇所についての短いテキストサマリ（8〜10文）。 ``` このブリーフは本物の取締役会デッキを生成する。「Q3のデッキを作って」という指示では、バラバラなチャートが並んだ12枚のスライドと、ミスを静かに回避するナレーティブが返ってくる。 --- ## エージェントにとってこれが特に重要な理由チャットボットは雑でも数秒で気づけた。エージェントは雑でも、デッキが送信されるまで、レポートが上司の前に置かれるまで、変更がマージされるまで気づかないかもしれない。エージェントは実際のアクションを取る。ミスには実際の影響がある。だからプロンプトはより多くの仕事をしなければならない。エージェントが仕事をするのに十分なContextを与え、結果を信頼するのに十分な検証を与え、成果物があなたが実際に使える形で出てくるのに十分な構造を与える必要がある。スキルは「プロンプトエンジニアリング」から「タスク仕様化」へ移行している。あなたはチームの基準も過去の決定も「完了」の意味も知らない、でも実際の仕事はできる誰かへのブリーフを書いているのだ。そのブリーフがレバーだ。 --- ## 悪いプロンプト vs 良いプロンプト：具体例 **デッキの場合：** - 悪い：「Q3の結果についてデッキを作って。」 - 良い：「来週火曜日の役員会議向けにQ3の結果のデッキを作ってください。ソースデータは /data/q3_metrics.csv にあります。前四半期のデッキは /decks/q2_review.pptx にあります。そのスタイルと構造に合わせてください。生成後、すべてのスライドを開いてスクリーンショットを撮り、レイアウトがクリーンか確認してください。データが曖昧だったりチャートが明確なストーリーを伝えていないスライドにはフラグを立ててください。」 **リサーチタスクの場合：** - 悪い：「上位3社の競合が料金についてどうしているか調べて。」 - 良い：「[競合A]・[競合B]・[競合C]の現在の料金ページをリサーチしてください。各社について、ティア名・価格・含まれるシート数・注目すべきアドオンや制限を取得してください。各サイトに直接アクセスして料金ページのスクリーンショットを証拠として撮ってください。ライブページで確認できなかった情報は含めないでください。単一の比較表と、現在の弊社料金との違いについての短い段落を出力してください。」 **コンテンツドラフトの場合：** - 悪い：「ローンチ告知を書いて。」 - 良い：「CSV書き出し機能の新しいエクスポート機能のローンチ告知をProプランの既存ユーザー向けに書いてください。トーンはブログの最近3つの投稿（リンク添付）に合わせてください。300語以内に収めてください。機能ではなくユーザーのメリットを先に述べてください。ドラフト後、読み直してマーケティング的な表現に聞こえるものはすべて削ってください。最終版と、何を削りなぜ削ったかの一行サマリを渡してください。」 **コード変更の場合：** - 悪い：「チェックアウトフローのバグを修正して。」 - 良い：「クーポンを削除したときにカート合計が更新されないというチェックアウトフローのバグがあります。再現手順はチケット #4421 にあります。関連するコードは /src/cart にあります。既存のテストは /tests/cart にあります。バグを再現する失敗するテストを追加し、それを修正してください。カートのテストスイートが全部通るまで完了としないでください。テスト・修正・根本原因の1段落説明を含むPRを開いてください。」 --- ## 最も重要なフレーズエージェントへのプロンプトで最もレバレッジの高い一文は **「〜するまで完了としない（don't finish until）」** だ。常に使え。 - ファイルを開いて正しく見えることを確認するまで完了としない。 - すべての引用ソースが確認されるまで完了としない。 - 確認しなかったことをリストアップするまで完了としない。 - テストが通るまで完了としない。 - リンターがグリーンになるまで完了としない。これが機能する理由は、「完了」の意味を変えるからだ。このフレーズがない場合、エージェントは何かを生成したら完了だ。このフレーズがある場合、エージェントは何かを生成し、それが正しいことを確認したら完了だ。この2つの停止条件はまったく異なり、その差がほぼすべてのエージェント失敗の住む場所だ。 --- ## まとめ 3つのCは公式ではない。具体的であるためのチェックリストだ。エージェントに状況と素材を与えたか？自分の仕事の検証方法と「完了」の定義を伝えたか？成果物の形を説明したか？Yesなら、たいていアウトプットは良い。Noなら、たいてい良くない。エージェントと働くことは、チャットボットに入力するよりも、実際の仕事はできるが自分のチームの基準を知らない業者にブリーフするような感覚に近くなってきた。その価値を生み出すのは、ブリーフをうまく書ける能力だ——仕事が完了するほど明確で、結果を信頼できるほど具体的な。いまや「プロンプトエンジニアリング」と呼ばれているものの多くは、実際にはそういうことだ。

AIエージェントに優れた仕事をさせるプロンプトの極意：3つのC（文脈・制約・構成）フレームワーク

AIFCC — AI Fluent CxO Club