Karpathyの自動研究法でClaudeスキルを10倍に

## Karpathyのオートリサーチ手法でClaude Skillsを10倍にする方法あなたのClaudeスキルはおそらく30%の確率で失敗していますが、気づいていないかもしれません。私はどんなスキルも自動で改善し続けるメソッドを構築しました。この記事では、あなた自身が実行できる正確な手順を紹介します。キックオフするだけで、エージェントが何も触らずにスキルをテストし、繰り返し改善し続けます。私のランディングページコピースキルは、品質チェックの合格率が56%から92%に向上しました。一切の手作業なしで。エージェントは自力でプロンプトをテストし、締め付け続けただけです。メソッドと、あなた自身のものに使えるように構築した正確なスキルを紹介します： ## オートリサーチ手法 Andrej Karpathy（OpenAI共同創業者、Teslaの元AI責任者、「vibe coding」という言葉を生み出した人物）が「autoresearch（オートリサーチ）」と呼ばれる手法をリリースしました。アイデアはシンプルです：あなたが手動で何かを改善する代わりに、AIエージェントにループで代わりにやらせるのです。小さな変更を試みる。結果が改善されたかチェックする。改善されていればキープ、されていなければ捨てる。そしてまたやる。また。彼は機械学習コードにこれを使いました。しかしこの手法は、測定して改善できるものなら何にでも機能します。 Claudeで構築したスキルも含めて。彼の手法を取り込み、Claude CodeとCoworkの両方で機能するスキルに変換しました。他のスキルに対して実行するだけです。「ランディングページスキルにオートリサーチを実行して」と言えば、後は全部やってくれます。 ## レシピのアナロジーこんなふうに考えてみてください。 10回中7回はうまくいくレシピがあるとします。残り3回はどこかがおかしい。ソースが薄いか、味付けが間違っているか。レシピ全体を一から書き直す代わりに、1つの食材を変えます。その変更で10回調理します。よくなりましたか？変更をキープします。悪くなりましたか？元の食材に戻します。次の食材を変えます。さらに10回調理します。よくなりましたか悪くなりましたか？キープか元に戻すか。これを50回繰り返すと、レシピは10回中9.5回うまくいくようになります。これがまさにオートリサーチがスキルに対して行うことです。「レシピ」はスキルプロンプトです。「調理」はスキルを実行することです。「味見」はアウトプットをスコアリングすることです。 ## スコアリング基準あなたが提供する必要があるのは、スコアリング基準だけです。シンプルなはい/いいえの質問のチェックリストを与えるだけです。それがこのプロセス全体のあなたの唯一の仕事です。各質問がアウトプットの1つの特定のことをチェックします。合格か失敗か。それだけです。エージェントはこのチェックリストを使ってすべてのアウトプットをスコア付けし、それらのスコアが変更が助けているか妨げているかを教えてくれます。チェックリストで論文を採点する先生のようなものと考えてください。「ライティング品質を1〜10で評価してください」（曖昧で毎回異なる）の代わりに、チェックリストの各項目は明確なはいかいいえです：論文は論題を含んでいますか？はいかいいえ。全ての出典は引用されていますか？はいかいいえ。 5ページ以内ですか？はいかいいえ。そのチェックリストで100本の論文を採点でき、毎回一貫した結果が得られます。ランディングページコピースキルのチェックリストはこんな感じです：「ヘッドラインに具体的な数字や結果が含まれていますか？」（「ビジネスを成長させましょう」のような曖昧なヘッドラインをキャッチ）「コピーに『革命的』『シナジー』『最先端』『ネクストレベル』などのバズワードが含まれていませんか？」「CTAには具体的な動詞フレーズが使われていますか？」（「詳しく見る」や「クリックしてください」などの弱いCTAをキャッチ）「最初の一文は特定のペインポイントを指摘していますか？」（「今日の急速に変化する世界では…」などの汎用的な書き出しをキャッチ）「コピー全体は150ワード以内ですか？」（読者を失う膨大なページをキャッチ）これらを自分で考える必要はありません。オートリサーチを開始すると、エージェントがガイドしてくれます。良いとはどういうことか聞いて、あなたの感覚を具体的なはい/いいえの質問に変えるのを手伝い、スタイルガイドがあれば既存のものから引き出すことも提案します。 3〜6つの質問がスイートスポットです。それ以上あると、スキルはチェックリストをゲーミング（内容を理解せずに答えを暗記する学生のように）し始めます。 ## 実行方法 **ステップ1：スキルをダウンロードする**。取得して、Claude CodeまたはCoworkのスキルフォルダにドロップします。 **ステップ2：改善するスキルを選ぶ**。「私の[スキル名]スキルにオートリサーチを実行して」と言います。一番イライラするものを選びましょう。半分はいいアウトプットが出るが、残り半分はガラクタというもの。 **ステップ3：エージェントが3つのことを聞いてきます**。最適化するスキル。使うテスト入力（例：「AIプロダクティビティツールのランディングページコピーを書いて」）。そしてチェックリストの質問。 **ステップ4：スキルを実行してスタートスコアを表示します**。これがベースラインです。私のランディングページスキルは56%から始まりました。曖昧なヘッドライン、バズワードスープ、弱いCTA。チェックの半数以上が失敗していました。 **ステップ5：ブラウザでライブダッシュボードが開きます**。時間とともに上昇するスコアチャート。各チェックリスト質問の合格/失敗の内訳。試みたすべての変更のログ。10秒ごとに自動更新します。 **ステップ6：立ち去ります**。エージェントがループに入ります。何が失敗しているかを分析します。スキルプロンプトに1つの小さな変更を加えます。再テストします。スコアが上がれば変更をキープ、下がれば元に戻します。そしてまたやります。自律的に続け、停止するかスコアが3回連続で95%以上に達するまで実行します。ダッシュボードを見守るか、完全に立ち去ることができます。あなたなしで動きます。そして改善されたバージョンを別ファイルとして保存するので、元のスキルは手つかずのまま残ります。 ## 結果私のランディングページコピースキルで実行しました。返ってきた結果： **56%から92%**。4ラウンドの変更。3つキープ、1つ元に戻し。エージェントが私のスキルプロンプトに実際に行ったこと：最も一般的な失敗に対する具体的なルールを追加：「ヘッドラインには具体的な数字や結果を含めなければなりません。『ビジネスを変革しましょう』のような漠然とした約束は絶対に使わないこと。」禁止バズワードリストを追加：「絶対に使わない：革命的、最先端、シナジー、ネクストレベル、ゲームチェンジング、活用、アンロック、変革。」ペインポイントオープナーとCTAがハイライトされた強いランディングページセクションの実例を追加し、スキルが推測するのではなく、良いものがどのように見えるかを確認できるようにした。より厳しいワード数を試みたが、コピーが薄くなってCTAが損なわれたため元に戻した。（単独で改善に見えても全体的なアウトプットを損なう変更をシステムがキャッチします。）完了したとき、以下が得られました： - 改善されたスキル（別ファイルとして保存、元のスキルは戻したい場合に備えてそのまま） - 各ラウンドのスコアを示す結果ログ - 試みた全変更、エージェントがそれを試みた理由、役に立ったかどうかを説明する変更履歴 - 元のスキルのバックアップ（いつでも戻れます）その変更履歴はおそらく最も価値のある部分です。そのスキルに何が機能して何が機能しないかの完全な記録です。より賢いモデルが登場したとき、その変更履歴を渡せば、最後のエージェントが止まったところから拾い上げます。 ## スコアできるものなら何にでも機能するメソッド **ウェブサイト速度**：ある人がページ読み込み時間にこれを実行しました。1つ変更して速度を測り、キープか元に戻すか。1100msから67ラウンドで67msに。 **コールドアウトリーチ**：チェックリストを定義：「見込み客の会社名が含まれていますか？75ワード以内ですか？具体的な質問で終わっていますか？」50バリエーションをエージェントに実行させる。 **ニュースレターイントロ**：「オープナーに個人的な詳細が含まれていますか？」と「ありきたりなフレーズが含まれていませんか？」でエージェントにライティングを自動でタイトに。繰り返し使うすべてのプロンプトに。スコアできれば、オートリサーチできます。最もパフォーマンスの悪いスキルを選びましょう。オートリサーチを開始しましょう。実際に機能するものに戻ってきてください。

Karpathyの自動研究法でClaudeスキルを10倍に

AIFCC — AI Fluent CxO Club