記事一覧へ
## Karpathyのオートリサーチ手法でClaude Skillsを10倍にする方法
あなたのClaudeスキルはおそらく30%の確率で失敗していますが、気づいていないかもしれません。
私はどんなスキルも自動で改善し続けるメソッドを構築しました。この記事では、あなた自身が実行できる正確な手順を紹介します。
キックオフするだけで、エージェントが何も触らずにスキルをテストし、繰り返し改善し続けます。
私のランディングページコピースキルは、品質チェックの合格率が56%から92%に向上しました。一切の手作業なしで。
エージェントは自力でプロンプトをテストし、締め付け続けただけです。
メソッドと、あなた自身のものに使えるように構築した正確なスキルを紹介します:
## オートリサーチ手法
Andrej Karpathy(OpenAI共同創業者、Teslaの元AI責任者、「vibe coding」という言葉を生み出した人物)が「autoresearch(オートリサーチ)」と呼ばれる手法をリリースしました。
アイデアはシンプルです:あなたが手動で何かを改善する代わりに、AIエージェントにループで代わりにやらせるのです。
小さな変更を試みる。結果が改善されたかチェックする。改善されていればキープ、されていなければ捨てる。
そしてまたやる。また。
彼は機械学習コードにこれを使いました。しかしこの手法は、測定して改善できるものなら何にでも機能します。
Claudeで構築したスキルも含めて。
彼の手法を取り込み、Claude CodeとCoworkの両方で機能するスキルに変換しました。他のスキルに対して実行するだけです。
「ランディングページスキルにオートリサーチを実行して」と言えば、後は全部やってくれます。
## レシピのアナロジー
こんなふうに考えてみてください。
10回中7回はうまくいくレシピがあるとします。残り3回はどこかがおかしい。ソースが薄いか、味付けが間違っているか。
レシピ全体を一から書き直す代わりに、1つの食材を変えます。その変更で10回調理します。
よくなりましたか?変更をキープします。
悪くなりましたか?元の食材に戻します。
次の食材を変えます。さらに10回調理します。よくなりましたか悪くなりましたか?キープか元に戻すか。
これを50回繰り返すと、レシピは10回中9.5回うまくいくようになります。
これがまさにオートリサーチがスキルに対して行うことです。
「レシピ」はスキルプロンプトです。
「調理」はスキルを実行することです。
「味見」はアウトプットをスコアリングすることです。
## スコアリング基準
あなたが提供する必要があるのは、スコアリング基準だけです。
シンプルなはい/いいえの質問のチェックリストを与えるだけです。それがこのプロセス全体のあなたの唯一の仕事です。
各質問がアウトプットの1つの特定のことをチェックします。合格か失敗か。それだけです。
エージェントはこのチェックリストを使ってすべてのアウトプットをスコア付けし、それらのスコアが変更が助けているか妨げているかを教えてくれます。
チェックリストで論文を採点する先生のようなものと考えてください。
「ライティング品質を1〜10で評価してください」(曖昧で毎回異なる)の代わりに、チェックリストの各項目は明確なはいかいいえです:
論文は論題を含んでいますか?はいかいいえ。
全ての出典は引用されていますか?はいかいいえ。
5ページ以内ですか?はいかいいえ。
そのチェックリストで100本の論文を採点でき、毎回一貫した結果が得られます。
ランディングページコピースキルのチェックリストはこんな感じです:
「ヘッドラインに具体的な数字や結果が含まれていますか?」(「ビジネスを成長させましょう」のような曖昧なヘッドラインをキャッチ)
「コピーに『革命的』『シナジー』『最先端』『ネクストレベル』などのバズワードが含まれていませんか?」
「CTAには具体的な動詞フレーズが使われていますか?」(「詳しく見る」や「クリックしてください」などの弱いCTAをキャッチ)
「最初の一文は特定のペインポイントを指摘していますか?」(「今日の急速に変化する世界では…」などの汎用的な書き出しをキャッチ)
「コピー全体は150ワード以内ですか?」(読者を失う膨大なページをキャッチ)
これらを自分で考える必要はありません。オートリサーチを開始すると、エージェントがガイドしてくれます。
良いとはどういうことか聞いて、あなたの感覚を具体的なはい/いいえの質問に変えるのを手伝い、スタイルガイドがあれば既存のものから引き出すことも提案します。
3〜6つの質問がスイートスポットです。それ以上あると、スキルはチェックリストをゲーミング(内容を理解せずに答えを暗記する学生のように)し始めます。
## 実行方法
**ステップ1:スキルをダウンロードする**。取得して、Claude CodeまたはCoworkのスキルフォルダにドロップします。
**ステップ2:改善するスキルを選ぶ**。「私の[スキル名]スキルにオートリサーチを実行して」と言います。一番イライラするものを選びましょう。半分はいいアウトプットが出るが、残り半分はガラクタというもの。
**ステップ3:エージェントが3つのことを聞いてきます**。最適化するスキル。使うテスト入力(例:「AIプロダクティビティツールのランディングページコピーを書いて」)。そしてチェックリストの質問。
**ステップ4:スキルを実行してスタートスコアを表示します**。これがベースラインです。私のランディングページスキルは56%から始まりました。曖昧なヘッドライン、バズワードスープ、弱いCTA。チェックの半数以上が失敗していました。
**ステップ5:ブラウザでライブダッシュボードが開きます**。時間とともに上昇するスコアチャート。各チェックリスト質問の合格/失敗の内訳。試みたすべての変更のログ。10秒ごとに自動更新します。
**ステップ6:立ち去ります**。エージェントがループに入ります。何が失敗しているかを分析します。スキルプロンプトに1つの小さな変更を加えます。再テストします。スコアが上がれば変更をキープ、下がれば元に戻します。
そしてまたやります。自律的に続け、停止するかスコアが3回連続で95%以上に達するまで実行します。
ダッシュボードを見守るか、完全に立ち去ることができます。あなたなしで動きます。そして改善されたバージョンを別ファイルとして保存するので、元のスキルは手つかずのまま残ります。
## 結果
私のランディングページコピースキルで実行しました。返ってきた結果:
**56%から92%**。4ラウンドの変更。3つキープ、1つ元に戻し。
エージェントが私のスキルプロンプトに実際に行ったこと:
最も一般的な失敗に対する具体的なルールを追加:「ヘッドラインには具体的な数字や結果を含めなければなりません。『ビジネスを変革しましょう』のような漠然とした約束は絶対に使わないこと。」
禁止バズワードリストを追加:「絶対に使わない:革命的、最先端、シナジー、ネクストレベル、ゲームチェンジング、活用、アンロック、変革。」
ペインポイントオープナーとCTAがハイライトされた強いランディングページセクションの実例を追加し、スキルが推測するのではなく、良いものがどのように見えるかを確認できるようにした。
より厳しいワード数を試みたが、コピーが薄くなってCTAが損なわれたため元に戻した。(単独で改善に見えても全体的なアウトプットを損なう変更をシステムがキャッチします。)
完了したとき、以下が得られました:
- 改善されたスキル(別ファイルとして保存、元のスキルは戻したい場合に備えてそのまま)
- 各ラウンドのスコアを示す結果ログ
- 試みた全変更、エージェントがそれを試みた理由、役に立ったかどうかを説明する変更履歴
- 元のスキルのバックアップ(いつでも戻れます)
その変更履歴はおそらく最も価値のある部分です。そのスキルに何が機能して何が機能しないかの完全な記録です。
より賢いモデルが登場したとき、その変更履歴を渡せば、最後のエージェントが止まったところから拾い上げます。
## スコアできるものなら何にでも機能するメソッド
**ウェブサイト速度**:ある人がページ読み込み時間にこれを実行しました。1つ変更して速度を測り、キープか元に戻すか。1100msから67ラウンドで67msに。
**コールドアウトリーチ**:チェックリストを定義:「見込み客の会社名が含まれていますか?75ワード以内ですか?具体的な質問で終わっていますか?」50バリエーションをエージェントに実行させる。
**ニュースレターイントロ**:「オープナーに個人的な詳細が含まれていますか?」と「ありきたりなフレーズが含まれていませんか?」でエージェントにライティングを自動でタイトに。
繰り返し使うすべてのプロンプトに。
スコアできれば、オートリサーチできます。
最もパフォーマンスの悪いスキルを選びましょう。オートリサーチを開始しましょう。実際に機能するものに戻ってきてください。

claude-setupclaude-workflowai-thinking
Karpathyの自動研究法でClaudeスキルを10倍に
♥ 5,013↻ 541🔖 17,153👁 2,191,675
原文を表示 / Show original
How to 10x your Claude Skills (using Karpathy's autoresearch method)
Your Claude skills probably fail 30% of the time and you don't even notice.
I built a method that auto-improves any skill on autopilot, and in this article I'm going to show you exactly how to run it yourself.
You kick it off, and the agent tests and refines the skill over and over without you touching anything.
My landing page copy skill went from passing its quality checks 56% of the time to 92%. With zero manual work at all.
The agent just kept testing and tightening the prompt on its own.
Here's the method and the exact skill I built so you can run it on your own stuff:
The Autoresearch Method
Andrej Karpathy (co-founder of OpenAI, former head of AI at Tesla, guy who coined "vibe coding") released a method called autoresearch.
The idea is simple: instead of you manually improving something, you let an AI agent do it for you in a loop.
It tries a small change. Checks if the result got better. Keeps it if it did, throws it out if it didn't.
Then it does it again. And again.
He used it for machine learning code. But the method works on anything you can measure and improve.
Including the skills you've built in Claude.
I took his method and turned it into a skill that works in both Claude Code and Cowork. I just run it on any other skill in my setup.
I say "run autoresearch on my landing page skill" and it handles the whole thing.
The Recipe Analogy
Think of it like this.
You have a recipe that turns out great 7 out of 10 times. The other 3 times, something's off. Maybe the sauce is bland, maybe the seasoning is wrong.
Instead of rewriting the whole recipe from scratch, you change one ingredient. You cook it 10 times with that change.
Did it get better? Keep the change.
Did it get worse? Put the old ingredient back.
Then you change the next thing. Cook 10 more times. Better or worse? Keep or revert.
After 50 rounds of this, your recipe works 9.5 out of 10 times.
That's exactly what autoresearch does to your skills.
The "recipe" is your skill prompt.
The "cooking" is running the skill.
The "tasting" is scoring the output.
The Scoring Criteria
The only thing you need to provide is the scoring criteria.
You give the agent a simple checklist of what "good" looks like. That's your only job in this whole process.
You do it with a simple checklist of yes/no questions.
Each question checks one specific thing about the output. Pass or fail. That's it.
The agent uses this checklist to score every output, and those scores tell it whether its changes are helping or hurting.
Think of it like a teacher grading a paper with a checklist.
But instead of "rate the writing quality 1-10" (which is vague and different every time), each item on the checklist is a clear yes or no:
Did the student include a thesis statement? Yes or no.
Is every source cited? Yes or no.
Is it under 5 pages? Yes or no.
You can grade 100 papers with that checklist and get consistent results every time.
Same idea here. For a landing page copy skill, your checklist might look like:
"Does the headline include a specific number or result?" (catches vague headlines like "Grow Your Business")
"Is the copy free of buzzwords like 'revolutionary,' 'synergy,' 'cutting-edge,' 'next-level'?"
"Does the CTA use a specific verb phrase?" (catches weak CTAs like "Learn More" or "Click Here")
"Does the first line call out a specific pain point?" (catches generic openers like "In today's fast-paced world...")
"Is the total copy under 150 words?" (catches bloated pages that lose the reader)
You don't need to figure these out on your own. When you start the autoresearch, the agent walks you through it.
It asks what good looks like, helps you turn your vibes into specific yes/no questions, and even offers to pull from existing style guides if you have them.
3-6 questions is the sweet spot. More than that and the skill starts gaming the checklist (like a student who memorizes the answers without understanding the material).
How to Run It
Step 1: Download the skill. Grab it. Drop it into your skills folder in Claude Code or Cowork.
Step 2: Pick a skill to improve. Say "run autoresearch on my [skill name] skill." Pick the one that annoys you most. The one where you get a great output half the time and garbage the other half.
Step 3: The agent asks you 3 things. Which skill to optimize. What test inputs to use (like "write landing page copy for an AI productivity tool"). And what your checklist questions are.
Step 4: It runs your skill and shows you your starting score. This is the baseline. My landing page skill started at 56%. Vague headlines, buzzword soup, weak CTAs. More than half the checks were failing.
Step 5: It opens a live dashboard in your browser. Score chart going up over time. Pass/fail breakdown for each checklist question. A log of every change it tried. Auto-refreshes every 10 seconds.
Step 6: Walk away. The agent enters the loop. Analyzes what's failing. Makes one small change to the skill prompt. Tests again. Keeps the change if the score goes up, undoes it if it goes down.
Then does it again. And again. It keeps going autonomously until you stop it or it hits 95%+ three times in a row.
You can watch the dashboard or walk away entirely. It runs without you. And it saves the improved version as a separate file, so your original skill stays untouched.
Results
I ran it on my landing page copy skill. Here's what came back:
56% to 92%. 4 rounds of changes. 3 kept, 1 undone.
Here's what the agent actually changed in my skill prompt:
Added a specific rule for the most common failure: "Your headline must include a specific number or result. Never use vague promises like 'Transform Your Business.'"
Added a banned buzzwords list: "NEVER use: revolutionary, cutting-edge, synergy, next-level, game-changing, leverage, unlock, transform."
Added a worked example of a strong landing page section with the pain point opener and CTA highlighted, so the skill could see what good looks like instead of guessing.
Tried a tighter word count, undid it because the copy got too thin and the CTA suffered. (The system catches changes that seem like improvements in isolation but hurt the overall output.)
When it was done, I got:
The improved skill, saved separately (the original stays untouched in case you want to revert)
A results log showing every round's score
A changelog explaining every change that was tried, why the agent tried it, and whether it helped
A backup of my original skill in case I ever want to go back
That changelog is probably the most valuable piece. It's a complete record of what works and what doesn't for that specific skill.
When smarter models come out down the road, you hand them that changelog and they pick up right where the last agent left off.
The Method Works on Anything You Can Score
Website speed: One person ran this on page load time. Changed one thing, measured the speed, kept or reverted. Went from 1100ms to 67ms in 67 rounds.
Cold outreach: Define your checklist: "Does it mention the prospect's company? Is it under 75 words? Does it end with a specific question?" Let the agent run 50 variations.
Newsletter intros: "Does the opener include a personal detail?" and "Is it free of cliche phrases?" Let the agent tighten your writing on autopilot.
Any prompt you use repeatedly.
If you can score it, you can autoresearch it.
Pick your worst-performing skill. Start the autoresearch. Come back to something that actually works.