RAG 完全マスター — 「すべてを記憶する AI エージェント」構築フルコース

# RAG をマスターして「すべてを記憶する AI エージェント」を構築する（フルコース）ほとんどの AI エージェントを本番稼働前に殺してしまう問題が 1 つあります。モデルがあなたのデータを知らないということです。会社の製品を知らない。ドキュメントを知らない。顧客の履歴を知らない。トレーニングデータに含まれていないものは何も知らない。そしてほとんどのビジネスアプリケーションでは、価値は「あなたの」データの中にあります。インターネットのデータではなく、あなたのデータです。 RAG（Retrieval-Augmented Generation）がこれを解決します。あらゆる AI モデルに、特定のデータ（ドキュメント・データベース・ナレッジベース・Wiki・会話記録）へのアクセスを与え、そのデータを信頼の源として質問に答えたりタスクを完了したりできるようにします。 RAG がなければ、AI アシスタントは博識な見知らぬ人です。RAG があれば、会社がこれまでに作成したすべてのドキュメントを読んだ同僚になります。このコースでは RAG をゼロから教えます。最後まで学べば、精度と引用付きで「あなたの」データから回答する AI エージェントを構築できるようになります。 ## RAG が実際に何をするか（わかりやすく説明）「エンタープライズ顧客の返金ポリシーは何ですか？」と Claude に聞いたとします。 RAG なしでは、Claude は返金ポリシーを知りません。「知りません」と言うか、もっともらしいが間違った何かをハルシネーションします。 RAG があると、アプリケーションは次の処理を行います： Step 1: 質問を受け取り、その意味を捉える数学的表現（埋め込み）に変換します。 Step 2: ドキュメントコレクションを検索して、質問に最も関連するチャンクを見つけます（返金ポリシードキュメント・エンタープライズ利用規約・顧客サポートガイドラインなど）。 Step 3: 関連するチャンクを質問と一緒に Claude に渡します。 Step 4: Claude が関連ドキュメントを読み、そのドキュメントに書かれていることに基づいて質問に答えます。結果：実際のドキュメントに基づいた正確で根拠のある回答で、情報の出所を正確に引用できます。 RAG はモデルをファインチューニングしません。モデルを変えません。モデルが応答を生成する瞬間にアクセスできる情報を変えるのです。質問する前に参考文献を渡すようなものです。本を暗記するのではなく、関連するセクションを引き出します。 ## RAG パイプライン：5 つのステージすべての RAG システムは同じパイプラインに従います。この 5 つのステージを理解することが、あらゆる RAG アプリケーションを構築するための基礎です。 ### ステージ 1：ドキュメントの取り込みデータは多くの形式で存在します。PDF・Word ドキュメント・Web ページ・データベース・スプレッドシート・Slack メッセージ・メールアーカイブ。RAG がこのデータを使用する前に、システムが処理できる形式に変換する必要があります。取り込みプロセス： - ソースドキュメントを収集します。PDF にはテキスト抽出が必要。Word ドキュメントにはパースが必要。Web ページには HTML 除去が必要。データベースにはクエリエクスポートが必要。 - テキストをクリーニングします。意味を加えないヘッダー・フッター・ナビゲーション要素・フォーマットのアーティファクトを除去します。 - チャンキング（分割） — RAG システム全体で最も重要な決定です。モデルにはコンテキスト制限があり、ドキュメント全体よりも小さな焦点を絞ったチャンクの方が精密な検索結果を生み出すため、ドキュメントを小さなチャンクに分割する必要があります。チャンキング戦略： - **固定サイズのチャンク**：500 トークンごとにテキストを分割。シンプルですが、文や段落の途中で分割されて意味が壊れることがあります。 - **セマンティックチャンク**：段落の区切り・セクションヘッダー・トピックの遷移など自然な境界で分割。意味を保ちますが、チャンクサイズが不均等になります。 - **再帰的チャンキング**：まず段落で分割を試みる。チャンクがまだ大きすぎれば文で分割。それでも大きすぎれば固定文字数で分割。最もオールマイティなアプローチ。 - **重複チャンク**：各チャンクが前のチャンクと 50〜100 トークン重複。チャンク境界をまたぐ情報が失われないようにします。ストレージが若干増えますが、検索品質が大幅に向上します。ほとんどのエージェントに最適なのは：50〜100 トークンの重複付きで 1 チャンク 300〜500 トークン。小さすぎるとチャンクにコンテキストが不足。大きすぎると検索結果に無関係な情報が混入します。 ### ステージ 2：埋め込み各チャンクをベクトル（意味を捉える数学的表現）に変換する必要があります。これを埋め込みといいます。同じようなトピックを扱う 2 つのチャンクは、まったく異なる単語を使っていても似たようなベクトルを持ちます。埋め込みはキーワードではなく意味を捉えます。どの埋め込みモデルを使うか：ほとんどのアプリケーションでは、OpenAI の text-embedding-3-small や好みのプロバイダーの同等品など、実績のある埋め込みモデルを使用してください。高品質の埋め込みを低コストで生成します。専門ドメイン（医療・法律・金融）では、そのフィールドのテキストでトレーニングされたドメイン固有の埋め込みモデルを検討してください。各チャンクを埋め込み、元のテキストと一緒にベクトルを保存します。検索にはベクトルが、モデルに渡すにはテキストが必要です。 ### ステージ 3：ストレージチャンクとそのベクトルを保存する場所が必要です。これをベクトルデータベースといいます。複雑さ別のオプション： - 学習と小規模プロジェクト：**Chroma**。オープンソース・ローカル実行・シンプルな API。始めるのに最適。 - 本番アプリケーション：**Pinecone**・**Weaviate**・**Qdrant**。スケーリング・バックアップ・パフォーマンス最適化を管理するマネージドサービス。 - 既存 PostgreSQL ユーザー：**pgvector 拡張機能**。別のシステムをデプロイせずに既存データベースにベクトル検索を追加。 ### ステージ 4：検索ユーザーが質問すると、検索ステージがデータベースから最も関連するチャンクを見つけます。プロセス：ドキュメントに使用した同じ埋め込みモデルでユーザーの質問を埋め込む → 最も類似したチャンクをベクトルデータベースで検索 → 上位 3〜10 件の最も関連するチャンクを返す。検索品質の改善： - **ハイブリッド検索**：ベクトル類似検索と従来のキーワード検索を組み合わせる。 - **メタデータフィルタリング**：検索前に関連するメタデータでフィルタリング。 - **リランキング**：初期検索後、関連性で結果を再ランク付けする 2 回目のパスを実行。 ### ステージ 5：生成最後のステージは、取得したチャンクとユーザーの質問、提供されたドキュメントに基づいて回答するよう Claude に指示するシステムプロンプトを渡します。システムプロンプトの構造： ``` あなたは提供されたコンテキストドキュメントに基づいて質問に答える役立つアシスタントです。ルール： - 提供されたコンテキストの情報「のみ」に基づいて回答する - コンテキストに質問に完全に答えるのに十分な情報が含まれていない場合は、明示的にそう言う - すべての主張について、ソースドキュメントを引用する - コンテキストにない情報を作り上げない - コンテキストに相反する情報が含まれている場合は、両方の視点を提示して矛盾を指摘するコンテキストドキュメント： {retrieved_chunks} ユーザーの質問：{question} ``` コンテキストからのみ回答するよう明示的に指示することが重要です。指示がないと、Claude は一般的な知識で補足します。 ## 最初の RAG アプリケーションを構築するここに最小限の実行可能な RAG システムを示します。まずこれを構築して、それから洗練させていきましょう。 Step 1: ドメインから 10〜20 のドキュメントを収集。製品ドキュメント・FAQ・ポリシードキュメント。 Step 2: 400 トークンのチャンクと 100 トークンの重複で再帰的チャンキングを使用。 Step 3: 埋め込み API で各チャンクを埋め込み。チャンクとベクトルを Chroma に保存。 Step 4: クエリを埋め込み・上位 5 件の最も類似するチャンクを Chroma で検索・それらを返す検索関数を構築。 Step 5: 取得したチャンクとユーザーの質問を取り込み・上記のシステムプロンプトでプロンプトを構築し・Claude に送信する生成関数を構築。 Step 6: シンプルなインターフェースを構築 — 質問のテキスト入力と回答の表示エリア。 Step 7: 答えを知っている 20 の質問でテスト。システムの答えと正解を比較。どこで失敗し、なぜかを特定。この最小システムは週末で構築できます。完璧ではありません。でも機能します。そしてここからのすべての改善は段階的です。 ## 最も一般的な RAG の失敗 5 例（それぞれの解決策） **失敗 1：間違ったチャンクが取得される** 質問に関連しないチャンクが返される。答えが間違いか一般的すぎる。修正：チャンキング戦略を改善する。チャンクが大きすぎると関連する部分と並んで無関係な情報が含まれる。小さすぎると十分なコンテキストが欠如する。ハイブリッド検索を実装してキーワード固有のクエリをカバーする。 **失敗 2：答えが取得されたチャンクにない** 答えはドキュメントに存在するが、関連するチャンクが上位結果に含まれなかった。修正：取得するチャンク数を増やす（5 から 10 または 15 へ）。リランキングを実装して最も関連するチャンクをトップに。チャンキング戦略が関連情報を 2 つのチャンクに分割していないか確認 — 分割している場合は重複を増やす。 **失敗 3：コンテキストがあるのにハルシネーション** Claude がドキュメントから来たかのように提示しながら、提供されたコンテキストにない情報を生成する。修正：システムプロンプトを強化する。「提供されたコンテキストからのみ回答すること。コンテキストに答えがない場合は『提供されたドキュメントにはこの情報がありません』と言うこと」と非常に明確に。 **失敗 4：重複チャンクが結果を膨らませる** 取得されたチャンクに同じ情報の複数のコピーが現れ、他の関連チャンクを押し出す。修正：取り込み時に重複排除を追加。各チャンクをハッシュし、重複をスキップ。 **失敗 5：古いデータ** ドキュメントが変わったがベクトルデータベースには古いバージョンが残っている。修正：更新パイプラインを実装。ソースドキュメントが更新されたら、変更されたドキュメントを再取り込みして再埋め込みする。 ## MVP から本番へ週末の RAG システムが動いています。本番グレードにするために： - **認証を追加**：ユーザーが自分に権限があるドキュメントのみにアクセスできるようにする。 - **引用元を追加**：すべての回答に特定のソースドキュメントへのリンクまたは参照を含める。 - **フィードバック収集を追加**：ユーザーが回答を役に立つかどうか評価できるようにする。 - **モニタリングを追加**：クエリ量・検索品質・回答品質・レイテンシ・エラー率を追跡する。 - **ドキュメント更新パイプラインを追加**：ソースドキュメントが変わったとき、RAG システムが自動的に変更を検出・変更されたドキュメントを再処理・ベクトルデータベースを更新する。 ## 結論 RAG は汎用 AI とあなたの特定ドメインを結ぶ橋です。RAG なしでは、AI は一般的な回答をします。RAG があれば、実際のデータに根ざした回答をします。パイプラインは明快です：ドキュメントを取り込み・チャンクに分割し・埋め込み・ベクトルデータベースに保存し・各クエリの関連チャンクを取得し・それらのチャンクから回答を生成する。今週末に最小限のシステムを構築してください。テストして。失敗を修正して。本番機能を段階的に追加していきましょう。すべてのビジネスには、誰も読まないドキュメントに閉じ込められた知識があります。RAG はその閉じ込められた知識を、瞬時に正確に質問に答える AI システムに変えます。

RAG 完全マスター — 「すべてを記憶する AI エージェント」構築フルコース

AIFCC — AI Fluent CxO Club