記事一覧へ
本日、Gemini Live APIを通じてGoogle AI StudioでGemini 3.1 Flash Liveをリリースする。Gemini 3.1 Flash Liveは、周囲の世界を処理するだけでなく、会話のスピードで応答できる、リアルタイムの音声・ビジョンエージェントを開発者が構築できるようにする。
これはレイテンシー、信頼性、より自然なサウンドの対話における段階的な変化であり、次世代の音声優先AIに必要な品質を提供する。
強化されたレイテンシー、信頼性、品質を体験する
リアルタイムのインタラクションでは、ミリ秒単位のレイテンシーがユーザーが期待する自然な会話の流れを奪う。新しいモデルはトーン、強調、意図をより良く理解し、主な改善をエージェントに提供する:
騒がしい実環境での高いタスク完了率:ライブ会話中に外部ツールをトリガーして情報を提供するモデルの能力を大幅に改善した。交通やテレビなどの環境音から関連する音声をより適切に識別することで、バックグラウンドノイズをより効果的にフィルタリングし、指示に確実に応答できる。
より良い指示への従いやすさ:複雑なシステム指示への遵守が大幅に向上した。会話が予期せぬ方向に向かっても、エージェントは運用上のガードレール内に留まる。
より自然で低レイテンシーな対話:最新モデルはレイテンシーが改善され、2.5 Flash Native Audioと比較して音程やペースなどの音響的なニュアンスの認識がさらに効果的で、リアルタイムの会話がより流動的で自然に感じられる。
多言語機能:このモデルはリアルタイムのマルチモーダル会話で90以上の言語をサポートする。
Gemini Live APIの実際の動作を見る
開発者はGemini Flash Liveモデルで自然な流れとペースでコミュニケーションし、確実に行動するボイスエージェントを積極的に構築している。実際のアプリの例:
Stitch:Gemini Live APIを使用して、Stitchはユーザーがボイスでビジュームデザインできるようにした。エージェントはキャンバスと選択された画面を「見て」、デザインの批評、バリエーションの構築などを行える。
Hey Ato:高齢者向けAIコンパニオンデバイスのAtoは、Gemini 3.1 Flash Liveの多言語機能を使って、日常の会話をユーザーにとって本物のつながりに変える。
Wits End:WeekendチームがGemini 3.1 Flash Liveの強力なキャラクタライゼーションと人間らしい発話を統合して、RPG「Wit's end」のゲームマスターにユニークな演劇的フレアを加える方法を見る。
拡大するインテグレーションエコシステムで構築する
Live APIは本番環境向けに構築されているが、実際のシステムはライブビデオストリームからオンデマンドの電話まで、多様な入力の処理が必要だ。
WebRTCスケーリングやグローバルエッジルーティングを必要とするシステムには、リアルタイムの音声・ビジョンエージェントの開発を効率化するパートナーインテグレーションの活用をすすめる。
Live APIを始める
Gemini 3.1 Flash Liveは本日からGemini APIとGoogle AI Studioで利用可能だ。開発者はGemini Live APIを使用してモデルをアプリケーションに統合できる。
```python
import asyncio
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}
async def main():
async with client.aio.live.connect(model=model, config=config) as session:
print("Session started")
# コンテンツを送信...
if __name__ == "__main__":
asyncio.run(main())
```
開発者向けドキュメントを参照して、リアルタイムエージェントの構築方法を学んでほしい。Gemini Live APIのドキュメント(多言語サポート、ツール使用とfunction calling、セッション管理、エフェメラルトークンなどの機能)、Gemini Live APIのサンプル、Google GenAI SDKを活用してほしい。

claude-setupclaude-workflowagent-ops
SEO向けClaude上位20プロンプト
♥ 2,406↻ 335
原文を表示 / Show original
Today, we’re launching Gemini 3.1 Flash Live via the Gemini Live API in Google AI Studio. Gemini 3.1 Flash Live helps enable developers to build real-time voice and vision agents that can not only process the world around them, but also respond at the speed of conversation.
This is a step change in latency, reliability and more natural-sounding dialogue, delivering the quality needed for the next generation of voice-first AI.
Experience enhanced latency, reliability and quality
For real-time interactions, every millisecond of latency strips away the natural flow of the conversation that users expect. The new model better understands tone, emphasis and intent, enabling agents with key improvements:
Higher task completion rates in noisy, real-world environments: We’ve significantly improved the model’s ability to trigger external tools and deliver information during live conversations. By better discerning relevant speech from environmental sounds like traffic or television, the model more effectively filters out background noise to remain reliable and responsive to instructions.
Better instruction-following: Adherence to complex system instructions has been boosted significantly. Your agent will stay within its operational guardrails, even when conversations take unexpected turns.
More natural and low-latency dialogue: The latest model improves on latency and is even more effective at recognizing acoustic nuances like pitch and pace compared to 2.5 Flash Native Audio, making real-time conversations feel a lot more fluid and natural.
Multi-lingual capabilities: The model supports more than 90 languages for real-time multi-modal conversations.
See the Gemini Live API in action
Developers are actively building voice agents that communicate with a natural flow and pace and take actions reliably with Gemini Flash Live models. Here are a few examples of real-world apps that use the model to power their conversational interactions:
Stitch
Using the Gemini Live API, Stitch now enables its users to vibe design with their voice. The agent can 'see' the canvas and selected screens and give design critiques, build variations and more.
0:00 / 1:16
Hey Ato
In this demo, AI companion device for older adults, Ato, uses Gemini 3.1 Flash Live’s multilingual capabilities to turn daily conversations into real connections for its users.
0:00 / 1:20
Wits End
See how the Weekend team integrates Gemini 3.1 Flash Live’s strong characterization and human-like delivery to add a unique theatrical flair to the Game Master in their RPG - Wit’s end.
0:00 / 0:53
Build with an expanding ecosystem of integrations
The Live API is built for production environments, but real-world systems require handling of diverse inputs, from live video streams to on-demand phone calls.
For systems that require WebRTC scaling or global edge routing, we recommend exploring our partner integrations to streamline the development of real-time voice and video agents.
Get started with the Live API
Gemini 3.1 Flash Live is available starting today via the Gemini API and in Google AI Studio. Developers can use the Gemini Live API to integrate the model into their application.
Check out this video tutorial to build voice agents with Gemini 3:
Explore our developer documentation to learn how you can build real-time agents.
Gemini Live API documentation: Explore features like multilingual support, tool use and function calling, session management (for managing long running conversations) and ephemeral tokens.
Gemini Live API examples: Get inspiration for the kind of voice experiences you can build today with the model.
Gemini Live API Skill: For coding agents to learn and build with the Live API.
Get started with the Google GenAI SDK:
python
import asyncio
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}
async def main():
async with client.aio.live.connect(model=model, config=config) as session:
print("Session started")
# Send content...
if __name__ == "__main__":
asyncio.run(main())