Webタスクを自律的に完了するブラウザ操作AIエージェント — 予約、購入、リサーチに対応。
AI agents with ビジョン2026
スクリーンショットの読み取り、グラフの解析、UIレイアウトの把握、図表の解釈など、「見る」機能を持つAIエージェントです。人間向けに設計されたソフトウェアを操作するすべてのAIエージェントに不可欠です。
Want the technical definition? Read the ビジョン glossary entry →
The 20 agents that ship ビジョン
- ブラウザ操作ツール利用ビジョンメモリDemo · hover to play
Microsoft のAIワークアシスタント — Word、Excel、Outlook、Teams、Microsoft 365 Stack 全体にわたるエージェント。
ツール利用RAGメモリビジョンDemo · hover to play画面を認識し、カーソルを動かし、入力や操作を自律的に実行するコンピューター操作機能を備えたClaude。
ブラウザ操作ツール利用ビジョンメモリ
Demo · hover to playVercelの生成UIエージェント — 自然言語からReactコンポーネントをデザインしてリリース。
コード実行ツール利用ビジョンDemo · hover to playAIビデオスタジオ — スクリプトを140以上の言語に対応したアバターによる高品質なトーキングヘッド動画に変換します。
ビジョン音声ツール利用Demo · hover to playAI動画アバター — テキストや音声をフォトリアルなプレゼンターによるトーキングヘッド動画に変換します。
ビジョン音声ツール利用Demo · hover to playクリエイター向けAI動画生成スタジオ — テキストから動画、画像から動画、そして完全な演出コントロールを実現します。
ビジョンツール利用Demo · hover to play非エンジニア向けのバイブコーディングビルダー — プロンプトだけでフルスタックアプリを作成し、数分でライブ URL に公開できます。
コード実行ツール利用ビジョンDemo · hover to playStackBlitz のブラウザ内 AI ビルダー — 単一のプロンプトから実際の Node.js アプリを生成・デプロイします。
コード実行ツール利用ビジョンDemo · hover to playAI 動画アバターエージェント — スクリプトをあらゆる言語でスタジオ品質のトーキングヘッド動画に変換します。
ビジョン音声ツール利用Demo · hover to playGemini に内蔵された長時間稼働のリサーチ機能で、計画立案・ウェブ閲覧・ブリーフ作成を行います。
ブラウザ操作RAGメモリビジョン
Demo · hover to play顧客対応向けデジタルヒューマン — リアルな感情表現を持つ自律的なアニメーションキャラクターです。
音声ビジョンメモリDemo · hover to playあなたに代わってウェブを閲覧するパーソナルAIエージェント — フライトの予約、フォームの入力、タスクの自律的な完了が可能です。
ブラウザ操作ツール利用ビジョンメモリDemo · hover to playスケールするパーソナライズ AI 動画 — 1本の動画を各視聴者向けにカスタマイズした数千本に複製します。
ビジョン音声ツール利用Demo · hover to play自律的なAP会計士 — 請求書を読み取り、勘定科目を割り当て、承認をルーティングし、ERPに転記します。
ビジョンツール利用メモリDemo · hover to playフル動画キャンペーンの生成とABテストを行う広告クリエイティブAIエージェントです。
ビジョンツール利用メモリブラウザ操作型AIエージェント — 実際のウェブアプリ上で、人間と同様に複数ステップの Workflows を完了します。
ブラウザ操作ツール利用メモリビジョンビジュアルキャンバス型AIエージェント — 計画・下書き・思考をともに進める。
ツール利用メモリビジョンDemo · hover to playAlways-on radiology agents that triage CT and MRI anomalies across hospital workflows.
ビジョンメモリRAG
Demo · hover to playAI product-photo agent for e-commerce — batch backgrounds, scene generation, brand-safe at scale.
ビジョンツール利用
Demo · hover to play
Frequently asked
What is ビジョン in AI agents?+
An agent capability for understanding images, screenshots, and video — letting the model reason over visual content.
Which AI agents support ビジョン?+
20 agents in our index ship ビジョン. The list above is sorted by community interest; OpenAI Operator, Microsoft Copilot, Anthropic Computer Use are the most-researched in 2026.
How do I evaluate ビジョン in an AI agent?+
Look for: (1) reliability across edge cases, not just demo videos; (2) how the agent recovers when ビジョン fails mid-task; (3) whether ビジョン is the default mode or an opt-in feature. Production-ready agents publish ビジョン benchmarks; demos and screenshots aren't enough.