Agent de navigation web qui réalise des tâches en ligne de manière autonome — réservations, achats, recherche.
AI agents with vision2026
Agents qui voient — lisent des captures d'écran, parsent des graphiques, comprennent des layouts UI, interprètent des diagrammes. Requis pour tout agent qui interagit avec des logiciels conçus pour humains.
Want the technical definition? Read the vision glossary entry →
The 20 agents that ship vision
- Browser UseTool UseVisionMemoryDemo · hover to play
L'assistant IA de travail de Microsoft — agents intégrés dans Word, Excel, Outlook, Teams et la Stack Microsoft 365.
Tool UseRAGMemoryVisionDemo · hover to playClaude doté de la capacité d'utilisation de l'ordinateur — il perçoit l'écran, déplace le curseur, saisit du texte et navigue dans les applications de façon autonome.
Browser UseTool UseVisionMemory
Demo · hover to playL'agent d'interface générative de Vercel — concevez et déployez des composants React en langage naturel.
Exécution de codeTool UseVisionDemo · hover to playStudio vidéo IA — transforme des scripts en vidéos parlantes soignées avec des avatars dans plus de 140 langues.
VisionVoixTool UseDemo · hover to playAvatars vidéo IA — transformez du texte ou de l'audio en clips parlants avec des présentateurs photoréalistes.
VisionVoixTool UseDemo · hover to playStudio de génération vidéo IA pour les créateurs — texte vers vidéo, image vers vidéo et contrôle réalisateur complet.
VisionTool UseDemo · hover to playConstructeur vibe-coding pour non-développeurs — créez une application full-stack par simple instruction et déployez-la sur une URL live en quelques minutes.
Exécution de codeTool UseVisionDemo · hover to playLe constructeur IA dans le navigateur de StackBlitz — génère et déploie de vraies applications Node.js à partir d'une seule instruction.
Exécution de codeTool UseVisionDemo · hover to playAgent IA d'avatar vidéo — transforme un script en vidéo talking-head de qualité studio dans n'importe quelle langue.
VisionVoixTool UseDemo · hover to playAgent de recherche longue durée au sein de Gemini qui planifie, navigue et rédige des notes de synthèse.
Browser UseRAGMemoryVision
Demo · hover to playHumains numériques pour les interactions clients — personnages animés autonomes avec des émotions réalistes.
VoixVisionMemoryDemo · hover to playAgent IA personnel qui navigue sur le web à votre place — réserve des vols, remplit des formulaires, exécute des tâches de façon autonome.
Browser UseTool UseVisionMemoryDemo · hover to playVidéo IA personnalisée à grande échelle — clone une vidéo en milliers de versions adaptées à chaque spectateur.
VisionVoixTool UseDemo · hover to playComptable fournisseurs autonome — lit les factures, code les comptes du grand livre, route les approbations et les enregistre dans votre ERP.
VisionTool UseMemoryDemo · hover to playAgents de création publicitaire qui génèrent et soumettent à des tests AB des campagnes vidéo complètes.
VisionTool UseMemoryAgent IA piloté par navigateur — exécute des workflows multi-étapes sur de vraies applications web comme le ferait un humain.
Browser UseTool UseMemoryVisionAgent canvas visuel — planifie, rédige et réfléchit à vos côtés.
Tool UseMemoryVisionDemo · hover to playAlways-on radiology agents that triage CT and MRI anomalies across hospital workflows.
VisionMemoryRAG
Demo · hover to playAI product-photo agent for e-commerce — batch backgrounds, scene generation, brand-safe at scale.
VisionTool Use
Demo · hover to play
Frequently asked
What is vision in AI agents?+
La capacité d'un agent à comprendre et raisonner sur des images, captures d'écran, diagrammes et layouts UI.
Which AI agents support vision?+
20 agents in our index ship vision. The list above is sorted by community interest; OpenAI Operator, Microsoft Copilot, Anthropic Computer Use are the most-researched in 2026.
How do I evaluate vision in an AI agent?+
Look for: (1) reliability across edge cases, not just demo videos; (2) how the agent recovers when vision fails mid-task; (3) whether vision is the default mode or an opt-in feature. Production-ready agents publish vision benchmarks; demos and screenshots aren't enough.