L’IA apprend à dessiner comme un humain : la révolution SketchAgent du MIT et de Stanford

6 minutes de lecture

L’intelligence artificielle ne se contente plus de générer des images spectaculaires : elle s’attaque désormais à l’art du croquis, ce mode d’expression spontané et universel qui permet de communiquer des idées en quelques traits. Le MIT et l’Université Stanford viennent de franchir une étape majeure avec SketchAgent, un système capable de dessiner de façon séquentielle, “trait par trait”, à la manière d’un humain. Décryptage de cette avancée et des perspectives qu’elle ouvre pour la collaboration homme-machine, la créativité et l’éducation.


Pourquoi apprendre à l’IA à croquer comme nous ?

Le croquis est bien plus qu’un simple dessin : il s’agit d’un outil de réflexion, de communication et de résolution de problèmes. Dans la vie quotidienne, nous esquissons un plan, schématisons un circuit ou griffonnons pour expliquer une idée abstraite. Or, jusqu’ici, les IA étaient surtout performantes pour générer des images finales, réalistes ou stylisées, mais incapables de reproduire le processus créatif itératif et progressif du croquis humain (MIT News).


SketchAgent : une IA qui dessine “trait par trait”

Développé par le MIT CSAIL et Stanford, SketchAgent utilise un modèle de langage multimodal (comme Claude 3.5 Sonnet) pour transformer des instructions en langage naturel en une succession de traits sur une grille virtuelle. L’innovation majeure : l’IA n’est pas entraînée sur des bases de données massives de dessins humains, mais apprend à “penser” le dessin comme une séquence d’actions, chaque trait étant identifié et décrit selon sa fonction (porte, fenêtre, etc.) (MIT NewsarXiv).

Ce langage du croquis permet à SketchAgent de collaborer avec un humain : l’utilisateur peut demander à l’IA d’ajouter une partie du dessin, ou intervenir lui-même sur la toile, l’IA reprenant ensuite la main pour compléter ou corriger l’œuvre. Ce mode de collaboration ouvre la voie à des outils pédagogiques interactifs, des jeux créatifs ou des assistants pour la conception rapide de schémas complexes.


Des performances qui surpassent les modèles traditionnels

L’équipe a testé SketchAgent avec différents modèles multimodaux : Claude 3.5 Sonnet s’est révélé le plus performant pour générer des croquis fluides et lisibles, surpassant GPT-4o ou Claude 3 Opus. La force de l’approche réside dans la capacité à généraliser : l’IA peut dessiner des objets ou concepts jamais rencontrés, simplement à partir de descriptions textuelles (MIT NewsHuggingFace).

Néanmoins, SketchAgent n’est pas encore capable de rivaliser avec un illustrateur professionnel : il excelle dans les croquis abstraits ou schématiques, mais peine avec les formes complexes, les logos détaillés ou les représentations humaines précises. Parfois, l’interprétation des instructions collaboratives peut donner des résultats inattendus : un lapin à deux têtes, par exemple, si l’IA et l’humain ne se sont pas bien compris sur la répartition des tâches.


Un pas de plus vers la créativité augmentée

Cette avancée s’inscrit dans une tendance de fond : l’essor des modèles multimodaux, capables de traiter simultanément texte, image, son et autres données pour comprendre et générer des contenus de plus en plus riches et nuancés. En 2025, ces IA multimodales s’imposent comme la nouvelle norme, permettant des interactions homme-machine plus naturelles et intuitives, que ce soit pour la création artistique, l’éducation ou l’ingénierie (BytePlusSketchAgent MIT).

D’autres équipes, comme celle de l’Université de Surrey et Stanford, ont montré que l’IA peut désormais reconnaître et comprendre des croquis réalisés par des non-artistes, identifiant les objets et les scènes avec une précision proche de celle de l’humain. Cette capacité à “lire” et “écrire” le langage du croquis ouvre la porte à des outils de recherche visuelle, de conception assistée ou de communication universelle, indépendamment des compétences artistiques de l’utilisateur (ToolPilot).


La collaboration homme-machine : vers de nouveaux usages

Les recherches sur la co-création artistique entre humains et IA, comme les travaux de Sougwen Chung ou les projets CollabDraw et DuetDraw, montrent que la frontière entre machine et créateur devient de plus en plus poreuse. L’IA n’est plus seulement un outil, mais un partenaire de dialogue visuel, capable de proposer, d’ajuster et même d’inspirer la démarche créative (YouTube – Sougwen ChungGoogle Research – CollabDrawFrontiers in Robotics and AI).


Perspectives et limites

Si SketchAgent marque une étape clé, il reste des défis : améliorer la compréhension spatiale, affiner la gestion de la collaboration, et permettre des croquis plus détaillés ou expressifs. Les chercheurs envisagent d’enrichir l’apprentissage par des données synthétiques issues de modèles de diffusion, ou d’intégrer des interfaces plus intuitives pour faciliter le dialogue graphique.

À terme, ces avancées pourraient transformer la manière dont nous communiquons, enseignons ou concevons : imaginez un assistant qui vous aide à schématiser vos idées lors d’une réunion, un professeur qui guide ses élèves dans la résolution de problèmes visuels, ou un outil de brainstorming créatif accessible à tous, sans barrière de compétence artistique.


Pour aller plus loin

Partager cet article
Aucun commentaire