Comment générer un écran web avec Cursor à partir d'une maquette Figma ?

Problématique

Créer des pages web (ou mobile) en respectant un design précis est un véritable challenge pour une IA.
Pour l'aider à réussir cette tâche, le développeur Front va devoir se poser les bonnes questions :

Faut-il découper la maquette composant par composant ou peut-on générer une page complète d'un coup ?
Peut-on utiliser un simple screenshot ?
Comment récupérer les infos précises de Figma (codes couleurs, polices, marges...) ?
Quel modèle LLM utiliser ? (GPT, Claude, Gemini...)

De plus, d'autres contraintes non-visibles sur la maquette entrent en jeu, comme le responsive, les interactions (clic, mouseover...), les animations, l'accessibilité, etc.

Il y a plusieurs approches possibles pour transcrire une maquette Figma en code, et chacune a ses avantages et ses inconvénients.

Spoiler : il n'y a pas de méthode miracle... ^^'

Le but de cet article n'est donc pas de fournir une méthode clef en main, mais plutôt dans un premier temps de comparer différentes approches (écran vs composant, screenshot vs Figma) avec différents modèles LLM.

TLDR;

Si vous n'avez pas le temps de lire, voici l'essentiel :

Ne pas générer une page complète : préférer une approche composant par composant.
L'IA ne sait pas faire du pixel-perfect (les couleurs, polices et marges seront approximatives).
Figma MCP permet d'obtenir les couleurs exactes, ainsi que les assets (pictos, images...), mais fournit un code HTML presque inutilisable (la fameuse "soupe de divs").
L'accessibilité et le responsive sont souvent oubliés par l'IA, il faut les demander explicitement et vérifier.
Demander aussi de mutualiser le code autant que possible (composants, styles...).
Ne pas se fier à ce que raconte l'IA : elle ne fait pas toujours ce qu'elle dit avoir fait → toujours vérifier ce qui a été généré (git diff).
Pour obtenir du pixel-perfect, il est souvent indispensable de finir le travail à la main (CSS...) ou au moins de donner un maximum d'éléments dans le prompt.

Pour plus de détails, lisez la suite... ;)

1ère approche : génération d'une page complète

Voici la maquette de l'écran que nous souhaiterions générer : il contient de nombreux composants plus ou moins complexes.

Au premier abord, convertir le design d'une page web entière, voire d'un site complet peut paraître intéressant à plusieurs niveaux :

Gain de temps : toute la page serait générée en 1 prompt.
Vision globale : cela permet d'avoir une vue d'ensemble de ce qui est mutualisable ou non.
Cohérence : le code produit en 1 passe a plus de chance de garder une certaine cohérence que si on crée chaque composant individuellement.

Cependant, cette piste a rapidement été éliminée pour diverses raisons :

Pour l'exemple ci-dessus, le screenshot de la page complète fait 5Mo (PNG en 1440x6000px) et contient énormément d'informations (textes, images, nombreux composants, etc.).
Les LLM ont une taille de contexte limitée : leur "mémoire" serait vite saturée et les détails se perdraient dans cette masse d'informations.
De plus, cette approche consomme énormément de tokens d'un coup (> 1 million pour analyser l'image et générer tout le code associé (qui sera en plus très approximatif)).
Si on voit que le LLM a fait des choix qui ne nous conviennent pas, ou n'a pas bien suivi les guidelines, on est obligé de TOUT regénérer ! (page complète → nombreux composants → contexte saturé → suit moins bien les guidelines des cursorrules).
Le découpage en sous-composants n'est pas forcément celui que l'on aurait souhaité (ou toute la page risquerait même d'être codée dans 1 seul énorme composant...).
Le résultat est souvent très approximatif car il y a trop d'infos : le contexte du LLM sature.

Il semble donc préférable de suivre une approche composant par composant. Concentrons nous donc sur 1 composant à la fois (ou une section de page).

Exemple d'un composant avec accordéon

Voici le screenshot du composant qui servira de test (au milieu de la page complète) : c'est un composant modérément complexe, avec principalement un accordéon à gauche et une image à droite.

Note : pour une IA, cela représente déjà une certaine difficulté car même si un œil humain verra assez facilement qu'il y a un accordéon à gauche, l'IA pourrait y voir juste un rectangle arrondi pour le 1er item, et 2 autres items séparés par un trait.

1ère stratégie : utiliser un simple screenshot du composant

Une première approche possible est de prendre une capture d'écran du composant à coder, et de demander à Cursor de la convertir en React par exemple.

Test avec GPT-5

Nous avons volontairement choisi de faire un prompt très succinct, en ne donnant aucune information visuelle dans le prompt.

Ainsi, le prompt utilisé dans le Chat (en mode "Agent") avec le modèle GPT-5 était simplement :

Crée ce composant et ajoute le dans la Home page.
Pose moi des questions si besoin.

Accompagné du screenshot du composant ci-dessus.

Comme il n'y avait aucune information visuelle dans le prompt à part le screenshot, l'ajout de la phrase "Pose moi des questions si besoin" invitait le LLM à demander les informations manquantes s'il avait un doute sur l'interprétation du screenshot.

Étonnamment, GPT-5 n'en a pas tenu compte et s'est lancé dans le codage directement.

Voici le résultat obtenu :

A première vue, le résultat est plutôt correct, mais si on y regarde de plus près, il y a beaucoup d'approximations, un peu comme si on codait nous-mêmes le composant directement en HTML en essayant de deviner les différentes valeurs (→ marges inexactes, couleurs approximatives, polices incorrectes, etc.).

De plus, l'image de droite n'a pas pu être extraite à partir du screenshot, le LLM a donc intégré la première image qu'il a trouvée dans le projet (une icône...).

Même si le composant est fonctionnel, nous sommes loin du pixel-perfect...

Test avec Claude 4.5 Sonnet

En testant le même prompt avec Claude 4.5 Sonnet (sans thinking), celui-ci a été plus malin. En effet, comme suggéré dans le prompt, il a commencé par me poser des questions pertinentes :

User: Crée ce composant et ajoute-le dans la Home page. Pose-moi des questions si besoin. Claude: Je vais analyser l'image pour créer ce composant. J'ai quelques questions pour bien comprendre vos besoins : Comportement des accordéons : Les sections "Approvisionnements responsables", "Process vertueux" et "Engagement sociétal" doivent-elles fonctionner comme des accordéons interactifs (clic pour ouvrir/fermer) ? Contenu des sections fermées : Quel contenu souhaitez-vous afficher quand on ouvre "Process vertueux" et "Engagement sociétal" ? Liens des boutons : Où doivent pointer les boutons "Découvrez nos engagements RSE" et "Découvrez la démarche" ? Image : Avez-vous l'image à utiliser ou dois-je utiliser une image placeholder ? Responsive : Comment souhaitez-vous que ce composant s'affiche sur mobile (image en dessous du texte, stack vertical, etc.) ? Couleurs et tokens : Voulez-vous que j'extraie les couleurs depuis Figma en utilisant le MCP Figma, ou puis-je utiliser des couleurs qui correspondent visuellement ? En attendant vos réponses, je peux commencer par la structure de base si vous le souhaitez.

Il a ainsi repéré l'accordéon et m'a demandé des précisions sur le comportement souhaité, l'image à intégrer à droite, le comportement responsive et les couleurs à utiliser (même si je l'ai laissé les deviner).

Il a bien compris le fonctionnement et a réalisé une maquette assez proche, malgré quelques loupés sur l'icône chevron, l'alignement des boutons ou les couleurs trop claires.

Rendu du composant généré avec Claude 4.5 Sonnet

Test avec Gemini 3 Pro

Même test avec Gemini 3 Pro. Il a posé qqs questions mais a quand même commencé à coder avant d'en avoir les réponses ^^

User: Crée ce composant et ajoute-le dans la Home page. Pose-moi des questions si besoin. Gemini: Thought for 16s Bonjour! J'ai bien analysé votre demande et l'image fournie. Je vais commencer par créer une version statique de ce composant, en me basant sur ce que je vois. Pour que le résultat soit parfait, j'aurai besoin de quelques éléments de votre part : L'image de la femme tenant l'ardoise. Pouvez-vous me la fournir ? En attendant, j'utiliserai une image de substitution. Les icônes "+" et "-". Avez-vous des fichiers SVG pour celles-ci ou dois-je en trouver qui ressemblent ? L'interactivité : La section avec les "Approvisionnements responsables" ressemble à un accordéon. Souhaitez-vous qu'il soit fonctionnel (qu'on puisse ouvrir et fermer chaque section) ou est-ce juste une présentation statique pour le moment ? Je commence dès maintenant à créer la structure du composant et à l'intégrer. Je vais d'abord lire le fichier src/app/globals.css pour comprendre la configuration de Tailwind CSS.

A noter qu'il a même poussé l'analyse assez loin en repérant qu'il y avait une femme tenant une ardoise dans l'image à intégrer !

Au final, le rendu est encore plus proche de la maquette (c'est même le meilleur de ce comparatif).

Rendu du composant généré avec Gemini 3 Pro

Synthèse des résultats pour la génération via screenshot

Les LLMs s'en sortent plutôt bien en analyse d'image : ils ont tous identifié l'accordéon et ont pu également récupérer tous les textes.

Sur ces tests en "one shot", Claude 4.5 Sonnet et Gemini 3 Pro sont les 2 vainqueurs, avec un léger avantage pour Claude sur la qualité du code, et à Gemini pour la qualité du rendu très proche de la maquette.

2ème stratégie : utiliser Figma MCP

Figma propose un serveur MCP permettant à un LLM de récupérer des métadonnées dans une maquette Figma.

A noter que ce serveur MCP est gratuit mais n'est disponible que si l'on active le "Dev Mode" de Figma (le Dev Mode n'étant, lui, pas gratuit).

Comment mettre en place le MCP Figma ?

Il y a 2 façons de mettre en place le MCP Figma : soit en local (en installant l'application Figma Desktop), soit en se connectant à Figma en remote.

Les 2 procédures sont décrites ici :

Comment utiliser Figma MCP ?

Une fois le MCP Figma configuré, aller sur la maquette Figma et faire un clic-droit sur le composant à reproduire, puis "Copy link to selection".

Récupération du lien vers le composant Figma

On obtient une URL du genre https://www.figma.com/design/xxxxxxxxxx/MCP-FIGMA---Tests?node-id=5420-15527&m=dev.

Ensuite, dans Cursor, on peut fournir cette URL dans un prompt :

Crée ce composant en React et ajoute-le dans la Home page : [lien_figma] Pose-moi des questions si besoin.

Le LLM fera alors appel au MCP et pourra ainsi récupérer :

Un screenshot du composant
Les variables Figma utilisées (par exemples pour les couleurs ou les polices)
Le code HTML/JSX généré par Figma

Nous devrions ainsi pouvoir améliorer la précision et la fidélité des composants générés en récupérant les valeurs exactes des couleurs, marges, etc.

Enfin, en théorie, car le code HTML généré par Figma est assez mauvais (une soupe de div ^^') et étonnamment, il est loin d'être pixel-perfect aussi (les couleurs sont exactes, mais le texte en haut déborde, les textes de l'accordéon sont centrés alors qu'ils devraient être calés à gauche, etc.).

Et en plus ce code est statique : il n'est ni responsive, ni interactif : c'est juste du dessin...

Le rendu peut être plus ou moins fidèle selon la complexité des écrans, mais il ne faut donc pas s'attendre à des miracles : le LLM va devoir faire un mix intelligent entre :

le screenshot (propre mais difficile à "voir" correctement par les LLM),
le code HTML Figma (moche et pas toujours fidèle, à part les codes couleurs)
son expérience pour "deviner" les interactions, le responsive et les animations (ou au moins poser les bonnes questions)
le framework JS que l'on souhaite avoir en sortie (React, Vue, Angular...)
le styling (CSS, Tailwind, ShadCN...)