Google a dévoilé son dernier modèle de conversion texte-image, Imagen 4, avec la promesse habituelle d’une “rendu de texte nettement amélioré” par rapport à la version précédente, Imagen 3. La société a également introduit une nouvelle version premium appelée Imagen 4 Ultra, conçue pour suivre des instructions textuelles plus précises moyennant un coût supplémentaire. Les deux sont disponibles en prévisualisation payante dans l’API Gemini et en test gratuit limité dans Google AI Studio.
Les nouveautés d’imagen 4 et imagen 4 ultra
Google décrit le modèle principal Imagen 4 comme “l’outil incontournable pour la plupart des tâches” au prix de 0,04 $ par image. Imagen 4 Ultra, quant à lui, est destiné à être utilisé “lorsque vous avez besoin que vos images suivent précisément les instructions”, avec la promesse de résultats de sortie “solides” par rapport à d’autres générateurs d’images tels que Dall-E et Midjourney. Ce modèle augmente le prix de 50 % à 0,06 $ par image.
La société a présenté diverses images, dont une bande dessinée en trois panneaux générée par Imagen 4 Ultra montrant un petit vaisseau spatial attaqué par un gigantesque lézard bleu… spatial ? avec des effets sonores comme “Crac !” et inexplicablement “Had !!”. L’image a suivi parfaitement les instructions listées et semblait correcte, ressemblant à un rendu de dessin animé à partir d’une application 3D.
Des résultats précis mais impersonnels
Une autre commande indiquait “devant d’une carte postale de voyage vintage pour Kyoto : pagode emblématique sous des cerisiers en fleurs, montagnes enneigées au loin, ciel bleu clair, couleurs vives.” Imagen 4 l’a transformé en une image, certes, mais dans un style générique dénué de tout charme. Une autre image montrait un couple de randonneurs faisant signe depuis le sommet d’un rocher et une fausse séance de mode “avant-gardiste”. Les images étaient de bonne qualité, suivaient précisément les instructions textuelles, mais semblaient malgré tout très artificielles.
Imagen 4 s’améliore légèrement par rapport à avant, mais je ne suis pas exactement impressionné par celui-ci, surtout comparé aux leaders du marché que sont Dall-E 3 et Midjourney 7. De plus, après une première vague d’enthousiasme, le public semble se lasser de l’art généré par IA, l’utilisation principale semblant être des publicités intrusives sur les réseaux sociaux ou au bas des articles.


