Dans un tournant inattendu, Apple Research réveille une technique d’IA oubliée pour générer des images, ravivant l’intérêt pour des méthodes anciennes telles que les réseaux antagonistes génératifs. Cette innovation promet de transformer le paysage numérique, redéfinissant les frontières de la créativité et de la technologie.
Apple Research : L’utilisation d’une technique d’IA oubliée pour générer des images
Qu’est-ce que les Normalizing Flows ?
Les Normalizing Flows (NFs) sont des modèles d’intelligence artificielle qui apprennent à transformer des données du monde réel, comme des images, en bruit structuré, puis inversent ce processus pour générer de nouveaux échantillons. Leur principal avantage réside dans la capacité de calculer la probabilité exacte de chaque image générée, une caractéristique que les modèles de diffusion ne peuvent pas fournir. Cela rend les NFs particulièrement attrayants pour les tâches où la compréhension de la probabilité d’un résultat est cruciale. Cependant, les premiers modèles basés sur des flux produisaient des images floues, manquant de détails et de diversité par rapport aux systèmes basés sur la diffusion et les transformateurs.
Étude 1 : TarFlow
Dans l’article "Normalizing Flows are Capable Generative Models", Apple présente un nouveau modèle appelé TarFlow, qui signifie Transformer AutoRegressive Flow. Ce modèle remplace les anciennes couches artisanales utilisées dans les modèles de flux précédents par des blocs de Transformer. TarFlow divise les images en petites sections et génère ces sections par blocs, chaque bloc étant prédit en fonction des blocs précédents, un processus que l’on appelle l’autoregression. Contrairement à OpenAI, qui utilise des séquences de symboles textuels, TarFlow génère directement des valeurs de pixels, évitant ainsi la perte de qualité liée à la compression d’images en une vocabulaire fixe de symboles.
Limitations de TarFlow
Malgré ses avancées, TarFlow présente des limitations, notamment lorsqu’il s’agit de générer des images haute résolution. C’est à ce moment que la seconde étude entre en jeu.
Étude 2 : STARFlow
Dans le document "STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis", Apple développe directement TarFlow et présente STARFlow (Scalable Transformer AutoRegressive Flow). La principale innovation réside dans le fait que STARFlow ne génère plus d’images directement dans l’espace de pixels. Au lieu de cela, il travaille sur une version compressée de l’image, puis utilise un décodeur pour réhausser la résolution finale.
Avantages de STARFlow
Cette approche dans l’espace latent permet à STARFlow de se concentrer sur la structure globale de l’image avant de laisser le décodeur se charger des détails fins. De plus, STARFlow a été repensé pour utiliser des modèles de langage existants, comme le modèle de langage Gemma de Google, pour comprendre les invites textuelles des utilisateurs. Cela garantit que la partie génération d’images du modèle peut se concentrer sur le raffinement des détails visuels.
Comparaison avec le générateur d’images GPT-4o d’OpenAI
Alors qu’Apple redéfinit les flux, OpenAI a également évolué au-delà des modèles de diffusion avec son modèle GPT-4o. Toutefois, leur approche est fondamentalement différente. GPT-4o considère les images comme des séquences de tokens discrets, semblables à des mots dans une phrase. Lorsqu’une demande est faite pour générer une image, le modèle prédit un token à la fois, construisant l’image morceau par morceau. Cette méthode offre une flexibilité énorme, permettant à un même modèle de générer du texte, des images et de l’audio. Cependant, la génération token par token peut s’avérer lente et coûteuse en ressources informatiques.
Conclusion
Apple et OpenAI s’orientent toutes deux vers des modèles au-delà de la diffusion, mais tandis qu’OpenAI se concentre sur l’optimisation pour ses centres de données, Apple semble se diriger vers des solutions plus adaptées aux appareils mobiles. Les deux entreprises continuent d’explorer les possibilités offertes par ces techniques d’IA afin de repousser les limites de la génération d’images.
Pour en savoir plus sur les Normalizing Flows et leur potentiel, visitez le site officiel de Apple Research.
Qu’est-ce que les Normalizing Flows ?
Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données réelles (comme des images) en bruit structuré, puis à inverser ce processus pour générer de nouveaux échantillons. Leur avantage majeur est qu’ils peuvent calculer la probabilité exacte de chaque image générée, ce qui est particulièrement utile dans des tâches où la compréhension de la probabilité d’un résultat est essentielle.
Qu’est-ce que TarFlow ?
TarFlow, ou Transformer AutoRegressive Flow, est un modèle introduit par Apple qui remplace les anciennes couches artisanales utilisées dans les modèles de flux précédents par des blocs de Transformer. Il divise les images en petits patchs et les génère en blocs, chaque bloc étant prédit en fonction des précédents. Cela lui permet d’éviter la perte de qualité liée à la compression des images en un vocabulaire fixe de tokens.
Quelle est la différence entre STARFlow et TarFlow ?
STARFlow, ou Scalable Transformer AutoRegressive Flow, améliore TarFlow en ne générant plus d’images directement dans l’espace des pixels. Il fonctionne plutôt sur une version compressée de l’image, puis utilise un décodeur pour la remonter à la résolution finale. Cette approche permet de se concentrer d’abord sur la structure globale de l’image, laissant les détails fins au décodeur.
Comment STARFlow se compare-t-il au générateur d’images GPT-4o d’OpenAI ?
Alors qu’Apple repense les flux, OpenAI utilise une approche différente avec son modèle GPT-4o, qui traite les images comme des séquences de tokens discrets. Cela permet une grande flexibilité, mais la génération token par token peut être lente, surtout pour des images de grande taille. En revanche, STARFlow est conçu pour fonctionner efficacement sur des appareils portables, visant à une utilisation plus pratique.
