Découvrez comment les nouvelles lunettes intelligentes d’Apple, propulsées par le modèle d’IA GPT-4, pourraient révolutionner notre quotidien. Avec une interface intuitive et des fonctionnalités avancées, ces lunettes promettent d’améliorer la connectivité et l’interaction, redéfinissant ainsi notre manière d’interagir avec le monde numérique.

Des rumeurs sur les lunettes intelligentes d’Apple
Depuis quelques mois, de nombreuses rumeurs circulent concernant les projets d’Apple de lancer des dispositifs portables intégrant de l’intelligence artificielle. Les concurrents directs d’Apple, comme les Meta Ray-Bans, devraient être lancés vers 2027, accompagnés de nouveaux AirPods équipés de caméras, offrant un ensemble unique de fonctionnalités activées par l’IA.
Le cadre MLX d’Apple
Bien qu’il soit encore trop tôt pour connaître les détails précis de ces lunettes, Apple a récemment montré un aperçu de son modèle d’IA. En 2023, l’équipe de recherche en apprentissage machine d’Apple a mis à disposition MLX, un cadre d’apprentissage automatique (ML) ouvert spécifiquement conçu pour le silicium Apple.
MLX permet un entraînement et une exécution légers de modèles localement sur les appareils Apple, tout en restant accessible aux développeurs familiers avec des frameworks et des langages traditionnellement associés au développement de l’IA.
Le modèle visuel d’Apple : FastVLM
Apple a également lancé FastVLM, un modèle de langage visuel (VLM) exploitant MLX pour offrir un traitement d’images haute résolution presque instantané, tout en nécessitant beaucoup moins de ressources de calcul que des modèles similaires. Selon Apple :
Sur la base d’une analyse complète de l’efficacité concernant l’interaction entre la résolution d’image, la latence de vision, le nombre de tokens et la taille du modèle de langage, nous introduisons FastVLM, un modèle qui atteint un compromis optimisé entre latence, taille du modèle et précision.
L’encodeur FastViTHD
Au cœur de FastVLM se trouve un encodeur nommé FastViTHD, spécialement conçu pour offrir des performances VLM efficaces sur des images haute résolution. Ce modèle est jusqu’à 3,2 fois plus rapide et 3,6 fois plus petit que des modèles similaires, ce qui est crucial pour traiter des informations localement sans dépendre du cloud.
FastVLM est également conçu pour produire moins de tokens, ce qui est essentiel lors de l’inférence, la phase où le modèle interprète les données et génère une réponse. Selon Apple, son modèle présente un temps d’attente jusqu’au premier token 85 fois plus rapide que des modèles comparables. Cela signifie que le temps nécessaire pour envoyer la première demande et recevoir la première partie de la réponse est considérablement réduit. Moins de tokens sur un modèle plus rapide et léger permet un traitement plus efficace.
Accéder à FastVLM
FastVLM est disponible sur GitHub, tandis que le rapport technique peut être consulté sur arXiv. Bien que la lecture de ce rapport puisse s’avérer complexe, elle vaut le coup d’œil pour ceux qui s’intéressent aux aspects techniques des projets d’IA d’Apple.
Quels sont les projets d’Apple en matière de wearables AI ?
Apple prévoit de lancer des wearables AI en 2027, concurrençant les Meta Ray-Bans, ainsi que des AirPods avec caméras offrant des fonctionnalités AI.
Qu’est-ce que MLX ?
MLX est un cadre d’apprentissage automatique open source développé par Apple, conçu spécifiquement pour Apple Silicon, permettant de former et d’exécuter des modèles localement sur des appareils Apple.
Quelle est la nouveauté de FastVLM ?
FastVLM est un modèle de langage visuel qui offre un traitement d’images haute résolution presque instantané, tout en étant plus rapide et plus léger que des modèles similaires.
Comment FastVLM améliore-t-il le traitement des données ?
FastVLM traite moins de tokens et a une vitesse de traitement 85 fois plus rapide pour le premier token, permettant des réponses plus rapides sans dépendre du cloud.
