Une nouvelle étude d’Apple révolutionne l’apprentissage des robots. En observant les actions humaines, ces machines apprennent à agir de manière autonome. Cette avancée pourrait transformer l’industrie technologique et améliorer notre interaction avec l’intelligence artificielle. Découvrez comment cette méthode innovante redéfinit l’avenir des robots et de l’automatisation.

Robot voir, robot faire
Le projet, intitulé “Humanoid Policy ∼ Human Policy”, est une collaboration entre Apple, le MIT, Carnegie Mellon, l’Université de Washington et l’UC San Diego. L’étude explore comment les séquences vidéo en première personne montrant des humains manipulant des objets peuvent servir à entraîner des modèles de robots humanoïdes polyvalents.
Les chercheurs ont rassemblé plus de 25 000 démonstrations humaines et 1 500 démonstrations de robots, créant un ensemble de données qu’ils ont nommé PH2D. Ces données ont été utilisées pour entraîner une politique d’intelligence artificielle capable de contrôler un véritable robot humanoïde dans le monde physique.
Comme l’expliquent les auteurs de l’étude :
Former des politiques de manipulation pour des robots humanoïdes avec des données variées renforce leur robustesse et leur capacité à généraliser à travers les tâches et les plateformes. Cependant, apprendre uniquement à partir de démonstrations de robots est intensif en main-d’œuvre et nécessite une collecte de données par téléopération coûteuse, difficile à mettre à l’échelle.
Ce document explore une source de données plus évolutive, les démonstrations humaines égocentriques, pour servir de données d’entraînement inter-corporelles pour l’apprentissage des robots.
Formation plus rapide et moins coûteuse
Pour collecter les données d’entraînement, l’équipe a développé une application pour l’Apple Vision Pro qui capte la vidéo à partir de la caméra inférieure gauche de l’appareil. En utilisant ARKit d’Apple, ils ont pu suivre les mouvements de tête et de main en 3D.
Pour explorer une solution plus économique, ils ont également imprimé en 3D un support pour attacher une caméra stéréo ZED Mini à d’autres casques, comme le Meta Quest 3. Cela permet d’offrir un suivi des mouvements en 3D à un coût réduit.

Le résultat a permis d’enregistrer des démonstrations de haute qualité en quelques secondes, ce qui représente une amélioration considérable par rapport aux méthodes traditionnelles de téléopération robotique, souvent plus lentes, plus coûteuses et plus difficiles à mettre à l’échelle.
Un autre détail intéressant réside dans le fait que les humains se déplacent beaucoup plus rapidement que les robots. Les chercheurs ont donc ralenti les démonstrations humaines d’un facteur de quatre pendant l’entraînement, juste assez pour que le robot puisse suivre sans nécessiter d’autres ajustements.
Le Human Action Transformer (HAT)
Le cœur de l’étude repose sur le HAT, un modèle entraîné à partir des démonstrations humaines et robotisées dans un format partagé. Au lieu de diviser les données par source (humains contre robots), le HAT apprend une politique unique qui se généralise à travers les deux types de corps. Cela rend le système plus flexible et efficace en termes de données.
Dans certains tests, cette approche d’entraînement partagée a permis au robot de gérer des tâches plus complexes, y compris celles qu’il n’avait jamais rencontrées auparavant, par rapport aux méthodes plus traditionnelles.

L’ensemble de l’étude est fascinant et valable d’être consulté pour ceux qui s’intéressent à la robotique.
Qu’est-ce que le projet de formation des robots humanoïdes d’Apple?
Le projet est une collaboration entre Apple, MIT, Carnegie Mellon, l’Université de Washington et UC San Diego, qui vise à utiliser des vidéos de première personne pour former des modèles de robots généralistes.
Comment les données d’entraînement sont-elles collectées?
Les chercheurs ont développé une application Apple Vision Pro qui capture des vidéos et utilise ARKit pour suivre les mouvements de la tête et des mains, permettant une collecte de données rapide et efficace.
Qu’est-ce que le modèle HAT?
Le Human Action Transformer (HAT) est un modèle qui apprend à partir de démonstrations humaines et robotiques, permettant une généralisation plus efficace et flexible des politiques d’apprentissage.
Quels sont les avantages de cette méthode d’entraînement?
Cette approche permet d’améliorer la robustesse et la généralisation des robots dans divers scénarios, rendant leur formation moins coûteuse et plus rapide que les méthodes traditionnelles.
