Une nouvelle étude remet en question les conclusions de Apple sur l’effondrement du raisonnement des modèles de langage. Des chercheurs examinent les implications de cette découverte, soulignant l’importance croissante de l’IA dans notre quotidien. Quelles seront les répercussions pour l’avenir des technologies linguistiques?

La critique d’Apple : Une question de conception expérimentale
Le récent article de recherche d’Apple, intitulé « L’illusion de la pensée« , a suscité de vives discussions en raison de sa conclusion directe : même les modèles de raisonnement à grande échelle (LRMs) les plus avancés échouent face à des tâches complexes. Cependant, cette interprétation est contestée par plusieurs experts.
Alex Lawsen, chercheur chez Open Philanthropy, a publié une réfutation détaillée soulignant que les résultats les plus frappants d’Apple s’expliquent en grande partie par des défauts de conception expérimentale, plutôt que par des limites fondamentales du raisonnement. Son article mentionne également le modèle Claude Opus d’Anthropic comme co-auteur.
Réfutation : Moins d’“illusion de pensée”, plus d’“illusion d’évaluation”
La critique de Lawsen, intitulée « L’illusion de l’illusion de la pensée« , ne nie pas que les LRMs d’aujourd’hui ont des difficultés avec des énigmes de planification complexes. Toutefois, il soutient que le document d’Apple confond les contraintes de sortie pratiques et les configurations d’évaluation défaillantes avec un échec réel du raisonnement.
Voici les trois principaux problèmes soulevés par Lawsen :
- Les limites du budget de tokens ont été ignorées dans l’interprétation d’Apple :
Au moment où Apple affirme que les modèles « s’effondrent » sur les énigmes de la Tour de Hanoï avec 8 disques ou plus, des modèles comme Claude étaient déjà confrontés à leurs plafonds de sortie de tokens. Lawsen cite des sorties réelles où les modèles déclarent explicitement : « Le motif continue, mais je vais m’arrêter ici pour économiser des tokens. » - Des énigmes impossibles ont été comptées comme des échecs :
Le test de traversée de rivière d’Apple incluait des instances d’énigmes impossibles (par exemple, 6+ paires acteur/agent avec une capacité de bateau qui ne peut mathématiquement pas transporter tout le monde de l’autre côté). Lawsen souligne que les modèles ont été pénalisés pour avoir reconnu cela et refusé de les résoudre. - Les scripts d’évaluation n’ont pas fait la distinction entre échec de raisonnement et troncation de sortie :
Apple a utilisé des pipelines automatisés qui jugeaient les modèles uniquement sur des listes de mouvements complètes, même dans les cas où la tâche dépassait la limite de tokens. Lawsen soutient que cette évaluation rigide a injustement classé les sorties partielles ou stratégiques comme des échecs totaux.
Tests alternatifs : Laissez le modèle écrire du code
Pour soutenir son argument, Lawsen a relancé un sous-ensemble des tests de la Tour de Hanoï en utilisant un format différent : demander aux modèles de générer une fonction récursive en Lua qui imprime la solution au lieu de lister de manière exhaustive tous les mouvements.
Le résultat ? Des modèles comme Claude, Gemini, et o3 d’OpenAI n’ont eu aucune difficulté à produire des solutions algorithmiquement correctes pour des problèmes de Hanoï à 15 disques, bien au-delà de la complexité où Apple avait rapporté un succès nul.
Lawsen conclut que lorsque l’on retire les contraintes de sortie artificielles, les LRMs semblent parfaitement capables de raisonner sur des tâches à haute complexité, du moins en ce qui concerne la génération d’algorithmes.
Importance de ce débat
À première vue, cela pourrait sembler être une simple querelle académique sur la recherche en IA. Cependant, les enjeux sont plus grands que cela. Le document d’Apple a été largement cité comme preuve que les LLMs d’aujourd’hui manquent fondamentalement de capacité de raisonnement évolutive, ce qui, comme je l’ai soutenu ailleurs, pourrait ne pas avoir été la manière la plus juste de cadrer l’étude en premier lieu.
La réfutation de Lawsen suggère que la vérité est peut-être plus nuancée : oui, les LLMs ont des difficultés avec l’énumération de tokens sur le long terme dans les contraintes de déploiement actuelles, mais leurs moteurs de raisonnement ne sont pas aussi fragiles que l’impliquait le document original.
Il est important de reconnaître que même si les LRMs font face à des défis, comme le reconnaît Lawsen lui-même, la généralisation algorithmique reste un problème complexe. Ses nouveaux tests sont encore préliminaires, mais il propose des suggestions pour les travaux futurs sur le sujet :
- Concevoir des évaluations qui distinguent entre capacité de raisonnement et contraintes de sortie
- Vérifier la solvabilité des énigmes avant d’évaluer la performance du modèle
- Utiliser des métriques de complexité qui reflètent la difficulté computationnelle, pas seulement la longueur de la solution
- Considérer plusieurs représentations de solution pour séparer la compréhension algorithmique de l’exécution
La question n’est pas de savoir si les LRMs peuvent raisonner, mais si nos évaluations peuvent distinguer le raisonnement de la simple saisie.
L’essentiel de son propos est clair : avant de déclarer le raisonnement comme mort à l’arrivée, il pourrait être judicieux de vérifier les normes selon lesquelles cela est mesuré.
Pour plus d’informations sur ce sujet, consultez cet article sur [Towards Data Science](https://towardsdatascience.com/why-the-illusion-of-thinking-paper-should-be-re-evaluated-8c343e8c4f57).
Qu’est-ce que le document de recherche d’Apple sur l’IA?
Le document de recherche d’Apple, intitulé « L’Illusion de la Pensée », conclut que même les modèles de raisonnement avancés échouent sur des tâches complexes.
Quelles critiques a soulevées Alex Lawsen?
Alex Lawsen remet en question les conclusions d’Apple, arguant que les résultats sont dus à des défauts de conception expérimentale plutôt qu’à des limites fondamentales du raisonnement.
Quels problèmes principaux Lawsen a-t-il identifiés?
Lawsen souligne trois problèmes : les limites de budget de tokens ignorées, des énigmes impossibles comptées comme des échecs, et des scripts d’évaluation ne distinguant pas entre échec de raisonnement et troncation de sortie.
Pourquoi ce débat est-il important?
Ce débat soulève des questions sur la capacité des modèles de langage à raisonner et remet en question la manière dont ces capacités sont mesurées dans la recherche sur l’IA.
