Dans un monde où l’intelligence artificielle évolue rapidement, Apple s’attaque à un défi fascinant : améliorer les accents en anglais de ses assistants vocaux. Grâce à des recherches innovantes, Apple vise à offrir une expérience plus naturelle et engageante pour les utilisateurs, redéfinissant ainsi notre interaction avec la technologie.
La recherche d’Apple sur l’accent anglais de l’IA
La question de la performance des modèles de langage, notamment pour les locuteurs non natifs de l’anglais, est devenue un sujet crucial. Les modèles de langage avancés, comme les LLM (Large Language Models), tendent à exceller dans la langue de Shakespeare, laissant souvent les autres langues, comme le français ou le chinois, en retrait. Des études, comme celle de Carnegie Mellon en 2023, ont démontré que les entrées non anglaises pouvaient contourner plus facilement les filtres de sécurité. Cela soulève des préoccupations quant à la sécurité et l’équité des systèmes d’IA.
Les biais des modèles de langage
Apple a récemment coécrit une étude qui met en lumière ces biais. Selon leurs explications, les modèles de langage actuels sont principalement conçus avec l’anglais comme langue de référence, ce qui entraîne des biais prononcés centrés sur l’anglais. En d’autres termes, même lorsque ces modèles produisent des réponses en langues comme le chinois ou le français, ils continuent à « penser » en anglais. Ce phénomène entraîne des sorties non anglaises qui suivent des schémas de grammaire et de vocabulaire typiques de l’anglais.
Nouveaux critères d’évaluation
Pour évaluer ces biais, les chercheurs d’Apple, en collaboration avec des chercheurs d’Inria Paris, d’École Polytechnique et de l’Université de Sapienza à Rome, ont introduit deux nouveaux critères :
- Naturalité lexicale : le modèle utilise-t-il un vocabulaire conforme à celui d’un locuteur natif ?
- Naturalité syntaxique : la structure des phrases correspond-elle à la grammaire des locuteurs natifs ?
Ils ont comparé les résultats des modèles à des articles écrits par des natifs sur Wikipédia dans des langues telles que le chinois, le français et l’anglais. Les résultats ont confirmé la présence d’un biais significatif. Même le modèle Qwen, développé en Chine, a sous-performé dans toutes les langues, y compris le chinois. Le modèle Llama 3.1 de Meta a été jugé le plus naturel globalement, mais il restait largement en deçà de la production humaine.
La solution proposée par Apple
Pour remédier à cette situation, Apple a formé un modèle visant à privilégier des réponses naturelles plutôt que maladroites. Cette méthode repose sur une approche astucieuse : au lieu de collecter manuellement des exemples non naturels, les chercheurs ont généré automatiquement ces exemples à l’aide de la rétro-traduction.
Un exemple de réponse fluide en chinois serait traduit en anglais, puis à nouveau en chinois, introduisant des schémas subtils de maladresse connus sous le nom de « translationese ». Ces sorties manipulées servaient d’exemples négatifs, tandis que les versions originales étaient utilisées comme réponses préférées.
En formant le modèle à privilégier des réponses plus naturelles, Apple a pu améliorer significativement le choix de vocabulaire et la grammaire, sans dégrader les performances générales dans les benchmarks standard.
Références supplémentaires
Pour en savoir plus sur les enjeux des biais linguistiques dans l’IA, vous pouvez consulter cette étude sur la performance des modèles de langage.
Quelle est la performance des LLMs en langues autres que l’anglais ?
Les LLMs ont tendance à mieux performer en anglais qu’en d’autres langues, montrant des biais centrés sur l’anglais dans leur vocabulaire et leur grammaire, même lorsqu’ils génèrent des textes en langues comme le chinois ou le français.
Quelles sont les nouvelles métriques proposées par Apple ?
Apple a introduit deux nouvelles métriques : la « naturalness lexicale », qui évalue si le modèle utilise un vocabulaire semblable à celui d’un locuteur natif, et la « naturalness syntaxique », qui examine si la structure des phrases correspond à la grammaire native.
Comment Apple a-t-il formé son modèle pour améliorer la qualité linguistique ?
Apple a entraîné un modèle à privilégier les sorties sonnant naturelles en générant automatiquement des exemples non naturels par traduction inverse, créant ainsi des exemples négatifs pour l’apprentissage.
Quels résultats ont été observés dans l’étude ?
Les résultats ont confirmé que même les modèles développés dans d’autres langues, comme Qwen, sous-performaient par rapport aux textes écrits par des humains, tandis que Llama 3.1 était le plus naturel, mais restait en deçà des performances humaines.
