Découvrez le Nouvel AI d’Apple : Il Détecte Ce Qui Rendre la Parole ‘Bizarre’ !

Découvrez le dernier modèle d’IA d’Apple, conçu pour analyser les subtilités de la parole et détecter ce qui déforme l’expression. Ce système innovant améliore non seulement la lisibilité, mais révolutionne également l’interaction vocale, établissant Apple comme un leader incontesté dans le domaine de l’intelligence artificielle.

Dans le cadre de ses recherches innovantes sur les modèles de parole et de voix, Apple a récemment publié une étude qui adopte une approche centrée sur l’humain pour résoudre un problème complexe d’apprentissage automatique : non seulement reconnaître ce qui a été dit, mais aussi comment cela a été dit. Les implications en matière d’accessibilité sont monumentales.

Dans cet article, les chercheurs présentent un cadre d’analyse de la parole basé sur ce qu’ils appellent les Dimensions de Qualité de Voix (VQD), qui sont des traits interprétables tels que l’intelligibilité, la dureté, la respiration, la monotonie de la tonalité, et bien d’autres encore.

Ces mêmes critères sont pris en compte par les orthophonistes lorsqu’ils évaluent des voix touchées par des conditions neurologiques ou des maladies. Apple développe donc des modèles capables de les détecter également.

Former l’IA à écouter et à entendre

La plupart des modèles de parole actuels sont principalement entraînés sur des voix saines et typiques. Cela signifie qu’ils tendent à échouer ou à sous-performer lorsque les utilisateurs ont une voix différente. Ce constat met en évidence un fossé d’accessibilité énorme.

Les chercheurs de Apple ont formé des sondes légères (des modèles de diagnostic simples qui s’intègrent aux systèmes de parole existants) en utilisant un vaste ensemble de données publiques annotées sur la parole atypique, comprenant des voix de personnes atteintes de Parkinson, de SLA et de paralysie cérébrale.

Cependant, au lieu d’utiliser ces modèles pour transcrire ce qui est dit, ils ont mesuré la qualité de la voix, en se basant sur sept dimensions clés.

Intelligibilité : facilité de compréhension de la parole.
Consonnes imprécises : clarté de l’articulation des sons consonantiques (ex. : consonnes indistinctes).
Voix dure : qualité vocale rugueuse, tendue ou rauque.
Naturel : fluidité et typicité de la parole pour l’auditeur.
Monoloudness : absence de variation d’intensité (parler à un volume constant).
Monopitch : absence de variation de tonalité, créant un ton plat ou robotique.
Respiration : qualité vocale souvent aérée ou chuchotée, due à une fermeture incomplète des cordes vocales.

En résumé, ils ont appris aux machines à « écouter comme un clinicien », plutôt que de simplement enregistrer ce qui est dit.

Pour expliquer de manière plus technique, Apple a utilisé cinq modèles (CLAP, HuBERT, HuBERT ASR, Raw-Net3, SpICE) pour extraire des caractéristiques audio et a ensuite formé des sondes légères pour prédire les dimensions de qualité de voix à partir de ces caractéristiques.

Finalement, ces sondes ont montré de bonnes performances dans la plupart des dimensions, bien que les performances aient légèrement varié selon le trait et la tâche.

Un des aspects marquants de cette recherche est que les résultats des modèles sont explicables, ce qui reste rare dans le domaine de l’IA. Au lieu de fournir un « score de confiance » mystérieux ou un jugement de boîte noire, ce système peut pointer des traits vocaux spécifiques qui mènent à une classification donnée. Cela pourrait conduire à des avancées significatives en matière d’évaluation clinique et de diagnostic.

Au-delà de l’accessibilité

Fait intéressant, Apple ne s’est pas limité à la parole clinique. L’équipe a également testé ses modèles sur la parole émotionnelle à partir d’un ensemble de données appelé RAVDESS, et bien qu’ils n’aient jamais été entraînés sur des audio émotionnels, les modèles VQD ont également produit des prédictions intuitives.

Par exemple, les voix en colère avaient un « monoloudness » plus faible, les voix calmes étaient jugées moins dures, et les voix tristes apparaissaient comme plus monotones.

Cela pourrait ouvrir la voie à un Siri plus empathique, capable de moduler son ton et son discours en fonction de l’humeur ou de l’état d’esprit de l’utilisateur, plutôt que de se limiter à ce que l’utilisateur dit réellement.

Pour davantage d’informations, consultez l’étude complète sur arXiv.

Qu’est-ce que les Dimensions de Qualité de Voix (VQDs) ?

Les VQDs sont des traits interprétables tels que l’intelligibilité, la dureté, la douceur, la monotonie de hauteur, et d’autres caractéristiques qui aident à analyser la parole.

Comment Apple a-t-il formé ses modèles de parole ?

Apple a formé des modèles légers sur un large ensemble de données publiques de discours atypique, y compris des voix de personnes atteintes de Parkinson, d’ALS et de paralysie cérébrale.

Quels sont les avantages de cette recherche pour l’accessibilité ?

Cette recherche vise à combler les lacunes d’accessibilité en permettant aux modèles de mieux comprendre et analyser les voix atypiques, améliorant ainsi l’évaluation clinique et le diagnostic.

Comment les modèles d’Apple prédisent-ils les émotions dans la parole ?

Bien qu’ils n’aient pas été spécifiquement formés sur des données émotionnelles, les modèles VQD d’Apple ont produit des prédictions intuitives sur la parole émotionnelle, comme des voix en colère étant moins monotones.

Découvrez le Nouvel AI d’Apple : Il Détecte Ce Qui Rendre la Parole ‘Bizarre’ !

Découvrez comment l’application Google Home révolutionne l’utilisation de vos anciens thermostats Nest !

Profitez de Remises Incroyables : Économisez 620 $ sur le Tab S10 Ultra, Découvrez le Fold 7 et les Nothing Headphones (1) !

Découvrez le Nouveau Files by Google M3 : Un Design Éblouissant avec Carrousel Animé et Navigation Intuitive !

Découvrez le Nouvel AI d’Apple : Il Détecte Ce Qui Rendre la Parole ‘Bizarre’ !

Former l’IA à écouter et à entendre

Au-delà de l’accessibilité

Qu’est-ce que les Dimensions de Qualité de Voix (VQDs) ?

Comment Apple a-t-il formé ses modèles de parole ?

Quels sont les avantages de cette recherche pour l’accessibilité ?

Comment les modèles d’Apple prédisent-ils les émotions dans la parole ?

Related Posts

Découvrez comment l’application Google Home révolutionne l’utilisation de vos anciens thermostats Nest !

Profitez de Remises Incroyables : Économisez 620 $ sur le Tab S10 Ultra, Découvrez le Fold 7 et les Nothing Headphones (1) !

Découvrez le Nouveau Files by Google M3 : Un Design Éblouissant avec Carrousel Animé et Navigation Intuitive !