Les chercheurs en intelligence artificielle progressent dans la formation de systèmes d'IA pour comprendre la parole à partir d'une entrée audio uniquement, comme le font les humains.

Pour le moment, la majorité des IA ne peuvent reconnaître la parole qu'en la traduisant d'abord en texte. De nombreux progrès ont été réalisés en termes de réduction des taux d’erreur de mot et d’augmentation du nombre de langues prises en charge..

Cependant, le fait de comprendre que l'IA ne comprend que la parole via une entrée audio constitue un grand pas en avant de cette étape. Les chercheurs du laboratoire d'informatique et d'intelligence artificielle du MIT ont donc franchi un pas en avant en mappant la parole sur des images plutôt que sur du texte..

Je vous entends

Cela ne semble pas beaucoup à la surface, mais l'expression «une image vaut mille mots» montre bien à quel point elle pourrait avoir un impact considérable..

Lors de la conférence sur les systèmes de traitement de l'information neuronale, les chercheurs ont présenté leur méthode dans une présentation basée sur un article qu'ils ont écrit.

L’idée sous-jacente à leurs recherches est que si plusieurs mots peuvent être regroupés sous une même image, l’intelligence artificielle devrait pouvoir “probable” traduction sans besoin d'une formation rigoureuse.

Pour créer un jeu de données d'apprentissage pour les systèmes d'IA, les chercheurs ont utilisé le jeu de données Places205, qui contient plus de 2,5 millions d'images réparties en 205 sujets différents. Les chercheurs ont payé des groupes de personnes pour décrire ce qu'elles ont vu sur quatre images aléatoires, chacune à partir du jeu de données, via des enregistrements audio. Ils ont réussi à recueillir plus de 120 000 légendes de 1 163 personnes.

L'intelligence artificielle a ensuite été formée pour relier les mots de chaque légende aux images pertinentes, en notant la similarité de chaque association pour sélectionner la traduction la plus précise possible. Si une légende est pertinente pour l'image, les scores devraient être élevés, sinon, les scores devraient être faibles..

Lors des tests, le réseau s'est nourri d'enregistrements audio décrivant une image enregistrée dans sa base de données et a été invité à sélectionner les dix images correspondant le mieux à la légende audio. Malheureusement, sur les dix images sélectionnées, la bonne ne serait présente que 31% du temps.

C'est un résultat décevant pour les chercheurs, car il s'agit d'une méthode assez élémentaire de formation de l'IA à la reconnaissance des mots sans données textuelles ou langagières facilitant sa compréhension..

Cependant, on pense qu'avec de meilleures améliorations, ce moyen de formation pourrait aider un logiciel de reconnaissance vocale à s'adapter plus rapidement à différentes langues et à fournir un nouveau moyen de l'enseigner à la traduction. Nous pouvons voir comment la reconnaissance d’image fonctionne déjà avec l’apprentissage de nouvelles langues sur le cerveau humain, avec un logiciel d’apprentissage des langues comme celui proposé par Rosetta Stone..

Le co-auteur de l'article détaillant les recherches, Jim Glass, a déclaré “Le but de ce travail est d’essayer d’amener la machine à apprendre un langage plus semblable à la façon dont les humains.”

Réaliser ce type d'apprentissage non supervisé pourrait rendre la formation à l'IA beaucoup plus rentable en temps et en argent, ainsi que plus utile pour la société en général. Clairement, cependant, beaucoup plus d'avancées doivent avoir lieu avant que cela soit possible.

  • Apple va commencer à publier ses recherches sur l'IA pour améliorer Siri