Les ordinateurs sont sur le point de comprendre ce que vous dites, ainsi qu'un autre humain pourrait le faire, même s'il ne sait pas encore de quoi vous parlez.

"La reconnaissance vocale est sur le point d'atteindre la parité avec l'homme, dans les trois prochaines années", a déclaré Xuedong Huang, responsable scientifique de Microsoft, à Techradar Pro..

"Si nous pouvons atteindre cet objectif, il constituera un repère majeur pour la civilisation. Le langage n'est qu'une chose que nous comprenons et maîtrisons. Le moment où un ordinateur peut retranscrire votre conversation par téléphone presque aussi exactement que les humains constitue un repère majeur pour l'IA." Et pour la conversation téléphonique typique, il pense que nous y arriverons dans trois ans - du moins pour ce qui est de reconnaître ce qui se dit..

"La transcription est différente de la compréhension; la compréhension est une histoire différente", prévient-il. "Pour comprendre le message, la subtilité de ce qui est dit - c'est très loin. Pour comprendre l'intention et le sens, nous avons encore un long chemin à parcourir."

Xuedong Huang montrant une partie de la conception de la boîte à outils d'apprentissage en profondeur open source de Microsoft

Progrès constants

Il travaille sur la reconnaissance de la parole depuis plus de 30 ans et, chaque année, il constate des améliorations constantes. L’indicateur de référence utilisé par les chercheurs pour mesurer l’exactitude consiste à transcrire deux personnes parlant au téléphone et chaque année, il a vu le taux d’erreur baisser de 20% par rapport à l’année précédente..

Grâce à l'apprentissage en profondeur, les meilleurs systèmes, comme Cortana, ne commettent plus que deux fois plus d'erreurs que les humains. "L’erreur de transcription est d’environ 8% maintenant; c’est environ deux fois plus que l’erreur humaine, qui est d’environ 4%. Si nous pouvons maintenir une réduction de 25% chaque année, eh bien, vous faites le calcul! J'espère que les 4% restants sont pas trop dur, et dans les trois prochaines années, nous pouvons y parvenir. "

Les récents progrès de la reconnaissance vocale sont dus à une technique relativement nouvelle d’apprentissage automatique, l’apprentissage en profondeur.

"L'apprentissage automatique dans son ensemble est important, mais l'apprentissage en profondeur a été essentiel à ces améliorations", explique Huang. Maintenant, Microsoft rend le CNTK (Computational Network Toolkit) utilisé pour construire des systèmes tels que la reconnaissance vocale de Cortana disponible, gratuit, en open source sur GitHub..

"Nous pensons que le travail que nous effectuons en interne peut bénéficier à toute la communauté. Si vous disposez de meilleurs outils et de meilleures recettes, de meilleurs plats seront préparés. Nous pensons que les outils que nous partageons peuvent accélérer les progrès de l'IA."

CNTK était auparavant disponible pour les chercheurs universitaires, pour des projets non commerciaux via le site Codeplex - désormais, tout le monde peut l'utiliser pour construire des systèmes commerciaux. "Nous l'avons fait de manière discrète, pour obtenir des commentaires", dit-il. "Maintenant, nous essayons d'élargir l'audience. C'est l'un de nos secrets les mieux gardés. Nous avançons et le rendons plus ouvert."