Il n'a jamais été aussi simple de montrer ses amis non propriétaires d'iPhone.

Décrochez votre téléphone dans le pub et dites avec assurance: "Siri, quelle est la circonférence de la Terre divisée par le rayon de la Lune?" et à peine quelques secondes plus tard, vous êtes le seul à connaître la réponse 23.065.

C'est une expérience magique et un super jouet.

Comparé à ce que nous aurons dans quelques générations de téléphones, cependant, c'est un Speak & Spell. Mieux encore, la voix n'est que le début de la révolution naturelle des entrées.

Imaginez un monde sans clavier, sans boutons minuscules, sans tutoriels ni manuels. Vous ferez simplement ce qui vient naturellement et votre téléphone s'adaptera en utilisant l'intelligence artificielle pour en déduire que vous dictez ou que, lorsque vous dites «Commande à emporter», vous allez vouloir du thaï ce jour-là. . Ou un million d'autres interactions transparentes, combinant votre appareil photo, votre emplacement, votre recherche, vos bases de données, votre musique, etc., basées sur d'énormes bases de données d'informations et de probabilités et adaptées à vos goûts personnels et à votre passé. Ça va être glorieux.

C'est aussi à la limite d'être de la science-fiction pour le moment. Mais comment ce type d’input naturel libère-t-il notre monde dans l’ici et maintenant? C'est une question à laquelle Siri ne peut pas répondre. Heureusement, nous pouvons.

Bip. Demande. Répondre

COMMANDE VOCALE: Si les développeurs peuvent perfectionner le contrôle de la voix, le pouvoir de l’introduction naturelle s’enrichira réellement

Comme la plupart des magies, Siri fonctionne en prenant une série incroyablement complexe d’actions et en les cachant derrière un simple épanouissement..

Au niveau le plus élémentaire, appuyer sur le bouton du microphone de Siri enregistre un court extrait audio de votre instruction, que votre téléphone transmet aux serveurs en ligne sous forme de fichier audio hautement compressé. Ici, votre discours est converti en texte et renvoyé, en dictée ou en instruction pour votre iPhone..

Bien sûr, il y a plus que cela - dans le cadre du processus de conversion, par exemple, le serveur ne renvoie pas simplement ce qu'il pense que vous avez dit, mais à quel point c'est confiant pour chaque mot. L'intelligence artificielle est également nécessaire pour suivre la conversation et conserver le contexte en comprenant ce que vous entendez par des mots difficiles comme «ça» et «ça», ou si vous aviez plus tendance à dire «nous sommes allés voir» ou «nous allé en mer '.

Mais c’est l’essentiel, et les propriétaires d’iPhone 4S vous diront que cela fonctionne souvent très bien. Au moins, c'est le cas aux États-Unis. L’un des rares problèmes majeurs de Siri est qu’une grande partie des meilleures choses, comme la recherche d’un restaurant, n’a pas encore été livrée à l’étranger, ce qui nous laisse beaucoup de choses plus géniales..

WOLFRAM ALPHA: Siri tire beaucoup de ses données de Wolfram-Aplha

Pour le moment, le reste d'entre nous n'aura plus qu'à imaginer de lui demander de trouver le déjeuner, de tracer la carte directement, et dans certains cas, même de réserver un restaurant avec rien de plus que le mot «Oui». Mais donnez-lui le temps, ces choses vont venir.

Cependant, Siri n’est pas le seul outil capable de le faire. Bien qu’il soit actuellement le plus efficace, la concurrence fonctionne de la même manière. Seulement deux d’entre eux sont le Dragon Go! De Nuance. et Iris, uniquement sur Android, de la start-up indienne Dexetra. Avec le secret légendaire d’Apple, c’est souvent en regardant ces événements que nous pouvons voir ce qui se passe sous la surface et où Siri est susceptible de se diriger à l’avenir..

Un assistant dans le nuage

DRAGON GO !: Dragon Go! d’avant Siri, mais effectue un travail similaire - avec un plus grand nombre de destinations de recherche

Sachant comment cela fonctionne, deux questions vont sans doute vous venir tout de suite à l'esprit: si tout le travail lourd se fait ailleurs, dans le cloud, pourquoi avez-vous besoin d'un iPhone 4S pour utiliser Siri? Et pourquoi tout ne fonctionne-t-il pas au téléphone??

En vérité, la réponse probable à la première est simplement "parce qu'Apple voulait un argument de vente intéressant pour l'iPhone 4S". La version originale de Siri était une application autonome fonctionnant sur un iPhone 4 standard et, à première vue, la dernière incarnation ne fait rien qui nécessite réellement le processeur A5, plus puissant. Il est possible que Apple veuille limiter son utilisation pour des raisons futures, mais il existe peu de ressources précieuses non liées au marketing telles qu'elles existent actuellement..

Tout le monde s’accorde à reconnaître l’importance d’épargner sur le téléphone les contraintes techniques, pour deux raisons: efficacité et mise à jour..

"L'Iris 1.0 d'origine n'utilisait pas de serveur, tout était en cours de traitement depuis le téléphone", explique Narayan Babu, PDG de Dexetra. "Même sur les téléphones puissants dotés de processeurs double cœur, cette solution était inefficace. Le traitement du langage naturel et la synthèse vocale requièrent une puissance réelle. Lorsque nous essayons de réaliser une PNL sérieuse sur les téléphones Android, elle tombe presque toujours en panne. C'est aussi facile d'ajouter des fonctionnalités de manière transparente lorsque le traitement a lieu dans le nuage, sans avoir à mettre à jour l'application réelle. "

Ces fonctionnalités ne sont pas simplement une question de brancher plus de sources d'informations pour les recherches. Plus les personnes qui utilisent un outil comme Siri sont nombreuses, plus il est capable de devenir puissant.

Vlad Sejnoha, directeur de la technologie de Dragon Go! Le créateur Nuance, l’une des entreprises les plus réputées du secteur, nous a confié: "Il ya 10 ans, les systèmes de reconnaissance vocale étaient formés à quelques milliers d’heures de parole; nous formons aujourd’hui des centaines de milliers de personnes. Nos systèmes sont [également] adaptatif en ce sens qu’ils apprennent à connaître chaque utilisateur et s’améliorent avec le temps. "

Pour mettre cela en contexte, les outils de synthèse vocale sont disponibles depuis de nombreuses années, mais devaient traditionnellement être adaptés à votre voix en vous permettant de lire minutieusement de longues portions de prose. Les équivalents modernes luttent toujours avec des accents forts, mais maintenant, l'échec n'est pas éternel. Au fil du temps, leur compréhension, par exemple, d'un "reet" Geordie par rapport à un "droit" de prononciation bien réfléchie ne peut que s'améliorer.