Captcha si vous savez comment vous entraînez l'IA depuis des années sans vous en rendre compte / Nouvelles

Félicitations sont en ordre. Vous, oui vous, cher lecteur, avez participé à quelque chose d'incroyable. Grâce à votre travail acharné, des millions de livres contenant à peu près la somme des connaissances humaines ont été numérisés avec succès, sauvegardant ainsi leurs textes pour les générations futures. Tout ça à cause de toi.

Non sérieusement.

Vous savez que de temps en temps vous serez invité à un “Captcha” lorsque vous remplissez un formulaire sur Internet, pour prouver que vous êtes pleinement humain? Dans les coulisses de l'un des systèmes Captcha les plus populaires - le logiciel Recaptcha de Google - vos clics humanoïdes ont permis de comprendre des problèmes que l'informatique traditionnelle ne peut tout simplement pas gérer, et vous avez ainsi contribué à former l'IA de Google pour qu'elle soit encore plus intelligente.

Et vous pensiez simplement vous connecter à un site Web ou à un autre.

Origines

Recaptcha (ou “reCATCHA” si vous préférez) a commencé comme une collaboration entre plusieurs informaticiens de la Carnegie Mellon University de Pittsburgh, publiée pour la première fois en 2007 - et elle a été rapidement reprise par Google en 2009. Le principe était le suivant: en épousant des utilisateurs qui doivent prouver qu'ils sont humains avec les données à transcrire, les deux parties en tirent quelque chose.

Ainsi, au lieu de numériser des livres en confiant à une seule personne la tâche très fastidieuse de taper ou de vérifier manuellement un livre entier, des millions de personnes peuvent collaborer sans le savoir pour atteindre le même objectif. Rappelez-vous comment il fallait toujours entrer deux mots? En théorie, un seul était le “réal” test, et l’autre était un nouveau mot qui devait encore être transcrit - mais en tant qu’utilisateur, vous ne savez pas lequel est lequel, vous devez donc essayer de faire les deux avec précision.

L'application Google Books sur Android.

Recaptcha peut même vérifier son propre travail. En affichant les mêmes mots à plusieurs utilisateurs, il peut automatiquement vérifier qu'un mot a été transcrit correctement en comparant plusieurs tentatives effectuées par plusieurs utilisateurs à travers le monde..

Étonnamment, grâce à des boîtes Recaptcha apparaissant sur des milliers de sites Web majeurs et recevant des dizaines de millions de publications complètes par jour, Recaptcha avait fini de numériser l’archive complète de Google Books - ainsi que 13 millions d’articles du back-catalogue du New York Times remontant à cette date. à 1851.

Alors qu'est-ce que Google a ensuite fait, il ne reste plus aucun livre à numériser? Dans ce qui était peut-être une heureuse coïncidence, cela a coïncidé avec la croissance de l'intelligence artificielle et de l'apprentissage automatique.

Montage de formation

En 2012, Google a commencé à inclure non seulement des mots, mais également des extraits de photos de Google Street View, permettant ainsi aux utilisateurs de transcrire les numéros de porte et autres indications. Et en 2014, le système est devenu une question de formation à l'IA.

En gros, l’apprentissage automatique fonctionne comme si vous lui transmettiez un ensemble de données déjà triées, par exemple un ensemble d’images de chats que vous avez étiquetés comme des chats, puis il utilisait ces informations pour créer un réseau de neurones qui permet: c'est pour choisir les chats sur d'autres images. Plus vous le nourrissez de photos de chats, plus l'IA devient précise quand elle choisit des chats à partir d'autres images..

Un chat. Juste au cas où vous n'étiez pas sûr.

Il existe d'innombrables raisons pour lesquelles Google souhaite apprendre à l'IA à reconnaître les objets dans les images: meilleurs résultats dans Google Recherche d'images, résultats Google Maps plus précis, et possibilité de rechercher dans votre bibliothèque Google Photos toutes les photos que vous avez prises d'un objet ou d'un lieu spécifique. . Oh, et le petit problème de vous assurer que votre voiture sans conducteur ne heurte rien. Vous savez quand Recaptcha vous demande d'identifier des panneaux de signalisation? Essentiellement, vous jouez un très petit rôle dans le pilotage d’une voiture sans conducteur quelque part, à un moment donné..

Il est donc extrêmement pratique que Google dispose de centaines de millions d’internautes: en utilisant Recaptcha pour résoudre ces problèmes, Google peut utiliser notre besoin de prouver que nous sommes humains pour nous forcer à utiliser notre intuitions pour construire sa base de données.

Système de voiture sans conducteur de Google.

C’est la raison pour laquelle actuellement, au lieu de simplement renvoyer du texte, Recaptcha donne aux utilisateurs davantage de tâches liées aux images: “Cliquez sur toutes les images de chats”, “Cliquez sur toutes les cases de la grille superposées à une image contenant un chat.”, etc. Pour des milliers d'objets différents.

C’est un atout particulièrement utile pour Google, car il rivalise avec d’autres géants de l’internet pour développer ses jeux de données et algorithmes d’apprentissage automatique: plus il analysera de données, meilleurs seront les résultats - donnant à ses produits actuels et futurs un avantage concurrentiel..

Utiliser l'IA pour vaincre l'IA

De manière amusante, l’utilisation de captchas pour former des algorithmes d’apprentissage automatique ne pose qu’un problème. Ce qui doit empêcher, par exemple, les personnes qui veulent éviter les captchas d’utiliser la machine learning contre des captchas?

L'année dernière, le développeur Francis Kim a mis au point un moyen de prouver le concept pour battre Recaptcha en utilisant les capacités d'apprentissage automatique de Google. En seulement 40 lignes de code Javascript, il a été capable de construire un système qui utilise l’API de reconnaissance d’image Clarifai pour regarder les images générées par Recaptcha de Google et identifier les objets dont le captcha a besoin. Donc, si Recaptcha demande à l'utilisateur de sélectionner des images de devantures de magasins pour prouver son humanité, Clarifai est en mesure de les choisir.

En théorie, ce genre de chose serait également possible avec la technologie de Google. Dans la mesure où Google souhaite vendre ses technologies intelligentes à d'autres sociétés, il ouvre TensorFlow aux développeurs via une API elle-même. Cela signifie que vous pouvez éventuellement utiliser TensorFlow pour tromper le Captcha qui entraîne TensorFlow. Cela ne fonctionnerait pas dans 100% des cas - mais une fois que l'IA est suffisamment bien entraînée, elle devrait pouvoir faire l'affaire dans un grand nombre de cas..

Ce qui est clair chez Recaptcha, ce n’est pas seulement qu’il s’agit d’une idée ingénieuse, mais aussi que, grâce à notre travail acharné, il devient de plus en plus difficile de nous séparer des humains des machines..

TechRadar Semaine de l'IA vous est présenté en association avec Honour.