Les algorithmes informatiques modernes sont capables de «voir» le monde depuis un certain temps. Le logiciel de chauffeur de Google installé dans ses voitures autonomes utilise un laser à 64 faisceaux pour cartographier le terrain environnant et associe ces données à une bibliothèque de cartes à haute résolution..

Les aspirateurs robotiques Roomba utilisent des capteurs infrarouges et mécaniques pour éviter les obstacles dans votre maison; Le capteur Kinect de Microsoft utilise la reconnaissance faciale pour identifier automatiquement les utilisateurs et activer leurs profils.

Mais peu d'algorithmes de reconnaissance visuelle sont capables d'apprendre activement le monde qui les entoure ou de comprendre les relations entre les personnes, les lieux et les objets..

Comment, par exemple, un ordinateur sait-il à quoi ressemble une voiture? Nous savons juste. Nous avons acquis ces connaissances au fil du temps en observant de nombreuses voitures. Par conséquent, nous savons que toutes les voitures ne se ressemblent pas. Nous savons qu'ils existent en différentes formes, tailles et couleurs. Mais on peut généralement reconnaître une voiture car elle possède des éléments cohérents et définissables - roues, pneus, moteur, pare-brise et rétroviseurs, elle circule sur les routes, etc..

NEIL est un simple programme informatique

Un ordinateur pourrait-il apprendre toutes ces informations de la même manière? Une équipe de l’Université Carnegie Mellon aux États-Unis le croit bien. Il a développé un système appelé NEIL (Never Ending Image Learner), un programme informatique ambitieux capable de déchiffrer le contenu des photos et d'établir des liens visuels entre elles sans être enseigné. Juste comme un humain.

Selon Xinlei Chen, une doctorante qui travaille avec NEIL, le logiciel "utilise un algorithme d'apprentissage semi-supervisé qui découvre conjointement les relations de sens commun - par exemple," Corolla est une sorte de / qui ressemble à la voiture "," Wheel fait partie de la voiture. '- et marque les occurrences des catégories visuelles données… L'entrée est une grande collection d'images et la sortie souhaitée consiste à extraire des modèles significatifs ou intéressants de données visuelles - par exemple, une voiture est fréquemment détectée dans les circuits. Ces modèles nous aident à extraire les relations de sens commun. . "

Comme l'indique la partie «interminable» de son nom, NEIL est exécuté en permanence et pille les données de Google Image Search pour constituer une bibliothèque d'objets, de scènes et d'attributs. La gamme d'informations actuelle comprend tout, des porte-avions aux zèbres, des basiliques aux hôpitaux, des textures mouchetées aux motifs de tartan distinctifs..

Par exemple, en partant d'une image d'ordinateur de bureau, NEIL référencera les images d'ordinateurs existantes dans sa base de données, ainsi que toutes les images spécifiées comme appartenant à un ordinateur de bureau, telles que des moniteurs, des claviers et des souris..

NEIL peut apprendre le lien entre les images

Par conséquent, il peut apprendre que «les moniteurs font partie de l'ordinateur de bureau» et que «le clavier fait partie de l'ordinateur de bureau». En fait, en analysant les images de cette manière, NEIL peut former quatre types différents de relations visuelles: objet à objet ("BMW 320 est une sorte de voiture"), objet à attribuer ("Mouton est / a blanc"), scène à objet. ('Bus se trouve dans Bus Depot') et scène à attribuer ('Ocean is blue'). Vous pouvez voir les résultats en cours de la progression du catalogage d'images de NEIL sur le site Web du projet..

Pendant les deux premiers mois et demi de sa vie opérationnelle, l’équipe de Carnegie Mellon a lâché NEIL sur 200 cœurs de traitement. Depuis le 15 juillet, il a analysé plus de cinq millions d'images, étiqueté 500 000 images et formé plus de 3 000 relations de sens commun. Ceux-ci incluent les hypothèses correctes suivantes: "Agra peut avoir Taj_mahal", "Mudflat peut avoir Seagull", "Sydney peut être / peut avoir Sunny_weather" et "Tent_indoor peut être / peut avoir Cone_shape".

Bien entendu, l'approche de NEIL n'est pas parfaite et, en fonction de la nature des images source, elle peut souvent faire des déclarations incorrectes. Ceux-ci incluent: 'Windmill peut avoir un hélicoptère' (les voiles d'un moulin ressemble à des pales de rotor…) et 'Radiator peut faire partie de l'accordéon' radiateur.) Le processus d’apprentissage de l’image n’est donc pas entièrement autonome. Il y a un degré de modération humaine corrective impliqué pour purifier les données sémantiques.

Cela dit, le taux de réussite de NEIL est étonnamment bon. Dans un échantillon aléatoire, 79% des relations créées par NEIL ont été jugées correctes, tandis que 98% des données visuelles extraites d'images Google ont également été correctement étiquetées..

Quel est le but de tout cela? Il existe déjà des bases de données visuelles telles que ImageNet, qui compte plus de 14 millions d'images. Alors que le projet Visipedia de Caltech s'apparente lui-même à une "encyclopédie visuelle" crowdsourcing.

Selon Chen, NEIL est "une tentative de développer la plus grande base de connaissances structurée visuellement au monde avec un effort minimum d’étiquetage humain - une image qui reflète le contenu factuel des images sur Internet, et qui serait utile pour de nombreux efforts de vision par ordinateur et d’IA".

Le projet NEIL rejoint l’initiative de recherche existante NELL (Never Ending Language Learner) de Carnegie Mellon. Cela tente de développer un système qui apprend à "lire le Web" et à extraire un ensemble de faits réels et structurés à partir des pages qu'il analyse..

NELL est en service depuis 2010 et a constitué une base de connaissances de 2 069 313 choses qu’elle estime vraies. Ceux-ci incluent "scrap_booking est une forme d'art visuel" et "Gujarat est un état ou une province situé dans le pays Inde"..

Les anecdotes sur les réservations de pièces détachées et les pièces automobiles pourraient ne pas sembler être des percées technologiques, mais ces progrès de la vision par ordinateur et de l'apprentissage automatique (bien qu'ils soient assistés par l'homme) aideront à la recherche d'algorithmes de recherche intelligents et d'intelligences artificielles du futur..

Maintenant, pourquoi ne pas lire: l'intelligence artificielle devient-elle une marchandise??