Google et Alexa ignorent-ils les langues mineures?
NouvellesImage principale: Astana, la capitale du Kazakhstan. Environ la moitié des 18 millions d'habitants du pays parlent le kazakh. Crédit: Alex J. Butler via Flickr, CC BY 2.0
Imaginez si l'anglais n'était pas la langue universelle d'Internet. Et si vous ne pouviez pas lire cet article en ligne, excepté en tant que version modifiée par Google Traduction? Et si Alexa ne comprenait rien à ce que vous lui aviez demandé? Maintenant, imaginez que vous ayez contacté Google et Amazon et leur avez demandé d'ajouter l'anglais à leurs systèmes… et ils ont répondu «Non merci, faites-le vous-même»..
L'argent parle
Le kazakh est une langue parlée par environ la moitié des 18 millions d'habitants du Kazakhstan, un vaste pays d'Asie centrale limitrophe de la Russie et de la Chine. Bien que vaste, sa population est relativement clairsemée et que des géants de la technologie tels que Google peuvent l'ignorer..
”En tant que marché commercial, le Kazakhstan n'intéresse pas vraiment Google, car il ne génère pas le juste montant d'argent en publicité,” déclare Rauan Kenzhekhanuly, fondateur de la fondation à but non lucratif WikiBilim Public Foundation, qui a créé en 2011 une version en kazakh de Wikipedia, un premier acte de traduction énorme qui devait s'avérer crucial.
Rauan Kenzhekhanuly, fondateur de la fondation publique WikiBilim. Crédit: Jamie Carter
(Image: © Jamie Carter)Depuis, il est à l'origine de la tentative de promotion du Kazakh en outils de traduction automatique en ligne.. ”Il est très important que les petites langues puissent donner accès à n’importe quel site Web et traduire des sites Web et des articles dans votre langue.,” dit-il avant de souligner à quel point l'anglais et le russe sont endémiques en tant que langue écrite en kazakh. ”À l'université, même si vous étudiez la littérature et la langue kazakh, vous serez obligé de trouver des manuels en russe ou en anglais.”
L'ambivalence de Google envers les cultures marginales est un comportement assez standard, et peut-être compréhensible. Il y a quelques années, les îles Féroé ont demandé à Google d'inclure les îles Féroé (30 000 habitants) dans Google Street View, puis ont utilisé des moutons pour y arriver..
Perdu dans la traduction
Pour être juste envers le Kazakhstan, des mesures drastiques ont été prises pour rencontrer le monde à moitié. Après avoir publié 7 000 articles en kazakh sur Wikipedia, Kenzhekhanuly a lancé un projet visant à augmenter ce nombre à 210 000 pour plaire à Google..
”Nous avons commencé à communiquer avec Google, mais ils nous ont expliqué qu'ils ne faisaient vraiment rien pour introduire des langues mineures dans le service de traduction de Google.,” il dit. ”Ils ont dit que c'était à vous de décider - vous devez nous fournir des tonnes de texte - et ils ont demandé 10 000 articles.”
Après avoir largement dépassé ce chiffre pour les traductions miroir du kazakh en anglais (et inversement) grâce au travail de 350 volontaires au Kazakhstan, le système de Google a été en mesure de créer ses premières traductions. Le kazakh est maintenant disponible en tant que système de texte en texte simple sur Google Translate, bien qu'il ne traduise pas des sites Web entiers, ne parle pas le kazakh, ni avec un appareil photo à l'aide de l'application Google Translate (qui est principalement utilisée pour la traduction de menus)..
Aussi facile que ABC
Le Kazakhstan a encore pris une mesure assez radicale pour faciliter l'intégration de sa langue dans le monde plus vaste: il modifie tout son alphabet. S'appuyant sur l'hypothèse que l'alphabet cyrillique russe utilisé pour écrire le kazakh est à la fois une vengeance de la règle de l'URSS et une rebutade pour les visiteurs anglophones, le gouvernement a annoncé en 2017 son intention de passer à l'utilisation de l'alphabet romain complètement d'ici 2025..
Le président du Kazakhstan, Nursultan Nazarbayev, a annoncé l'année dernière que le kazakh passerait à l'alphabet romain. Crédit: Jamie Carter
(Image: © Jamie Carter)Il est déjà utilisé dans les écoles, ce qui n’est pas surprenant puisque le décret se lit comme suit: “Dans l’intérêt de l’avenir de nos enfants, nous devons prendre cette décision et en faire une condition préalable à notre intégration mondiale plus large..”
Révolution russe
Malgré les concessions linguistiques du Kazakhstan envers le monde de la technologie, les progrès de la traduction automatique permettront de réduire les problèmes de traduction dans un avenir très proche. Faisant partie de l'URSS depuis 55 ans jusqu'en 1991, le Kazakhstan se bat partiellement contre sur le plan linguistique, c'est la domination persistante de la langue russe sur le territoire national. ce qui est ironique, car, cet été, une entreprise britannique a été la première à percer le problème de la traduction historique de russie en anglais.
”En russe, un mot peut avoir 12 variations de signification, les inflexions étant utilisées à la place de l'ordre des mots, mais en anglais, il n'y en a que trois ou quatre et un ordre de mots fixe,” déclare Mihai Vlad, vice-président de la traduction automatique chez SDL, au Royaume-Uni. ”La technologie de traduction automatique générique ne suffit donc pas pour une langue comme le russe; vous avez besoin d'un moteur qui traite les différentes manières de formuler.”
Astana possède certaines des architectures les plus modernes du monde, mais s'efforce de susciter l'intérêt de Google et d'autres géants de la technologie. Crédit: Jamie Carter
(Image: © Jamie Carter)La solution s’est révélée être la traduction neurologique automatique (NMT), également à l’origine des progrès récents en reconnaissance d’image et en reconnaissance vocale.. ”Ce qui est différent, c'est la façon dont les mots sont convertis en nombres,” explique Vlad. ”Chaque mot est codé dans un tableau de nombres et ces nombres sont transmis via un réseau de neurones utilisant la multiplication matricielle. Vous obtenez ainsi une incorporation de mots qui capture essentiellement le sens du mot ou de la phrase..”
Les langues latines se sont révélées beaucoup plus faciles à cartographier, mais l’allemand, le russe et la plupart des langues asiatiques ont nécessité que les NMT - essentiellement des moteurs de cartographie linguistique sur mesure - soient lisibles par les machines..
Qu'en est-il de la reconnaissance vocale?
Si le fait d'utiliser Wikipedia en langue kazakhe et que le kazakh soit publié sur Google Translate contribue à maintenir la petite langue vivante et florissante, qu'en est-il de Alexa, de Google Assistant et de Siri? Jusqu'à présent, la croissance mondiale de la reconnaissance vocale concerne les assistants vocaux et non les logiciels. Tous les grands acteurs sont limités dans les langues qu'ils gèrent:
Alexa: Anglais, allemand et japonais.
Assistant Google: Anglais, français, allemand, italien, japonais et espagnol
Siri: Anglais, arabe, chinois, danois, néerlandais, finnois, français, allemand, hébreu, italien, japonais, coréen, malais, norvégien, portugais, russe, espagnol, suédois, thaï et turc
”Nous aimerions faire partie de ces technologies et nous travaillons actuellement à amener le Kazakh à la parole.,” dit Kenzhekhanuly. Ce n’est pas seulement pour que les habitants du Kazakhstan puissent s’adonner à des bêtises de nouveauté, comme obtenir un Écho pour régler les minuteries de la cuisine et poser des questions sur le temps qu'il fait - les enjeux sont beaucoup plus importants. Il s'agit d'accéder à l'avenir de la technologie.
”Si vous avez votre langue incluse dans la parole, vous aurez accès à des plates-formes qui accèdent à des smartphones, mais aussi à des voitures intelligentes..”
Rauan Kenzhekhanuly
”Si vous avez votre langue incluse dans la parole, vous aurez accès à des plates-formes qui accèdent à des smartphones, mais aussi à des voitures intelligentes.,” dit Kenzhekhanuly. Par exemple, les voitures sans conducteur du futur communiqueront sûrement avec leurs "conducteurs" principalement par la voix, mais si cela est laissé aux constructeurs automobiles et aux entreprises de haute technologie, seules les très grandes langues du monde - le chinois mandarin, l'anglais et l'espagnol - le seront. pris en charge.
De retour au Kazakhstan, les travaux sur l'intégration du kazakh dans le tissu d'Internet - et plus particulièrement de Google Translate - se poursuivront, car Kenzhekhanuly est convaincu de son importance vitale à l'ère moderne..
”Ce n'est pas parfait, mais la beauté de la technologie, c'est qu'elle s'améliore constamment,” il dit. ”En tant que technologie, il n’ya pas d’autre technologie qui imite le cerveau humain, et c’est pourquoi il est si important pour le Kazakh d’en faire partie - ces plateformes ne sont pas seulement des plateformes d’information, mais aussi des plateformes linguistiques..”
TechRadar Série Next Up vous est présenté en association avec Honour